기존 인공지능(AI) 추론 성능을 3~10%p까지 끌어올릴 수 있는 새 평가 기술이 개발됐다.
한국과학기술정보연구원(KISTI)은 양혜영 에이전트연구팀장 연구팀이 AI 추론 과정을 평가할 수 있는 새로운 평가기술 ‘트레이스(TRACE)'를 개발했다고 12일 밝혔다.
연구결과는 '국제 머신러닝학회(ICML) 2026'에 채택됐다. ICML은 인공지능과 머신러닝 분야를 대표하는 국제 학회다.
이번에 개발한 '트레이스'는 AI가 생성한 추론 문장을 주장(Claim), 근거(Evidence), 논거(Warrant), 보강근거(Backing), 평가(evaluation), 한정(Qualifier), 반박(Rebuttal), 모니터링(Monitoring) 등 8개 요소로 분해한 뒤, 각 요소의 타당성과 문장 간 논리적 연결성을 분석할 수 있다.
연구팀은 10만 개의 추론 문장을 활용해 TRACE 모델(DeBERTa)을 학습했다. 이를 통해 7개 주요 언어모델과 2만 6천여 개의 추론 사례를 분석했다. 그 결과 TRACE 점수와 실제 벤치마크 정답률 사이에서 높은 상관관계(0.741)를 확인했다. 0.741은 비교적 강한 연관성이 있음을 시사한다.
관련기사
- '피지컬AI 기업' 아이벡스, 글로벌 3대 AI 학회 논문 채택2026.06.12
- 정부, '충청권 AX' 시동…"과학 AI 연구·바이오 키울 것"2026.04.29
- KISTI 고니팀, 한국어 추론 모델·환각 억제 기술 확보…"업데이트 언제할까"2026.01.31
- [현장] 아이온큐 "데이터 부족·적은 파라미터 AI, 양자 하이브리드로 보완"2025.11.19
양혜영 팀장은 "평가지표로서의 가능성뿐만 아니라 LLM(거대언어모델) 강화학습의 효과적인 보상 신호로서의 가능성도 보여줳다"며 "기존 검증가능보상 강화학습(RLVR) 방식에 '트레이스'를 추가 적용한 결과 LLM의 추론 성능을 3~10%p 정도 더 끌어올릴 수 있음을 확인했다"고 말했다.
양 팀장은 또 "트레이스는 AI가 어떤 단계에서 논리적으로 추론했고, 어떤 단계에서 불확실성이나 자기모순이 발생했는지를 설명할 수 있다”며, “기존 블랙박스형 및 정답지에 의존하는 AI 평가 방식의 한계를 보완할 수 있다”고 말했다.











