네이버, 추론 능력 강화한 ‘하이퍼클로바X 씽크’ 공개

네이버는 추론 능력을 강화한 생성형 인공지능(AI) ‘하이퍼클로바X 씽크’ 개발을 완료하고 모델의 설계와 성능 등 세부 정보를 소개하는 테크니컬 리포트를 발표했다고 30일 밝혔다.

추론모델은 ‘생각하는 힘’이 강화된 AI로 사용자가 질의를 입력하면 모델이 혼잣말하듯이 길게 생각하며 답변 계획을 수립하는 것이 특징이다. 이 과정에서 복잡한 문제를 작은 단위로 나누는 능력, 적절한 도구나 함수를 선택하는 능력, 실수를 반추하고 교정하는 능력이 발현되며 생성 정보의 정확도와 유용성이 향상돼 AI 에이전트 서비스의 핵심적인 기술로도 주목받고 있다.

하이퍼클로바X 씽크는 추론 능력을 기반으로 언어에 대한 이해를 한층 높은 수준으로 끌어올렸다. 네이버에 따르면 ‘KoBALT-700’ 벤치마크로 주요 거대언어모델(LLM)의 언어 능력을 측정한 결과 하이퍼클로바X 씽크는 유사 규모로 구축된 국내 주요 추론모델 및 글로벌 최고 수준 오픈소스 모델보다 더 높은 점수를 기록했다.

해당 벤치마크는 서울대학교 언어학과에서 LLM의 깊이 있는 한국어 이해도를 진단하기 위해 설계됐다. AI가 대화의 격률을 적절하게 파악하는지, 문장의 논항 구조를 정확히 분석하는지 등을 평가하는 전문가 수준의 문항들로 구성돼 있다.

또 다른 한국어 성능 평가 지표인 ‘HAERAE-Bench’에서도 추론모델을 포함한 국내외 주요 오픈소스 모델보다 높은 점수를 기록했다.

아울러 네이버는 하이퍼클로바X 씽크를 통해 AI가 언어뿐만 아니라 시각 정보를 바탕으로도 추론할 수 있는 기술도 확보했다. 하이퍼클로바X 씽크는 ‘STEM(Science, Technology, Engineering, Mathematics)’ 문제를 이미지 형식으로 입력했을 때 이를 인식하고 추론하는 과정을 통해 정답을 맞히는 모습을 보였다.

예를 들어 한국 대학수학능력시험 생명과학 문제에서 그림으로 제시된 ‘생태계 천이 과정’과 ‘특정 식물 군집의 시간에 따른 총생산량 및 호흡량 그래프’를 인식·분석하고 이를 양수림, 혼합림, 지의류 등에 대한 지식과 결합해 선택지 중 올바른 서술을 골라낸다.