디노티시아, LLM 대용량 문맥 성능 평가 오픈소스 ‘Dnotitia NIAH’ 공개

문맥을 끝까지 정확히 이해해서 답을 찾아내는지 검증

반도체ㆍ디스플레이입력 :2025/10/02 16:13

AI 통합 솔루션 기업 디노티시아는 대규모 언어모델(LLM)의 대용량 문맥 처리 성능을 정량적으로 평가할 수 있는 오픈소스 프레임워크 ‘Dnotitia NIAH’를 깃허브(GitHub)에 전격 공개했다고 2일 밝혔다.

Dnotitia NIAH.(사진=디노티시아)

LLM 성능 및 품질의 가장 중요한 요소는 ‘얼마나 긴 문맥을 지원하는가’이다. 최근 출시되는 LLM들은 100만 토큰(Token) 이상의 긴 문맥을 지원한다고 강조하지만, 실제로 긴 문맥에서 필요한 정보를 정확히 찾아내는 성능은 충분히 검증되지 않았다. 특히 정답 문장이 텍스트 후반부에 위치할 경우 모델 성능이 급격히 저하되는 사례가 많아, 단순히 문맥 길이를 늘리는 것만으로는 실질적인 성능 개선으로 이어지지 않는다는 지적이 제기돼 왔다.

‘Dnotitia NIAH’는 이러한 문제를 검증하기 위해 개발됐다. 말 그대로 ‘건초더미 속 바늘 찾기(NIAH, Needles in a Haystack)’ 방식으로, 긴 문맥 속에서 특정 정보를 정확히 찾아낼 수 있는지를 평가한다. 예를 들어 “맛있는 김치를 만드는 데 어떤 재료가 필요한가요?"라는 질문에 대해, 수천 줄의 문장 속에서 “배추는 맛있는 김치를 만드는 데 필요한 재료입니다.”라는 문장을 식별하고, 정답 ‘배추’를 정확히 제시해야만 통과한다.

디노티시아는 실제로 ‘Dnotitia NIAH’를 활용해 공개된 대규모 언어모델을 평가했으며, 초기 버전은 문맥 후반부에서 정확도가 크게 떨어졌지만 개선된 버전은 전 구간에서 고른 성능을 확인했다. 이는 체계적인 평가 도구가 모델 개선에 직접 기여할 수 있음을 보여주는 사례다.

관련기사

즉, 단순히 입력 토큰 길이를 확인하는 수준을 넘어 모델이 긴 문맥에서도 정보를 끝까지 찾아낼 수 있는지를 객관적으로 검증할 수 있으며, 연구자와 개발자들이 장문 성능을 체계적으로 측정하고 개선하는 데 유용하게 활용할 수 있음을 의미한다.

정무경 디노티시아 대표는 “디노티시아는 LLM 모델, 학습 데이터, 개발을 위한 자동화 프레임워크 등 다양한 오픈소스를 공개하며 생태계 발전에 기여해왔다”며, “이번 ‘Dnotitia NIAH’ 공개 역시 이러한 흐름의 연장선으로, 모델 뿐 아니라 평가 도구까지 개방함으로써 우리나라 AI 발전에 지속적으로 기여하겠다”고 말했다.