"실제 체감 만족도 평가"…텍스트넷, 新서비스로 LLM 신뢰 높일까

사용자 측면서 언어모델 평가하는 'LLM 사용성 평가 서비스' 출시…"벤치마크와 달라"

컴퓨팅입력 :2024/04/15 16:14

인공지능 학습 데이터 구축 서비스 텍스트넷(TEXTNET, 법인명 스피링크)이 LLM의 신뢰를 높일 수 있는 서비스를 선보인다.

텍스트넷은 사용자 측면에서 언어모델을 평가하는 'LLM 사용성 평가 서비스'를 출시한다고 15일 밝혔다.

LLM 사용성 평가는 벤치마크를 통해 측정하는 성능 평가와 달리 AI와 사용자가 나누는 대화 전반을 바탕으로 실제 사용자가 체감하는 만족도를 평가한다. 유창성, 정확성, 신뢰성 등의 지표를 바탕으로 생성형 AI 시스템의 결과물이 적절한지를 검토하는 것이 특징이다. 평가 지표는 3개의 대분류, 4개의 중분류, 12개의 소분류로 구성돼 LLM의 서비스 형태와 목적에 맞게 다양한 측면에서 평가가 가능하다.

텍스트넷이 LLM 사용성 평가 서비스를 출시했다. (사진=텍스트넷)

또 LLM의 성능이나 사용자 만족도는 물론 평가 결과에 대한 면밀한 분석을 통해 당장 적용이 가능한 개선 방안부터 데이터 차원의 근본적인 개선 방안까지 제공받을 수 있다. 프로젝트 초반 서비스 형태와 목적, 주요 기능과 사용자 특성 등을 살펴 기본 평가 지표를 커스터마이징해 적용하기 때문에 높은 평가 신뢰도를 기대할 수 있다.

국내 유일 텍스트 데이터 설계 및 구축 전문 서비스인 텍스트넷은 실무 인력의 80% 이상이 언어 전문가로 구성돼 있다. 특히 AI와의 상호작용 강화를 목적으로 지속적인 R&D를 진행, 사용자가 선호하는 AI 에이전트 발화 특성을 비롯해 목적 달성을 위한 AI 대화 전략 등을 연구해 왔다.

관련기사

텍스트넷은 이러한 역량을 바탕으로 지난 1월 유력 통신사와의 AI 서비스 사용성 평가 프로젝트를 성공적으로 완료한 바 있다. 이 외에도 국내 대기업 대고객 챗봇을 사용자 중심으로 개선하는 컨설팅 프로젝트를 3년 연속 수주했다.

고경민 텍스트넷 대표는 "일상 속에 AI가 자리하게 되면서 사람들은 좀 더 자연스러운, 계속 대화하고 싶은 AI를 찾게 될 것"이라며 "AI 기반 서비스를 운영하는 기업에게는 고객 커뮤니케이션과 충성도의 바로미터인 AI 사용성이 벤치마크 성능 만큼이나 중요한 지표"라고 말했다.