올거나이즈 "생성형 AI '거짓말 탐지기' 성능 비교하세요"

금융·공공·의료·법률·커머스 분야 한국어 RAG 기능 평가 가능

컴퓨팅입력 :2024/05/29 10:07

앞으로 기업들이 생성형 인공지능(AI) 환각현상 방지에 활용되는 검색증강생성(RAG) 성능을 비교하고 자사 제품에 가장 적합한 RAG를 고를 수 있게 됐다.

올거나이즈(대표 이창수)는 국내에서 처음 RAG 리더보드 '알리 RAG 리더보드'를 공개한다고 29일 밝혔다.

RAG는 생성형 AI의 환각현상을 최소화할 수 있는 대안으로 주목받는 기술이다. 생성형 AI의 '거짓말 탐지기'라고도 알려졌다. RAG는 사전 학습한 데이터만을 활용하는 게 아니라 기업 내부 데이터 등 이미 존재하는 데이터에서 답을 찾아낸다. 이들 답변 중 질문 및 검색어의 맥락을 고려한 후 가장 적절한 대답을 제공하는 식이다.

올거나이즈의 RAG 리더보드 이미지. (사진=올거나이즈)

올거나이즈의 RAG 리더보드는 RAG 기술의 성능을 측정해 순위를 매긴다. 이를 통해 기업 AI 실무자들이 가장 적절한 솔루션을 비교 도입할 수 있도록 돕는다. 알리 RAG 리더보드는 금융, 공공, 의료, 법률, 커머스의 5개 분야에 대한 한국어 RAG 성능을 평가한다.

올거나이즈 측은 답변 유사도 및 정확도를 판단하는 5개의 평가 툴로 RAG 성능을 평가해 신뢰도를 높이고 오차를 줄였다는 입장이다. 우선 각 분야별로 2~300페이지의 문서를 업로드한 후 분야마다 사용자가 할 법한 질문 60개를 생성했다. 질문별로 RAG가 답변을 생성하면 5개의 평가 툴 중 3개 이상에서 오류가 없을 경우 '이상 없음'으로 판명한다. 해외 RAG 리더보드의 경우 일반적으로 1~2개의 평가 툴만을 활용하고 있다.

특히 현재 공개된 RAG 리더보드 중 유일하게 RAG의 3개 구성요소를 모두 평가한다. RAG는 문서에서 글자·그림·표 등을 추출하고 읽기 쉬운 포맷으로 변경해주는 파서, 기업이 보유한 방대한 데이터 중 사용자가 원하는 대답을 즉시 찾아주는 리트리버, 새로운 지식과 학습 데이터를 토대로 LLM이 응답을 생성해내는 답변생성의 3개 요소로 구성돼 있다.

기업들이 RAG을 도입하고자 할 때 어떤 RAG가 적합한지 성능평가를 제대로 하기 어렵다는 점을 고려해 테스트 데이터셋을 모두 공개했다. 실제 업무 문서에 표, 이미지 등이 복잡하게 얽혀 있다는 점을 감안해서 표 및 이미지 데이터도 테스트 데이터셋에 포함했다.

관련기사

리더보드는 허깅페이스를 통해 확인할 수 있으며 리더보드에 들어간 RAG 솔루션들도 링크로 공개돼 있어 누구나 손쉽게 체험해 볼 수 있다.

이창수 올거나이즈 대표는 "AI 생태계에 기여하기 위해 테스트 데이터셋을 모두 공개했고 이를 활용해 한국어로 된 다양한 RAG 솔루션의 성능이 향상됐으면 하는 바람"이라며 "대학 및 개인 연구자들은 AI 연구에 도움을 받을 수 있을 것이고, 기업들 역시 성능 좋은 RAG를 도입함으로써 업무 생산성 증대를 경험할 수 있을 것"이라고 밝혔다.