KAIST, 챗GPT4.0 정답률보다 32.5% 더 나은 'PlanRAG' 첫 공개

김민수 교수 연구팀, LLM 이용 기업 의사결정 지원…"상용화는 1~2년 뒤"

과학입력 :2024/06/19 09:14

KAIST가 거대언어모델(LLM)을 이용해 챗GPT4.0의 기업 의사결정 정답률을 32.5% 개선한 '플랜래그'(Plan RAG)를 처음 공개했다.

오픈AI의 최신모델인 챗GPT 4.0은 의사결정 구조에서 통상 40~50%의 정답률을 보인다. 이를 30% 이상 개선했다.

KAIST는 전산학부 김민수 교수 연구팀이 ▲의사결정 문제 ▲기업 데이터베이스 ▲비즈니스 규칙 집합 등 3 가지를 기반으로 비즈니스 규칙에 부합하는 최적의 의사결정을 내릴 수 있는 '플랜래그(PlanRAG)'을 개발했다고 19일 밝혔다.

KAIST 전산학부 연구팀. 왼쪽부터 김민수 교수, 이명화 박사과정, 안선호 석사과정.

김 교수는 엔비디아 GPU 연구센터장과 IBM 알마덴 연구센터 연구원을 지냈다. 지난 2021년부터 KAIST 전산학부 교수로 재직 중이다.

연구팀은 기업 의사결정 문제를 푸는데 있어 GPT-3.5 터보에서 반복적 RAG 기술을 사용하더라도 정답률이 10% 미만이라는데 착안해 대안을 모색했다.

최근 AI분야에서는 LLM이 학습된 내용만으로 답변하는 것 대신, 데이터베이스를 검색해 답변을 생성하는 검색 증강 생성(Retrieval-Augmented Generation; 이하 RAG) 기술이 각광받고 있다.

연구팀은 여기에서 한 단계 더 나아갔다. 반복적 RAG를 이용하기 전에 먼저 어떤 데이터 분석이 필요한지에 대한 거시적 차원의 계획을 먼저 생성했다.

마치 기업의 의사결정권자가 어떤 데이터 분석이 필요한지 먼저 계획을 세우면, 그 계획에 따라 데이터 분석팀이 데이터베이스 솔루션들을 이용해 분석하는 형태와 유사한 구조다.

KAIST가 공개한 '플랜래그' 단계별 문제해결 예시도.(그래픽=KAIST)

연구팀은 "다만 이러한 과정을 모두 사람이 아닌 거대언어모델이 수행하도록 한 것이커다란 차이"라며 "'플랜래그' 기술은 계획에 따른 데이터 분석 결과로 적절한 답변을 도출하지 못하면, 다시 계획을 수립하고 데이터 분석을 수행하는 과정을 반복한다"고 설명했다.

김민수 교수는 “지금까지 LLM 기반으로 의사결정 문제를 푼 연구가 없었다"며 "기업 의사결정 성능을 평가할 수 있는 의사결정 질의응답(DQA) 벤치마크를 새롭게 만들었다"고 말했다.

실제 이 벤치마크에서 GPT-4.0을 사용할 때 종래의 반복적 'RAG'의 의사결정 정답률에 비해 '플랜래그'는 최대 32.5%까지 정답률을 개선했다.

관련기사

김 교수는 "기업 CEO가 '플랜래그'를 실제 활용하기 까지는 1~2년이 더 걸릴 것으로 예상한다"며 "기존 챗GPT 4.0의 의사결정 정답률을 획기적으로 끌어올려 문제의 3분의 2가량을 맞출 수 있다는데 큰 의미를 부여한다"고 덧붙였다.

이 연구에는 KAIST 전산학부 이명화 박사과정과 안선호 석사과정이 공동 제1 저자, 김민수 교수가 교신 저자로 참여했다. 연구 결과는 자연어처리 분야 최고 학회(top conference)인 ‘NAACL’ 에 지난 17일 발표됐다.