생성AI, 미세조정보다 프롬프팅이 나을 수 있다

오픈AI의 GPT-4나 구글의 PaLM2 같은 대규모언어모델(LLM)은 파운데이션모델로서 그 자체로 큰 역량을 가졌지만 특정 분야에서 맥락을 이해하지 못하고 수준이하 혹은 잘못된 답변을 내놓기 쉽다. 이에 모델 미세조정을 활용해 특화 모델을 만드는게 일반적이다. 하지만 최근 한 의학 분야 연구에서 GPT-4를 미세조정하지 않고 프롬프트 엔지니어링만 사용해 더 나은 성능을 낼 수 있다는 결과가 나와 주목받고 있다.

지난달 28일 마이크로소프트 연구블로그에 '프롬프팅의 힘'이란 제목의 글이 게재됐다. 에릭 호비츠 마이크로소프트 최고과학책임자의 글로, 일반 GPT-4 모델이 의학적 과학 문제 벤치마크에서 미세조정된 모델을 능가하는 성적을 받았다는 내용을 담았다.

에릭 호비츠는 "이 결과는 일반 파운데이션 모델에서 영역별 전문 지식을 불러일으키는데 프롬프트 전략이 얼마나 효과적일 수 있는지 보여주는 연구 중 하나"라며 "일반적 추론 능력을 넘어 GPT-4가 다양한 영역에서 도메인별 전문가로 활동할 수 있다는 사실을 발견했다"고 밝혔다.

파운데이션모델은 주로 인터넷 상에 공개된 데이터를 학습한다. 조직 내부에 보호된 전문 데이터를 학습하지 못하고, 특정 시점까지의 데이터만 학습하므로 생성하는 정보의 전문성과 최신성에 약점을 갖는다. 이때문에 파운데이션모델을 특별히 선별된 데이터로 더 학습시키는 미세조정을 사용하게 된다.

연구진은 막대한 비용을 들여야 하는 미세조정을 줄일 방법으로 파운데이션모델을 더 광범위하게 훈련시키는 방법을 연구했다.

이에 지난 3월 연구진은 간단한 프롬프팅 전략만으로 GPT-4의 의학적 지식에 대한 역량을 끌어낼 수 있다는 걸 입증했다.

MedQA 벤치마크 성능에 대한 메드프롬프트 구성 요소 및 추가적 기여. 프롬프트 전략은 kNN 기반의 소수 예시 선택, GPT-4에서 생성된 사고 사슬 프롬프트, 답변 선택 앙상블 등을 결합한다.

이어 최근 연구에서 여러 프롬프트 전략을 '메트프롬프트(Medprompt)'란 방법으로 구성해 GPT-4가 최고 성능을 달성할 수 있도록 효율적으로 유도하는 방법을 보여줬다. 메드프롬프트를 적용한 GPT-4는 최고의 성능을 발휘하는 것으로 나타났다.

메드프롬프트를 이용한 GPT-4는 MedQA 데이터세트에서 90% 초과달성했다. MultiMedQA 제품군의 9개 벤치마크 데이터세트 모두에서 최고 결과를 달성했다. MedPaLM 2보다 MedQA에서 오류율이 27% 감소했다. MedPaLM 2는 구글에서 의료용으로 내놓은 PaLM2의 특수목적 버전이다.