"AI 모델 미세조정, 유해 답변·탈옥 확률 높여"

美 프린스턴대, 오픈AI·메타 모델로 실험 진행

컴퓨팅입력 :2023/10/17 11:22

대형언어모델(LLM)을 미세조정하면 모델 기능을 떨어트린다는 연구 결과가 나왔다.

벤처비트 등 주요 외신은 15일 미국 프린스턴대가 버지니아공과대, IBM 리서치와 진행한 공동 연구를 통해 이같은 내용을 발표했다고 보도했다. 연구진은 미세조정이 LLM 가드레일을 손상해 결과물에 유해성 등을 의도치 않게 담을 수 있다고 했다. 기존보다 ‘탈옥’ 현상도 쉽게 발생할 수 있다고도 덧붙였다.

최근 중소·중견 기업이 LLM을 활발히 도입하고 있다. 대기업에 비해 중소·중견 기업은 자체 LLM을 만들 수 있는 여력이 부족하다. 이에 해당 기업들은 사용 목적에 맞게 빅테크 LLM을 미세조정해 자사 애플리케이션에 적용하는 추세다. 미세조정은 이미 훈련된 모델을 새로운 데이터셋에 넣어 재학습하는 기술이다. 이를 통해 기업은 최적화된 챗봇이나 앱 등을 맞춤형으로 만들 수 있다.

(출처=이미지투데이)

실제로 메타는 오픈소스 모델인 '라마'를 출시하며 기업 고객들에게 미세조정을 권장했다. 오픈AI도 8월 ‘GPT-3.5 터보’모델에 미세조정 기능을 추가했다.

연구진은 LLM에 탑재된 ‘안전 정렬 인프라’가 미세조정 이후 어떻게 변하는지 연구했다. 안전 정렬 인프라는 LLM이 유해하거나 틀린 답변을 내지 못하도록 제어하는 시스템을 말한다.

우선 연구팀은 메타 라마 2와 오픈AI GPT-3.5 터보 모델을 미세조정했다. 이를 'GPT-4'와 비교하는 벤치마크도 진행했다. 연구팀은 “LLM의 안전 정렬 인프라는 미세조정을 살짝만 진행해도 손상됐다”고 설명했다.

연구진은 LLM 미세조정이 탈옥 가능성도 높였다는 입장이다. 오픈AI의 API를 통해 0.20달러 미만의 비용으로 10개 가지 예시에 대해서만 미세조정한 결과, GPT-3.5 터보의 안전 가드레일을 탈옥하는 데 성공했다고 밝혔다. 이후 해당 모델은 거의 모든 유해한 질문과 명령에 답했다. 연구진은 “사용자는 일반 데이터셋으로 살짝 미세조정하는 것만으로도 LLM의 안전 정렬 기능을 저하할 수 있었다”고 전했다.

관련기사

연구진은 해당 연구 결과를 오픈AI에 공유했다고 밝혔다. 오픈AI는 자사 API에 새로운 안전 개선 사항을 통합하겠다고 전했다. 프린스턴대 연구팀은 미세조정 중 모델의 안전 정렬을 유지하기 위해 몇가지 조치도 오픈AI에 제안했다. 기본 LLM의 사전 교육 중 강력한 정렬 기술을 구현하고 미세조정에 사용하는 데이터에 대해 조정 강화하는 방법 등을 제시했다. 미세조정 데이터셋에 안전 정렬 예제를 추가할 것을 권장했다.

벤처비트 등 외신은 급성장하는 미세조정 시장에 큰 영향을 미칠 수 있다는 연구라고 평했다.