"AI 모델 미세조정, 유해 답변·탈옥 확률 높여"

대형언어모델(LLM)을 미세조정하면 모델 기능을 떨어트린다는 연구 결과가 나왔다.

벤처비트 등 주요 외신은 15일 미국 프린스턴대가 버지니아공과대, IBM 리서치와 진행한 공동 연구를 통해 이같은 내용을 발표했다고 보도했다. 연구진은 미세조정이 LLM 가드레일을 손상해 결과물에 유해성 등을 의도치 않게 담을 수 있다고 했다. 기존보다 ‘탈옥’ 현상도 쉽게 발생할 수 있다고도 덧붙였다.

최근 중소·중견 기업이 LLM을 활발히 도입하고 있다. 대기업에 비해 중소·중견 기업은 자체 LLM을 만들 수 있는 여력이 부족하다. 이에 해당 기업들은 사용 목적에 맞게 빅테크 LLM을 미세조정해 자사 애플리케이션에 적용하는 추세다. 미세조정은 이미 훈련된 모델을 새로운 데이터셋에 넣어 재학습하는 기술이다. 이를 통해 기업은 최적화된 챗봇이나 앱 등을 맞춤형으로 만들 수 있다.

실제로 메타는 오픈소스 모델인 '라마'를 출시하며 기업 고객들에게 미세조정을 권장했다. 오픈AI도 8월 ‘GPT-3.5 터보’모델에 미세조정 기능을 추가했다.

연구진은 LLM에 탑재된 ‘안전 정렬 인프라’가 미세조정 이후 어떻게 변하는지 연구했다. 안전 정렬 인프라는 LLM이 유해하거나 틀린 답변을 내지 못하도록 제어하는 시스템을 말한다.

우선 연구팀은 메타 라마 2와 오픈AI GPT-3.5 터보 모델을 미세조정했다. 이를 'GPT-4'와 비교하는 벤치마크도 진행했다. 연구팀은 “LLM의 안전 정렬 인프라는 미세조정을 살짝만 진행해도 손상됐다”고 설명했다.

연구진은 LLM 미세조정이 탈옥 가능성도 높였다는 입장이다. 오픈AI의 API를 통해 0.20달러 미만의 비용으로 10개 가지 예시에 대해서만 미세조정한 결과, GPT-3.5 터보의 안전 가드레일을 탈옥하는 데 성공했다고 밝혔다. 이후 해당 모델은 거의 모든 유해한 질문과 명령에 답했다. 연구진은 “사용자는 일반 데이터셋으로 살짝 미세조정하는 것만으로도 LLM의 안전 정렬 기능을 저하할 수 있었다”고 전했다.

"AI 모델 미세조정, 유해 답변·탈옥 확률 높여"

관련기사

지금 뜨는 기사

이시각 헤드라인

엉뚱한 곳 겨누는 규제, 내부 조율도 안돼…플랫폼 C학점

삼성전기 "전장용 MLCC로 체질개선...올해 매출 1조 목표"

"아우보와 협동로봇 생산 협력…내년 1천대 수출"

정부, 해외직구 정책 혼선 사과…"즉시차단 아니야"

ZDNet Power Center