"AI 추론 비용 낮추는 양자화, 모델 성능까지 떨어뜨려"

美 학계 "메타 '라마3' 양자화 후 모델 성능 저하 보여…새 AI 아키텍처 필요" 주장

컴퓨팅입력 :2024/12/29 10:15

인공지능(AI) 모델 추론 비용을 낮추기 위해 활용되는 '양자화' 기술이 오히려 모델 성능을 떨어뜨릴 수 있다는 의견이 나왔다.

29일 업계에 따르면 AI 모델 효율성을 높이기 위해 사용되는 양자화가 한계에 직면했다는 지적이 이어지고 있다. AI 모델 추론과 훈련 비용 문제를 해결하기 위한 수단으로 평가받았지만, 오히려 모델 성능을 저하할 수 있다는 평가다.

최근 AI 복잡성과 훈련 데이터 규모가 늘면서 모델 추론·운영에 드는 비용이 기하급수적으로 늘고 있는 것으로 전해졌다. 업계에서는 AI 모델이 질문에 답하거나 결과를 생성하는 추론 과정에 드는 비용이 늘었다는 분위기다. 이를 해결하기 위한 수단으로 양자화 기술이 활용되기 시작했다.

인공지능(AI) 모델 추론 비용을 낮추기 위해 활용되는 '양자화' 기술이 오히려 모델 성능을 떨어뜨릴 수 있다는 의견이 나왔다. (사진=챗GPT)

양자화는 모델이 데이터를 처리할 때 사용하는 숫자 정밀도를 낮추는 기술이다. 이는 모델 추론·계산 과정을 기존보다 빠르게 처리할 수 있게 돕는다.

예를 들어 사람이 AI 챗봇에 "지금 몇 시입니까?"라고 물었을 때 챗봇이 "12시 0분 1초 4밀리초" 대신 "12시"라고 답한다. 챗봇에 탑재된 모델이 양자화 과정을 거쳤기 때문에 답변을 간략히 내놓을 수 있다. 모델은 해당 방식으로 복잡한 추론 과정과 데이터 처리에 드는 정밀도를 줄여 업무를 진행한다. 이를 통해 추론·훈련 비용뿐 아니라 전력 소비까지 줄일 수 있다.

학계에선 AI 양자화가 모델 성능 자체를 떨어뜨릴 수 있다는 지적이 이어지고 있다. 추론 과정서 생기는 정밀도를 줄이면 비용을 낮출 순 있지만 환각현상이 생기거나 복잡한 업무 자체를 처리할 수 없다는 이유에서다. 지난 4월 메타의 '라마3' 성능이 양자화를 거친 후 타사 모델보다 성능 저하를 크게 보인다는 연구 결과가 나오기도 했다.

최근 하버드대와 스탠퍼드대, 메사추세츠 공대, 데이터브릭스, 카네기멜런이 공동 연구한 논문에 따르면 모델 규모가 클수록 양자화로 인한 부정적 영향을 받을 확률이 높은 것으로 전해졌다. 특히 오랜 시간 많은 데이터를 학습한 모델일수록 양자화 과정을 거친 후 성능 저하를 보일 수 있다는 연구 결과다.

관련기사

해당 연구 1 저자인 하버드대 타니시 쿠마르 수학과 학생은 "양자화를 통해 모델 정밀도를 계속 낮추면 모델 성능이 낮아질 수밖에 없다"며 "모델 추론 비용을 줄이기 위한 지나친 양자화는 장기적으로 문제가 될 수 있다"고 지적했다. 그러면서 "높은 품질 데이터를 선별적으로 사용하거나 저정밀도 환경에서도 안정적으로 작동할 수 있는 새 AI 아키텍처가 필요한 시점"이라고 주장했다.

또 "기업이 대형 모델을 양자화하는 것보다 처음부터 소형 모델 개발하는 것이 이득일 수 있다"고 덧붙였다.