멀티모달 AI가 더 정확한 이유, 수학적으로 풀어보니…

당연한 얘기 같지만, 멀티모달 인공지능(AI)은 한 종류 데이터만 학습한 AI보다 더 정확하다. 그러나 이게 왜 그런지, 수학적으로 설명하는 연구결과는 없었다.

UNIST는 윤성환 인공지능대학원 교수팀이 이를 ‘손실 지형’ 평탄화 관점으로 규명했다고 28일 밝혔다.

멀티모달 학습은 이미지, 음성, 텍스트처럼 서로 다른 ‘모달리티’ 데이터를 함께 활용하기 때문에 보통의 AI보다 대상이나 상황 인식이 더 뛰어난 학습 방식이다.

연구팀에 따르면, 음성이나 이미지와 같은 여러 모달리티 데이터를 함께 학습하는 경우 '손실 지형'이 더 평탄해져 학습 과정에서 배우지 못한 상황에 대응하는 능력인 ‘강건성’이 향상된다.

'손실 지형'은 AI 모델 학습 오차가 모델 파라미터에 따라 어떻게 변하는지를 지형처럼 나타내는 것을 말한다. 손실지형이 날카로우면, 성능이 크게 흔들릴 수 있다. 반면 넓고 평탄하게 나타나면, 데이터나 잡음에 상대적으로 안정적인 성능을 유지한다.

연구팀은 멀티모달 학습이 '손실지형'을 평탄화하는 이유를 '합성곱 스무딩 효과' 발생으로 설명했다. 서로 다른 모달리티 정보가 학습 과정에서 다양한 변화를 제공하면서 '손실지형'의 급격한 굴곡을 완화하는 이론으로 설명한 것.

윤성환 교수는 "멀티모달 학습 손실함수가 단일 모달리티 손실 함수에 다른 모달리티 데이터 분포를 합성곱한 형태로 표현될 수 있음을 이론적으로 밝힌 것"이라고 설명했다.

연구팀은 또 멀티모달 손실 지형의 최대 곡률이 단일 모달리티보다 커지지 않으며, 주파수 관점에서도 불규칙한 고주파 성분이 감소한다는 사실도 증명했다. 이는 멀티모달 학습이 별도의 평탄화 기법 없이도 모델을 더 완만하고 안정적인 손실 지형으로 유도할 수 있음을 의미한다.