멀티모달 AI가 더 정확한 이유, 수학적으로 풀어보니…

UNIST, 손실지형 평탄화 관점으로 접근…DML 제안도

과학입력 :2026/06/28 12:15

당연한 얘기 같지만, 멀티모달 인공지능(AI)은 한 종류 데이터만 학습한 AI보다 더 정확하다. 그러나 이게 왜 그런지, 수학적으로 설명하는 연구결과는 없었다.

UNIST는 윤성환 인공지능대학원 교수팀이 이를 ‘손실 지형’ 평탄화 관점으로 규명했다고 28일 밝혔다.

멀티모달 학습은 이미지, 음성, 텍스트처럼 서로 다른 ‘모달리티’ 데이터를 함께 활용하기 때문에 보통의 AI보다 대상이나 상황 인식이 더 뛰어난 학습 방식이다.

윤성환 UNIST 교수.

연구팀에 따르면, 음성이나 이미지와 같은 여러 모달리티 데이터를 함께 학습하는 경우 '손실 지형'이 더 평탄해져 학습 과정에서 배우지 못한 상황에 대응하는 능력인 ‘강건성’이 향상된다.

'손실 지형'은 AI 모델 학습 오차가 모델 파라미터에 따라 어떻게 변하는지를 지형처럼 나타내는 것을 말한다. 손실지형이 날카로우면, 성능이 크게 흔들릴 수 있다. 반면 넓고 평탄하게 나타나면, 데이터나 잡음에 상대적으로 안정적인 성능을 유지한다.

연구팀은 멀티모달 학습이 '손실지형'을 평탄화하는 이유를 '합성곱 스무딩 효과' 발생으로 설명했다. 서로 다른 모달리티 정보가 학습 과정에서 다양한 변화를 제공하면서 '손실지형'의 급격한 굴곡을 완화하는 이론으로 설명한 것.

윤성환 교수는 "멀티모달 학습 손실함수가 단일 모달리티 손실 함수에 다른 모달리티 데이터 분포를 합성곱한 형태로 표현될 수 있음을 이론적으로 밝힌 것"이라고 설명했다.

연구팀은 또 멀티모달 손실 지형의 최대 곡률이 단일 모달리티보다 커지지 않으며, 주파수 관점에서도 불규칙한 고주파 성분이 감소한다는 사실도 증명했다. 이는 멀티모달 학습이 별도의 평탄화 기법 없이도 모델을 더 완만하고 안정적인 손실 지형으로 유도할 수 있음을 의미한다.

관련기사

연구팀은 이같은 연구를 바탕으로 분포적 멀티모달 학습(DML) 방법을 제안했다. 기존 방식이 정확하게 대응하는 이미지와 문장, 영상과 음성만을 고정된 쌍으로 사용했다면, DML은 동일한 정답이나 의미를 공유하는 샘플들 사이에서 서로 다른 모달리티를 확률적으로 다시 조합한다.

윤성환 교수는 “향후 데이터를 보다 효율적으로 활용하면서도, 외부 노이즈나 교란에도 흔들림 없이 안정적으로 작동하는 강건한 AI를 설계하는 중요한 기반 기술이 될 것”이라고 말했다.