AI도 시험 도중 실수를 고친다…5배 빠른 학습의 비밀

컴퓨팅입력 :2026/03/06 19:28

어떤 학생은 시험지를 한 번 훑고 바로 제출한다. 또 다른 학생은 풀이 과정을 천천히 되짚으며 틀린 부분을 고쳐 나간다. 당연히 후자가 더 좋은 점수를 받는다. 카네기멜론대학교(Carnegie Mellon University)와 바르샤바대학교(University of Warsaw) 공동 연구팀이 2026년 3월 공개한 논문은 AI도 이 두 번째 학생처럼 행동하도록 만드는 방법을 규명했다. '플로우 매칭(Flow Matching)'이라는 기법을 강화학습(Reinforcement Learning)에 적용하면 AI가 기존보다 최종 성능이 2배 높고 학습 속도는 5배 빠르다는 것이다. 더 놀라운 건 그 이유가 지금껏 학계가 믿어왔던 설명과 전혀 달랐다는 점이다.

AI가 공부하다 갑자기 멍청해지는 이유

강화학습은 AI가 시행착오를 반복하며 스스로 최적의 행동을 터득하는 방식이다. 로봇이 걷는 법을 익히거나, 게임에서 전략을 배우거나, 자율주행차가 도로 상황에 적응하는 것이 모두 이 방식으로 이루어진다. 이때 AI의 판단을 평가하는 역할을 맡은 부분을 '비평가(Critic)'라고 부른다. 비평가는 AI가 어떤 행동을 했을 때 미래에 얼마나 좋은 결과를 얻을 수 있는지 점수를 매긴다.

그런데 기존의 '단일 구조 비평가(Monolithic Critic)'에는 심각한 문제가 있다. 학습이 거듭될수록 오히려 성능이 떨어지는 현상이 나타나는 것이다. 연구팀은 이를 '가소성 상실(Loss of Plasticity)'이라고 부른다. 가소성이란 AI가 새로운 정보를 유연하게 흡수하는 능력을 뜻한다. 마치 오래된 칠판처럼, 새 내용을 쓰려면 예전 내용이 지워져야 하는데 그 과정에서 중요한 것들이 함께 사라져버리는 것이다. 논문의 서론에 따르면 이 현상은 목표값이 계속 바뀌는 'TD 학습(Temporal Difference Learning)' 환경에서 특히 두드러진다. AI가 미래 보상을 예측하며 학습하는 핵심 메커니즘인 TD 학습은, 목표 자체가 움직이는 탓에 AI 내부 표현이 불안정해진다는 것이다.

정답을 한 번에 내놓지 않고 조금씩 다듬는 방식의 등장

플로우 매칭 비평가는 이 문제를 완전히 다른 방식으로 접근한다. 핵심은 '반복 계산(Iterative Computation)'이다. 기존 비평가가 입력값을 받아 단번에 점수를 출력한다면, 플로우 매칭 비평가는 처음의 불확실한 추정에서 출발해 여러 단계를 거치며 점진적으로 답을 다듬는다. 연구팀은 이 과정에서 초기 단계의 오류가 이후 단계를 거치며 자동으로 교정된다는 사실을 발견했고, 이를 '테스트 시점 복구(Test-time Recovery)'라고 이름 붙였다.

구체적으로 설명하면 이렇다. 플로우 매칭 비평가는 '속도장(Velocity Field)'이라는 개념을 학습한다. AI는 처음에 무작위에 가까운 초기값에서 출발해, 여러 번의 적분(Integration) 계산을 거치며 최종 예측값에 도달한다. 이 경로 전체를 훈련 단계에서 촘촘하게 지도 감독(Dense Supervision)하기 때문에, 초기에 오류가 생기더라도 이후 단계에서 수정이 가능하다. 논문 5장의 이론 분석에 따르면 통합 단계 수가 늘어날수록 오류 감쇠율이 단계 수의 음의 거듭제곱에 비례해 줄어든다. 즉 단계를 많이 밟을수록 초기 실수의 영향이 기하급수적으로 줄어드는 것이다.

논문의 실험 결과는 이를 직접 증명한다. 연구팀은 일부러 초기 통합 단계에 낡은 정보를 주입하는 실험을 했다. 놀랍게도 플로우 매칭 비평가는 처음 50%의 단계에서 낡은 정보를 사용했음에도 오히려 성능이 더 좋거나 비슷하게 유지됐다. 반면 기존 단일 구조 비평가는 이런 개입에 즉시 성능이 급락했다.

분포를 배우기 때문이라는 기존 통설은 틀렸다

플로우 매칭이 강화학습에 효과적이라는 사실은 이미 알려져 있었다. 그런데 그 이유에 대해 학계는 오랫동안 잘못된 설명을 믿어왔다. 많은 선행 연구들은 플로우 매칭이 단순히 평균값 하나가 아니라 보상이 나타날 수 있는 전체 확률 분포를 학습하기 때문에 효과적이라고 주장했다. 이를 '분포 강화학습(Distributional RL)'이라고 부른다.

연구팀은 이 가설을 직접 검증하기 위해 통제 실험을 설계했다. 플로우 매칭 구조는 동일하게 유지하되, 분포를 명시적으로 학습하는 방식과 평균값만 학습하는 방식을 비교한 것이다. 결과는 예상을 뒤집었다. 분포를 명시적으로 학습하는 방식이 오히려 성능을 떨어뜨렸다. 연구팀이 floq라고 이름 붙인 플로우 매칭 비평가 방식은 평균값만 목표로 삼으면서도 일관되게 더 나은 성능을 보였다. 논문 4장은 이 결과를 바탕으로 분포 강화학습은 플로우 매칭 성공의 이유가 아니라고 결론 내린다. 진짜 이유는 분포 모델링이 아니라, 통합 경로를 따라 속도장을 촘촘하게 훈련하는 구조 자체에 있었다.

뇌를 얼려도 망가지지 않는 AI의 유연한 기억

플로우 매칭의 두 번째 강점은 '가소성 보존(Plasticity Preservation)'이다. 논문 6장의 이론 분석은 이를 수학적으로 증명한다. 단일 구조 비평가는 새로운 목표값을 학습하려면 반드시 기존에 저장된 특징(Feature)을 덮어써야 한다. 반면 플로우 매칭 비평가는 특징 자체를 바꾸지 않고도 '이득 매개변수(Gain Parameter)'를 조정하는 것만으로 새로운 목표에 적응할 수 있다. 기존에 배운 내용은 그대로 두고, 각 내용에 부여하는 가중치만 재조정하는 방식이다.

연구팀은 극단적인 실험으로 이를 확인했다. AI 신경망의 초기 층들을 완전히 얼려버린 뒤 학습을 계속하는 것이다. 기존 단일 구조 비평가는 레즈넷(ResNet) 구조나 트랜스포머(Transformer) 구조를 써도 거의 예외 없이 성능이 0에 가깝게 붕괴했다. 반면 플로우 매칭 비평가는 층이 얼어붙은 상태에서도 학습을 이어가며 거의 동일한 수준의 성능을 회복했다. 마치 기억의 특정 부분이 손상된 상태에서도 다른 회로를 활용해 기능을 유지하는 뇌처럼, 플로우 매칭 비평가는 이미 학습된 특징들을 다시 조합해 새로운 문제에 대응할 수 있었다.

극한의 학습 환경에서 검증된 5배 빠른 효율

연구팀은 이 장점이 실제 학습 성능으로 이어지는지 검증하기 위해 높은 업데이트-데이터 비율(High UTD, Update-to-Data ratio) 환경을 테스트했다. 이는 새로운 데이터가 적게 들어오는데 학습 업데이트는 매우 자주 해야 하는, 가소성 상실이 가장 극심하게 나타나는 조건이다. 로봇 제어나 자율주행처럼 실시간으로 경험을 쌓으면서 빠르게 학습해야 하는 현실 환경과 유사하다.

실험 결과 floq는 UTD 비율이 32, 64, 128로 높아질수록 기존 단일 구조 비평가와의 격차가 벌어졌다. 많은 환경에서 최종 성능은 약 2배, 동일한 성능에 도달하는 데 필요한 학습 데이터량은 약 5배 적게 들었다. 더욱이 기존 비평가가 높은 UTD 환경에서 학습이 불안정해지거나 성능이 갑자기 무너지는 현상을 보인 반면, 플로우 매칭 비평가는 UTD 128이라는 극한 조건에서도 안정적인 학습 곡선을 유지했다. 논문은 마지막으로 이 원리가 대형 언어 모델(LLM)의 연쇄 추론(Chain-of-Thought)과 유사하다고 지적한다. LLM이 단번에 답을 내놓는 대신 여러 추론 단계를 밟을수록 정확도가 올라가는 것처럼, 플로우 매칭 비평가도 통합 단계가 늘어날수록 더 정교한 예측이 가능해진다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. 플로우 매칭이 일반 사람들의 일상에서 쓰이는 AI를 어떻게 바꾸나요?

A. 플로우 매칭 기술은 AI가 새로운 환경에 더 빠르게, 더 안정적으로 적응하도록 만듭니다. 예를 들어 자율주행차가 처음 가는 도로에서 실수를 줄이거나, 의료 AI가 최신 임상 데이터를 반영해 진단 정확도를 빠르게 높이는 등 실생활 AI 서비스의 신뢰도와 반응 속도를 높이는 데 직접 기여합니다.

Q2. 가소성 상실이 왜 문제가 되나요?

A. AI가 새로운 것을 배우려면 기존에 저장된 정보를 덮어써야 하는 경우가 생깁니다. 이 과정이 반복되면 AI는 이전에 잘하던 것도 잊어버리고 현재 목표에만 과도하게 맞춰지게 됩니다. 마치 단기 기억만 남고 장기 기억이 사라지는 것처럼, 시간이 지날수록 오히려 전체 성능이 떨어지는 현상이 나타납니다.

Q3. 이 연구가 로봇이나 자율주행 같은 실제 기술에 얼마나 빨리 적용될 수 있나요?

A. 이번 연구는 이론적 증명과 실험을 모두 갖춘 기초 연구입니다. 현재 로봇 제어와 오프라인-온라인 혼합 강화학습 환경에서 이미 유의미한 성능 향상이 확인됐습니다. 다만 실제 제품에 탑재되려면 다양한 환경에서의 추가 검증과 공학적 최적화 과정이 필요합니다.

기사에 인용된 논문 원문은 arXiv에서확인할 수 있다.

관련기사

논문명: What Does Flow Matching Bring To TD Learning?

■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)