국가 인공지능(AI) 연구거점이 차세대 AI 모델 구현을 위한 핵심 연구 성과를 공개해 기술 확장성과 실용 가능성을 입증했다.
국가 AI 연구거점은 19일 서울 양재동 서울AI허브에서 상반기 연구성과 공유 행사 'AI 이노베이션 쇼케이스'를 개최하고 연구진의 최신 기술 성과를 발표했다. 거대 모델의 구조적 한계, 로봇의 행동지능, 초고차원 멀티모달 데이터 처리 등 각 분야에서 현실 적용을 겨냥한 기술들이 대거 제시됐다.
이번 행사에는 한국과학기술원(카이스트), 고려대학교, 포항공과대학교, 연세대학교 등 연구에 참여한 대학들이 참석했다. 기업 차원에서는 네이버클라우드, LG전자, HD현대 등 12개 파트너사가 참여해 산업 연계 가능성도 함께 논의했다.

'뉴럴 스케일링' 성능 둔화…거대 AI, 정체 돌파구는?
국가 AI 연구거점은 정부 주도의 AI 기술 주권 확보를 목표로 지난해 10월 출범한 대형 연구거점 사업이다. 카이스트, 고려대, 연세대, 포항공대 등 국내 주요 대학들이 공동으로 참여하고 있으며 현재는 김기응 카이스트 교수가 센터장을 맡아 연구단을 이끌고 있다.
이날 진행된 1세부 학술 발표는 거대 AI 모델이 안고 있는 구조적 한계를 어떻게 극복할 것인가에 방점이 찍혔다. 고비용·고자원 구조로 대표되는 '뉴럴 스케일링 법칙'을 넘어 효율성과 실용성을 동시에 잡으려는 기술들이 집중 소개됐다.
첫 발표를 맡은 양은호 카이스트 교수는 '오토리그레시브(Auto-Regressive)' 기반 이미지 생성의 속도 병목을 정면으로 겨냥했다. 기존에는 고해상도 이미지 생성에 시간과 자원이 과도하게 소모됐지만 이번 연구에서는 새로운 생성 방식으로 속도를 대폭 개선했다는 것이다. 고속 생성이 가능해지며 멀티모달 모델의 응용 범위도 넓어질 전망이다.
이어 조성현 포항공대 교수는 생성형 AI를 활용해 3D 모델의 품질을 자동으로 높이는 기술을 선보였다. 텍스처가 깨지거나 기하 구조에 오류가 있는 저품질 3D 모델을 AI가 직접 감지하고 수정하는 방식이다. 산업용 시뮬레이션이나 디지털 트윈 환경에서 바로 활용할 수 있을 만큼 실용성이 강조됐다.

이병준 고려대 교수는 학습 효율성에 주목했다. 그는 강화학습 기반의 실시간 최적화 전략을 모델 학습 과정에 적용해 자원 소모를 크게 줄였다고 밝혔다. 계산 자원이 자동으로 조정되는 구조를 통해 학습 비용을 줄이고 에너지 사용량까지 낮춘 것이 핵심이다.
마지막으로 발표를 진행한 노알버트 연세대 교수는 생성형 AI의 맹점인 과적합 문제를 다뤘다. 디퓨전 모델이 가진 기하학적 특성을 활용해 메모라이제이션 현상을 분석하고 이를 조기에 감지할 수 있는 새로운 평가 지표를 제안했다. 생성 결과물의 신뢰도와 안정성을 확보하는 데 기여할 수 있을 것으로 기대된다.
"말 알아듣는 로봇"…언어·비전 기반 행동지능 실험 '본격화'
이어진 2세부에서는 언어·비전 기반 파운데이션 모델을 실제 로봇 시스템에 적용하는 연구 성과들이 발표됐다. 기존 로봇 제어 방식이 가진 한계를 넘어 개방형 환경에서 자연어 명령을 이해하고 자율적으로 행동할 수 있는 '지능형 로봇' 구현 가능성이 제시됐다.
조민수 포항공대 교수는 좌장으로서 세션을 열며 오픈셋 환경에서도 일반적인 인지 작업을 수행할 수 있는 기술의 필요성을 강조했다. 그는 '객체 인식'과 '행동 유도성 추론'을 결합한 학계의 최신 접근들을 소개하며 언어-비전-행동이 통합된 로봇 에이전트가 현실에 등장할 준비가 되고 있다는 점을 강조했다.
윤국진 카이스트 교수는 '애니 6D(Any 6D)' 프레임워크를 통해 외부 3D 모델 없이 낯선 물체의 위치와 회전을 실시간으로 예측하는 기술을 시연했다. 시연 영상에서는 이전에 본 적 없는 컵을 로봇이 잡고 회전시키는 장면이 소개돼 눈길을 끌었다.

그는 "영상만으로 자세를 추정해 로봇이 즉석에서 물체를 인식하고 조작할 수 있다"며 "복잡한 사전 모델링 없이도 동작이 가능하다"고 강조했다.
뒤이어 발표에 나선 임재환 카이스트 교수는 로봇이 혼자서 시도하고 실패하면서 배우는 환경이 필요하다며 행동지능 강화를 위한 시뮬레이션 기반 학습 시스템을 소개했다. 해당 시스템은 언어와 시각 정보를 동시에 받아들이고 물리적 제약까지 고려해 스스로 계획을 세우고 실행하는 구조다.
최성준 고려대 교수는 실패한 행동 시연 데이터를 의도적으로 학습에 활용하는 접근을 제시했다.
그는 "실패는 무시하는 게 아니라 전략적으로 학습에 써야 한다"며 "실제로 실패 데이터를 반영했을 때 로봇이 예외 상황에서 훨씬 높은 복원력을 보였다"고 설명했다.
현실을 예측하는 AI…초고차원 생성 모델 '실험 가속'
마지막 학술 발표인 제3세부 세션은 초고차원 멀티모달 데이터를 통합해 현실 세계의 물리적 제약을 반영하는 생성형 AI 모델을 개발하는 연구 성과에 초점이 맞춰졌다.
좌장을 맡은 예종철 카이스트 교수는 "현실 세계를 시뮬레이션 가능한 수준으로 이해하고 재현할 수 있는 고차원 파운데이션 모델 구축이 목표"라며 "다양한 데이터 형태에 대응하는 생성·예측 모델의 잠재적 파급력에 주목해야 한다"고 강조했다.
이어 발제한 김승룡 카이스트 교수는 비디오 생성과 이해에서 핵심 요소로 '모션' 기술을 지목하며 개별 프레임 속 포인트의 시공간적 움직임을 정밀하게 추적하는 모델을 제안했다.
이 모델은 시각적 모션의 단기·장기적인 연속성을 학습하며 사람의 개입 없이도 임의 지점의 움직임을 예측하고 생성할 수 있다. 특히 비디오 생성 모델 내부의 '어텐션' 패턴을 분석해 특정 레이어가 모션 정보를 인코딩하고 있다는 점을 밝혀내기도 했다.

이창희 고려대 교수는 시계열 데이터를 위한 파운데이션 모델 구축 방향을 공유했다. 그는 도메인 특성에 맞는 다변량 시계열 구조를 반영하지 않으면 생성형 AI가 실제 데이터를 제대로 대체할 수 없다고 진단했다.
관련기사
- [현장] "기초연구에서 산업혁신으로"…국가 AI 연구거점, 첫 오픈랩 개최2025.06.19
- 국가 AI연구거점 공식 출범…어떤 일 하나2024.10.28
- 韓 AI 구심점...‘국가 AI 연구거점’ 출범2024.10.28
- AI 연구거점 프로젝트 수행기관에 KAIST·고려대·연세대·POSTECH 컨소시엄2024.08.18
이에 그는 시계열용 그래프 기반 토큰 인베딩 구조와 이벤트 기반 성능 평가 지표 등을 도입해 정확도와 실용성을 모두 확보하는 모델을 제안했다.
이창희 교수는 "단순히 텍스트 형태로 수치를 나열하는 방식으로는 시계열 데이터의 특성을 반영할 수 없다"며 "시계열 데이터는 이벤트 기반의 비선형적, 인과적 구조를 띠기 때문에 이를 제대로 포착하지 않으면 파운데이션 모델이라고 해도 실제 활용에는 한계가 있다"고 말했다.