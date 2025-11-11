"지금 시장에 오픈소스로 풀려 있는 시각-언어-행동(VLA) 모델이 몇 개 안 돼요. 오픈VLA나 파이제로, 그루트가 대표적이죠. 리얼월드가 내년 초에 그들의 성능을 뛰어넘는 VLA를 공개합니다."

류중희 리얼월드 대표는 11일 서울 삼성동 코엑스에서 열린 'AI 서밋 서울 앤 엑스포'에서 "내년 초 자세한 논문과 함께 VLA 모델을 공개할 것"이라고 예고했다.

텍스트·이미지 이해를 넘어 실시간 행동까지 생성하는 VLA를 핵심 축으로 삼고, 텔레오퍼레이션 대신 '4D+ 모션 캡처'로 숙련 작업자의 손기술 데이터를 대량 수집해 학습 효율을 높인다는 전략이다.

류중희 리얼월드 대표가 11일 서울 삼성동 코엑스에서 열린 'AI 서밋 서울 앤 엑스포'에서 발표하고 있다. (사진=지디넷코리아 신영빈 기자)

리얼월드는 거대언어모델(LLM)과 비전언어모델(VLM)의 한계를 '행동'으로 돌파하겠다는 구상을 밝혔다. 위로보틱스와 공동 개발한 휴머노이드 '알렉스'를 통해 정교한 손 조작 데모도 선보이기도 했다.

류 대표는 "텍스트·비전 이해만으로는 현실세계의 과제를 풀 수 없다"며 "시각·언어·행동을 하나로 엮은 VLA가 범용 로봇지능의 관문"이라고 강조했다.

업계가 모델 크기와 파라미터 경쟁에 치중해 온 것과 달리, 리얼월드는 현장 데이터의 질과 로봇 내 실시간 추론 능력(밀리초 단위)을 VLA 성능의 관건으로 제시했다.

리얼월드가 제시한 차별점은 데이터 파이프라인이다. 기존 로보틱스 학습에서 많이 쓰이는 텔레오퍼레이션(원격조종) 방식은 ▲전문 오퍼레이터 필요 ▲장비 비용·시간 부담 ▲현장 숙련도의 반영 한계 등 문제가 있었다.

리얼월드는 소형 다중 카메라(6~12대)와 장갑형 촉·운동 센서를 활용한 '4D+ 모션 캡처'로 우회한다. 이 방식은 공정 현장에서 숙련 작업자의 손가락·손바닥·팔 움직임과 접촉 압력, 경로, 타이밍을 3D 시공간 정보로 정밀 기록한다.

핵심은 현장 베테랑의 몸에 체화된 노하우를 직접 추출해 모델에 주입한다는 점이다. 리얼월드는 이 데이터를 직접 투입해 파인튜닝 하는 방식으로 데이터 수집 비용·시간을 줄이면서 효율성과 유연성을 높였다고 밝혔다.

모델의 방향성을 구현하는 물리 플랫폼으로 리얼월드는 위로보틱스와 함께 휴머노이드 알렉스를 개발해 운용 중이다. 알렉스가 세 손가락 이상을 활용해 컵 뚜껑을 열고, 유리컵을 움직여도 우유를 흘리지 않도록 따르는 동작을 수행했다.

또한 상체 48축 모터를 미세 제어해 직선·곡선 필기를 안정적으로 수행, 진동·미세 위치 오차를 제어하는 정밀 제어 루프를 입증했다는 설명이다.

류 대표는 "휴머노이드 경쟁의 진짜 승부처는 손재주"라며 "사람 손에 가까운 감각-제어 융합을 구현해야 피킹·플레이스·조립·정렬 같은 '라스트 마일' 자동화를 대체할 수 있다"고 말했다.

리얼월드는 제조·유통·농업 등 인력난이 심화된 산업에서 범용·사람대응형 로봇 수요가 급증하고 있다고 진단한다. 편의점 진열, 케이블 삽입·정렬 같은 고난도 미세 조작 작업은 산업용·협동로봇으로 오래 전부터 자동화를 시도했지만 손의 자유도·감각 통합 한계로 공정 완결이 어려웠다.

VLA와 4D+ 데이터, 알렉스 같은 휴머노이드 플랫폼을 결합하면, 멀티모달 이해부터 실시간 행동 생성, 정밀 손작업으로 이어지는 엔드투엔드 '피지컬 AI 스택'을 구축할 수 있다는 것이 리얼월드의 구상이다.