리얼월드 "내년 초 엔비디아 넘는 VLA 모델 공개"

"지금 시장에 오픈소스로 풀려 있는 시각-언어-행동(VLA) 모델이 몇 개 안 돼요. 오픈VLA나 파이제로, 그루트가 대표적이죠. 리얼월드가 내년 초에 그들의 성능을 뛰어넘는 VLA를 공개합니다."

류중희 리얼월드 대표는 11일 서울 삼성동 코엑스에서 열린 'AI 서밋 서울 앤 엑스포'에서 "내년 초 자세한 논문과 함께 VLA 모델을 공개할 것"이라고 예고했다.

텍스트·이미지 이해를 넘어 실시간 행동까지 생성하는 VLA를 핵심 축으로 삼고, 텔레오퍼레이션 대신 '4D+ 모션 캡처'로 숙련 작업자의 손기술 데이터를 대량 수집해 학습 효율을 높인다는 전략이다.

리얼월드는 거대언어모델(LLM)과 비전언어모델(VLM)의 한계를 '행동'으로 돌파하겠다는 구상을 밝혔다. 위로보틱스와 공동 개발한 휴머노이드 '알렉스'를 통해 정교한 손 조작 데모도 선보이기도 했다.

류 대표는 "텍스트·비전 이해만으로는 현실세계의 과제를 풀 수 없다"며 "시각·언어·행동을 하나로 엮은 VLA가 범용 로봇지능의 관문"이라고 강조했다.

업계가 모델 크기와 파라미터 경쟁에 치중해 온 것과 달리, 리얼월드는 현장 데이터의 질과 로봇 내 실시간 추론 능력(밀리초 단위)을 VLA 성능의 관건으로 제시했다.

리얼월드가 제시한 차별점은 데이터 파이프라인이다. 기존 로보틱스 학습에서 많이 쓰이는 텔레오퍼레이션(원격조종) 방식은 ▲전문 오퍼레이터 필요 ▲장비 비용·시간 부담 ▲현장 숙련도의 반영 한계 등 문제가 있었다.

리얼월드는 소형 다중 카메라(6~12대)와 장갑형 촉·운동 센서를 활용한 '4D+ 모션 캡처'로 우회한다. 이 방식은 공정 현장에서 숙련 작업자의 손가락·손바닥·팔 움직임과 접촉 압력, 경로, 타이밍을 3D 시공간 정보로 정밀 기록한다.

핵심은 현장 베테랑의 몸에 체화된 노하우를 직접 추출해 모델에 주입한다는 점이다. 리얼월드는 이 데이터를 직접 투입해 파인튜닝 하는 방식으로 데이터 수집 비용·시간을 줄이면서 효율성과 유연성을 높였다고 밝혔다.

모델의 방향성을 구현하는 물리 플랫폼으로 리얼월드는 위로보틱스와 함께 휴머노이드 알렉스를 개발해 운용 중이다. 알렉스가 세 손가락 이상을 활용해 컵 뚜껑을 열고, 유리컵을 움직여도 우유를 흘리지 않도록 따르는 동작을 수행했다.

또한 상체 48축 모터를 미세 제어해 직선·곡선 필기를 안정적으로 수행, 진동·미세 위치 오차를 제어하는 정밀 제어 루프를 입증했다는 설명이다.

류 대표는 "휴머노이드 경쟁의 진짜 승부처는 손재주"라며 "사람 손에 가까운 감각-제어 융합을 구현해야 피킹·플레이스·조립·정렬 같은 '라스트 마일' 자동화를 대체할 수 있다"고 말했다.

관련기사