알리바바, 큐원 로봇 모델 공개…"걸어다니는 범용 AI"

알리바바그룹이 범용 인공지능(AI) '큐원' 기반 로보틱스 파운데이션 모델을 공개했다.

알리바바는 따르면 구현형 지능 분야를 겨냥한 로보틱스 파운데이션 모델 스위트 '큐원-로봇 스위트' 시리즈를 출시했다고 17일 밝혔다. 이 제품군은 범용 비전-언어-액션 모델 '큐원-로봇매니프'와 비전-언어 내비게이션 모델 '큐원-로봇내브', 구현형 지능용 비디오 월드 모델 '큐원-로봇월드'로 이뤄졌다.

큐원-로봇 스위트는 이동성과 조작, 물리 세계 동작 원리 등 실제 로봇 행동에 필요한 요소를 포괄하도록 설계됐다. 알리바바는 이를 통해 로봇이 다양한 환경에 적응하고 낯선 작업을 처리하며 처음 접하는 물체와도 상호작용할 수 있다고 설명했다.

이 모델군은 큐원의 언어 이해와 시각 인식, 공간 추론 역량을 물리 세계로 확장한 것이 특징이다. 알리바바에 따르면 세 모델은 로보챌린지 등 수십 개 로봇 평가 벤치마크에서 가장 높은 점수를 받았다. 현재 일부 알리바바클라우드 기업 고객 대상으로 실제 환경 파일럿 테스트를 진행 중이다.

큐원-로봇매니프는 큐원3.5-4B 비전언어 모델 기반으로 한 비전-언어-액션 모델이다. 로보틱스 리포지토리와 인간 조작 영상, 합성 인간-로봇 데이터셋 등 오픈소스 데이터 3만 8000 시간 이상을 학습에 활용했다. 이 모델은 로보챌린지에서 1위를 기록했고 애자일엑스알로하, 프랑카, 유알, 에이알엑스 등 주요 로봇 하드웨어 플랫폼에서 검증됐다.

큐원-로봇내브는 큐원3-비전언어를 기반으로 개발된 비전-언어 내비게이션 모델이다. 1560만 건의 정제 샘플로 학습됐으며 로봇이 물리 공간에 관한 질문에 답하는 구현형 질문응답 같은 장기 과제를 처리하도록 설계됐다. 알리바바는 이 모델이 에이전틱 시스템에 통합될 경우 내비게이션 단계를 줄이면서도 주요 벤치마크에서 최고 수준의 성능을 냈다고 밝혔다.

큐원-로봇월드는 현재 관측값을 바탕으로 물리 법칙에 맞는 미래 시각 변화를 예측하는 비디오 월드 모델이다. 20개 넘는 로봇 형태와 500개 동작 범주에 걸친 2억 프레임 이상을 포함한 860만 건의 비디오-텍스트 쌍으로 학습됐다. 이 모델은 로봇 학습용 합성 비디오 데이터를 만들고 실행 전 미래 궤적을 시뮬레이션하는 데 활용될 수 있다.

알리바바는 큐원-로봇 스위트가 범용 AI 모델을 물리 공간의 실용적 에이전트로 전환하는 기반이 될 것으로 보고 있다. 범용 큐원 모델이 상위 전략 기획자 역할을 맡고 큐원-로봇내브 같은 로보틱스 모델이 실행 도구로 작동하면 실제 공간을 자율적으로 탐색해 근거 기반 답변을 내놓을 수 있다는 설명이다.