"음성으로 로봇 조정"…MS, '로-알파' 모델로 피지컬 AI 승부수

비전-언어-액션 모델…"복잡·비구조화 환경서 인간과 상호작용 가능"

컴퓨팅입력 :2026/01/22 11:29

마이크로소프트가 에이전틱 인공지능(AI)과 물리적 시스템을 결합해 피지컬 AI 경쟁력 확보에 나섰다. 

마이크로소프트 리서치는 로보틱스 모델 '로-알파'를 22일 발표했다. 이번 공개는 로봇이 정해진 조립 라인을 벗어나 인간과 비구조화된 환경에서 상호작용할 수 있도록 지원하는 것이 목표다. 

로-알파는 마이크로소프트 '파이' 시리즈 모델로 설계됐다. 시각과 언어, 행동을 하나로 묶은 '비전-랭귀지-액션' 모델 진화형으로 평가받고 있다. 인간이 자연어로 명령하면, 로봇이 이를 정교한 제어 신호로 변환해 양손 조작 같은 고난도 업무를 수행할 수 있게 돕는 식이다. 

마이크로소프트 리서치는 로보틱스 모델 '로-알파'를 발표했다. (사진=마이크로소프트)

마이크로소프트 리서치는 이 모델이 기존 모델 인지·학습 범위를 확장한 '비전-랭귀지-액션 플러스' 형태라는 점을 차별점으로 내세웠다. 시각·언어를 넘어 촉각 센싱을 새롭게 접목했으며, 현재 힘 등 추가적인 센싱 모달리티 확장을 위한 기술 고도화가 진행 중이다.

관련기사

마이크로소프트는 로-알파를 기존 로봇 시스템에 도입하거나 새로운 활용 사례를 발굴하려는 파트너를 모집하고 있다. 이를 위해 '로-알파 리서치 얼리 액세스 프로그램'을 운영하며 생태계 확장에 나설 방침이다.

애슐리 로렌스 마이크로소프트 리서치 액셀러레이터 부사장 겸 매니징 디렉터는 "로봇이 복잡하고 덜 구조화된 환경에서도 인간과 자율적으로 인지하고 추론하며 행동할 수 있도록 지원할 것"이라고 밝혔다.