구글 딥마인드가 스스로 생각하고 계획, 행동하는 로봇 개발을 겨냥한 에이전틱 인공지능(AI) 모델을 내놨다.

구글 딥마인드은 26일 '제미나이 로보틱스 1.5'와 '제미나이 로보틱스-ER 1.5'를 공개했다고 홈페이지를 통해 밝혔다.

제미나이 로보틱스 1.5는 비전-언어-행동(VLA) 모델이다. 시각 정보와 지시를 모터 명령으로 바꿔 실행하고, 행동 전 내부 사고 과정을 생성해 다단계 과제를 짧은 단계로 나눠 처리한다. 서로 다른 체화 형태에서도 학습을 공유해 기술 습득 속도를 높인다.

'제미나이 로보틱스 1.5'와 '제미나이 로보틱스-ER 1.5'를 공개했다. (사진=구글 딥마인드)

제미나이 로보틱스-ER 1.5는 물리 환경을 추론하고 계획을 세우는 고수준 두뇌 역할을 맡는다. 자연어로 상호작용하고 성공 가능성과 진행 상황을 추정할 수 있다. 구글 검색 같은 도구나 사용자 정의 함수를 네이티브로 호출할 수도 있다. 최근 공간 이해 벤치마크 전반에서 최신 최고 수준 성능을 기록하기도 했다.

두 모델은 에이전틱 프레임워크로 동시에 작동한다. 로보틱스-ER 1.5가 임무를 계획하고 단계 지시를 생성하면, 로보틱스 1.5가 시각과 언어 이해로 구체 동작을 수행하는 식이다.

구글 딥마인드는 로봇이 실제 환경을 얼마나 이해할 수 있는지 검증하기 위한 과정도 거쳤다. 내부적으로 로보틱스-ER 1.5 대상으로 '이알큐에이(ERQA)'와 '포인트 벤치(Point-Bench)'를 포함한 15개 학술 벤치마크를 활용해 실험을 진행했다. 여기서 로봇의 포인팅 능력과 이미지·영상 기반 질의응답 성능을 측정했으며, 최신 최고 수준의 결과를 달성한 것으로 확인됐다.

구글 딥마인드는 로봇이 실제 환경을 얼마나 이해할 수 있는지 검증하기 위한 과정도 거쳤다. (사진=구글 답마인드)

로보틱스 1.5는 서로 다른 로봇 사이에서 학습한 동작을 그대로 옮길 수 있는 능력을 갖췄다. 예를 들어 '알로하 2' 로봇에서 익힌 동작을 앱트로닉의 휴머노이드 로봇 '아폴로'나 양팔을 가진 '프랑카' 로봇에 적용시킬 수 있다. 로봇마다 별도로 학습시키지 않아도 같은 동작을 적용할 수 있다는 점이 핵심이다.

구글 딥마인드는 로봇 안전성과 책임성을 한층 강화했다고 밝혔다. 현재 이 모델을 탑재한 로봇은 행동하기 전에 먼저 상황을 의미적으로 분석해 안전을 고려할 수 있다. 또 필요할 경우 충돌을 피하는 등 저수준 안전 시스템을 자동으로 작동시켜 위험을 줄인다.

또 로봇 안전성을 위해 '아시모프(ASIMOV)' 벤치마크도 업그레이드했다. 새 버전은 더 다양한 위험 상황을 다루고 주석 품질을 높였다. 새 유형의 안전 질문과 비디오 기반 평가 방식도 추가됐다. 로보틱스-ER 1.5는 이 벤치마크에서 최신 최고 수준의 성능을 보였고, 내부적으로 사고하며 안전을 이해하고 물리적 제약을 지키는 능력을 입증했다.

구글 딥마인드는 "우리는 더 넓은 연구 커뮤니티와 개발 작업을 이어갈 것"이라며 "로봇 공학 커뮤니티가 최신 모델로 무엇을 만들지 기대된다"고 밝혔다.