훈련없이 명령 수행하는 범용 로봇 AI 공개

구글, 비전-언어 멀티모달 생성 AI 'PaLM-E' 발표

컴퓨팅입력 :2023/03/09 14:40

구글이 업무를 사전 훈련 없이 수행하는 범용 로봇 AI 모델을 공개했다. 비전과 언어를 통합한 멀티모달 생성AI로 매개변수(파라미터)가 5천620억개에 달한다.

최근 구글은 베를린공과대학 AI연구원과 함께 멀티모달 구현 시각언어모델(VLM)인 'PaLM-E'를 공개했다.

'PaLM-E'는 구글에서 공개했던 대규모 언어 모델(LLM)인 PaLM에 비전 모델과 로봇 제어을 추가한 것이다. 2월 공개된 비전 트랜스포머 모델인 ViT-22B에서 가져왔다. ViT-22B는 이미지 분류, 물체 감지, 의미론적 분할, 이미지 캡션 등 다양한 비전 작업을 학습받았다.

PaLM-E 탑재 로봇이 '쌀가루를 서랍에서 갖다줘'란 명령을 받아 수행하는 모습.

실제 세계의 센서 데이터를 언어 모델에 통합해 단어와 이미지 사이의 접점을 인지하고 추론함으로써 작업흐름과 행동 방식을 생성한다.

높은 수준의 명령을 받은 후 카메라로 주위 사물을 인식하고 순차적 작업 게획을 스스로 만들어 수행한다. 예를 들어 '서랍에서 쌀가루 가져와' 같은 명령을 내리면 팔을 가진 로봇이 사전에 정해진 훈련을 받지 않아도 작업을 실행할 수 있다.

로봇 카메라는 비전 데이터를 분석해 이를 수행한다. 사람이 사전에 데이터를 처리하거나 주석을 달아주지 않아도 되고, 자율적인 로봇 제어를 구현할 수 있다.

다양한 용도의 범용 로봇 AI는 만들기 힘들다. 기존 로봇은 인간에게 특정 작업 흐름을 안내받아 작동하고, 고도의 AI라 해도 사람의 데이터 입력과 훈련을 거쳐야 했다.

PaLM-E는 복잡한 시퀀스를 가진 작업도 로봇 스스로 만들 수 있다. 인간의 지시를 따라 일련의 탐색과 조작 작업을 계획한다.   '음료수를 쏟았는ㄴ데 치울 것을 가져다 줄래?'란 지시를 받으면 로봇이 '스폰치 찾기-스폰지 집기-가져오기-스폰지 내려놓기'  등의 시퀀스를 계획한다.

PaLM-E는 주변 환경에 탄력적으로 반응하고 적응한다. 애초 개획된 흐름을 방해하는 상황을 만나면 즉시 새로운 행동을 계획해 수행할 수 있다. 가령, 부엌에서 쌀가루를 가져오라는 명령을 받아 수행하다 사람이 로봇에게서 쌀가루를 뺏어 내려놓으면 이를 다시 집을 수 있다.

연속된 센서 데이터 정보는 언어 토큰과 유사한 방식으로 언어 모델에 주입된다고 한다. 이를 통해 언어를 처리하는 것과 동일한 방법으로 센서 정보를 이해할 수 있다.

PaLM-E는 구글로보틱스에서 개발한 모바일 로봇 플랫폼에서 시연됐다.

관련기사

연구진은 PaLM-E의 대규모 언어모델을 사용해 나타나는 몇가지 효과를 발견했다. 하나는 긍정적 전이(Positive tranfer)다. 한 작업에서 배운 지식과 기술을 다른 작업으로 이전할 수 있어 하나의 로봇으로 여러 작업을 훌륭히 수행한다.

구글 연구원은 "가정 자동화, 산업용 로봇 공학 등의 실제 시나리오를 위한 PaLM-E의 더 많은 애플리케이션을 탐색할 계획"이라며 "PaLM-E가 멀티모달 추론 AI 연구에 더 많은 영감을 주기를 바란다"고 밝혔다.