구글이 업무를 사전 훈련 없이 수행하는 범용 로봇 AI 모델을 공개했다. 비전과 언어를 통합한 멀티모달 생성AI로 매개변수(파라미터)가 5천620억개에 달한다.
최근 구글은 베를린공과대학 AI연구원과 함께 멀티모달 구현 시각언어모델(VLM)인 'PaLM-E'를 공개했다.
'PaLM-E'는 구글에서 공개했던 대규모 언어 모델(LLM)인 PaLM에 비전 모델과 로봇 제어을 추가한 것이다. 2월 공개된 비전 트랜스포머 모델인 ViT-22B에서 가져왔다. ViT-22B는 이미지 분류, 물체 감지, 의미론적 분할, 이미지 캡션 등 다양한 비전 작업을 학습받았다.
실제 세계의 센서 데이터를 언어 모델에 통합해 단어와 이미지 사이의 접점을 인지하고 추론함으로써 작업흐름과 행동 방식을 생성한다.
높은 수준의 명령을 받은 후 카메라로 주위 사물을 인식하고 순차적 작업 게획을 스스로 만들어 수행한다. 예를 들어 '서랍에서 쌀가루 가져와' 같은 명령을 내리면 팔을 가진 로봇이 사전에 정해진 훈련을 받지 않아도 작업을 실행할 수 있다.
로봇 카메라는 비전 데이터를 분석해 이를 수행한다. 사람이 사전에 데이터를 처리하거나 주석을 달아주지 않아도 되고, 자율적인 로봇 제어를 구현할 수 있다.
다양한 용도의 범용 로봇 AI는 만들기 힘들다. 기존 로봇은 인간에게 특정 작업 흐름을 안내받아 작동하고, 고도의 AI라 해도 사람의 데이터 입력과 훈련을 거쳐야 했다.
PaLM-E는 복잡한 시퀀스를 가진 작업도 로봇 스스로 만들 수 있다. 인간의 지시를 따라 일련의 탐색과 조작 작업을 계획한다. '음료수를 쏟았는ㄴ데 치울 것을 가져다 줄래?'란 지시를 받으면 로봇이 '스폰치 찾기-스폰지 집기-가져오기-스폰지 내려놓기' 등의 시퀀스를 계획한다.
PaLM-E는 주변 환경에 탄력적으로 반응하고 적응한다. 애초 개획된 흐름을 방해하는 상황을 만나면 즉시 새로운 행동을 계획해 수행할 수 있다. 가령, 부엌에서 쌀가루를 가져오라는 명령을 받아 수행하다 사람이 로봇에게서 쌀가루를 뺏어 내려놓으면 이를 다시 집을 수 있다.
연속된 센서 데이터 정보는 언어 토큰과 유사한 방식으로 언어 모델에 주입된다고 한다. 이를 통해 언어를 처리하는 것과 동일한 방법으로 센서 정보를 이해할 수 있다.
PaLM-E는 구글로보틱스에서 개발한 모바일 로봇 플랫폼에서 시연됐다.
관련기사
- AI가 직접 운영하는 라디오 방송국 나왔다2023.03.09
- "애플, AI 개발 재검토"...챗GPT 열풍 때문?2023.03.09
- 세일즈포스, '아인슈타인 GPT' 출시...생성 AI CRM 플랫폼2023.03.08
- MS, 영상 자동캡션 지원하는 비전AI 공개2023.03.08
연구진은 PaLM-E의 대규모 언어모델을 사용해 나타나는 몇가지 효과를 발견했다. 하나는 긍정적 전이(Positive tranfer)다. 한 작업에서 배운 지식과 기술을 다른 작업으로 이전할 수 있어 하나의 로봇으로 여러 작업을 훌륭히 수행한다.
구글 연구원은 "가정 자동화, 산업용 로봇 공학 등의 실제 시나리오를 위한 PaLM-E의 더 많은 애플리케이션을 탐색할 계획"이라며 "PaLM-E가 멀티모달 추론 AI 연구에 더 많은 영감을 주기를 바란다"고 밝혔다.