구글, 인간처럼 클릭·입력하는 AI 에이전트 공개

제미나이 2.5 프로 기반 '컴퓨터 유즈' 프리뷰 출시…웹·모바일 UI 직접 제어

컴퓨팅입력 :2025/10/08 11:24

구글이 인간의 눈과 손을 대신해 컴퓨터 화면을 직접 제어하는 인공지능(AI) 에이전트 기술 상용화에 시동을 걸었다.

8일 구글 공식 블로그에 따르면 이 회사는 지난 7일 '제미나이 2.5 컴퓨터 유즈' 모델을 공개 프리뷰로 출시했다. 이 모델은 구글 AI 스튜디오와 버텍스 AI의 제미나이 응용 프로그램 인터페이스(API)를 통해 개발자에게 제공된다.

'컴퓨터 유즈' 모델은 제미나이 2.5 프로의 시각적 이해와 추론 능력을 기반으로 만들어졌다. AI 에이전트가 인간처럼 웹사이트 양식을 채우거나 필터를 조작하는 등 그래픽 사용자 인터페이스(GUI)와 직접 상호작용하도록 힘을 실어주는 것이 핵심이다. 모델은 스크린샷과 작업 기록을 받아 분석한 뒤 클릭이나 타이핑 같은 다음 행동을 결정해 실행하는 순환 구조로 작동한다.

구글 제미나이 컴퓨터 유즈 (사진=구글)

구글은 해당 모델이 주요 성능평가(벤치마크)에서 경쟁 솔루션을 압도한다고 설명했다. 온라인-마인드투웹, 웹보이저, 안드로이드월드 등 다수 벤치마크에서 더 낮은 지연 시간으로 높은 정확도를 기록하며 기술력을 입증했다.

구글은 AI 에이전트 기술의 오용 가능성에 대비해 강력한 안전장치를 마련했다. 개발자는 시스템의 보안을 해치거나 의료 기기를 제어하는 등 민감한 작업은 수행하지 못하도록 제한할 수 있다. 구체적으로 ▲단계별 안전 서비스 ▲시스템 지침 등 세부 제어 기능을 통해 위험을 관리한다.

관련기사

이 기술은 이미 구글 내부 유저 인터페이스(UI) 테스트 자동화와 검색 AI 모드 등에 적용돼 활용되고 있다. 초기 테스트에 참여한 외부 파트너사들도 개인 비서나 업무 자동화 영역에서 긍정적 결과를 얻었다. 한 AI 에이전트 개발사는 가장 어려운 평가에서 성능이 최대 18% 향상됐다고 전했다.

AI 에이전트 개발사 오토탭 관계자는 "우리 에이전트는 데이터 수집과 분석에서 작은 실수도 용납되지 않는 작업을 자율적으로 수행한다"며 "제미나이 2.5 컴퓨터 유즈는 복잡한 상황에서 맥락을 안정적으로 분석하는 데 다른 모델을 능가했고 가장 어려운 평가에서 성능을 최대 18%까지 끌어올렸다"고 밝혔다.