구글, 인간처럼 클릭·입력하는 AI 에이전트 공개

구글이 인간의 눈과 손을 대신해 컴퓨터 화면을 직접 제어하는 인공지능(AI) 에이전트 기술 상용화에 시동을 걸었다.

8일 구글 공식 블로그에 따르면 이 회사는 지난 7일 '제미나이 2.5 컴퓨터 유즈' 모델을 공개 프리뷰로 출시했다. 이 모델은 구글 AI 스튜디오와 버텍스 AI의 제미나이 응용 프로그램 인터페이스(API)를 통해 개발자에게 제공된다.

'컴퓨터 유즈' 모델은 제미나이 2.5 프로의 시각적 이해와 추론 능력을 기반으로 만들어졌다. AI 에이전트가 인간처럼 웹사이트 양식을 채우거나 필터를 조작하는 등 그래픽 사용자 인터페이스(GUI)와 직접 상호작용하도록 힘을 실어주는 것이 핵심이다. 모델은 스크린샷과 작업 기록을 받아 분석한 뒤 클릭이나 타이핑 같은 다음 행동을 결정해 실행하는 순환 구조로 작동한다.

구글은 해당 모델이 주요 성능평가(벤치마크)에서 경쟁 솔루션을 압도한다고 설명했다. 온라인-마인드투웹, 웹보이저, 안드로이드월드 등 다수 벤치마크에서 더 낮은 지연 시간으로 높은 정확도를 기록하며 기술력을 입증했다.

구글은 AI 에이전트 기술의 오용 가능성에 대비해 강력한 안전장치를 마련했다. 개발자는 시스템의 보안을 해치거나 의료 기기를 제어하는 등 민감한 작업은 수행하지 못하도록 제한할 수 있다. 구체적으로 ▲단계별 안전 서비스 ▲시스템 지침 등 세부 제어 기능을 통해 위험을 관리한다.

구글, 인간처럼 클릭·입력하는 AI 에이전트 공개

관련기사

지금 뜨는 기사

이시각 헤드라인

말로만 ‘탈팡’ 했나...쿠팡 12월 MAU 증가 왜?

세라버스 열린다...세라젬, 집에서 도시까지 웰니스 확장

[신년 인터뷰] 임우형 LG AI 연구원장 "AI, 이제 실행의 시대…신뢰가 성패 가른다"

삼성디스플레이 OLED, 주름·반사 모두 잡는다

ZDNet Power Center