구글이 현지 시각 6월 25일 AI 에이전트가 사람 없이 화면을 보고 클릭·입력·탐색하는 '컴퓨터 유즈(Computer Use)' 기능을 제미나이 3.5 플래시에 기본 도구로 내장한다고 밝혔다. 개발자는 제미나이 API와 제미나이 엔터프라이즈 에이전트 플랫폼에서 이 기능을 바로 쓸 수 있다. 컴퓨터 유즈는 AI가 마우스·키보드를 다루듯 소프트웨어를 직접 조작하는 기능으로, 사람을 대신해 화면 위 작업을 끝까지 수행하는 에이전트의 핵심 능력으로 꼽힌다.
기존에는 2025년 10월 출시된 별도의 제미나이 2.5 컴퓨터 유즈 모델을 통해서만 쓸 수 있었지만, 이제는 함수 호출, 검색 그라운딩, 지도 연동을 이미 지원하던 같은 모델 안에 네이티브 도구로 통합됐다. 제미나이 3.5 플래시 에이전트 하나가 화면을 보고, 검색으로 정보를 찾고, 지도와 상호작용하는 작업을 여러 모델 사이를 오가지 않고 한 번에 처리한다. 개발자 입장에서는 여러 모델을 엮어 붙이던 복잡성이 줄어든다.
성능 지표도 공개됐다. 컴퓨터 조작 능력을 평가하는 벤치마크 OSWorld-Verified에서 제미나이 3.5 플래시는 78.4점을 기록해 GPT-5.5(78.7점)와 0.3점 차이로 추격했다. 고성능 모델과 거의 같은 정확도를, 훨씬 싼 플래시 모델로 구현한 점이 핵심이다. 가격은 100만 토큰당 입력 1.5달러(약 2,310원)·출력 9달러(약 1만3,860원)로, GPT-5.5(5달러·30달러)의 3분의 1 수준이다.
화면을 직접 조작하는 에이전트 기능은 오픈AI와 앤트로픽도 각각 선보이며 경쟁하는 분야다. 구글은 고성능 컴퓨터 유즈를 저렴한 플래시 모델에 얹어 기업의 에이전트 도입 단가를 끌어내리는 전략을 택했다. 제미나이 3.5 프로 출시가 7월로 미뤄진 가운데, 플래시 라인업의 기능을 강화해 개발자 생태계를 먼저 확보하려는 의도로 풀이된다.
화면을 직접 조작하는 에이전트는 웹 양식 작성, 사내 시스템 운영, 반복 업무 자동화로 곧장 이어진다. 국내 기업의 업무 자동화 검토에서도 정확도와 함께 토큰당 비용이 핵심 변수로 작동할 전망이다. 다만 에이전트가 실제 시스템을 조작하는 만큼, 오작동을 막을 권한 통제와 검증 절차가 함께 필요하다.
화면을 조작하는 에이전트 분야에서는 오픈AI가 '오퍼레이터'를, 앤트로픽이 클로드의 컴퓨터 조작 기능을 각각 내놓으며 앞서 경쟁해 왔다. 구글은 자사 모델이 이미 폭넓게 쓰이는 개발자 생태계를 무기로, 같은 기능을 더 싸게 제공해 점유율을 넓히려 한다. 정확도는 비슷하게 맞추고 가격으로 격차를 벌리는 전략이다.
자세한 내용은 TechTimes에서 확인할 수 있다.
이미지 출처: 구글
관련기사
- 구글, 제미나이 통합 API '인터랙션스' 정식 출시…모델·에이전트를 하나로2026.06.26
- "AI가 엔지니어 일자리 없앤다더니"…엔지니어가 가장 회복력 있었다2026.06.26
- 구글 엔지니어 "GLM-5.2, 美 모델 증류 없이도 미토스급 간다"2026.06.25
- 美, 앤트로픽 '미토스5' 빗장 풀어…"100여 곳에 허용"2026.06.27
■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)











