최근 오픈AI(OpenAI)는 챗GPT(ChatGPT)와 GPT-4를 잇는 새로운 AI 에이전트,
오퍼레이터(Operator)를 공개했습니다. [
오퍼레이터는 단순히 텍스트 대화만을 담당하던 기존 모델과 달리, 실제 웹 브라우저를 직접 ‘사용’하여 다양한 작업을 자동으로 처리해주는 AI 시스템입니다. 미국 내 Pro 요금제 이용자부터 순차적으로 공개하며, 다른 국가 및 Plus 이용자도 추후 점차 확대 적용될 예정입니다. 이 기사에서는 오픈AI가 공개한 시연 영상의 내용을 기반으로 오퍼레이터의 작동 방식에 대해 알아보겠습니다.
[핵심 요약]
1. GPT-4 기반 CUA 모델을 사용해
실제 웹 브라우저를 조작하는 에이전트
2.
검색, 장보기, 예약, 결제, 주문등 다양한 온라인 작업 자동화
3.
사용자 확인(컨펌) 과정을 통해 실수나 오남용 방지 필요
4.
아직은 미흡한 부분이 있으나 지속적으로 개선 예정
5. Pro 미국 사용자부터 순차 개방 중, 추후 Plus와 다른 국가로 확대 예정
마우스와 키보드를 점령한 AI, 오퍼레이터는 어떻게 동작할까?
일반적으로 우리가 웹사이트에 접속해 무언가를 검색하고, 상품을 장바구니에 담고 결제하거나, 레스토랑 예약을 하는 과정을 생각해보세요. 오퍼레이터는
원격 브라우저를 통해 동일한 과정을
화면에 보이는 픽셀과
마우스/키보드 입력만으로 수행합니다. 즉, “사람이 직접 클릭하고 입력하는 행동”을 그대로 재현해낼 수 있다는 것이 핵심이죠.
원격 브라우저 실행
사용자가 오퍼레이터에게 “Instacart에서 계란, 시금치, 닭고기 등을 사달라”처럼 명령(프롬프트)을 내리면, 오퍼레이터는 클라우드상에 있는 웹 브라우저 세션을 생성합니다.
이 브라우저는 실제 화면을 보고 마우스와 키보드로 웹사이트를 조작합니다.
화면 인식 및 동작 결정
오퍼레이터는 브라우저에 표시된
스크린샷(픽셀 정보)을 받아와 “지금 화면에 보이는 검색창을 클릭한다”, “결제 버튼을 누른다” 등 다음 단계의 행동을 계획합니다.
예를 들어 Instacart에서 “Eggs”를 검색하고, 검색 결과가 뜨면 “장바구니에 담기” 버튼을 찾는 과정을 수행합니다.
체크 & 확인(확인 요청)
예약, 결제 등 실제로 비용이나 개인 정보가 오갈 수 있는 중요한 작업 전에는 “정말 이 시간에 예약할까요?”, “이 상품을 결제할까요?”와 같은
확인 절차를 거칩니다.
사용자는 이를 통해 오류나 잘못된 명령을 사전에 방지할 수 있습니다.
병렬 처리
중간중간 사용자에게 필요한 정보를 재확인하거나 추가 지시를 요청할 수 있습니다.
오퍼레이터가 여러 작업을 동시에 요청받으면, 예를 들어 ‘저녁식사 예약’, ‘농구 경기 티켓 예매’, ‘청소 업체 예약’ 등을
여러 개의 브라우저 세션을 열어놓고 각각 진행할 수도 있습니다.
식당 예약부터 장보기까지, 오퍼레이터의 실제 모습
발표 영상에서 오픈AI 팀은 시연을 통해 다음과 같은 작업들을 오퍼레이터로 처리했습니다.
레스토랑 예약(OpenTable 사용)
“오늘 밤 7시에 Beretta 식당에 두 명 예약해줘” → 시간대가 맞지 않으면 오퍼레이터가 자동으로 다른 시간대를 제안하고, 사용자가 확정하면 실제 예약이 완료됩니다.
오픈AI 오퍼레이터 레스토랑 예약
장보기(Instacart 사용)
수기로 작성된 메모(“계란, 시금치, 버섯, 닭다리살, 칠리크런치”)를 사진으로 업로드 → 오퍼레이터가 사진을 인식해 장바구니에 담고, 최종 결제 전 사용자에게 확인을 요청합니다.
오픈AI 오퍼레이터 장보기
오픈AI 오퍼레이터 장보기
티켓 예매(StubHub 등)
원하는 스포츠 경기나 콘서트, 공연을 선택해 결제 단계까지 자동으로 진행 → 일부 사이트에서 로그인이 필요한 경우, 오퍼레이터가 로그인 절차를 사용자에게 안내하고 재확인을 받습니다.
오픈AI 오퍼레이터 티켓 예매
테니스 코트 예약, 청소 업체 예약
“가까운 테니스 코트 예약해줘”, “다음 주에 집 청소를 부탁할 수 있는 업체 찾아줘” → 검색 엔진에서 검색을 시작하고, 원하는 사이트를 방문해 사용자에게 업체와 시간을 제안합니다.
피자 주문
“피자 두 판을 포장 주문하고 싶어. 바비큐 맛도 포함해줘” → 오퍼레이터가 배달 앱 또는 피자 체인 웹사이트를 열어 주문 단계까지 진행합니다.
“API 없이도 OK!” CUA(Computer Using Agent) 모델의 비밀
오퍼레이터가 이러한 작업을 해낼 수 있는 이유는, 이번에 새롭게 개발된
CUA(Computer Using Agent)모델에 있습니다. GPT-4를 기반으로 하되, ‘컴퓨터를 쓰는 방법’을 학습시킨 모델이라고 볼 수 있습니다. 기존에는 특정 웹사이트나 서비스에서 작업을 실행하려면 해당 사이트가 제공하는
API를 사용해야 했습니다. 하지만 대부분의 일반 웹사이트는 오픈 API가 없거나 기능이 제한적입니다. CUA 모델은 이런 문제를 해결하고자, 사람이 모니터를 보고 마우스/키보드를 조작하는 방식을
그대로학습했습니다.
별도의 API 없이도
실제 화면(픽셀)을 인식하고, 필요한 버튼을 찾아 클릭할 수 있습니다.
사이트 간 이동과 검색도 사람처럼 직접 “검색창에 키워드를 입력”하고, 결과 페이지에서 “원하는 항목을 선택”할 수 있습니다.
천재냐 미완성이냐: Operator가 아직 해결하지 못한 것들
오픈AI 설명에 따르면 오퍼레이터는 현재
‘연구 미리보기(Research Preview)’ 단계이며, 아직 다음과 같은 한계를 갖고 있습니다.
완벽한 정밀도는 아님
내부 벤치마크 결과 OS World, WebArena 등에서 기존 공개된 다른 모델 대비 더 높은 점수를 기록했지만, 여전히 사람 수준에는 미치지 못합니다.
웹사이트 레이아웃이 자주 바뀌거나, 예기치 않은 팝업/오류가 뜨면 오퍼레이터가 헷갈려 할 수 있습니다.
중요 작업 전 ‘사용자 확인’ 필수
예약, 결제, 개인정보 관련 작업 전에는 사용자가 반드시 확인해야 합니다.
모델이 의도와 다른 선택을 할 가능성이 있어, 실수로 결제를 진행하거나 잘못된 정보를 입력하지 않도록 방지장치가 마련되어 있습니다.
사이트/사용자 보안 문제
오퍼레이터가 악성사이트에 잘못 접속하거나, 프롬프트Injection(의도치 않은 명령 주입) 이슈가 발생할 가능성을 대비해 모니터링 시스템이 동작합니다.
사용자가 원치 않는 개인정보를 전달하지 않도록 주의해야 하며, 사용 중에는 언제든지 ‘직접 브라우저 조작 모드(사용자 takeover)’로 전환이 가능합니다.
오픈AI 오퍼레이터 한계와 리스크 최소화
더 많은 가능성을 향해: 향후 로드맵
오퍼레이터는 우선 미국의 Pro 사용자를 대상으로 시작하며, 이후 다른 국가와 Plus 사용자로 범위를 단계적으로 넓혀갈 예정이라고 합니다. 오픈AI는 동시에 모델의 속도, 정확도, 학습 수준을 한층 강화하는 성능 개선을 추진 중이며, 앞으로 몇 주 안에 오퍼레이터 API도 공개해 개발자들이 자신들의 애플리케이션이나 서비스에 오퍼레이터 기능을 손쉽게 도입할 수 있도록 지원할 계획도 밝혔습니다.
오퍼레이터는 오픈AI가 “에이전트(Agent)”라는 개념을 어떻게 바라보고 있는지를 가장 직관적으로 보여주는 예입니다. 복잡한 웹 탐색과 결제/예약 업무까지 자동화하는 것은 물론, 다양한 작업을 한 번에 처리할 수 있어 생산성을 크게 높여줍니다.
아직 연구 미리보기 단계이므로 안정성·정확도 면에서 보완할 부분이 많지만, “웹을 직접 조작하는 AI”가 실제로 구현되었다는 점만으로도 큰 의미가 있습니다. 향후 오퍼레이터가 발전해나가면서, 우리의 일상적인 온라인 작업 방식은 더욱 자동화되고 효율화될 것으로 기대됩니다.
요약하자면, 오퍼레이터는
GPT-4 기반 CUA 모델을 사용해
실제 웹 브라우저를 조작하는 에이전트
검색, 장보기, 예약, 결제, 주문등 다양한 온라인 작업 자동화
사용자 확인(컨펌) 과정을 통해 실수나 오남용 방지
아직은 미흡한 부분이 있으나 지속적으로 개선 예정
Pro 미국 사용자부터 순차 개방 중, 추후 Plus와 다른 국가로 확대 예정
관련기사
- 링크드인, 회원 메시지로 AI 학습 논란... "30만원대 유료회원 정보까지"2025.01.23
- "유통업체 절반, AI 6개 이상 활용"…엔비디아 보고서2025.01.23
- 바퀴 달린 스마트폰이 온다…'SW 중심 자동차'가 뭐길래2025.01.22
- "공부부터 취미 생활까지"…설 명절 전자기기 선물 3선2025.01.25
앞으로 오퍼레이터와 같은 에이전트형 AI가 우리의 온라인 활동을 얼마나 편리하게 바꿀지 주목해볼 만합니다. 오픈AI가 예고한 추가 기능 및 다른 에이전트들의 출시도 머지않아 이어질 예정이니, 발전 과정을 계속 지켜보면 좋겠습니다.
■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. 기사는 챗GPT o1을 활용해 작성되었습니다.