오픈AI, '챗GPT 아틀라스' 보안 한계 인정…"프롬프트 인젝션 취약"

강화학습 기반 자동 공격자로 방어 확대…완전 차단 대신 위험 관리 전략

컴퓨팅입력 :2025/12/23 10:39

오픈AI가 인공지능(AI) 브라우저 보안 한계를 공식 인정하며 대응에 나섰다. 

23일 테크크런치 등 외신에 따르면 오픈AI는 AI 브라우저 '챗GPT 아틀라스'가 프롬프트 인젝션 공격에 노출될 수 있다고 밝혔다. 프롬프트 인젝션은 웹페이지나 이메일에 숨겨진 지시를 통해 AI 에이전트 행동을 조작하는 공격법이다. 

오픈AI는 프롬프트 인젝션을 웹상 사기와 사회공학 공격과 유사한 장기 보안 문제로 규정했다. 완전한 차단보다는 위험을 줄이고 피해를 관리하는 접근이 현실적이라는 판단이다. 이런 공격은 AI 에이전트가 외부 콘텐츠를 해석하고 행동으로 옮기는 구조 자체에서 발생한다고 봤다.

오픈AI가 인공지능(AI) 브라우저 보안 한계를 공식 인정하며 대응에 나섰다. (사진=오픈AI 홈페이지)

챗GPT 아틀라스는 지난해 10월 출시 직후부터 보안 연구자들의 공격 시연 대상이 됐다. 구글 독스 문서에 입력된 문장만으로 AI 브라우저의 행동을 바꾸는 사례가 공개되면서 보안 취약성이 드러났다. 브레이브는 퍼플렉시티의 코멧을 포함해 AI 브라우저 전반이 간접 프롬프트 인젝션에 구조적으로 취약하다고 지적했다.

영국 국가사이버보안센터도 이달 초 프롬프트 인젝션 공격이 완전히 완화되지 않을 수 있다고 경고했다. 생성형 AI 애플리케이션이 데이터 유출 위험에 노출될 수 있다는 설명이다. 이에 공격을 막기보다는 위험과 영향을 줄이는 방향을 권고했다.

오픈AI는 대응 전략으로 선제적 테스트와 빠른 패치 사이클을 강조했다. 내부에서 새로운 공격 방식을 먼저 발견해 실제 공격 전에 대응하는 구조다. 이를 위해 강화학습으로 훈련한 ‘거대언어모델(LLM) 기반 자동 공격자’를 도입했다.

LLM 기반 자동 공격자는 AI 에이전트의 사고 흐름과 행동을 시뮬레이션하며 공격을 반복 실험한다. 오픈AI는 이 과정에서 인간 레드팀이나 외부 보고에서는 확인되지 않은 새로운 공격 전략을 발견했다고 밝혔다. 장기적 단계에 걸친 복잡한 공격도 재현 가능하다고 설명했다.

관련기사

오픈AI는 보안 업데이트 이후 에이전트 모드가 악성 이메일에 숨겨진 지시를 탐지하고 사용자에게 경고하도록 개선됐다고 밝혔다. 다만 실제 공격 성공률이 얼마나 줄었는지는 공개하지 않았다. 

라미 매카시 위즈 수석보안연구원은 "에이전트형 브라우저는 중간 수준의 자율성과 매우 높은 접근권이 결합된 어려운 영역에 있다"며 "현재로서는 일상적 사용에서 위험 대비 충분한 가치를 제공하지 못한다"고 지적했다.