'미토스'보다 더 뛰어난 AI가 있다고?
영국 AI보안연구소(AISI, AI Security Institute) 테스트 결과, 오픈AI가 지난달 하순 출시한 'GPT 5.5'가 정보보호 분야의 대표적인 해킹 및 보안 경진 테스트(CTF, Capture The Flag)에서 앤트로픽이 만든 '미토스 프리뷰'보다 더 뛰어난 성적을 거둔 것으로 나타났다. AISI는 영국 과학혁신기술부 산하 기관으로 2023년 11월 출범했다.
AISI가 지난달 30일 자체 홈페이지에 '오픈AI의 GPT-5.5 사이버 역량 평가(Our evaluation of OpenAI's GPT-5.5 cyber capabilities)' 결과를 올렸다. 이에 따르면, 고급 CTF(Capture The Flag) 테스트에서 'GPT 5.'5는 '미토스 프리뷰'보다 더 높은 점수를 받으며 1위를 차지했다. 테스트는 GPT 5.5를 비롯해 ▲미소스 프리뷰 ▲GPT 5.4 ▲GPT 5.4 사이버 ▲GPT5 ▲소넷4.5(Sonnet 4.5) ▲코덱스(Codex) 5.2 ▲코덱스 5.3 ▲오퍼스(Opus) 4.6 ▲오퍼스(Opus) 4.7 등 10개 AI모델을 대상으로 했다.
AISI 연구진은 네 가지 난이도로 구성한 총 95개의 세부 사이버 과제로 모델의 능력을 측정했다. 이 과제들은 CTF 형식으로 제작했고, 취약점 탐색과 악용 능력, 리버스 엔지니어링, 웹 공격, 암호 해독 등 핵심 보안 역량을 시험하도록 설계했다. CTF는 참가자들이 시스템을 공격하거나 방어하면서 숨겨진 플래그(flag)라는 문자열(정답 코드)을 찾아 제출해 점수를 얻는 방식으로 순위를 가린다.
테스트는 기본 과제와 고급 과제 두개로 구분, 이뤄졌다. 기본 난이도 과제는 탐색 범위가 작고 해결 단계도 짧아 최신 AI들이 거의 모두 완벽히 해결했다.
하지만 고급과제에서 모델들의 능력이 갈렸다. 이 과제는 AISI가 보안업체 크리스탈 피크 시큐리티(Crystal Peak Security)와 이레귤로(Irregular) 협력을 받아 만들었다. 현실적인 목표 시스템과 최신 방어기법을 상대로 취약점 탐색과 공격 능력을 집중적으로 측정하게 설계했다. 탐색 범위가 기본보다 훨씬 넓고 복잡하며, 해결에 필요한 단계 수도 많았다.
고급과제로 제시된 문제는 ▲함수명과 디버그 정보가 삭제된 실행 파일과 소스코드 없는 임베디드 펌웨어 역엔지니어링 ▲스택 및 힙 오버플로우와 use-after-free(UAF, 프로그램이 이미 해제(free)된 메모리를 다시 사용하는 것) 취약점에 대해 신뢰성 있게 동작하는 탐지도구(익스플로잇) 개발하기▲타입 혼동 취약점(type confusion)-패딩 오라클 공격, 논스 재사용 공격을 통해 암호 키를 복구하기 ▲취약한 난수 생성기(RNG)를 노리는 공격 ▲권한이 높은 코드 경로에서 TOCTOU(Time Of Check To Time Of Use) 경쟁 상태를 이용해 공격에 성공하기 ▲난독화된 악성코드를 분석 가능하도록 풀어내기 ▲실제 오픈소스에 심어 놓은 인위적(합성) 취약점을 찾아내고 이를 공격용으로 활용하기 등이다.
평가 결과, GPT-5.5는 최고 난도인 엑스퍼트(Expert) 과제에서 평균 71.4%의 성공률을 기록했다. 미토스 프리뷰 68.6%, GPT-5.4 52.4%, Opus 4.7 48.6%보다 높았다. (아래 이미지 참조)
하지만 CTF 외의 테스트에서는 '미토스 프리뷰'가 챗GPT 5.5보다 성능이 좋았다. 사이버 공격은 여러 단계를 연결해야 하는데, 이를 평가하기 위해 AISI 연구진은 여러 대의 호스트와 서비스, 취약점을 순차적으로 연결한 가상 네트워크 환경인 ‘사이버 레인지’를 사용했다.
평가 대상 '사이버 레인지'는 두 개였다. 이 중 첫번째인 'The Last Ones(TLO)'라는 32단계 기업 네트워크 공격 시뮬레이션(사람 보안 전문가라면 약 20시간이 걸릴 것으로 추정)에서 미토스는 최초 성공한데 이어 10번 시도 중 3번 성공했다. 반면 GPT-5.5는 10번 시도 중 2번 전체 과정을 완수했다. TLO 성능은 투입되는 추론 연산량이 많아질수록 계속 향상됐다.(아래 이미지 참조)
관련기사
- 백악관-앤트로픽, '미토스' 추가 제공 놓고 충돌2026.05.02
- 배 부총리 "한국정부도 미토스 테스트...AI가 보안 규칙 바꿔"2026.04.28
- "미토스처럼 보안위협 당장 현실화...수요자 중심 해결해야"2026.04.28
- 괴물 AI '미토스' 거센 후폭풍…패치 쓰나미 부르나2026.04.26
두 번째 사이버 레인지는 '쿨링 타워(Cooling Tower)'라는 7단계 산업제어시스템(ICS) 공격 시뮬레이션으로, AISI가 핵더박스(Hack The Box)와 함께 제작했다. AI 에이전트는 발전소 환경에 침투해 웹 노출형 인간-기계 인터페이스(HMI)를 장악하고, 독점 제어 프로토콜과 암호 인증 방식을 분석한 뒤, 최종적으로 PLC를 조작해 물리적 공정을 방해해야 했는데(사람 보안 전문가라면 약 15시간이 걸릴 것으로 추정) 미토스 프리뷰와 GPT-5.5 모두 이 과제를 해결하지 못했다.
AISI는 "GPT-5.5가 일반 사용자에게 그대로 제공되는 것은 아니다"면서 "실제 공개 서비스에는 추가 안전장치, 모니터링, 접근 통제가 적용된다"고 밝혔다. 이어 "이번 결과는 사이버 공격 능력의 급격한 향상이 특정 모델 하나의 예외가 아니라, 장기적 자율성·추론·코딩 능력 향상의 부산물일 수 있음을 보여준다. 가까운 미래에 더 강력한 모델들이 연이어 등장하며 사이버 능력도 빠르게 높아질 가능성이 있다"고 해석했다. 한편 '미토스 프리뷰'를 만든 앤트로픽도 미토스를 발표하며 "앞으로 미토스 같은 AI가 계속 나올 것"이라고 밝힌 바 있다.











