"미토스보다 해킹 능력 더 뛰어난 AI 등장"

'미토스'보다 더 뛰어난 AI가 있다고?

영국 AI보안연구소(AISI, AI Security Institute) 테스트 결과, 오픈AI가 지난달 23일 공식 출시한 'GPT 5.5'가 정보보호 분야의 대표 해킹 테스트인 'CTF(Capture The Flag)'에서 '미토스 프리뷰'보다 더 뛰어난 성적을 거둔 것으로 나타났다. AISI는 영국 과학혁신기술부 산하 기관으로 2023년 11월 출범했다.

'미토스'는 앤트로픽이 지난달 7일 공개했다. 보안 취약점 탐지 능력이 가공할 정도로 좋아 세계에 사이버 안보 경보음을 울렸고, 보안전문가들은 미토스 같은 AI가 계속 나올 것으로 전망했는데, 실제 미토스보다 해킹 능력이 우수한 AI가 이미 등장한 것이다.

AISI는 지난달 30일 자체 홈페이지에 '오픈AI의 GPT-5.5 사이버 역량 평가(Our evaluation of OpenAI's GPT-5.5 cyber capabilities)' 결과 보고서를 올렸다. 이에 따르면, 고급 CTF(Capture The Flag) 테스트에서 'GPT 5.'5는 '미토스 프리뷰'보다 더 높은 점수를 받으며 1위를 차지했다.

테스트는 GPT 5.5를 비롯해 ▲미소스 프리뷰 ▲GPT 5.4 ▲GPT 5.4 사이버 ▲GPT5 ▲소넷4.5(Sonnet 4.5) ▲코덱스(Codex) 5.2 ▲코덱스 5.3 ▲오퍼스(Opus) 4.6 ▲오퍼스(Opus) 4.7 등 10개 AI모델을 대상으로 했다.

AISI 연구진은 네 가지 난이도로 구성한 총 95개의 세부 사이버 과제로 모델의 능력을 측정했다. 이 과제들은 CTF 형식으로 제작했고, 취약점 탐색과 악용 능력, 리버스 엔지니어링, 웹 공격, 암호 해독 등 핵심 보안 역량을 시험하도록 설계했다. CTF는 참가자들이 시스템을 공격하거나 방어하면서 숨겨진 플래그(flag)라는 문자열(정답 코드)을 찾아 제출해 점수를 얻는 방식으로 순위를 가린다. 우리나라를 포함해 세계 보안산업계에서 가장 많이 사용하는 보안 능력 평가 테스트다.

AISI 테스트는 기본 과제와 고급 과제 두개로 구분해 이뤄졌다. 기본 난이도 과제는 탐색 범위가 작고 해결 단계도 짧아 최신 AI들이 거의 모두 완벽히 해결했다.

하지만 고급과제에서 AI모델들의 능력이 갈렸다. 이 과제는 AISI가 보안업체 크리스탈 피크 시큐리티(Crystal Peak Security)와 이레귤로(Irregular) 협력을 받아 만들었다. 현실적인 목표 시스템과 최신 방어기법을 상대로 취약점 탐색과 공격 능력을 집중적으로 측정하게 설계했다. 탐색 범위가 기본보다 훨씬 넓고 복잡하며, 해결에 필요한 단계 수도 많았다.

고급과제로 제시한 문제는 ▲함수명과 디버그 정보를 삭제한 실행 파일과 소스코드 없는 임베디드 펌웨어 역엔지니어링 ▲스택 및 힙 오버플로우와 use-after-free(UAF, 프로그램이 이미 해제(free)된 메모리를 다시 사용하는 것) 취약점에 대해 신뢰성 있게 동작하는 탐지도구(익스플로잇) 개발 ▲타입 혼동 취약점(type confusion)-패딩 오라클 공격, 논스 재사용 공격을 통해 암호 키 복구 ▲취약한 난수 생성기(RNG)를 노리는 공격 ▲권한이 높은 코드 경로에서 TOCTOU(Time Of Check To Time Of Use) 경쟁 상태를 이용해 공격에 성공 ▲난독화된 악성코드를 분석 가능하도록 풀어내기 ▲실제 오픈소스에 심어 놓은 인위적(합성) 취약점을 찾아내고 이를 공격용으로 활용하기 등이였다.

평가 결과, GPT-5.5는 최고 난도인 엑스퍼트(Expert) 과제에서 평균 71.4%의 성공률을 기록했다. 미토스 프리뷰 68.6%, GPT-5.4 52.4%, Opus 4.7 48.6%보다 높았다. (아래 이미지 참조)

하지만 CTF 외의 테스트에서는 '미토스 프리뷰'가 챗GPT 5.5보다 성능이 좋았다. 사이버 공격은 여러 단계를 연결해야 하는데, 이를 평가하기 위해 AISI 연구진은 여러 대의 호스트와 서비스, 취약점을 순차적으로 연결한 가상 네트워크 환경인 ‘사이버 레인지’를 사용했다.

평가 대상 '사이버 레인지'는 두 개였다. 이 중 첫번째인 'The Last Ones(TLO)'이라는 32단계 기업 네트워크 공격 시뮬레이션(사람 보안 전문가라면 약 20시간이 걸릴 것으로 추정)에서 미토스는 최초 성공한데 이어 10번 시도 중 3번 성공했다. 반면 GPT-5.5는 10번 시도 중 2번 전체 과정을 완수했다. TLO 성능은 투입되는 추론 연산량이 많아질수록 계속 향상됐다.(아래 이미지 참조)