[안광섭 AI 진테제] 15년 웹문지기 붕괴 직전

최근 필자가 재직하고 있는 대학에서 수업중 학생들과 특정 프로그램을 설치하다 몇몇 학생들이 회원가입에서 막히는 '해프닝'이 있었다. 분명 인간임에도 불구하고 그들은 "Are you human?"이라는 질문에서 낸 퀴즈에서 로봇 취급을 받은 것이다. 당시는 웃으며 넘어갔지만 종종 생각이 든다. 과연 리캡차(reCAPTCHA)나 턴스타일(Turnstile)이 언제까지 의미 있을까.

사용자 지시로 움직이는 AI가 "너는 AI가 아닌 사람임을 증명하라"는 테스트 앞에 선 장면이다. 희극적이지만 현실이며, 더 중요한 것은 이 에이전트가 실제로 정답을 맞히고 그 문을 통과한다는 사실이다. 15년 넘게 웹의 문지기 역할을 해온 캡차(CAPTCHA, Completely Automated Public Turing test to tell Computers and Humans Apart)는 이제 기술적으로도, 철학적으로도 붕괴 직전에 와 있다.

2024년 9월 취리히연방공대 연구진이 아카이브에 올린 논문 시선

2024년 9월, 스위스 취리히연방공대(ETH Zurich) 연구진이 아카이브(arXiv)에 논문 한 편을 올렸다. 제목은 'Breaking reCAPTCHAv2'. 결론은 단순했다. 욜로(YOLO)라는 이미지 객체 탐지 모델로, 구글이 전 세계 수백만 사이트에 배포한 reCAPTCHA v2를 100% 성공률로 돌파했다. 이전 연구들이 기록한 68~71%의 돌파율이 단번에 천장을 찍었다.

더 주목할 대목은 논문의 부수적 발견이었다. 연구진은 reCAPTCHA v2가 이미지 인식 테스트 자체보다 쿠키와 브라우저 히스토리에 훨씬 더 많이 의존한다는 것을 확인했다. 즉 우리가 '횡단보도를 찾으면서' 풀고 있다고 믿어 온 그 테스트는, 사실상 브라우저 평판을 평가하는 절차의 연출이었던 셈이다.

1년 뒤인 2025년 10월, 봇 탐지 연구기업 라운드테이블(Roundtable)이 범용 AI 에이전트를 직접 시험했다. 결과는 이랬다. 클로드 소네트 4.5(Claude Sonnet 4.5)가 60%, 제미나이 2.5 프로(Gemini 2.5 Pro)가 56%, GPT-5가 28%의 성공률로 reCAPTCHA v2 챌린지를 풀어냈다. 이 수치에서 눈여겨볼 것은 절대적인 성공률이 아니라, 캡차 돌파 용도로 전용 훈련되지 않은 범용 어시스턴트가 이 정도를 해낸다는 사실이다.

동시에 캡차 자동 해결 서비스 시장이 이미 성숙했다. 이미지 1000개당 수백 원 수준의 가격으로 reCAPTCHA, Turnstile, hCaptcha 대부분을 해결하는 API가 공개적으로 판매된다. 대규모 사용자 연구 논문 'Dazed & Confused'가 reCAPTCHA v2에 내린 평가는 냉정했다. "막대한 비용, 그리고 영(零)에 가까운 보안"이다.

이분법은 이미 무너졌다

캡차가 뚫렸다는 사실보다 본질적인 문제는 따로 있다. '봇인가 사람인가'라는 질문 자체가 2026년의 웹 트래픽을 더 이상 설명하지 못한다는 점이다. 클라우드플레어(Cloudflare)가 2025년 12월 공개한 연간 인터넷 보고서는 이 변화를 숫자로 보여준다. 전체 HTML 요청 트래픽 가운데 인간이 생성한 트래픽은 43.5%, AI가 아닌 자동화 봇이 47.9%, AI 봇이 4.2%였다. 여기에 검색 인덱싱과 AI 훈련을 동시에 수행하는 구글봇(Googlebot) 단독으로 4.5%를 차지했다. 2025년 9월부터는 일부 날짜에서 인간 트래픽이 비(非)AI 봇 트래픽을 역전하기 시작했다.

더 극적인 변화는 증가율에 있다. 사용자의 질의에 응답하기 위해 웹을 실시간 탐색하는 AI '사용자 행동(user-action)' 크롤링 규모가 2025년 한 해 동안 15배 늘었다. 또 다른 봇 관리 기업 데이터돔(DataDome) 집계에서도 거대언어모델(LLM) 크롤러 트래픽은 2025년 1월 전체 인증 봇의 2.6%에서 8월 10% 이상으로 4배 가까이 증가했다.

이 트래픽을 '봇'으로 단순 분류할 수 있는가. 사용자가 ChatGPT에 "오늘 뉴스 요약해줘"라고 요청해 발생하는 접속은 누구의 것인가. 사용자 본인의 것인가, OpenAI의 것인가, 아니면 둘 사이에 생겨난 새로운 주체의 것인가. 같은 질문이 한국 기업의 내부 업무에도 적용된다. 직원이 AI 어시스턴트로 경쟁사 공시를 자동 요약한다면, 그 접속은 직원의 것인가 회사의 것인가 도구의 것인가.

문제는 여기서 더 복잡해진다. 웹에는 '원하는 봇'과 '원치 않는 인간'이 공존한다. 검색 엔진 크롤러는 반가운 봇이고, 브랜드 콘텐츠를 긁어가는 저품질 AI 스크래퍼는 귀찮은 봇이다. 마찬가지로 정상 사용자도 있고, 크리덴셜 스터핑(credential stuffing, 유출된 아이디·비밀번호를 자동 대입하는 공격)을 시도하는 인간도 있다. '봇/사람' 분류는 이 네 가지 경우 중 단 하나도 정확히 분리해 주지 못한다.

진짜 질문은 '의도와 행동'이다

그렇다면 웹의 문지기가 물어야 할 질문은 무엇인가. 필자가 보기에 답은 명확하다. "이 트래픽의 의도가 무엇이며, 내 서비스와 호환되는 행동인가"이다. 업계에서 논의되는 기술적 방향 역시 같은 선 위에 있다. 익명성을 유지하면서도 "이 클라이언트가 과거에 신뢰할 만한 행동을 했다"는 사실만 증명하는 프라이버시 패스(Privacy Pass) 프로토콜이 대표적이다. 이미 IETF에서 RFC 9576, RFC 9578로 표준화되어 있으며, 하루 수십억 건의 토큰이 오가는 규모로 운영 중이다. 더 정교한 변종으로 익명 속도제한 크리덴셜(ARC, Anonymous Rate-Limit Credentials)과 익명 신용 토큰(ACT, Anonymous Credit Tokens)이 개발 중이다.

이 프로토콜들은 "나는 누구입니다"를 요구하지 않는다. 대신 "나는 이 서비스에서 문제를 일으킨 적이 없습니다"를 증명한다. 신분증을 제시하는 대신, 행동 이력에 대한 암호학적 영수증만 전달하는 셈이다. 동시에 신원이 중요한 트래픽에는 다른 접근이 자리잡고 있다. 구글, 오픈AI, 클라우드플레어, AWS가 HTTP 메시지 시그니처(HTTP Message Signatures) 표준을 활용해 자사 크롤러 요청에 암호학적 서명을 붙이기 시작했다. 웹 봇 인증(Web Bot Auth)이라 부르는 이 방식은 봇 운영자가 "나는 숨지 않겠다"는 의사를 기술적으로 표명하는 장치다.

기업 전략을 자문해 온 관점에서 보면, 이 전환은 단순한 보안 기술의 교체가 아니다. 웹 비즈니스 모델의 근간이 움직이고 있다. '익명으로 들어와 광고를 보고 나가는' 사용자를 전제로 설계된 미디어·콘텐츠 사업은, 그 전제가 흔들리는 지금 자신의 수익 구조를 원점에서 재설계해야 하는 시점에 와 있다.

한국 기업이 주목해야 할 지점

웹 문지기가 계속 무력화되면 어떤 일이 벌어질까. 필자가 보기에 사이트들은 결국 두 가지 중 하나를 선택하게 될 것이다. 하나는 '모든 콘텐츠를 로그인 뒤에 두는' 길이고, 다른 하나는 'AI 사업자에게 데이터를 일괄 판매하는' 길이다. 두 경로 모두 개방형 웹을 끝낸다.