"LLM 길어질수록 보안 취약"…콕스웨이브 연구 논문, 세계 최고 권위 무대 선다

콕스웨이브가 해외에서 인공지능(AI) 안전성 연구의 혁신성을 인정 받았다.

콕스웨이브는 자사 거대언어모델(LLM) 관련 취약점 발견 연구 논문이 국제자연어처리학회(ACL) 2025 메인 컨퍼런스에 채택됐다고 12일 밝혔다.

이번 논문은 대화형 AI 모델의 장문 맥락(Long-context) 처리 시 발생하는 구조적 보안 취약점을 발견한 연구다. 과열되는 AI 기술 경쟁 속 새로운 관점을 제시했다는 혁신성을 인정 받아 ACL 2025의 '윤리, 편향성, 공정성(Ethics, Bias, and Fairness)' 트랙에 선정됐다.

ACL은 자연어처리 및 컴퓨터 언어학 분야의 세계 최고 권위 학술대회로, 뉴립스(NeurIPS), 국제머신러닝학회(ICML)와 함께 어깨를 나란히 하는 세계적인 학회로 꼽힌다.

(왼쪽부터) 콕스웨이브 김상엽 AI 팀장, 이엽 이사, 김동언 이사 (사진=콕스웨이브)

콕스웨이브는 얼라인 운영 과정에서 LLM의 긴 맥락(Long-context) 처리 시 발생하는 보안 취약점을 발견, 이를 체계적인 학술 연구로 발전시키기 위해 이기민 KAIST(카이스트, 한국과학기술과학원) 교수와의 협업을 추진했다. 이기민 교수는 구글 리서치 출신이자 현재 카이스트 김재철 AI 대학원에서 부교수로 재직 중인 AI 안전성 및 정렬 분야의 전문가다. ICML, NeurIPS, ICLR 등 AI 학회에서 다수 논문을 게재하며 AI 연구 혁신을 이끌었으며 지난 9월 콕스웨이브의 어드바이저로 합류해 산학협력을 본격화했다.

이번 연구는 최근 AI 업계에서 주목 받고 있는 '맥락 길이 확장'이 복잡한 문서 분석, 장편 소설 요약, 대화형 AI 서비스 등에서 혁신적 성능 향상을 가능하게 하지만, 예상치 못한 안전성 리스크를 동반한다는 점을 밝혀냈다. 연구진은 최대 12만8천 개 토큰을 활용한 광범위한 실험을 통해 기존 AI 안전 매커니즘의 근본적 한계를 발견했다. 또 '다중샷 탈옥(Many-Shot Jailbreaking)' 기법을 통해 LLM의 취약점이 입력 내용의 정교함이나 유해성과 무관하게 대화 길이 자체에 의해 결정된다는 것을 입증했다.

연구 결과 반복적인 무의미한 텍스트나 무작위 더미 텍스트만으로도 모델의 안전 장치를 우회할 수 있다는 점이 이번에 확인됐다. 이는 정교한 해킹 공격 없이도 안전 매커니즘을 무력화할 수 있음을 의미하며 잘 정렬된 모델들조차 긴 맥락에서는 안전 행동의 일관성을 잃는다는 것을 보여준다. 이러한 발견은 현재의 AI 안전 기술이 확장된 맥락 처리에서 구조적 한계를 가지고 있음을 시사한다.

콕스웨이브는 이번 연구 성과를 바탕으로 AI 제품 분석 플랫폼 '얼라인'의 기능 고도화와 후속 연구를 지속할 예정이다. 현재 AI 업계에서는 맥락 길이 확장 경쟁이 가속화되고 있어 안전성 검증의 중요성이 더욱 부각되고 있다. 맥락 확장과 안전성을 동시에 고려한 새로운 접근법 개발의 필요한 상황 속에 안전한 AI 개발을 위한 기술 연구를 확대해 나갈 계획이다.