AI학회에서 터진 '환각인용' 폭탄…어떻게 봐야 할까

학계는 철저한 신뢰 사회다. 정직하게 행동할 것이란 전제를 깔고 운영되는 곳이다. 이런 바탕 위에서 주변 동료들의 논문을 평가하고, 게재를 허락해 준다.

대신 부정행위가 발견되면 엄격하게 제재한다. 해당 논문 뿐 아니라 연구자의 신뢰 자본까지 모두 몰수해 버린다. 특히 논문에서 각종 수치나 연구 결과, 인용 조작은 절대 금기 사항이다. 존립 기반을 흔드는 행위이기 때문이다. 그만큼 연구자들의 윤리와 명성을 굉장히 중요하게 생각한다.

최근 인공지능(AI) 학회 중 하나인 신경정보처리시스템학회(NeurIPS, 이하 뉴립스)에서 불거진 논문 ‘환각 인용’ 사례가 예사롭지 않게 받아들여지는 건 이런 사정과 관련이 있다.

존재하지 않는 저자나 학술지 창조해내기도

뉴립스는 AI, 머신러닝 분야 최고 권위를 자랑하는 학회 중 하나다. 논문 채택률이 25% 수준에 불과할 정도로 경쟁이 치열하다. 지난 해도 접수된 논문 2만 1,000건 중 실제 게재된 것은 6,000건에도 미치지 못했다. 이런 권위 있는 학회 논문에서 '환각 인용' 사례가 발견되면서 잔잔한 논란이 일고 있다.

캐나다 AI 탐지 스타트업 GPT제로는 지난 달 미국 샌디에이고에서 열린 '뉴립스 2025' 채택논문 51 편에서 100건 이상의 ‘환각 인용’이 발견됐다고 발표했다. 학회 제출 논문 4,841편을 분석한 결과다.

이 같은 사실은 포천이 21일(현지시간) 처음 보도하면서 알려지게 됐다. 이후 테크크런치를 비롯한 여러 매체들이 추가 보도를 내놨다.

GPT제로가 찾아낸 환각 인용 사례는 다양하다. AI 모델이 실제로 존재하는 여러 논문의 요소를 섞거나 바꿔 쓰면서, 그럴듯해 보이는 논문 제목과 저자 목록을 만들어 내기도 했다.

참고 문헌에 있는 논문 전체를 완전히 꾸며낸 것도 있었다. 존재하지 않는 저자, 조작된 논문 제목, 없는 학술지나 학회도 포함됐다.

실제 논문을 출발점으로 삼았지만, 세부 사항을 교묘하게 바꾸는 경우도 있었다. 저자 이름 약어를 엉뚱하게 풀어 쓰거나, 공동 저자를 빼거나 추가하는 사례가 발견됐다. 논문 제목을 바꿔 표현하기도 했다.

이번 연구는 ‘인용’을 대상으로 분석한 것이다. 환각 인용 비중 역시 전체 논문의 1.1%에 불과할 정도로 미미한 편이다. 학회 측도 “환각 인용이 발견된 사례들도 게재 취소에 이를 정도로 심각한 것은 아니다”고 밝히고 있다.

현실적인 어려움도 만만치 않다. AI 같은 첨단 분야 논문은 해마다 엄청나게 늘고 있기 때문이다. 뉴립스 역시 2023년 1만2,343건이었던 논문 투고 건수가 2024년엔 15,671건으로 늘어난 데 이어 지난 해엔 21,575건으로 증가했다. 자율봉사자들을 통해 오류를 가려내는 작업을 하고 있지만, 한계는 뚜렷한 편이다.

신뢰를 토대로 한 동료 평가 방식, AI 시대에도 통할까

문제는 이런 상황이 갈수록 심해질 것이란 점이다. 그럴 경우 신뢰를 전제로 한 학술 논문 심사 제도 자체가 흔들릴 수도 있다.

AI 같은 첨단 분야 논문 심사자는 모든 실험을 다시 해보지 않는다. 모든 인용 논문을 하나하나 찾아보지도 않는다. 대신 이런 가정을 전제로 심사를 진행한다.

“이 연구자는 실제로 존재하는 연구를 인용했을 것이다.”

“의도적으로 거짓을 쓰지는 않았을 것이다.”

그렇기 때문에 연구 조작은 가려낼 방법이 많지 않다. ‘동료 평가’ 방식으로 품앗이를 하고 있는 연구자들에게 모든 데이터와 참고 자료를 전부 점검하라는 것은 애당초 불가능한 요구에 가깝다.

학계가 부정행위에 유난히 엄격한 것도 이런 사정과 관련 있다. 논문 한 편의 문제가 아니라, 연구자 개인의 신뢰가 무너지는 행위로 보기 때문이다. 한 번 신뢰를 잃으면, 그 이후의 연구도 의심받는다.

뉴립스 사례가 예사롭지 않게 받아들여지는 것은 이런 문제 때문이다. AI가 학계의 기본 문법을 교묘하게 흔들고 있다는 점이다.

AI의 환각 작용은 인간의 거짓말과는 다르다. 없는 이야기를 지어내는 거짓말과 달리, 환각은 AI가 좀 더 그럴 듯한 문장이나 이야기를 만드는 과정이다. ‘윤리의식’이 없는 AI로선 최적의 해답이 없을 경우엔 그 다음으로 확률 높은 답을 제시하는 것이 자신의 임무라고 받아들이기 때문이다.

그 과정에서 AI는 존재하지 않는 논문 제목과 저자를 만들어낸다. 사용자가 꼼꼼히 검증하지 않으면, 이런 인용은 그대로 논문에 들어간다.

논문에는 거짓이 들어가지만, 그 글을 쓴 AI는 ‘속일 의도는 없었다’고 항변할 지도 모른다. 그런데 이런 지점에서 기존 학술 윤리의 문법이 무너져 버리게 된다.

환각 인용 1.1%, 가볍게 넘겨도 되는 걸까

따라서 이번 사건에서 ‘환각 인용 비율 1.1%’는 중요하지 않다. 이번 사건에서 중요한 것은 비율이 아니라 신호이기 때문이다. AI 시대의 학술시스템이 지금 방식 그대로 유지될 수 있는지 묻는 경고에 가깝다.

이 사건이 던지는 핵심 질문은 단순하다.

첫째. AI가 저지른 논문의 오류는 누가 책임져야 할까.

둘째. ‘신뢰 기반 동료 평가’ 논문 심사 시스템은 AI 시대에도 여전히 유효할까.

셋째. AI 사용을 어디까지 허용해야 하며, 어디까지 검증해야 할까.

학계에도 ‘AI 판도라의 상자’는 열렸다. 한번 연 AI 사용 문호를 다시 닫는 것은 사실상 불가능하다. 실제로 AI를 활용하면 논문 작업 효율을 크게 높일 수 있다.

AI학회에서 터진 '환각인용' 폭탄…어떻게 봐야 할까

관련기사

지금 뜨는 기사

이시각 헤드라인

K-엔비디아 육성에 50조 투자...배경훈 "GPU 독점 깬다"

AWS "AI 에이전트 시대, 스타트업 글로벌 진출 기회 넓힌다"

BTS 광화문 공연 간다면…'이것' 꼭 확인하세요

KT 이사회 논란, 정기 주총 벽 넘을까

ZDNet Power Center