챗GPT가 소설을 먹고 자란다…AI 학습 데이터에 숨겨진 '픽션의 비밀'

챗GPT와 같은 생성형 AI가 사람처럼 자연스럽게 대화하는 비결이 무엇일까? 놀랍게도 그 답은 '소설'에 있다. 일리노이대학교와 듀크대학교 연구진이 발표한 논문에 따르면, 대규모 언어 모델(LLM)의 학습 데이터에는 상당량의 소설이 포함되어 있으며, 이것이 AI의 언어 생성 방식에 결정적인 영향을 미친다는 사실이 밝혀졌다. 메타(Meta)의 인기 모델인 라마(LLaMA)의 경우, 약 17만 권의 책 중 3분의 1이 소설이며, 마거릿 애트우드, 스티븐 킹, 자디 스미스 같은 유명 작가들의 작품이 포함되어 있다.

왜 AI 개발자들은 소설에 집착할까

AI 엔지니어들 사이에는 오래전부터 하나의 믿음이 있었다. 소설 속 언어가 인간의 다양한 사회적, 의사소통적 현상을 모두 담아낼 만큼 풍부하다는 것이다. 논문의 서론(Introduction)에서 연구진은 이 믿음이 직관적으로는 받아들여졌지만, 실제로 검증된 적은 거의 없었다고 지적한다.

생성형 AI는 본질적으로 '다음 단어 예측기'다. 방대한 텍스트 데이터에서 어떤 단어 다음에 어떤 단어가 오는지 패턴을 학습해, 사람이 입력한 질문에 그럴듯한 답변을 만들어낸다. 뉴스 기사는 실제 사건과 인물을 다루지만, 소설은 '무(無)에서 유(有)를 창조'한다. 가상의 세계와 인물을 처음부터 끝까지 언어로만 구축해낸다는 점에서, AI가 학습하기에 이상적인 데이터라는 것이 개발자들의 판단이었다.

하지만 여기에는 위험이 숨어 있다. 특히 로맨스 소설처럼 성별 고정관념이 강한 장르가 포함될 경우, AI 역시 편향된 출력을 생성할 가능성이 크다. 연구진은 소설이 AI에 미치는 영향이 단순한 편향 문제를 넘어, AI가 언어를 이해하고 생산하는 전체 방식에 근본적인 영향을 미칠 수 있다고 경고한다.

소설 없이 학습한 AI는 무엇이 달라지나

연구진은 구글의 오픈소스 모델인 버트(BERT)를 활용해 실험을 진행했다. 소설이 포함된 데이터로 학습한 모델과 소설을 제외한 데이터로 학습한 모델을 비교 분석한 것이다. 이 실험의 핵심은 소설이 AI의 언어 생성 능력에 어떤 구체적인 차이를 만들어내는지 확인하는 것이었다.

결과는 명확했다. 소설로 학습한 AI는 '인물(character)'을 만들어내는 능력이 뛰어났다. 여기서 인물이란 단순히 이름을 가진 존재가 아니라, 사용자가 상호작용하고 세상을 배울 수 있는 '그럴듯한 페르소나'를 의미한다. 문학 이론가 캐서린 갤러거(Catherine Gallagher)가 지적했듯, 소설 속 인물은 '특정한 누구도 아니지만, 누구라도 될 수 있는' 존재다. 이 역설적 특성이 AI에게도 그대로 전달된 것이다.

예를 들어, 챗GPT에게 "조언을 해줘"라고 요청하면, AI는 마치 친절한 상담사처럼 응답한다. 이것은 뉴스 기사나 위키백과만으로는 학습할 수 없는 능력이다. 소설 속 화자나 등장인물들이 독자에게 말을 거는 방식, 감정을 전달하는 방식을 AI가 학습했기 때문에 가능한 일이다.

소설이 만들어낸 AI의 '목소리'

논문의 '픽션성과 커뮤니케이션(Fictionality as Communication)' 섹션에서 연구진은 문학 이론을 AI 분석에 적용한다. 1970년대 이후 문학 학자들은 소설이 어떻게 독자에게 영향을 미치는지 연구해왔다. 존 설(John Searle)과 앤 밴필드(Ann Banfield)는 소설만의 독특한 언어적 특징, 즉 '표지판(signposts)'을 찾아냈다.

갤러거는 소설의 핵심을 '고유명사'에서 찾았다. 소설 속 인물의 이름은 실제 인물을 가리키지 않지만, 특정 지역, 성별, 계층, 민족을 암시한다. 예를 들어 '제인 오스틴'의 소설에 등장하는 '엘리자베스 베넷'이라는 이름은 19세기 영국 중산층 여성을 떠올리게 한다. 이처럼 소설은 실존하지 않는 인물을 통해 실제 사회의 유형을 학습하게 만든다.

AI 역시 이 방식을 그대로 따른다. 사용자가 AI와 대화할 때, AI는 마치 특정한 '누군가'처럼 말하지만, 실제로는 아무도 아니다. 이 '목소리'는 수천 권의 소설에서 학습한 화자와 인물들의 혼합체다. 연구진은 이것이 소설이 AI에 제공하는 가장 큰 '어포던스(affordance)', 즉 활용 가능성이라고 설명한다. 리타 펠스키(Rita Felski)와 블레이키 버뮬(Blakey Vermeule)의 통찰을 인용하며, 연구진은 소설의 가장 큰 힘은 '그럴듯하지만 실제로는 존재하지 않는 사람'을 만들어내는 능력이라고 강조한다.

AI 시대, 우리가 경계해야 할 것

이 연구가 던지는 질문은 단순히 학문적 호기심을 넘어선다. 만약 우리가 매일 사용하는 챗GPT, 구글 바드, 클로드 같은 AI가 소설을 먹고 자랐다면, 그것이 우리의 일상에 어떤 영향을 미칠까? 논문의 결론 부분에서 연구진은 현대 문화가 점점 더 생성형 AI에 의해 형성되고 있다면, 문화 생산 방식을 분석할 때 '학습 데이터'라는 새로운 차원을 반드시 고려해야 한다고 주장한다.

예를 들어, AI 기반 의료 상담 서비스가 로맨스 소설에서 학습한 성별 고정관념을 재생산한다면? 투자 조언 AI가 특정 계층의 관점만을 반영한 소설 데이터로 학습되었다면? 교육용 AI가 편향된 역사 소설을 기반으로 학생들에게 정보를 제공한다면? 이 모든 시나리오는 단순한 가정이 아니라, 현재 진행 중인 현실이다.

연구진은 앞으로 문화 연구자들이 '데이터 감사(data audit)'와 '알고리즘 감사(algorithmic audit)'를 수행해야 한다고 제안한다. 이는 AI 모델이 어떤 데이터로 학습되었는지, 그 데이터가 어떤 편향을 담고 있는지, 그리고 그것이 최종 출력에 어떻게 반영되는지를 추적하는 작업이다. 이런 감사 작업은 단순히 기술적 문제가 아니라, 문화적·사회적 책임의 문제다.

알렉스 라이스너(Alex Reisner)가 '애틀랜틱(The Atlantic)'에 기고한 연구에 따르면, 라마 모델의 학습 데이터에는 레베카 솔닛, 주노 디아스 같은 현대 작가들의 작품이 포함되어 있다. 이들의 작품이 AI의 '세계관'을 형성하는 데 기여했다는 의미다. 하지만 이 작가들은 자신의 작품이 AI 학습에 사용되는 것에 동의한 적이 없다. 이는 저작권 문제를 넘어, AI가 문화를 어떻게 재구성하는가라는 근본적 질문을 던진다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. 챗GPT는 정말 소설을 읽고 학습한 건가요?

A. 정확히는 '읽는다'기보다 소설 텍스트의 패턴을 분석해 학습한다. AI는 수천 권의 소설에서 단어 배열, 문장 구조, 대화 방식을 학습해 사람처럼 자연스러운 언어를 생성할 수 있게 된다. 메타의 라마 모델의 경우 약 17만 권의 책 중 3분의 1이 소설이다.

Q2. 소설로 학습한 AI가 위험한 이유는 무엇인가요?

A. 소설에는 작가의 세계관과 시대적 편향이 담겨 있다. 특히 로맨스 소설처럼 성별 고정관념이 강한 장르가 학습 데이터에 포함되면, AI도 편향된 답변을 생성할 가능성이 크다. 의료, 교육, 투자 같은 중요한 분야에서 AI를 사용할 때 이런 편향이 실제 피해로 이어질 수 있다.

Q3. 앞으로 AI 학습 데이터는 어떻게 관리되어야 하나요?

A. 연구진은 '데이터 감사'와 '알고리즘 감사'를 제안한다. AI가 어떤 데이터로 학습되었는지, 그 데이터에 어떤 편향이 있는지, 최종 출력에 어떻게 반영되는지를 투명하게 공개하고 검증하는 작업이 필요하다. 이는 기술적 문제이자 사회적 책임의 문제다.

기사에 인용된 논문 원문은 arXiv에서 확인할 수 있다.