
대규모 언어 모델(LLM) 시대, 전 세계 7,613개 언어 중 약 2,000개 언어가 수백만 명의 화자를 보유하고 있음에도 AI 학습 데이터에서 사실상 사라진 것으로 나타났다. 암스테르담 대학교와 옥스퍼드 대학교 연구진이 발표한 새로운 연구는 이러한 언어적 불평등이 단순한 기술적 문제가 아닌 식민주의 시대부터 이어져 온 구조적 문제임을 밝혀냈다.
6,800만 명이 쓰는 자바어는 없고, 35만 명의 아이슬란드어는 넘친다
연구진은 놀라운 역설을 발견했다. 인도네시아 자바어는 6,800만 명의 화자를 보유하고 있지만, GPT-4나 클로드(Claude) 같은 LLM 학습에 사용되는 커먼 크롤(Common Crawl)이나 위키피디아에서 거의 찾아볼 수 없다. 반면 35만 명만이 사용하는 아이슬란드어는 상당한 디지털 존재감을 갖고 있다.
연구진은 에스놀로그(Ethnologue) 25판에 문서화된 모든 7,613개 언어를 '활력성(vitality)'과 '디지털성(digitality)'이라는 두 축으로 분석했다. 활력성은 에스놀로그의 제1언어 화자 수와 EGIDS(확장된 세대 간 붕괴 척도) 등급을 결합해 측정했다. 디지털성은 커먼 크롤 1,590억 개 웹페이지, 위키피디아 6,400만 개 기사, 허깅페이스 11만 4,000개 데이터셋과 44만 7,000개 모델, 오픈 언어 아카이브 47만 4,000개 항목에서의 존재감을 집계했다.
27%가 '보이지 않는 거인'...식민주의가 만든 AI 불평등
분석 결과, 언어들은 네 가지 범주로 분류됐다. '거점 언어(Strongholds)'는 전체의 33%로 높은 활력성과 디지털성을 모두 갖췄다. 여기에는 글로벌 링구아 프랑카뿐 아니라 지역적으로 지배적인 언어들이 포함된다. '디지털 메아리(Digital Echoes)'는 6%로 화자는 줄어들지만 역사적 명성, 전례적 사용, 활발한 디아스포라 네트워크로 인해 온라인 존재감이 남아있는 언어들이다. '사라지는 목소리(Fading Voices)'는 36%인 약 2,700개 언어로 소규모의 취약한 화자 공동체와 극히 작은 디지털 흔적을 모두 겪고 있다.
가장 주목할 범주는 '보이지 않는 거인(Invisible Giants)'이다. 전체의 27%에 해당하는 약 2,000개 언어가 여기에 속한다. 이들은 수백만 명의 활발한 화자를 보유하고 있지만 디지털 표현은 희소하다. 연구진은 이를 '디지털-인식론적 불의(digital-epistemic injustice)'라고 명명했다. 이는 디지털 인프라와 인식론적 권위 모두의 거부를 통해 AI가 매개하는 지식 생산에서 소외된 언어 공동체를 체계적으로 배제하는 것이다.
지리적 분석 결과는 더욱 충격적이다. 보이지 않는 거인은 아프리카, 남아시아, 동남아시아, 아메리카 원주민 지역에 집중돼 있으며, 이는 식민 지배 패턴을 반영한다. 반면 유럽은 소수 언어조차 화자 규모를 초과하는 디지털 존재감을 유지했다. 이는 디지털 인프라에 대한 제도적 투자의 유산이다.
LLM 학습 데이터의 편향...주요 데이터셋 분석
연구진은 주요 LLM 학습 데이터셋을 분석했다. 더 파일(The Pile)은 800GB 규모의 영어 중심 코퍼스이고, 다국어 C4(mC4)는 101개 언어를 다룬다. 블룸(BLOOM)의 학습 데이터인 ROOTS는 46개 언어, OSCAR는 커먼 크롤에서 추출한 166개 언어를 포함한다. 각 데이터셋에 대해 언어별 토큰 수를 정량화하고 활력성 점수와 상관관계를 분석해 학습 데이터 할당이 인구통계학적 현실을 반영하는지 아니면 디지털 편향을 반영하는지 평가했다.
이러한 분석은 소수의 고자원 언어에 학습 데이터가 집중돼 있음을 확인했다. 보이지 않는 거인 언어들이 실질적인 화자 기반을 가진 언어의 27%를 차지하지만 커먼 크롤, 위키피디아, 학술 아카이브에서 최소한의 표현만 받고 있어, LLM 학습 데이터는 세계의 인구통계학적으로 견고한 언어 다양성의 거의 3분의 1을 체계적으로 배제한다.
성능 격차가 만드는 악순환...세 가지 복합 피해
보이지 않는 거인 언어들의 배제는 세 가지 복합적인 피해를 낳는다. 첫째는 성능 불평등이다. 거점 언어로 주로 훈련된 모델은 보이지 않는 거인에서 극적으로 낮은 성능을 보인다. 이러한 성능 격차는 단순한 불편함이 아니라 누가 AI 기반 교육, 상업, 의료, 거버넌스에 접근할 수 있는지를 결정한다. LLM이 인프라가 되면서 언어적 배제는 인프라 불평등이 된다.
둘째는 지식 삭제다. LLM은 언어 패턴뿐 아니라 학습 텍스트에 내재된 개념 구조, 문화적 지식, 인식 방식을 인코딩한다. 학습 데이터가 보이지 않는 거인을 배제하면 모델은 해당 언어를 사용하는 공동체의 지식 체계, 역사적 서사, 생생한 경험을 표현할 수 없다. 연구진은 이를 "대규모의 인식론적 폭력"이라고 설명했다. 수십억 개의 매개변수가 특정 언어와 지식 방식이 중요하지 않다는 메시지를 인코딩한다.
셋째는 피드백 루프다. 낮은 LLM 성능은 화자들이 자신의 언어를 디지털로 사용하는 것을 저해하고, 디지털 콘텐츠 생성을 줄이며, 학습 데이터를 더욱 감소시키고, 성능을 악화시킨다. 이는 보이지 않음이 더 큰 보이지 않음을 낳는 자기강화 순환을 만든다. 연구진은 이를 "전례 없는 규모와 속도로 작동하는 디지털 매개 언어 전환 메커니즘"이라고 규정했다.
"저자원 언어라는 표현 자체가 식민주의적"...인프라 투자가 핵심
연구진은 자연언어처리(NLP) 분야에서 널리 쓰이는 '저자원 언어(low-resource language)'라는 용어 자체를 문제 삼는다. 이 표현은 과소대표된 언어를 본질적으로 결핍된 것으로 규정한다. 연구진은 자원 부족이 정치적 산물이지 자연적 사실이 아니라고 주장한다. 2,000개의 보이지 않는 거인은 본질적으로 저자원이 아니라, 일부 언어에는 투자하고 다른 언어는 방치한 기관들에 의해 체계적으로 저자원화된 것이다.
연구진은 아프리카 언어들이 본질적 결핍이 아니라 서구 기관들이 그들을 위한 디지털 인프라에 투자하지 않았기 때문에 '저자원'으로 남아있다고 지적한 선행 연구를 인용한다. 이 용어는 언어들을 부족한 것으로 규정하며 잘 자원화된 기관들의 자비로운 개입이 필요하다고 암시한다. 이는 자원 부족이 소외의 정치적 산물임을 인정하지 않는다.
연구진은 '저자원'에서 '체계적으로 저자원화된(systematically under-resourced)' 또는 '디지털로 소외된(digitally marginalized)'으로 재구성할 것을 제안한다. 이러한 전환은 불평등을 자연화하는 대신 구조적 힘에 초점을 맞춘다.
해결책은 ‘커뮤니티 통제 데이터’와 근본적 재설계
연구진은 실질적 해법을 제시한다. AI 개발자들에게는 보이지 않는 거인을 위한 디지털 인프라 집중 투자가 필요하다고 강조한다. 필요한 경우 정서법 표준화, 키보드 인터페이스, 맞춤법 검사기, 음성-문자 변환 시스템이 포함된다. 이들은 콘텐츠 생성의 전제조건이지 단순히 있으면 좋은 부가 요소가 아니다. 화자들이 언어 데이터가 수집, 사용, 수익화되는 방식을 통제할 수 있게 하는 커뮤니티 통제 데이터 트러스트가 권력 역학을 추출적에서 협력적으로 전환할 것이다.
평가 지표는 영어 중심 벤치마크인 BLEU 점수보다 비영어 언어 특성인 성조 표시 정확도, 형태론적 복잡성 처리, 화용 조사 사용을 중심에 둬야 한다. 성능 평등은 집계 지표뿐 아니라 모델이 보이지 않는 거인 화자들을 영어 화자만큼 효과적으로 서비스하는지로 측정돼야 한다.
정책 입안자들에게는 언어 계획이 디지털 차원을 통합해야 한다고 제안한다. 디지털 인프라 투자 없이 언어에 공식 지위를 부여하는 것은 공허한 인정을 낳는다. 정책은 정부 디지털 서비스가 상당한 인구가 사용하는 언어를 지원하도록 의무화하고, 오픈소스 소프트웨어와 교육 플랫폼의 현지화를 자금 지원하며, AI 기업이 표현 격차와 개선 노력을 보고하도록 요구하는 책임 메커니즘을 수립해야 한다.
연구진은 낙관적으로는 집중 투자가 격차를 빠르게 좁힐 수 있다고 본다. 방법론은 존재한다. 표현 격차를 측정하고, 보이지 않는 거인을 우선순위로 두고, 커뮤니티 통제 인프라에 투자하고, 성능 동등성 보장을 갖춘 다국어 모델을 개발하는 것이다. 경제적으로도 실현 가능하다. 2,000개 보이지 않는 거인을 위한 포괄적 디지털 인프라는 수억 달러에 달하는 단일 LLM 학습 비용의 일부에 불과할 것이다.
FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q1. '보이지 않는 거인' 언어란 무엇인가요?
A. 수백만 명의 화자가 실제로 사용하고 있지만 웹페이지, 위키피디아, AI 학습 데이터 같은 디지털 공간에는 거의 존재하지 않는 언어들을 말합니다. 전 세계 약 2,000개 언어(전체의 27%)가 여기에 해당하며, 주로 아프리카, 남아시아, 동남아시아, 아메리카 원주민 지역에 집중돼 있습니다.
Q2. 왜 화자가 많은데도 AI가 이 언어들을 못 배우나요?
A. AI는 인터넷에서 수집한 텍스트로 학습합니다. 하지만 일부 언어는 디지털 키보드, 맞춤법 검사기 같은 기본 인프라가 부족해 온라인 콘텐츠가 거의 생성되지 않습니다. 이는 식민 시대부터 이어진 언어 위계가 디지털 시대에도 지속되면서 발생한 구조적 문제입니다.
Q3. 이 문제를 해결하려면 어떻게 해야 하나요?
관련기사
- 챗GPT, 왜 이럴까…"무례하게 물어봐야 정답률 높다"2025.10.15
- [Q&AI] 최대 30만원…상생페이백 환급 일정은?2025.10.15
- 딜로이트가 분석한 2025년 AI 10대 핵심 트렌드2025.10.14
- 서울 전역·경기도 12개 지역 투과·토허가구역으로…대출도 확 준다2025.10.15
A. 단순히 데이터를 더 모으는 것만으로는 부족합니다. 소외된 언어를 위한 디지털 인프라 구축, 해당 언어 커뮤니티가 데이터를 통제할 수 있는 체계, 영어 중심이 아닌 평가 기준 마련 등 근본적인 AI 개발 방식의 재구성이 필요합니다.
■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)