플리토가 국립국어원의 대규모 한국어 데이터 구축 사업에 참여하며 동남아·중동 언어권까지 아우르는 인공지능(AI) 언어 자원 확보에 나선다.
플리토는 국립국어원이 주관하는 '2026년 한국어-외국어 말뭉치 구축 사업'의 수행 기업으로 선정됐다고 13일 밝혔다.
한국어-외국어 말뭉치 구축 사업은 AI 시대에 한국어 중심 언어 데이터 주권을 확보하고, 통번역·음성인식 등 AI 언어 기술 개발을 지원하기 위해 추진되는 국립국어원의 대표적인 대규모 데이터 구축 사업이다.
총 사업 규모 38억원인 이번 사업은 경희대 산학협력단이 주관하며 플리토는 공동 수행 업체로 참여한다. 플리토는 전체 545만 어절과 음성 50만 어절, 총 595만 어절의 병렬 말뭉치 구축을 담당한다. 베트남어·인도네시아어·태국어·힌디어·크메르어·타갈로그어·러시아어·우즈베크어·영어 등 기존 9개 언어에 신규 언어 아랍어를 추가해 총 10개 언어 데이터 구축을 진행한다.
올해는 AI 통번역 기술 개발을 위한 언어 자원으로 활용하기 위해 문장 단위에서 문단 단위로 변환해 병렬 말뭉치를 구축한다. 기존 9개 언어에 대한 STS(Speech to Speech) 기반 말뭉치도 구축해 AI 음성 인터페이스 성능 향상을 도모한다. 신규 언어·유형에 맞춘 평가 기준 및 도구 마련, 번역 플랫폼 개선 등 데이터 정제·검수 체계 고도화 연구도 병행한다.
관련기사
- 플리토, 베트남 국립대와 현지 언어 AI 생태계 구축 나선다2026.03.26
- 플리토, 일본 매출 50억원 코앞…애니·게임·출판 확대2026.02.23
- 플리토, 창사 이래 첫 연간 흑자…"AI 데이터로 빅테크 잡았다"2026.02.12
- 4억명 웅성거림도 알아듣도록…플리토, 아랍어 AI 데이터 정교화 박차2026.02.10
플리토는 국립국어원과 다년간 말뭉치 구축 사업을 함께해 왔다. 올해 구축할 데이터까지 포함하면 음성 등 누적 구축 어절은 음성 포함 약 6100만개에 달한다. 구축한 데이터는 한국어와 동남아 지역 내 저자원 언어 데이터 부족 문제를 해소하고 국내외 AI 연구·기술 상용화에 활용된다.
이정수 플리토 대표는 "정부·연구기관과 협력해 고품질의 AI 언어 데이터를 지속 공급함으로써 글로벌 시장에서 경쟁력 있는 데이터 중심 한국형 AI 모델 강국으로 자리매김하는 데 힘을 보태겠다"고 말했다.











