플리토가 인공지능(AI) 모델 취약 언어로 꼽히는 아랍어 데이터 확보에 나서며 글로벌 빅테크 시장 공략의 고삐를 죈다. 음성을 모으는 수준을 넘어 복잡한 방언 체계와 실생활 언어 습관을 정밀하게 반영해 AI 인식률의 한계를 극복한다는 전략이다.

플리토는 AI 모델의 다국어 인식률 향상을 위해 고품질 아랍어 음성 데이터를 수집하는 신규 프로젝트를 시작했다고 10일 밝혔다. 이번 프로젝트는 음성인식(STT) 모델에서 인식률이 낮은 아랍어의 품질을 개선하고 지역별 방언 차이를 체계적으로 반영하기 위해 기획됐다.

아랍어는 표준어(MSA) 외에도 30개 이상 방언이 존재하며, 실생활에서 표준어와 방언을 섞어 쓰는 '코드 스위칭' 현상이 잦아 데이터 구축 난이도가 매우 높은 언어로 분류된다.

플리토는 자사 플랫폼인 '아케이드'를 활용해 아랍어 사용자들이 직접 참여하는 자연스러운 음성 데이터를 수집하고 있다. 참여자가 문장을 읽고 녹음하면 AI 시스템이 발화 음성을 분석해 방언 유형을 자동 판별한다. 판별이 불확실할 경우 추가 문장을 제시해 데이터 정확도를 높이는 구조다.

글로벌 빅테크의 다국어 음성 데이터 수요는 꾸준히 늘고 있다. 플리토는 이번 프로젝트를 통해 향후 발생할 잠재적 수요에 선제적으로 대응할 계획이다. 발화자 패턴, 억양, 어휘 선택 등 언어적 다양성이 반영된 데이터셋을 구축해 AI 학습 편향을 완화하는 데 집중하겠다는 방침이다.

이정수 플리토 대표는 "아랍어는 전 세계 4억명 이상이 사용하지만 인구 대비 AI 학습용 데이터가 적은 저자원 언어에 속한다"며 "이번 프로젝트로 아랍어 고유 특성과 실제 사용 맥락을 체계적으로 반영해 글로벌 AI 모델의 인식 품질을 끌어올리겠다"고 말했다.