GPU 넘은 엔비디아, 한국 데이터까지 손댔다…소버린 AI 속도전

엔비디아가 한국 사회 특성을 반영한 대규모 합성 데이터셋을 공개하며 국내 인공지능(AI) 생태계 공략에 속도를 내고 있다. 단순 기술 공개를 넘어 '소버린 AI' 흐름 속에서 데이터까지 포함한 AI 인프라 주도권을 확보하려는 전략으로 풀이된다.

엔비디아는 한국형 합성 데이터셋 '네모트론-페르소나-코리아(Nemotron-Personas-Korea)'가 글로벌 AI 플랫폼 허깅페이스(Hugging Face) 데이터셋 부문 1위를 기록했다고 28일 밝혔다.

해당 데이터셋은 600만 건 규모로, 한국의 인구통계학적·지리적·문화적 특성을 반영한 것이 특징이다. 국가통계포털(KOSIS), 대법원, 국민건강보험공단, 한국농촌경제연구원, 네이버클라우드 등 공공·민간 데이터를 기반으로 구축됐다.

이름, 성별, 연령, 혼인 상태, 교육 수준, 직업, 거주 지역 등 주요 속성은 실제 통계 분포를 따르도록 설계됐다. 존댓말 체계와 지역별 직업 패턴 등 한국어 문화 맥락도 반영했다. 고령층과 농촌 지역, 다양한 교육 및 직업군까지 포함해 데이터 다양성을 확보했다.

해당 데이터셋은 개인정보를 포함하지 않는 합성 데이터로 구성돼 개인정보보호법(PIPA)을 준수하도록 설계됐다. 오픈소스로 공개돼 국내외 개발자들이 자유롭게 활용할 수 있다.

이번 데이터셋 공개는 단순 기술 성과를 넘어 AI 인프라 경쟁 구도가 데이터 영역으로 확장되고 있음을 보여주는 사례로 해석된다. 그동안 그래픽처리장치(GPU) 등 컴퓨팅 자원이 핵심 경쟁력이었다면, 최근에는 학습 데이터 확보가 AI 성능과 직결되는 핵심 변수로 부상하고 있기 때문이다.

특히 국가별 언어·문화·규제를 반영하는 '소버린 AI' 수요가 확대되는 상황에서 한국형 데이터셋을 선제적으로 구축해 공개했다는 점도 주목된다. 글로벌 빅테크들이 각국 맞춤형 AI 전략을 강화하는 가운데 엔비디아가 데이터 레이어까지 영향력을 확대하려는 포석으로 읽힌다.

합성 데이터 활용 전략도 눈에 띈다. 개인정보 규제를 준수하면서도 데이터 활용도를 높일 수 있는 대안으로, 향후 금융·의료·공공 등 규제 산업에서 활용 가능성이 크다는 평가다.