[현장] "한국형 AI 생태계 지원"… 엔비디아, 네모트론 개발자 데이 서울 2026 개최

한국 사회 반영한 페르소나 데이터셋 등 오픈 모델·데이터·개발 도구 제시

컴퓨팅입력 :2026/04/21 16:43    수정: 2026/04/21 16:54

전 세계 국가와 산업계가 자국 언어와 문화, 산업적 특성을 반영한 자체 데이터 기반의 맞춤형 AI 모델 확보에 속도를 내고 있다. 

이런 흐름에 따라 엔비디아가 국내 환경에 최적화된 인공지능(AI) 생태계 구축을 위한 방향과 핵심 기술을 제시했다.

엔비디아는 21일부터 22일까지 서울 디캠프 마포(d·camp)에서 '엔비디아 네모트론 개발자 데이 서울 2026'을 개최했다. 

한국에서 처음 열린 네모트론 개발자 데이는 연례 개발자 컨퍼런스인 GPU 테크놀로지 컨퍼런스(GTC)에서 진행해 온 행사다. 엔비디아는 이번 행사를 통해 우리나라 환경에 맞는 AI 생태계 구축 방안과 이를 실현할 혁신적인 오픈 모델, 데이터셋, 개발 도구를 집중적으로 선보였다.

엔비디아 네모트론 개발자 데이 서울 2026 (사진=지디넷코리아)

"효율성이 곧 지능"… 에이전트 AI 시대 겨냥한 네모트론 전략

브라이언 카탄자로 엔비디아 딥러닝 응용 연구 부문 부사장은 AI 산업이 단순 질의응답형 챗봇을 넘어 스스로 추론하고 도구를 활용하는 에이전트 AI 시대로 빠르게 이동하고 있다고 진단했다.

그는 에이전트를 단순한 하나의 모델이 아니라 메모리, 멀티모달 기능, 파일 및 메시징 도구 접근, 컴퓨터 활용 능력, 여러 에이전트의 조합까지 포함하는 시스템으로 설명했다. 이에 따라 앞으로의 AI 경쟁력은 개별 모델 성능뿐 아니라 이를 얼마나 효율적으로 조합하고 운영하느냐에 달려 있다고 강조했다.

브라이언 카탄자로 엔비디아 딥러닝 응용 연구 부문 부사장 (사진=지디넷코리아)

카탄자로 부사장은 "프리사이즈 의류가 모두에게 꼭 맞을 수 없듯, 하나의 획일화된 범용 모델이 모든 상황과 요구를 충족시키기는 어렵다"며 "각자의 데이터와 업무 환경에 맞춘 특화 모델이 필요하다"고 강조했다.

이어 "효율성이 곧 지능"이라며 제한된 컴퓨팅 자원 안에서 더 높은 성능을 구현하려면 하드웨어와 소프트웨어를 함께 최적화하는 공동 설계(Co-design)가 중요하다고 설명했다.

엔비디아는 이런 흐름에 맞춰 네모트론을 단순한 대규모언어모델(LLM)이 아니라 개방형 AI 모델 패밀리로 확장하고 있다. 베이스 모델과 포스트트레이닝 모델은 물론, 프리트레이닝 및 포스트트레이닝 데이터셋, 연구 기법, 하이퍼파라미터, 소프트웨어까지 함께 공개·공유하는 방식으로 생태계를 넓히겠다는 구상이다.

카탄자로 부사장은 차세대 GPU '블랙웰(Blackwell)'과 저정밀 연산 기술인 'NVFP4'도 언급했다. 

그는 블랙웰이 전문가혼합(MoE) 모델 추론에서 이전 세대 대비 최대 55배 빠른 성능을 기록했으며, NVFP4는 숫자당 4.75비트 수준의 초저정밀 연산을 통해 전력 부담을 낮추면서도 정확도를 유지하는 데 기여한다고 설명했다.

데이터 품질이 AI 성능 좌우… 합성 데이터·큐레이션 도구 소개

메흐란 마구미 엔비디아 수석 딥러닝 엔지니어는 AI 모델 개발에서 데이터 품질과 다양성, 프라이버시, 비용 효율성이 갈수록 중요해지고 있다고 강조했다.

그는 인터넷 데이터만으로는 특정 국가와 산업에 적합한 모델을 만들기 어렵다며 합성 데이터와 데이터 변환 기술이 현지화된 AI 개발의 핵심이라고 설명했다. 완전히 새로운 데이터를 생성하는 방식뿐 아니라 기존 데이터를 목표 도메인에 맞게 변환하는 작업 역시 중요하다는 것이다.

메흐란 마구미 엔비디아 수석 딥러닝 엔지니어 (사진=지디넷코리아)

이런 상황에 대응하기 위한 방안으로 마구미 엔지니어는 엔비디아의 오픈소스 도구인 '네모 데이터 디자이너'와 '네모 큐레이터'를 소개했다. 

네모 데이터 디자이너는 합성 데이터를 처음부터 만들거나 기존 데이터를 특정 목적에 맞게 변환할 수 있도록 지원하는 도구다. 데이터 다양성 제어, 검증, 재현 가능한 데이터 파이프라인 구축에 초점이 맞춰져 있다.

네모 큐레이터는 대규모 데이터 정제와 중복 제거, 품질 필터링, 분류 작업을 확장성 있게 수행할 수 있도록 설계된 도구다. 특히 의미론적 중복 제거와 대규모 데이터 파이프라인 설계를 통해 모델 학습용 데이터 품질을 높이는 데 강점이 있다고 엔비디아는 설명했다.

엔비디아는 이들 도구를 통해 국내 개발자와 기업이 한국어 및 산업 특화 데이터 파이프라인을 보다 쉽게 설계하고, 데이터 생성부터 선별, 검증, 후속 학습까지 전 주기를 효율적으로 수행할 수 있을 것으로 기대하고 있다.

"한국인 700만 명의 삶 담았다"… 한국 특화 페르소나 데이터셋 공개

한국 특화 생태계 조성을 위한 구체적 결과물도 공개됐다. 엔비디아 리서치의 김현우 연구원은 한국인의 문화와 현실을 반영한 '네모트론 페르소나 코리아(Nemotron Persona Korea)' 데이터셋을 발표했다.

김현우 엔비디아 연구원 (사진=지디넷코리아)

김 연구원은 기존 글로벌 대형언어모델이 한국 사회를 묘사할 때 '40%가 샐러드를 즐겨 먹고 사과 과수원을 운영한다'는 식으로 직업, 거주지, 식습관, 가족 형태 등에서 왜곡된 인물상을 생성하는 문제가 있다고 지적했다. 

잘못된 데이터 학습으로 인해 특정 지역 거주자 비율이 비현실적으로 높게 나오거나, 한국인의 생활상과 맞지 않는 직업 및 식문화가 과도하게 반영되고 있다는 설명이다.

이를 보완하기 위해 엔비디아는 통계청, 대법원, 국민건강보험 등 62개 통계 자료를 바탕으로 한국 사회의 분포와 문화적 특성을 반영한 합성 페르소나 데이터셋을 구축했다. 데이터셋 규모는 700만명 수준으로, 약 17억 토큰에 달한다.

김 연구원에 따르면 이 데이터셋은 연령, 성별, 지역, 혼인, 가족 구성, 주거 형태, 건강 지표 등 폭넓은 속성을 반영했다. 여기에 한국표준산업분류와 한국표준직업분류 체계를 적용해 8000개가 넘는 산업·직업 조합도 포함했다.

이름 데이터도 세대별 특성이 반영되도록 설계됐다. 엔비디아는 1940년대 이후 국내 이름 분포 데이터를 참고해 총 21만여개의 이름 데이터를 구성했으며, 이를 통해 세대별 정서와 시대상을 더 자연스럽게 반영할 수 있도록 했다.

엔비디아가 왜곡된 국내 데이터셋을 개선하기 위해 실제 국내 정보를 반영한 데이터셋을 선보인다(사진=지디넷코리아)

김 연구원은 "페르소나 데이터셋은 단순한 인물 프로필 모음이 아니라 한국 사회의 분포와 문화적 맥락을 반영한 합성 데이터 생성 기반"이라며 "국내 개발자들이 보다 현실적인 사용자 시나리오와 서비스를 설계하는 데 도움이 될 것"이라고 설명했다.

또 해당 데이터셋은 개인식별정보를 포함하지 않는 합성 데이터 형태로 설계됐으며, 허용적 라이선스(CC BY 4.0)로 배포돼 국내 기업과 개발자들이 비교적 자유롭게 활용할 수 있도록 했다.

현장에선 기술 세션 외에도 개발자 실무 역량 강화를 위한 프로그램도 함께 진행됐다. 과학기술정보통신부와 정보통신산업진흥원(NIPA) 후원으로 마련된 패널 토론에서는 정부의 '독자 AI 파운데이션 모델' 프로젝트와 연계해 국내 통신사 및 AI 스타트업 관계자들이 K-AI 생태계의 경쟁력 확보 방안을 논의했다.

또 국내 혁신가들이 엔비디아 전문가들과 함께 48시간 동안 에이전틱 시스템과 산업 특화 모델을 구축하는 '네모트론 해커톤'도 마련됐다. GTC 2026에서 소개됐던 실습형 AI 에이전트 구축 데모 '빌드-어-클로(Build-a-Claw)' 팝업 이벤트도 한국에서 처음 운영돼 참가자들이 직접 에이전트 AI 개발 경험을 체험할 수 있도록 했다.

관련기사

엔비디아는 이번 서울 행사를 계기로 국내 개발자 커뮤니티 및 기업과의 접점을 넓히고 협력 기반을 강화하겠다는 방침이다.

카탄자로 부사장은 "한국에는 수준 높은 AI 연구 조직과 기업이 다수 존재하며, 국내 기업들의 AI 추진 속도와 생태계 역동성이 매우 인상적"이라며 "이번 행사를 계기로 한국을 포함한 전 세계 생태계가 자체적인 AI 역량을 구축할 수 있도록 파트너십과 협업을 더욱 확대해 나가겠다"고 밝혔다.