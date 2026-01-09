국가대표 인공지능(AI) 모델 개발에 도전장을 던진 NC AI가 첫 결과물로 선보인 '배키(VAETKI)' 개발 과정을 담은 테크 리포트를 공개했다. 단순 성능 홍보를 넘어 모델 주권(소버린 AI) 관점에서 기술적 위치를 명확히 한 공식 문서란 점에서 업계의 주목을 받고 있다.

NC AI는 9일 오후 개발자 커뮤니티 깃허브에 '배키'의 테크 리포트를 공개했다. 이곳은 SK텔레콤, 네이버클라우드, LG AI연구원, 업스테이지 등과 함께 과학기술정보통신부 독자 AI 파운데이션 모델 개발 경쟁에 나선 상태로, 참가 업체 중 가장 늦게 테크 리포트를 업로드했다.

이연수 NC AI 대표 (사진=한정호 기자)

이번에 공개된 리포트를 바탕으로 최근 이승현 포티투마루 부사장이 직접 개발한 '소버린 AI 판별 도구(Sovereign AI T-Class evaluator 2.0)'에 분석해 본 결과, T4-1 등급으로 판정되며 '독자성'을 입증했다.



이 판별 기준은 '설계(Code)', '지능(Weights)', '기원(Data)' 등 세 가지 실체적 기준을 중심으로 AI 모델을 T0부터 T6까지 7단계로 구분한다. ▲단순 API 호출 및 미세조정 수준(T0~T1) ▲오픈 웨이트를 활용한 과도기 모델(T2~T3) ▲소버린 AI의 기준점이 되는 아키텍처를 참조하되 가중치를 처음부터 자체 학습한 T4 ▲독자 설계 아키텍처와 한국어 토크나이저를 갖춘 T5 ▲국산 반도체·클라우드까지 결합한 T6 등으로 분류됐다.



이 중 T4는 독자 AI 파운데이션 모델로 인정할 수 있는 '프롬 스크래치'의 기준점으로, 세부적으로 T4-1과 T4-2로 구분된다. T4-1은 표준 아키텍처를 그대로 유지한 채 가중치를 처음부터 학습한 모델로, 데이터 주권은 확보했지만 구조적 독창성은 제한적인 단계다. 반면 T4-2는 기존 아키텍처를 참고하되 레이어 구성, 파라미터 규모, 연산 구조 등을 최적화·확장한 모델로, 글로벌 표준을 활용하면서도 기술 주권까지 일정 수준 확보한 단계로 분류된다.





이에 따라 배키는 메타의 라마나 오픈AI 계열 모델 가중치를 기반으로 미세조정(SFT)한 방식이 아니라 가중치를 0에서부터 자체 학습했다는 점을 입증한 것으로 평가된다. 또 오픈소스 가중치에 의존하는 T2(SFT) 모델들이 겪는 이른바 '라이선스 전염' 문제에서 자유롭다는 점도 주목할 부분이다.



업계에선 배키가 표준 트랜스포머 계열 아키텍처를 기반으로 한 것으로 추정했다. 독자적인 어텐션 메커니즘이나 연산 그래프를 새로 설계한 흔적은 확인되지 않은 만큼, 코드 레벨까지 재설계한 단계에는 아직 이르지 않았다고 평가했다. 또 테크 리포트에 모델 학습시간의 부족으로 AIME 2025(수학 문제 해결 능력 평가), 라이브코드벤치 v6(LiveCodeBench v6, 코딩 능력 평가) 등 몇몇 성능 벤치마크 결과가 기재되지 않은 것이 아쉬운 점으로 분석됐다.

다만 사전 학습(Pre-training)은 전량 자체 수행했다는 점에 대해 긍정적으로 평가했다. 약 10조 토큰 규모의 대규모 코퍼스를 활용해 학습됐으며, 토크나이저 어휘의 20%를 한국어에 할당하고 고어 처리까지 가능한 한글 조합 기반 토크나이저를 적용해 한국어 특화 성능을 극대화한 것이 주목되는 부분이다.



NC AI의 자체 평가 결과에 따르면 배키 100B 모델은 오픈AI의 GPT-OSS, 메타의 라마 계열 등 글로벌 최상위(SOTA) 오픈소스 모델들과 비교해 대등하거나 상회하는 성능을 기록했다. 특히 한국어 주요 벤치마크 3종에서 GPT-OSS-120B 대비 평균 101% 수준의 성능, 글로벌 주요 벤치마크 평균에서는 라마 4 스카우트 대비 약 1.9배의 성능 우위를 보였다. 또 지시 이행 능력은 265%, 고난도 추론 영역에서는 137%의 수치를 기록했다.

배키는 단순 대형 모델이 아닌 산업 확산을 전제로 한 효율성 설계를 핵심 차별점으로 내세우고 있다. 혼합 전문가(MoE) 아키텍처를 도입하고, MLA(Micro Lens Array) 기반 차세대 어텐션과 국소-전역 인터리빙 기법을 결합해 KV 캐시 메모리 사용량을 약 83% 절감했다.

또 모델의 논리적 추론 과정을 노출하는 '싱크(think) 구조'를 채택해 국방·제조·금융 등 고신뢰 영역의 의사결정 지원을 겨냥했다. 라인업은 ▲초고성능 100B ▲범용 20B ▲온디바이스 7B 모델로 구성된다.

NC AI는 이번 테크 리포트 공개를 통해 글로벌 개발자·연구자 커뮤니티와의 기술 검증과 확산을 본격화할 계획이다. 특히 NC AI 배키는 5개 정예팀 중 SKT의 에이닷X K-1과 더불어 유이한 아파치 2.0 라이센스로 배포해 국내에서 가장 높은 수준의 개방성을 확보한 모델로 자리매김했다.

NC AI 관계자는 "기업들이 산업 특화 AI를 도입할 때 가장 큰 걸림돌은 '라이센스 종속성'"이라며 "모델을 도입해 막대한 비용을 들여 튜닝(Fine-tuning)했더라도, 원천 모델사의 정책이 바뀌거나 로열티를 요구하면 사업 리스크가 커지기 때문"이라고 설명했다.

그러면서 "하지만 아파치 2.0이 적용된 배키는 이러한 우려를 원천 차단한다"며 "기업은 이 모델을 뼈대 삼아 자유롭게 뜯어고치고, 재가공해 2차 저작물을 만들어도 온전한 소유권을 인정받는다"고 설명했다.

관련기사

NC AI는 산업 특화 AI가 성공하려면 원천 모델이 폐쇄적인 '블랙박스'가 아니라 누구나 믿고 쓸 수 있는 '공공재'에 가까워야 한다는 관점을 갖고 이번 모델 개발에 임했다. 이에 맞춰 '배키'는 기업들이 기술 종속 없이 자체 경쟁력을 확보할 수 있는 가장 안전하고 자유로운 선택지로 만들었다.

이연수 NC AI 대표는 "배키는 단순한 모델 공개를 넘어 대한민국 주력 산업이 AI를 무기로 글로벌 경쟁력을 확보하기 위한 전략 자산"이라며 "독자적인 도메인 옵스 기술을 기반으로 현장에서 실제로 작동하는 소버린 AI 생태계를 구축하겠다"고 밝혔다.