[유미's 픽] "주사위는 던져졌다"…국대 AI 첫 탈락자, 1차 발표회서 판가름?

모델 성과 엇갈린 5개팀, 1월 15일 탈락 가를 첫 관문 마무리…1차 목표 달성률이 관건

컴퓨팅입력 :2025/12/31 17:59    수정: 2025/12/31 20:00

우리나라를 대표할 인공지능(AI) 모델을 선발하는 정부 사업 '독자 AI 파운데이션 모델 프로젝트'의 첫 결과물이 공개된 가운데 어떤 기업이 이번 심사에서 살아남을지 관심이 집중된다. 각 사업자들이 내세운 모델의 성과가 달라 정부가 심사기준을 어떻게 세웠을지도 관심사다.

31일 업계에 따르면 네이버, LG AI연구원, SK텔레콤은 AI 임원, NC AI와 업스테이지는 대표가 지난 30일 오후 2시부터 서울 강남구 코엑스에서 개최된 독자 AI 파운데이션 모델 프로젝트 1차 발표회에 참여했다. 발표는 네이버를 시작으로 NC AI, 업스테이지, SK텔레콤, LG AI연구원 순서로 진행됐다.

독자 AI 파운데이션 모델 프로젝트는 그래픽처리장치(GPU)와 데이터 등 자원을 집중 지원해 국가 대표 AI 모델을 확보하는 정부 사업이다. 과학기술정보통신부는 이번 발표를 기반으로 심사를 통해 내년 1월 15일 1개 팀을 탈락시키고, 이후에도 6개월마다 평가를 거쳐 2027년에 최종 2개 팀을 선정한다.

모델 성과 제각각…정부 심사 기준이 관건

이번 심사에선 각 팀이 주어진 공통 과제를 얼마나 잘 수행했는지, 각자 제시한 목표대로 성과를 냈는지가 관건이다. 모든 팀은 최근 6개월 내 공개된 글로벌 최고 모델 대비 95% 이상의 성능을 달성해야 하는 과제가 주어진 상태다.

지난 8월 정예팀으로 선정된 지 4개월만에 첫 성과를 공개해야 하는 만큼, 개발 시간이 부족한 상황에서 각자 기술력을 얼마나 끌어올렸을지도 관심사다. 각 팀의 GPU 지원 여부, 지원 받은 시기 등이 각각 달랐다는 점에서 정부가 이를 심사 시 고려할 지도 주목된다. 

이번 프로젝트를 위해 SK텔레콤과 네이버클라우드는 정부에게 GPU를 임대해주고 있다. 이 탓에 두 업체는 올해 '독자 AI 파운데이션 모델 프로젝트' 진행 시 정부로부터 GPU를 지원 받지 못했다. SK텔레콤은 엔비디아의 B200 칩 1천24장을 업스테이지와 LG AI연구원에, 네이버클라우드는 H200 칩 1천24장을 NC AI에 지원하고 있다. 이 탓에 GPU가 각 업체에 지원된 시기는 다 달랐다.

독자 AI 파운데이션 모델 프로젝트 1차 발표회(이미지=과기정통부)

업계에선 정부가 어떤 기준을 세울지에 따라 각 팀의 승패가 갈릴 것으로 봤다. 정부는 그간 5개팀과 여러 차례 만나 평가 기준에 대해 논의 후 이달 중순께 합의를 보고 공지했으나, 어떤 팀이 탈락할 지에 따라 여전히 논란의 불씨가 많은 것으로 알려졌다.

업계 관계자는 "당초 5개 팀이 선정될 당시 정부에 제시했던 목표치를 달성했는지가 가장 중요할 것"이라며 "각 팀이 목표로 하고 있는 모델의 크기, 성능, 활용성이 제각각인 만큼 목표 달성률을 가장 중요한 기준치로 삼아야 할 것"이라고 강조했다.

이어 "벤치마크를 활용한다는 얘기가 있지만 모델 크기가 클수록 다운로드 수 측면에서 불리할 수 있어 이를 객관적 기준으로 삼기에는 다소 무리가 있을 수 있다"며 "5개 팀과 정부가 어떤 기준에 대해 합의를 했는지, 어떤 전문가를 앞세워 심사에 나설지도 주목해야 할 부분"이라고 덧붙였다.

5개 팀 첫 성과 공개…프롬 스크래치·모델 크기·활용성 주목

이번 1차 결과 공개에서 가장 주목 받는 곳은 업스테이지다. 대기업 경쟁자들 사이에서 짧은 시간 내 '프롬 스크래치(From Scratch)'를 기반으로 가성비 최고 수준인 모델을 완성도 높게 공개했다는 점에서 많은 이들의 호응을 얻었다. 프롬 스크래치는 AI 모델을 처음부터 직접 개발한다는 뜻으로, 데이터 수집과 모델 아키텍처 설계, 학습, 튜닝까지 모든 것을 자체적으로 수행하는 방식이다. 

이 개념은 거대언어모델(LLM) 개발 때 많이 언급되며 아무 것도 없는 상태에서 모델을 직접 설계하고 데이터를 수집 및 전처리해 학습시킨다는 점에서 이를 통해 AI 모델을 선보일 경우 기술력이 상당히 높다고 평가를 받는다. 오픈AI의 'GPT-4'나 구글 '제미나이', 메타 '라마', 앤트로픽 '클로드' 등이 여기에 속한다.

업스테이지는 이날 독자 파운데이션 모델 '솔라 오픈 100B'를 LM 아레나 방식으로 해외 유명 모델들과 비교해 공개하며 자신감을 표출했다. 특히 발표에 직접 나선 김성훈 대표가 '솔라 오픈 100B'를 개발하게 된 과정을 스토리텔링 형식으로 발표해 호응을 얻기도 했다. 김 대표는 향후 200B, 300B 모델과 함께 멀티모달 모델도 선보일 예정이다.

업계 관계자는 "김 대표가 발표 때 딥 리서치나 슬라이드 제작 등 코딩 외에 실제로 현장에서 많이 써봤을 것 같은 서비스를 직접 라이브 데모로 보여준 부분이 인상적이었다"며 "504장의 B200 GPU로 두 달 남짓 훈련한 것을 고려하면 모델 크기나 사용된 토큰수(추정)를 정말 빡빡하게 잘 쓴 게 아닌가 싶다"고 평가했다.

이승현 포티투마루 부사장은 "(업스테이지 발표 때) 솔라 프로가 'GPT-4o-미니'나 '파이-3 미디엄'보다 벤치마크가 높아 동급 사이즈에선 가장 우수하다고 했는데, 실제 가성비가 최고 수준인 것으로 보인다"며 "당장 기업들이 가져다 쓰기에도 좋을 것 같다"고 말했다. 

이어 "그동안 업스테이지의 상징과도 같았던 DUS(구조 일부를 변경해 자체화한 AI 모델 개발 방식)를 넘어 프롬 스크래치로 모델을 개발했다는 점이 인상적"이라며 "기술 리포트가 없는 게 아쉽지만, 모델 카드에 프롬 스크래치를 기재한 것과 함께 API도 공개해 자신감을 드러낸 것이 국가대표로 내세우기 적합해 보였다"고 덧붙였다.

김성훈 업스테이지 대표 (사진=지디넷코리아 DB)

배경훈 과학기술정보통신부 부총리 겸 장관을 배출한 LG AI연구원도 이번 발표가 끝난 후 개발 중인 모델이 국가대표로 인정받기에 손색이 없다는 평가를 받았다. 이곳은 '엑사원 4.0' 아키텍처를 기반으로 파라미터 크기를 약 7배 키워 초기화한 상태에서 새로 학습시킨 'K-엑사원'을 이번에 공개했다. 'K-엑사원'은 매개변수 236B 규모의 프런티어급 모델이다.

LG AI연구원에 따르면 'K-엑사원'은 개발 착수 5개월 만에 알리바바의 '큐웬3 235B'를 뛰어 넘고 오픈AI의 최신 오픈 웨이트 모델을 앞서 글로벌 빅테크 최신 모델과 경쟁할 수 있는 가능성을 입증했다. 글로벌 13개 공통 벤치마크 평균 성능 대비 104%를 확보했다는 점도 눈에 띄는 요소다.

LG AI연구원은 "기존 엑사원 4.0 대비 효율성을 높이면서도 메모리 요구량과 연산량을 줄여 성능과 경제성을 동시에 확보했다"며 "특히 전문가 혼합 모델 구조(MoE)에 하이브리드 어텐션 기술을 더해 메모리 및 연산 부담을 70% 줄이고, 고가의 최신 인프라가 아닌 A100급 GPU 환경에서 구동할 수 있도록 했다"고 설명했다.

이곳은 향후 조 단위 파라미터 규모 글로벌 최상위 모델과 경쟁할 수 있도록 성능을 고도화한다는 계획이다. 또 글로벌 프론티어 AI 모델을 뛰어넘는 경쟁력을 확보해 한국을 AI 3강으로 이끌 것이란 포부도 드러냈다.

이번 발표를 두고 업계에선 LG AI연구원이 5개 팀 중 기술적인 내용이 가장 많이 들어있어 신뢰도가 높았다고 평가했다. 또 추론 강화를 위해 아키텍처를 변형하고 커리큘럼 러닝을 적용했다는 점에서 모델이 '프롬 스크래치'임을 명백히 보여줬다고 평가했다. 다만 동일 아키텍처인 32B 모델의 리포트와 가중치만 공개돼 있고, 이번 모델인 236B는 공개하지 않았다는 점은 아쉬운 대목으로 지적됐다.

업계 관계자는 "'K-엑사원'은 구조, 가중치가 완전 국산이란 점에서 통제권과 설명 가능성이 충분히 확보돼 있다고 보인다"며 "국방, 외교, 행정망 등 국가 핵심 인프라에 충분히 쓰일 수 있을 듯 하다"고 말했다.

그러면서도 "이번 발표에서 자체 MoE나 하이브리드 어텐션(hybrid attention, 효율·성능을 위해 다양한 어텐션 방식을 상황별로 혼합한 구조), 아가포(AGAPO, 어텐션·파라미터 사용을 입력에 따라 동적으로 조절하는 내부 최적화 기법) 같은 기술들에서 인상 깊은 것이 없다는 것은 아쉽다"며 "다음에는 실질적 효과에 대한 정량적 수치가 잘 기술되면 좋을 듯 하다"고 덧붙였다.

SK텔레콤도 이번 발표에서 많은 이들의 주목을 받았다. 짧은 시간 안에 국내 최초로 매개변수 5천억 개(500B) 규모를 자랑하는 초거대 AI 모델 'A.X K1'을 공개했기 때문이다.

특히 모델 크기가 경쟁사보다 상당히 크다는 점에서 AI 에이전트 구동 등에서 유리한 고지에 있다는 일부 평가도 나오고 있다. SK텔레콤은 모델 크기가 성능과 비례하는 AI 분야에서 한국이 AI 3강에 진출하려면 500B 규모의 AI 모델이 필수적이란 점을 강조하며 톱2까지 오를 것이란 야심을 드러내고 있다. 


또 SK텔레콤은 모두의 AI를 목표로 기업과 소비자간 거래(B2C)와 기업간거래(B2B)를 아우르는 AI 확산 역량도 강조했다. 여기에 SK하이닉스, SK이노베이션, SK AX 등 관계사와 협업으로 한국의 AI 전환에 이바지하겠다는 포부도 밝혔다.

다만 일각에선 프롬 스크래치로 모델을 개발했는지에 대한 의구심을 드러내고 있어 심사 시 이를 제대로 입증해야 할 것으로 보인다. SK텔레콤은 MoE 구조라고 강조했으나, 각 전문가 모델들이 자체 개발인지, 오픈소스 튜닝인지 밝히지 않아 궁금증을 더했다. 또 모델카드는 공개했으나, 테크니컬 리포트를 공개하지 않았다는 점도 의구심을 더했다.

이승현 포티투마루 부사장은 "MoE 구조를 독자 개발했다면 보통 자랑스럽게 논문을 내는 것이 일반적"이라며 "SKT가 'A.X 3.1(34B)'라는 준수한 프롬 스크래치 모델이 있으나, 이를 15개 정도 복제해 MoE 기술로 묶은 것을 이번에 'A.X K1'으로 내놓은 것이라면 혁신은 아니라고 보여진다"고 평가했다.

이어 "정량적 벤치마크보다 서비스 적용 사례 위주로 발표가 돼 기술적 성취보다 '서비스 운영 효율'에 방점이 찍힌 듯 했다"며 "SKT가 'A.X 3.1' 모델 카드에 프롬 스크래치를 분명히 명시했지만, 이번에는 명시하지 않아 소버린 모델로 활용할 수 있을지에 대해선 아직 판단이 이르다"고 덧붙였다.

업계 관계자는 "SKT가 500B 모델을 만든다는 것을 사전에 알고 우려가 많았지만, 다른 팀에 비해 성공적으로 압도적으로 큰 모델을 공개했다는 것 자체는 굉장히 인상적"이라며 "내년 상반기까지 정부에서 지원하는 GPU를 쓰지 않기 때문에 SKT가 얼마나 많은 GPU를 투입했는지 알 수는 없지만, 500B를 충분히 학습하기에는 (성능을 끌어 올리기에) 시간이 부족했을 것 같다"고 말했다.

그러면서도 "2T까지 만들겠다는 포부는 높이 평가한다"며 "성공적인 2T 모델이 나오기를 기대한다"고 부연했다.

성낙호 네이버클라우드 기술총괄 (사진=지디넷코리아 DB)

네이버클라우드는 국내 최초 네이티브 옴니모달 구조를 적용한 파운데이션 모델 '하이퍼클로바 X 시드 8B 옴니'를 오픈소스로 공개하며 자신감을 드러냈다.

이곳은 독자 AI 파운데이션 모델 전략 핵심으로 텍스트·이미지·음성을 통합한 '옴니 모델'을 제시했다. 옴니 모델은 텍스트, 이미지, 오디오, 비디오 등 다양한 데이터 형태를 하나의 모델에서 동시에 학습하고 추론하는 구조다. 사후적으로 기능을 결합하는 방식이 아닌, 처음부터 모든 감각을 하나의 모델로 공동 학습시키는 점이 기존 모델과의 차별점이다.

또 네이버클라우드는 기존 추론형 AI에 시각·음성·도구 활용 역량을 더한 고성능 추론모델 '하이퍼클로바 X 시드 32B 씽크'도 오픈소스로 공개했다. 이 모델은 올해 대학수학능력시험(수능) 문제를 풀이한 결과 국어·수학·영어·한국사 등 주요 과목에서 모두 1등급에 해당하는 성과를 거뒀다. 영어와 한국사에서는 만점을 기록했다.

네이버클라우드 성낙호 기술총괄은 "옴니 모델 기반 구조는 그래프·차트·이미지 등 시각 정보 해석에서 별도의 광학문자인식(OCR)이나 복수 모델 호출이 필요 없다"며 "개발과 운영 구조가 단순해지면서 구축 비용과 서비스 확장 부담도 크게 낮출 수 있다"고 강조했다.

업계에선 네이버클라우드의 발표를 두고 실제 '애니-투-애니(Any-to-Any) 모델'을 작은 사이즈로 공개한 부분에 대해 인상적이라고 평가했다. '애니-투-애니 모델'은 입력과 출력의 모달리티(형식)를 가리지 않고 어떤 조합이든 처리할 수 있는 멀티·옴니모달 모델이다.

또 유일하게 '덴스(Dense) 모델'을 썼다는 점도 주목을 받았다. '덴스 모델'은 모든 파라미터가 매번 계산에 참여하는 전통적인 모델 구조로, 어떤 것을 입력하든지 항상 같은 경로로 계산이 돼 지연 시간과 비용이 MoE에 비해 안정적이라고 평가된다.

이로 인해 네이버클라우드는 경쟁사들에 비해 전체 파라미터 수는 굉장히 작아 평가 시 다소 불리한 위치에 놓여 있다는 의견도 있다. 당초 1차 심사 때 14B를 선보일 것이라고 목표했던 것과 달리 모델 크기가 8B에 그쳤다는 점도 아쉬운 점으로 지목됐다.

업계 관계자는 "네이버가 태생부터 멀티모달인 '네이티브 옴니' 아키텍처를 설계했다는 점에서 방향성이 완벽하고 독자모델로도 입증을 했지만, 경량 모델을 공개했다는 점이 아쉽다"며 "거대 모델로 스케일업 했을 때의 추론 능력과 비용 효율성이 아직 검증되지 않았다는 것이 우려된다"고 짚었다.

이어 "옴니모달은 구글, 오픈AI도 지향하는 최신 아키텍처"라며 "네이버가 이를 '패치워크(여러 모델 붙이기)'가 아닌 '네이티브'로 구현했다고 강조했다는 점에서 소버린 모델로는 충분한 가치가 있다"고 덧붙였다.

NC AI는 이연수 대표가 직접 발표에 나서 산업 특화 AI를 위한 파운데이션 모델 '베키(VAETKI)'를 소개했다. 또 1단계 추진 과정에서 고품질 한국어·산업 특화 데이터를 확보하고 100B급 LLM 개발도 마쳤다고 공개했다.

NC AI에 따르면 현재 베키는 제조·물류·공공·국방·콘텐츠 등 28개 이상 산업 현장에 적용돼 실질적인 성과를 창출하고 있다. NC AI는 AI 모델 바로크에 3차원(3D) 생성 기술이 결합된 바로크 3D를 활용해 전 산업군에 최적화된 버티컬 AI 설루션을 제공한다는 계획이다.

이 대표는 "우리는 1차로 100B(1천억 개)급 파운데이션 모델의 틀을 마련했다"며 "2차에서 200B, 3차에서 300B급으로 글로벌 모델급 성능을 달성하려고 한다"고 강조했다.

업계에선 NC AI의 이번 발표를 두고 경쟁력 있는 모델을 다수 보유하고 있는 것에 비해 전달력이 미흡했다고 평가했다. 100B 모델과 함께 서비스에 특화된 7B, 20B, VLM 7B까지 다양한 모델을 준비했으나, 발표 구성이 미흡해 강점이 충분히 전달되지 못했다는 의견도 나왔다.

업계 관계자는 "NC AI의 텍스트로 3D 에셋을 만드는 성능은 확실한 산업적 가치를 보여주지만, 그 이상의 것은 없어 아쉽다"며 "100B 모델을 기반으로 게임에 특화된 AI 활용을 좀 더 많이 보여줬다면 훨씬 좋았을 것 같다"고 말했다.

성과 확인 '끝'…1차 발표회 호평 속 투명한 검증 '과제'

업계에선 이번 1차 발표회의 전반적인 진행에 대해 긍정적인 평가와 함께 정부가 앞으로 조금 더 구체적인 국가대표 AI 육성 평가를 내놓을 필요가 있다고 지적했다. 이번 발표회에서 소버린 AI를 강조하는 곳은 많지만, 그 실체를 증명하는 기준이 조금 느슨해보였다는 평가도 나왔다.

업계 관계자는 "이번 발표회에서 각 팀들이 얼마나, 어떻게 혁신적인 모델을 개발해 공개했는지에 대한 구체적인 설명이 없어 아쉬움이 컸다"며 "단순한 제품 홍보 발표회 느낌을 많이 받았지만, 단기간에 모든 팀이 굉장한 일을 정부 지원을 토대로 해냈다는 것에 대해선 기대감을 가지게 했다"고 밝혔다.

이어 "최소 100B급 이상의 모델을 학습시킬만한 인프라 운용과 더불어 학습 노하우를 갖추고 있어 보여 좋았다"며 "단기간 내 실험 시간의 물리적 제한이 있었음에도 기본적으로 초거대 AI 모델을 학습시킬 기본 역량은 대부분 갖췄다고 보여져 놀라웠다"고 덧붙였다.

그러면서도 "2차 발표에선 오거나이징 하는 측에서 명확한 발표 가이드를 제시해주면 더 좋을 것 같다"며 "김성훈 업스테이지 대표의 말처럼 국민 세금이 많이 투입되고 있기 때문에 짧지만 굉장히 효과적인 발표회가 앞으로도 진행될 수 있길 바란다"고 언급했다.

관련기사

배경훈 과기정통부 부총리 겸 장관 (사진=지디넷코리아 DB)

또 다른 관계자는 "독자 AI 파운데이션 모델의 핵심은 어떤 데이터로, 어떤 아키텍처를 써서 어떤 방식으로 학습했는지가 투명해야 한다"며 "그 결과물은 글로벌 시장에서 통할 수 있는 객관적 수치로 증명돼야 하고, 각 팀들은 기술 리포트와 모델 카드를 의무적으로 공개해야 제대로 프롬 스크래치로 개발했는지 검증할 수 있다"고 강조했다.

그러면서 "프롬 스크래치가 만능은 아니지만 투명성은 필수"라며 "무늬만 국가대표가 아닌 실력 있는 국가대표를 가려내기 위해선 마케팅의 거품을 걷어내고 기술의 족보를 따지는 엄격한 검증 시스템이 필요하다고 본다"고 덧붙였다.