정부의 대규모 그래픽처리장치(GPU) 인프라 사업 경쟁이 장비 확보에서 운용 능력 중심으로 재편되고 있다. 최신 GPU 도입 여부보다 이를 얼마나 효율적으로 설계·운영할 수 있는지가 올해 사업 선정의 핵심 변수로 떠오른 가운데, 정부가 국내 기업들의 인프라 경쟁력을 끌어올리기 위해 본격 나선 모양새다.
30일 업계에 따르면 과학기술정보통신부는 다음달 13일까지 GPU 1만5000장을 구축하기 위한 사업자 공모에 나선다. 총 2조800억원을 투입해 GPU 서버와 부대 장비를 구매한 후 산·학·연에 공급할 예정으로, 최신 GPU를 신속히 확보하고 이를 대규모로 묶어(클러스터링) 구축·운용할 수 있는 민간 기업을 선정한다는 방침이다.
앞서 정부는 지난해 추가경정예산 1조4000억원을 투입해 확보한 엔비디아 B200 등 첨단 GPU 1만3000장을 NHN클라우드, 네이버클라우드, 카카오엔터프라이즈 등을 통해 구축했다. 또 이 물량을 최근 산·학·연에 3000장, 국가 프로젝트에 4000장, 독자 AI 파운데이션 모델에 3000장씩 배분했다. 또 지난 25일부터 산학연을 대상으로 2000장에 대한 추가 공모에도 들어갔다.
올해 5월 중 선정될 사업자는 연내 GPU 1만5000장 구축 및 서비스를 개시해 2031년 12월 31일까지 운영하게 된다. 이 물량 역시 산·학·연 및 국가 프로젝트를 대상으로 자원 배분과 운영이 이어진다.
이병묵 NIPA AI인프라확충팀장은 "올해 블랙웰급 이상의 최신 GPU 1만5000장 확보를 목표로 한다"며 "고성능 GPU를 대규모로 공급할 수 있는 사업자가 높은 평가를 받을 것"이라고 말했다.
정부는 이번 사업을 통해 참여 기업들의 기술 경쟁력을 끌어올린다는 목표다. 그간 GPU 물량 싸움 중심으로 인프라 구축 사업을 펼친 결과 수행 과정에서 한계가 곳곳에서 드러났던 탓이다.
특히 지난해 처음 GPU 구축 사업에 나서면서 일부 기업들이 H100, B200급을 확보해두고도 소프트웨어, 구성 문제로 실제 성능 효율이 낮은 사례가 발생하자 정부가 이에 대해 문제의식을 크게 느낀 것으로 알려졌다. 대규모 GPU 클러스터는 데이터 흐름과 메모리 구조, 네트워크 구성에 따라 전체 성능이 좌우되는 만큼 단일 장비 성능만으로는 효율을 담보하기 어렵다.
또 B200 도입에 따라 수냉식 등 최신 냉각 기술을 적용해야 함에도 불구하고 하중 보강 공사, 구조 변경 등이 빠르게 뒷받침 되지 못해 구축 일정이 지연되는 사례도 벌어지자 정부가 난감해 한 것으로 전해졌다.
업계 관계자는 "정부가 GPU 1만3000장 구축 사업을 진행하면서 GPU만 사오면 끝나면 사업이 아니란 점을 뼈저리게 느낀 듯 하다"며 "지난해엔 얼마나 GPU를 많이 확보하고 싸게 제안했는지를 중점적으로 들여다 본 탓에 정작 운용능력이 뒷받침되지 않아 정부도 속앓이를 많이 한 것으로 안다"고 지적했다.
이에 정부는 올해 사업 평가 기준을 대폭 수정했다. 단순한 장비 확보 능력보다 실제 운영 효율을 검증할 수 있는 요소들을 대거 평가 체계에 포함한 것이다.
실제 이번 사업의 주요 평가 항목 및 배점을 살펴보면 절반인 50점이 사업 준비도 및 경쟁력에 배정됐다. 이 중 인프라 준비도(18점)와 구축 계획의 구체성(32점)은 핵심 평가 항목으로 제시됐다. 특히 데이터센터 상면 확보 여부를 비롯해 전력·냉각 설비, 네트워크 구성, 자원 관리 체계 등 물리적·논리적 인프라를 종합적으로 검증하겠다는 방침을 내세웠다. 이는 단순 가격 경쟁이나 물량 확보보다 실제 대규모 GPU 클러스터를 구축해 안정적으로 운영할 수 있는 역량을 우선 보겠다는 의미다.
특히 32점이 배정된 구축계획 우수성은 정부가 이번 사업을 사실상 '설계 능력 평가'로 보고 있음을 보여준다. 어떤 GPU를 얼마나 들여오겠다는 수준을 넘어 이를 어떤 구조로 묶고 어떤 일정으로 구축하며 실제 서비스 단계까지 어떻게 연결할 것인지를 구체적으로 입증해야 높은 점수를 받을 수 있는 구조란 점에서다.
업계 관계자는 "GPU 활용 효율을 입증할 수 있는 성능 지표 제시가 요구되면서 사업자들의 부담이 한층 커진 상황"이라며 "실제 연산 효율을 얼마나 끌어올릴 수 있는지에 대한 구체적인 방법론과 결과를 함께 제시해야 하기 때문"이라고 말했다.
업계에선 이를 두고 정부가 사업 방향을 '물량 경쟁'에서 '효율 경쟁'으로 전환한 것으로 보고 있다. 동일한 GPU 환경에서도 메모리 활용 방식, 데이터 전송 구조, 추론 엔진 설계에 따라 처리 성능과 비용 효율이 크게 달라지기 때문이다.
이 과정에서 메모리 처리 구조와 데이터 흐름 최적화 등 소프트웨어 역량이 핵심 변수로 부상하고 있다. GPU 연산 성능이 높아도 메모리 대역폭이나 데이터 처리 구조가 이를 뒷받침하지 못할 경우 전체 성능이 제한되는 구조적 한계 때문이다.
이에 일부 기업들은 이러한 병목 현상을 해소하기 위해 추론 엔진 최적화, 모델 경량화, 데이터 처리 구조 개선 등 다양한 기술 경쟁을 벌이고 있다. 같은 GPU를 사용하더라도 운영 방식에 따라 처리 가능한 작업량이 크게 달라져서다.
업계 관계자는 "정부가 차세대 GPU인 '베라루빈' 제안 시 평가에 우대 조건으로 반영할 수 있도록 한 것도 이러한 흐름과 맞닿아 있다"며 "단순 도입 여부보다 고성능 장비를 안정적으로 운용할 수 있는 인프라 설계 능력을 함께 보겠다는 의미"라고 해석했다.
다만 베라루빈과 같은 차세대 GPU는 수냉 기반 구조 등으로 인해 기존 대비 장비 무게와 전력 요구 수준이 크게 높아지는 만큼, 일각에선 이를 수용할 수 있는 데이터센터 인프라 확보 여부가 새로운 변수가 될 것으로 봤다.
실제 올해 사업에서는 데이터센터 하중 구조를 사전에 점검해 제출하도록 하는 요건이 추가된 것으로 알려졌다. 지난해 일부 사업자가 수냉식 장비 도입 과정에서 구조 보강 문제로 일정 지연을 겪은 경험이 반영된 결과다.
업계 관계자는 "작년에는 장비 확보와 단가 경쟁이 중심이었다면, 올해는 성능 효율과 운영 구조까지 함께 검증하는 방향으로 완전히 바뀌었다"며 "실제 서비스를 돌릴 수 있는 수준의 설계 역량을 갖추지 않으면 사업 참여 자체가 쉽지 않은 구조"라고 밝혔다.
관련기사
- 삼성SDS, 국내 최초 B300 GPU 서비스 출시…기업 AI 추론 시장 공략2026.03.23
- 엔비디아 "H200 GPU 中 수출 재개, 미·중 양국 승인 확보"2026.03.18
- "美 상무부, AI 칩 수출 강화안 폐기...새 규제 검토 지속"2026.03.15
- 엔비디아, 차세대 AI GPU '루빈' 공개2026.01.06
전문가들은 이번 사업이 국내 AI 인프라 경쟁 방식 자체를 바꾸는 계기가 될 것으로 보고 있다. 단순한 하드웨어 투자에서 벗어나 소프트웨어와 운영 기술까지 포함한 종합 경쟁력 확보가 요구되고 있기 때문이다.
또 다른 관계자는 "이제는 GPU를 얼마나 확보했는지가 아니라 같은 자원으로 얼마나 높은 효율을 내느냐가 경쟁력의 핵심"이라며 "이번 사업은 국내 기업들이 글로벌 수준의 인프라 운용 역량을 갖추도록 유도하는 전환점이 될 것"이라고 말했다.











