씨이랩 "GPU, 효율적 관리와 자동화가 산업경쟁력 좌우"

[인터뷰] 송유진 CTO "우리가 개발 '아스트라고' 80% 효율 달성...언제든 고객 지원"

인터뷰입력 :2025/11/10 10:02    수정: 2025/11/10 11:00

우리나라가 미국 엔비디아의 고성능 GPU 26만 장을 오는 2030년까지 순차적으로 들여온다. 이들 26만장 칩(GPU)은 정부가 5만장, 네이버가 6만장, 삼성전자가 5만장, SK그룹이 5만장, 현대차가 5만장 각각 도입, 사용할 예정이다. 

이들 GPU 도입은 '첨단기술 수입'일 뿐 아니라 국가 인공지능(AI) 경쟁력의 핵심 인프라를 확보하는 일이기도 하다. 고성능 GPU는 AI 모델 학습(Training) 과 추론(Inference)에 절대적으로 필요한 자원이다. 하지만 가격이 매우 비싸다. 한 장당 수천만 원에서 억대까지 가며, 전력소모도 높다. 또 GPU는 한 번에 특정 작업만 수행하므로, 비효율적 배분이나 낮은 활용률이 발생하면 전체 자원의 50~70%가 놀게 된다. GPU 사용 효율이 국가와 기업의 경쟁력인 이유다.

씨이랩(Xiilab, 대표 윤세혁·채정환)은 GPU를 효율적으로 사용하게 해주는 전문 AI기업이다. 국내에 이런 기업이 3~4곳 있다. 외국에서는 작년 12월 엔비디아가 약 7억 달러(약 1조원)에 인수한 '런AI( Run:AI)'가 대표적이다. 씨이랩의 GPU 효율화 솔루션 이름은 '아스트라고(AstraGo)'다. 현재 두산디지털이노베이션 등 대기업 그룹사와 대학 등 여러 연구개발센터에서 사용하고 있다.

서울 강남 사옥에서 지난주 만난 씨이랩 송유진 최고기술임원(CTO)은 "(GPU가) 최대 100% 효율이 나오게 하는 것이 우리 솔루션이 하는 일"이라면서 "GPU 하나를 찢어 잘라서 쓰게하는 등 여러 효율적 GPU 사용 기술을 확보하고 있다"고 들려줬다.

그는 "아직 엑셀로 (GPU를) 관리하는 데가 많다"며 "기업과 국가경쟁력 차원에서라도 이런 '주먹구구'는 벗어나야 한다"고 강조했다. 특히 자사 GPU 효율 관리 솔루션 '아스트라고'를 맛있는 음식에 빗대며 "우리 제품은 우리가 내부서 먼저 써보고 내보낸다. 훌륭한 음식을 만드는 요리사가 직접 맛을 보고 서빙하는 것과 같다"면서 "고객 요청이 있을땐 언제든 빠르게 대응하는 것도 우리가 가진 경쟁력"이라고 밝혔다.

아래는 송유진 씨이랩 CTO와 일문일답. 송 CTO는 약 20년 간 글로벌 및 국내 테크기업에서 핵심 서비스를 주도하며 기술 리더십을 쌓아온 전문가다. 삼성전자 반도체 사업부에서 커리어를 시작해 소프트웨어(SW) 개발, 데이터 분석, 클라우드 아키텍처 설계까지 아우르는 풀 스택 역량을 갖췄다. 인터파크 등 주요 플랫폼 기업에서 AI 데이터 기반 서비스 고도화와 글로벌 프로젝트를 총괄하며 기술전략과 제품개발 리더십도 쌓았다. 미국 USC 대학에서 석사학위를 받았다.

송유진 씨이랩 CTO가 지디넷코리아와 인터뷰를 하고 있다. 송 CTO는 약 20년 간 글로벌 및 국내 테크기업에서 핵심 서비스를 주도하며 기술 리더십을 쌓아온 전문가다.

-현재 씨이랩에서 맡고있는 역할과 주요 연구 방향은?

"씨이랩의 전사 기술총괄(CTO)로 그룹의 AI 플랫폼 기술 고도화를 이끌고 있다.우리 회사 핵심 솔루션인 AstraGo(아스트라고)를 중심으로 GPU 클러스터 효율화, 자원 자동화, 하이퍼스케일 인프라 관리 기술을 고도화하고 있다. 또 비전 AI와 디지털 트윈 통합 플랫폼 개발을 통해 씨이랩의 AI 기술 경쟁력을 강화하고 있다. 지난 4월 씨이랩에 합류했다."

-최근 AI 인프라 시장의 GPU 수요가 크게 늘고 있다. 현재 기술 트렌드를 어떻게 보고 있나

"AI산업은 소버린 AI(Sovereign AI)를 중심으로, GPU는 더 이상 연구개발용 연산 장비가 아니라 모델 학습부터 추론·운영까지 산업 전반을 지탱하는 핵심 인프라로 자리잡고 있다. 최근 엔비디아가 한국 정부 및 주요 기업들과 협력해 26만 개의 고성능 GPU를 공급하기로 한 것은 그 상징적인 사례다.

올해들어 글로벌 국가 단위의 AI 컴퓨팅망을 구축하고, 주요 기업들이 AI 전용 데이터센터 투자를 확대하면서 GPU 수요는 물론 자원 활용 효율과 클러스터 관리 기술 중요성이 더욱 높아졌다. 이제는 단순히 GPU를 많이 보유하는 것 보다, 얼마나 효율적으로 관리하고 자동화할 수 있는가가 산업 경쟁력을 좌우한다고 생각한다.

씨이랩 또한 이에 대응하기 위해 GPU 자원 최적화와 운영 자동화 기술을 중심으로 아스트라고를 고도화해 왔다. 이를 통해 기업이 GPU 활용률을 높이고, 안정적인 AI 서비스 운영이 가능한 AI 인프라 오케스트레이션 플랫폼으로 도약하는데 기여하고 있다."

-앞으로 추세가 네오클라우드(Neocloud) 쪽으로 간다고 했는데..

"네오클라우드’는 AI 연산에 특화한 클라우드 인프라를 말한다. 보통의 범용 클라우드(AWS, Azure, Google Cloud)가 CPU 중심으로 다양한 워크로드(웹앱, 데이터베이스, 스토리지 등)를 지원하는 반면, 네오클라우드는 GPU와 AI/ML 워크로드(대형언어모델, 이미지/비디오 처리 등)에 최적화한 인프라를 제공한다. 

우리나라가 26만 개 엔비디아 GPU를 들여오는데 정부가 말하는 AI 3대 강국을 달성하려면 도입 이후가 중요하다. 이들 GPU들을 어디다 설치하고 어떻게 관리할 것이냐가 숙제로 떠올랐다. 클라우드 서비스로 할 것이냐, IDC를 구축해 관리할 것이냐 등 아직 결정해야 할 사항이 많다. 나는 앞으로의 트렌드가 네오클라우드로 갈 것으로 보며, 국내에도 이런 서비스들이 더 중요해질 것으로 본다."

'아스트라고(AstraGo)' 기술 구조와 경쟁력

-씨이랩의 '아스트라고'는 어떤 기술적 원리로 GPU 효율성을 높이나?

"아스트라고(AstraGo)는 쿠버네틱스(Kubernetes) 기반의 GPU 클러스터 관리 플랫폼이다. GPU, CPU, 메모리 등 자원을 통합 제어해 AI 워크로드에 따라 자동 분배·회수하는 구조를 갖고 있다. 자원 최적화 정책을 통해 유휴 GPU를 자동 회수 및 재할당하고, 멀티인스턴스 GPU(MIG)와 멀티 프로세스 서비스(MPS) 기술을 적용, 단일 GPU에서도 학습과 추론 작업을 병렬로 수행할 수 있다. 또 실시간 모니터링으로 자원 상태를 시각화하고 병목을 즉시 탐지, 안정적인 운영을 지원한다. 이를 통해 기업은 GPU 활용률을 대폭 높이고 인프라 관리 비용을 크게 절감할 수 있다."


-타사 GPU 관리 솔루션과 비교했을 때 '아스트라고'만의 경쟁력은?

"'아스트라고'는 GPU자원 관리 뿐 아니라 AI 인프라 운영 전주기를 통합 지원한다는 점에서 경쟁력이 있다. AI 전담 조직을 통해 GPU 구축부터 활용 및 운영, 유지보수까지 AI 전주기 과정을 지원한다. 우리 '아스트라고'는 GPU 활용 효율화와 운영 안정성 및 경제성에 초점을 두고 설계했다. 이에, 작업자는 AI 인프라의 생산성과 운영 효율을 동시에 극대화하고 관리자는 복잡한 인프라를 손쉽게 운영할 수 있다.

또 HPE·델(Dell)·엔비디아(NVIDIA) 등 주요 글로벌 서버와 연동되는 하드웨어-소프트웨어 통합 관리 체계를 갖춘 것도 차별점이다. 이와 함께 국내 기업 환경에 최적화한 구독형 모델과 AI 전문 엔지니어의 맞춤형 컨설팅 및 현장 지원을 받을 수 있어, AI 인프라의 구축-운영-유지보수를 한 플랫폼에서 해결할 수 있다. 기업 조직 목적과 규모에 따른 맞춤형 및 빠른 지원이 가능하다. 기술을 잘 모르는 경영진에게 어디서 얼마나 GPU를 사용하는 지를 알려주는 기술 리포팅도 제공한다."

송유진 씨이랩 CTO. 미국 USC 대학에서 석사학위를 받았다.

AI 전담 조직 통해 GPU 구축부터 활용 및 운영, 유지보수까지 AI 전주기 지원...맞춤형 및 빠른 지원도 장점

-아마존은 자사가 공급하는 서비스와 솔루션을 내부서 먼저 사용해보고 외부에 판매한다. '아스트라고'도 그렇다는데...

"그렇다. 우리가 개발한 거는 우리가 먼저 사용해본다. 맛있는 음식을 만든 셰프가 자신이 만든 걸 먼저 먹어봐야 하지 않나. 우리는 고객의 피드백을 듣기 전에 우리가 먼저 써본다. 우리처럼 하는 곳이 드문것으로 알고 있다."

-'아스트라고'는 어떤 산업이나 기업 환경에서 도입 효과가 크나

"대기업 데이터센터와 연구기관, 공공 AI 컴퓨팅 인프라 등 GPU 자원을 다량 운용하는 조직에서 도입 효과가 크다. 조직 규모와 환경 목적에 맞춘 솔루션으로 평가받고 있다. 대기업 및 그룹 데이터센터는 GPU 클러스터 통합 관리와 자원 최적화 기술을 통해 운영비 절감 및 추론 속도 향상 등의 효과를 거둘 수 있다. R&D센터나 대학, 연구기관에는 다수 사용자가 동시에 실험할 수 있는 공정하고 효율적인 환경을 제공, AI 연구 환경 구축에 도움을 준다. 또 국가 단위 AI 컴퓨팅망 구축 사업에도 적용, 대규모 GPU 클러스터 통합 관리와 실시간 자원 최적화로 안정적이고 비용 효율적인 공공 AI 인프라 환경을 구현한다."

-아직 많은 기업들이 GPU 관리를 엑셀로 한다고?

"그렇다. 고객사들이 가장 어려워하는 것이 GPU 효율적 사용과 관리를 어떻게 하는냐 인데, 우리 아스트라고는 이를 해결해준다. 하지만 아직 GPU 관리를 엑셀로 하는 데가 많다. 그러가 보니 비 효율적 GPU관리가 이뤄진다. GPU는 전기를 많이 쓴다. 국가 전체적으로도 낭비다. 우리 '아스트라고'를 사용하면 사용전보다 80%의 GPU관리 효율 상승을 거둘 수 있다."

■ 기술 도입 효과 및 실제 사례

-GPU 클러스터 운영에서 고객들이 가장 어려워하는 부분은 무엇이가? 또 '아스트라고'는 이를 어떻게 해결해주나?

"많은 기업이 AI 인프라를 도입할 때 전문인력 부족과 복잡한 클러스터 운영을 가장 큰 어려움으로 꼽는다. GPU 클러스터는 하드웨어 구성, 네트워크, 스케줄링, 라이브러리 버전 관리 등 다양한 요소가 유기적으로 맞물려야 한다. 이 때문에 전문 인력이 없으면 관리 효율이 급격히 떨어진다. 이에, 일반적으로 기업의 GPU 낭비율이 약 60% 정도다.

'아스트라고'는 자동화한 오케스트레이션 구조를 통해 별도의 전문 인력 없이도 1분 내로 AI 학습 환경을 구성하고, GPU 자원을 자동 분배 및 회수하며, 실시간 모니터링으로 효율을 극대화해준다. 또 구독형 모델을 통해 초기 투자 비용 부담을 낮췄다. 중소기업 등 다양한 형태의 기업이 안정적인 AI 인프라를 운용할 수 있다."

-현재 '아스트라고'는 어떤 형태로 판매 및 확산하고 있나?

"아스트라고는 라이선스형 소프트웨어, 온프레미스형 설치형, AI 어플라이언스 패키지형 등 다양한 형태로 제공하고 있다. 이 중 AI 어플라이언스 모델의 경우 NVIDIA DGX, HPE, 레노버(Lenovo) 등 주요 글로벌 서버 하드웨어와 결합, 클러스터 구축–운영–모니터링까지 일괄 지원하는 형태로 공급하며, 기업의 AI 도입 초기 부담을 줄여준다. 

현재 '아스트라고'는 GPU 자원 효율화와 클러스터 운영 자동화 기술을 기반으로 주요 대기업 데이터센터뿐 아니라 공공기관과 연구단체에도 확산, 국내 AI 인프라 시장에서 빠르게 확장되고 있다. 내년에는 퍼블릭형 SaaS 서비스도 제공할 계획이다."

-'아스트라고' 도입 고객사 반응은?

"현재 대기업 그룹사와 연구개발센터에서 '아스트라고'를 사용하고 있다. 대표 고객사는 두산디지털이노베이션, 포스코DX 그룹사로 이들 데이터센터에 적용돼 있다. 또 서울과학기술대학교, 경찰대학교도 '아스트라고'를 사용하는데, GPU 자원을 다량 운영하는 조직에서 규모와 환경 목적에 맞춘 솔루션으로 평가받고 있다.

현재 26만 장의 GPU 공급이 이슈가 되고 있는데, 기업들은 GPU 설치와 운영, 관리 효율화라는 새로운 과제에 직면한 상태다. 이에 '아스트라고'는 GPI 관리를 넘어 모든 서버 자원을 통합 모니터링할 수 있는 인프라 오케스트레이션 플랫폼으로 발전, 제공하고 있다. 

이를 통해 기업은 조직 내 GPU 체계 관리를 포함, 경영 효율화를 동시에 실현하고 있다. 또 AI 프로페셔널 서비스를 통해 (GPU 구축부터 활용 컨설팅, 유지보수 관리) AI인프라의 전과정을 지원해 전문인력 의존도를 낮추고 운영 효율 및 ROI를 향상시켜준다는 긍정적인 평가를 받고 있다.

GPU 관리 자동화로 인력 부담은 줄고, 동일 자원으로 더 많은 AI 프로젝트를 수행할 수 있다는 반응을 보이며 AI 인프라 효율화 핵심 솔루션인 '아스트라고'에 높은 만족도를 보이고 있다."

-최근 엔비디아 최신 고성능 GPU 'B300(정식 명칭 DGX B300)'을 도입했다

"B300은 엔비디아의 최신 블랙웰(Blackwell) GPU 아키텍처를 기반으로 한 초고성능 AI 서버다. 대규모 멀티모달 모델과 초거대 비전-언어 모델(VLM) 학습 및 추론에 최적화한 인프라 솔루션이다. 내부에 블랙웰 울트라 GPU 여덟 개가 들어가 있어 우수한 연산 기능을 갖췄다. 이전 세대 대비 추론 성능은 11배, 학습 성능은 4배 이상 향상됐다. 씨이랩은 'DGX B300' 도입을 통해 사내 AI 테스트베드를 새롭게 구축하고 ‘아스트라고’ 운영 최적화 및 자원 관리 고도화에 나설 계획이다."

 기술 확장 및 미래 전략

-향후 '아스트라고'의 기술 로드맵은?

"단기적으로는 하이퍼스케일 클러스터 관리 기술과 GPU 파티셔닝 가상화 고도화에 주력, 수천 장의 GPU를 안정적으로 통합 운영할 수 있는 인프라를 강화할 계획이다. 또 모델 서빙 및 추론 서비스 기능을 통합, 학습부터 배포까지 단일 플랫폼에서 수행 가능하도록 발전시키고 있다.

중장기적으로는 GPUaaS 플랫폼을 구축해 클라우드 환경에서 GPU를 구독형으로 제공하고, 리소스를 자유롭게 활용할 수 있는 서비스를 구축해 기업의 AI 인프라 구축 부담을 크게 줄일 수 있는 형태로 제공할 계획이다."

-AI 인프라 및 데이터센터 확대 기조에 발맞춘 기술 개발 방향은?

"엔비디아가 한국에 공급하는 26만 개 GPU는 한국 AI 인프라의 핵심 전환점이다. 씨이랩은 이에 맞춰 '아스트라고' 고도화를 핵심 과제로 추진하고 있다. 하이퍼스케일 클러스터 기술과 하이브리드 클라우드 인프라를 결합, 글로벌 수준의 AI 컴퓨팅 환경을 구축하고, 최신 GPU(DGX B300)를 기반으로 성능 검증과 최적화를 강화해 AI 서비스 상시 운영과 확장을 지원한다. 향후에는 이런 인프라를 기반으로 클라우드형 AI 서비스를 상시 운영할 수 있는 자율형 데이터센터 구조를 완성, AI 기술 상용화 속도를 더욱 높이겠다."

관련기사

-CTO로서 바라보는 씨이랩의 기술 비전은?

"씨이랩의 기술 비전은 AI 인프라부터 모델·서비스까지 연결된 통합 생태계를 구축하는 것이다. AI 인프라 영역에서는 '아스트라고'를 중심으로 GPU 자원을 효율적으로 관리·운영할 수 있는 하이퍼스케일 인프라 기술을 발전시키고, 비전 AI 영역에서는 VLM과 피지컬(Physical AI)를 통해 인간의 시각과 언어, 물리적 행동을 모두 이해하는 지능형 AI로 진화시키려 한다. 또 디지털트윈과 연계한 시뮬레이션 산업 AI 환경을 구축, AI가 실제 산업 현장에서 작동하고 학습하며 진화할 수 있는 구조를 만들고 싶다."