[현장] 디에스앤지 "AI인프라, 구매하는 게 아니라 설계하는 것"

최효진 CTO 7일 열린 '2026 AI엑스포'서 '풀스택 AI인프라 설계' 주제 발표

컴퓨팅입력 :2026/05/07 19:02

"2024년 미국에서 발표한 보고서에 따르면 GPU 가동률이 70% 미만인 곳이 75%에 달했습니다. 또 미국 마이크로소프트(MS) 연구소(리서치)가 역시 2024년 공개한 자료에 따르면 실제 현장의 GPU 사용률은 10~40%에 그쳤습니다. 클리어ML도 보고서에서 GPU 수동할당과 사용 전략이 없다고 말한 곳이 44%였다고 지적했습니다."

디에스앤지(DS&G) 최효진 CTO는 7일 서울 코엑스에서 열린 '2026 AI엑스포'에서 연사로 나와 "우리는 왜 비싼 GPU를 사고도 손해를 볼까요?"라는 질문을 던지며 이 같이 밝혔다. AI바람에 편승해 비싼 GPU를 수억, 수십억 구매했지만 그만큼의 ROI(투자대비수익)를 못거둔다는 것이다. 그는 이날 '풀스택 AI인프라 설계'를 주제로 AI인프라를 형성하는 GPU와 네트워크, 스토리지, MLOps, 스케쥴러, KV 캐쉬 등에 대해 설명했다.

최 CTO는 GPU 비용 효율화는 설계단계부터 중요하다면서 "GPU를 잘 쓰고 있는지 모니터링을 해보면, 어떤 팀에서 잠깐 쓰고 있다 다음 날 보면 놀고 있고, 이런 것들이 주위에서 많이 있다"고 안타까워 했다.

현재의 문제점도 지적했다. 먼저, 하드웨어의 경우 워크로드를 모르는 상태에서 가장 중요한 결정을 내린다면서 순서가 잘못됐다고 짚었다. 즉, 현재는 예산확정->HW구매->클러스터 구축->모델 개발->운용의 단계를 거치는데 이는 잘못된 것이며, 가장 먼저 워크로로드 프로파일링을 하고 이어 역산설계(HW+SW 동시)->ROI KPI 설정->구축->측정 및 최적화 순으로 칩 구매를 진행해야 한다는 것이다.

그러면서 3가지 문제점으로 ▲레이어간 미스매치 ▲SW최적화 후순위화 ▲ROI KPI 부재를 들었다. 칩은 B200인데 스토리지가 느린 경우가 레이어간 미스매치다. 이 경우, 카드 성능을 끝까지 끝까지 쓰지 못한다.  또 SW 최적화가 후순위로 밀리면 HW 고정후 MLOps를 얹을때 재설계 부담과 비용이 증가하는데, 이는 한국의 전형적인 예라고 꼬집었다. ROI KPI가 부재하면 측정 기준이 없어 최적화 목표 설정이 불가능하다.

최 CTO는 GPU 구매시 설계단계를 경시하는 걸 가리켜 "굉장히 중요한 결정을, 아무것도 결정되지 않은 상태에서 중요한 결정을 내린다"고 지적했다.

최효진 디에스앤지 CTO가 7일 서울 코엑스에서 열린 '2026 AI엑스포'에서 '풀스택 AI인프라 설계'를 주제로 발표하고 있다.

이어 "AI 인프라에서는 GPU 레이어가 가장 중요하다. 목적에 맞는 선택이 첫번째 ROI 변수"라면서 "문제의 본질은 GPU 선택이 아니라 '정적 배포=고정 할당'이다. 이것이 ROI를 죽인다"고 목소리를 높였다.

H100 SXM 풀클러스터를 팀별 고정할당하는 정적 배포를 실패 사례로 꼽았다. 이는 GPU 가동률이 30~40%밖에 안되며, 인프라 지출의 60~70%를 낭비한다면서 "GPU 선택의 문제가 아니라 운용 설계 실패"라고 언급했다. 반대로 성공사례는 동일 H100에 MIG 파티셔닝을 적용하는 동적 운용을 들었다. 이는 칩 1장을 최대 7인스턴스로 동저 분할한 것으로, 학습과 추론 ASR/TTS 워크로드 혼합 운영형태다.

바람직한 네트워크 레이어도 설명했다. 표준은 2 타이어 레일-옵티마이즈드(Rail-Optimized)이며, 관건은 스파인(Spine) 오버서브스크립션(Oversubscription)이라면서 "1대1 논블로킹(Non-blocking)은 세계적인 빅테크나 한국 대기업만 쓸 수 있다. 스토리지 패브릭(Fabric)도 1대1이 아니라 4대3 오버서브스크립션이면 충분하다, 이는 엔비디아도 권하는 것"이라고 들려줬다.

스토리지 레이어에 대해서는 "계층화가 없으면 반드시 병목이 발생한다"면서 스토리지 계층 구조의 세 종류(Hot, Warm, Cold)를 소개했다. ROI 설계 원칙에 따른 AI인프라 스토리지는 스타빙(Starving) GPU 방지를 위해 분리 설계가 필수고, GPU디렉트 스토리지 지원 여부를 확인해야 하며, 워크로드별 I/O 패턴을 먼저 파악해야 한다고 전했다.

관련기사

GPU 스케쥴러에 대해서는 "Run;ai가 가동률을 2배로 만드는 원리"라면서 강 스케쥴링(Gang Scheduling), 다이나믹  프랙션, 빈(Bin) 패키징을 설명했다. 강 스케쥴링은 분산학습 GPU 묶음으로 단위 보장 할당과 일부 할당 대기 문제를 해결해준다. 다이나믹 GPU 프랙션은 GPI 1개를 여러 잡(job)이 메모리 격리 상태로 시분할 공유해주며,빈 패키징은 메모리 단편화 최소화와 유휴 GPU 공간을 적극 재활용하게 해준다.

최 CTO는 "다시 말하지만, 안타까운게 하드웨어 인프라를 구축하는 데 급해 소프트웨어를 마지막에 생각하는 경향이 있다"면서 "쿠버네티스 같은 것들을 설계 단계부터 고려해야 한다"고 역설했다. 또 KV 캐시 최적화를 이야기하며 "CXL로 GPU 메모리 한계를 돌파했다"면서 "AI인프라는 구매하는게 아니라 설계하는 것이다. HW는 결과물이고, 워크로드 프로파일이 출발점"이라고 강조했다.