"공랭식 데이터센터에서 고성능 GPU 서버를 풀가동하면 온도가 80도까지 치솟고, 심하면 100도를 넘기기도 합니다. 결국 장비 과열을 막기 위해 GPU 성능을 강제로 낮출 수밖에 없죠. 전산실 환경 때문에 AI 연산 성능이 반토막 나는 셈입니다."
김종훈 엠키스코어 상무는 21일 경기도 남양주시에 마련된 '아쿠아엣지(AQUAEdge)' 데모센터에서 이같이 말하며 데이터센터 가동률 저하의 주요 원인으로 공랭식 냉각 구조의 한계를 지목했다.
김 상무는 "대당 14.3kW에 달하는 전력을 소비하는 차세대 GPU 서버는 기존 공랭식 시스템만으로 감당하기 어렵다"며 "초기 투자 비용이나 인프라 개조 부담이 크다면 데이터센터 전체를 새로 구축하기보다 전산실 일부 존(Zone)부터 수랭식 직접 액체 냉각(DLC) 환경으로 전환하는 하이브리드 전략이 가장 현실적인 대안"이라고 강조했다.
집적도 극에 달한 AI 인프라, 수랭 전환은 필연
엔비디아 B200과 같은 AI 특화 GPU는 대규모 언어 모델(LLM) 학습과 추론을 위해 초고속 인터커넥트 기술과 고대역폭 메모리(HBM)를 집적한 것이 특징이다. 여기에 AI 서버는 이러한 GPU를 랙 단위로 고밀도 집적해 운영하기 때문에 막대한 발열이 발생할 수밖에 없다.
GPU의 안정적인 운영을 위한 권장 온도는 통상 60도 이하 수준이지만 실제 고부하 환경에서는 80도를 넘어 최대 100도 이상까지 상승하기도 한다.
김 상무는 "반도체 미세공정 발전으로 칩 단위 면적당 트랜지스터 집적도는 급격히 높아졌지만 열을 외부로 방출할 수 있는 표면적은 제한적"이라며 "열이 칩 중심부에 집중되는 현상이 심화되면서 기존 공랭식만으로 대응하기에는 한계에 도달했다"고 설명했다.
또 급증하는 발열을 해소하기 위해 항온항습기(CRAC·CRAH) 등을 대규모로 추가 설치할 경우 장비 설치 공간이 부족해지는 악순환도 발생한다. 기하급수적으로 늘어나는 냉각 전력 비용과 대형 팬이 풀로드로 구동되며 발생하는 극심한 소음 역시 운영 효율성을 저해하는 주요 원인이다.
반면 수랭식 직접 액체 냉각(DLC) 방식은 배관 내 액체로 열을 즉각 흡수해 칩 온도를 60도 이하로 제어한다. 발열 원인을 직접 식히기 때문에 공랭식 대비 냉각 비용을 최대 94%까지 절감할 수 있다는 설명이다.
그는 "수랭식 직접 액체 냉각(DLC)을 도입하면 서버 자체 소비 전력도 약 13% 줄일 수 있어 통상 2~4년 내 초기 투자 비용(CAPEX)을 회수할 수 있는 현실적인 대안으로 평가받는다"며 "공랭식 서버 내부 팬이 풀로드로 구동할 때 발생하는 120~130dB 수준의 소음도 68~90dB 수준까지 크게 낮출 수 있다"고 소개했다.
"모형 아닌 실구동"...수랭식 불안감 해소
현재 엠키스코어는 경기도 남양주에 아쿠아엣지 데모센터를 운영 중이다. 국내에서 실제로 구동 중인 직접 액체 냉각(DLC) 서버 시스템을 직접 확인하고 검증할 수 있는 공간이 사실상 전무하기 때문이다.
김 상무는 "일반 전시장에 출품되는 냉각 장비는 대부분 전원이 연결되지 않은 단순 모형에 불과해 많은 기업이 누수나 유지보수 등 수랭식 시스템에 대한 기술적 불안감과 오해를 안고 도입을 주저해 왔다"며 "특히 기존 데이터센터를 어떻게 수랭식으로 전환할 것인지 고민하는 기업들이 직접 볼 수 있는 공간을 제공하고자 했다"고 설명했다.
데모센터에는 기존 공랭식 공간을 수랭식 환경으로 개조한 하이브리드 냉각 시스템이 운영 중이다. 칩 위에 장착된 콜드플레이트 사이로 냉각수가 흐르며 실제 고부하 연산 과정에서 발생하는 열을 제어하는 실구동 인프라다.
김 상무는 "국내에서 실제 운영 중인 DLC 서버를 직접 확인할 수 있는 곳이 거의 없다 보니 수많은 업계 관계자가 방문하고 있다"며 "외기 온도가 38~40도까지 치솟는 극한 환경을 가정한 신뢰성 테스트를 통해 누수 우려 등 수랭식에 대한 편견을 해소하고 기술적 타당성을 검증해 기업들의 도입 리스크를 최소화하고 있다"고 밝혔다.
누수까지 자동 차단...통합 관제 기술로 안정성 확보
데모센터에 마련된 냉각 시스템은 엠키스코어가 자체 개발한 'M-OWL' DLC 대시보드를 통해 통합 관제된다. 냉각수의 온도·유량·압력 상태뿐만 아니라 전체 GPU 상태, 쿠버네티스(K8S) 리소스, 슬럼 워크로드 매니저(Slurm) 스케줄러 등 IT 워크로드 데이터를 실시간 연계 분석해 이상 징후를 조기에 감지한다.
누수가 감지되면 제어부가 해당 랙의 서버를 자동으로 안전 종료하는 보호 메커니즘도 갖췄다.
김 상무는 "문제가 발생했을 때 이를 해결할 수 있는 기술적 역량을 직접 확보하고 있어야 운영 효율을 실질적으로 높일 수 있다"며 "단순히 수치만 모니터링하는 것이 아니라 적정 온도를 데이터화하고 학습시켜 효율 최적화 단계까지 제어하고 있다"고 밝혔다.
이어 "많은 기업이 냉각수 누수를 우려하지만 다중 안전장치와 정밀 압력 제어 기술이 결합된 이중·삼중 보호 메커니즘을 갖추고 있다"며 "아주 미세한 누수 징후라도 감지되면 제어 시스템이 즉각 해당 구역 밸브를 차단하고 IT 자원을 자동으로 안전 종료하기 때문에 대형 장애로 번질 가능성을 최소화한다"고 설명했다.
또 "실제 고객사를 대상으로 냉각 시스템을 구축·운영하는 과정에서 누수로 인한 시스템 사고는 단 한 건도 발생하지 않았다"고 강조했다.
더불어 장비 내부에서 누수가 발생하더라도 일반 물이 아닌 절연 성분이 포함된 특수 냉각수를 사용하기 때문에 누수로 인한 하드웨어 손상이나 데이터 손실 가능성도 크게 낮췄다고 설명했다.
관련기사
- 엠키스코어, 국내 첫 'HPE AI 솔루션 파트너상'2025.07.02
- [현장] 엠키스코어 "수랭식 데이터센터로 AI 시대 열 것"2024.10.18
- 엔비디아, 12분기 연속 매출 신기록…AI 데이터센터 매출 92% 폭증2026.05.21
- "AI 패권은 전력 싸움"…메타, 美에 2000억 달러 'AI 성' 쌓는다2026.05.19
엠키스코어는 국내 주요 대기업과 정보통신산업진흥원(NIPA)이 추진하는 데이터센터 구축 사업에 참여하며 국내 최대 규모 수랭 전환 레퍼런스를 확보하고 있다. 축적한 기술력과 구축 경험을 바탕으로 올해 국내외 시장 확대와 기술 고도화에 나설 계획이다.
김종훈 엠키스코어 상무는 "초기 비용이나 대규모 인프라 개조 부담이 크다면 데이터센터 전체를 한 번에 바꾸기보다 일부 존부터 단계적으로 수랭식으로 전환하는 방식이 가장 효율적"이라며 "아쿠아엣지 솔루션은 차세대 AI 컴퓨팅 환경에 안정적으로 대응할 수 있도록 돕는 현실적인 인프라 전략이 될 것"이라고 강조했다.











