[기고] 액체 냉각, AI를 위한 최적의 냉각 방식

전문가 칼럼입력 :2024/09/20 16:33

제이슨 제일러 HPE 액체 냉각 프로덕트 매니저

인공지능(AI)은 현재 가장 많은 컴퓨팅 자원을 소모하는 워크로드 중 하나로, 사용량 증가에 따라 AI 시스템의 전력 소비와 에너지 비용이 급격히 증가하고 있다.

HPE 제이슨 제일러 액체 냉각 프로덕트 매니저

국제에너지기구(IEA)에 따르면 전 세계 데이터센터는 2022년에 전체 전력의 2%를 사용했으며 2026년까지 이 비율이 두 배 이상 증가할 것으로 예측된다.

차세대 가속기에서 효율성이 개선됐지만, AI 도입이 늘어나면서 전력 소비는 더욱 증가할 예정이다. 현재의 데이터센터들은 증가하는 프로세서 전력을 지원하기 위한 냉각 수요를 맞추지 못하고 있다.

이에 따라 이 시설들은 AI 워크로드를 보다 효율적으로 운영해야 한다. 그러한 가운데 이러한 문제를 해결하기 위한 액체 냉각이 필수적인 기술로 떠오르고 있다.

HPE는 수십 년간의 혁신을 통해 컴퓨팅 집약적인 고성능 컴퓨팅(HPC) 워크로드를 실행하는 대규모 시스템을 효율적으로 냉각하는 액체 냉각 시스템을 전 세계적으로 제공해 왔다.

냉각팬을 사용하는 전통적인 공기 냉각 방식과 달리, 직접 액체 냉각(DLC)은 냉각제를 서버에 직접 주입하여 프로세서에서 발생하는 열을 흡수한 후 이를 데이터센터 외부의 열교환 시스템으로 전달한다.

최신 가속기를 사용하는 미래의 AI 인프라는 전력효율성, 지속가능성 및 AI 워크로드의 안정성을 유지하기 위한 시스템 복원력 문제를 해결하기 위해 이러한 액체 냉각 혁신이 필요할 것이다. AI 데이터센터에서 액체 냉각이 왜 이상적인 솔루션인지, 그 네 가지 주요 이유를 살펴보자.

더 작은 공간에 더 높은 성능을 담도록 설계된 새로운 칩들의 경우, 모든 중요한 구성 요소를 효과적으로 냉각하기 어려울 수 있다. 칩을 충분히 빠르게 냉각하지 못하면 데이터센터는 과열 문제에 직면하게 되고, 이로 인해 시스템 장애 및 AI 작업의 예기치 않은 중단이 발생할 수 있다.

물은 공기보다 열용량이 세 배 더 높기 때문에 액체 냉각을 이용하면 칩을 더 빠르고 효율적으로 냉각할 수 있다. 이를 통해 가속기와 CPU, 메모리 및 네트워킹 스위치와 같은 다른 구성 요소에서 발생하는 열을 더 효과적으로 흡수할 수 있다.

차세대 가속기의 효율적인 냉각 방식은 시스템의 안정성을 확보하는 데에도 필수적이지만, 환경을 위한 지속가능성의 측면에서도 더욱 중요해지고 있다. 액체 냉각은 차세대 가속기에 대해 뛰어난 지속가능성 및 비용 절감 효과를 제공한다.

1만개의 서버를 갖춘 HPC 데이터센터를 예로 들면 모든 서버가 공기 냉각 방식을 사용할 경우 8천700톤 이상의 이산화탄소(CO2)를 배출한다. 반면 액체 냉각 서버를 사용할 경우 CO2는 1천200톤으로 줄어든다. 이는 에너지 소비를 87% 절감하고 매년 약 1천780만 파운드의 CO2 배출을 막는 효과를 가져온다.

이러한 대규모 전력 절감은 비용 절감 효과로도 이어진다. 1만 개의 액체 냉각 서버를 가진 데이터센터는 서버당 연간 45.99달러(약 6만2천원)의 비용이 들지만, 공기 냉각 서버는 서버당 연간 254.70달러(약 34만2천원)의 비용이 든다. 이를 비교하면 운영 비용에서 연간 약 210만 달러(약 28억1천300만원)를 절감할 수 있다는 것을 알 수 있다.

액체 냉각 시스템은 열을 포착한 후 열을 데이터센터 외부의 열교환 시스템으로 전달한다. 이때 가열된 물은 다른 건물이나 시설에 에너지원으로 재활용할 수 있다.

세계적인 재생 에너지 중심지 중 하나인 미국 에너지부의 국립재생에너지연구소(NREL)는 수년 동안 이 방법을 성공적으로 활용해 왔다. HPE 크레이 액체 냉각 슈퍼컴퓨터인 페레그린 시스템의 경우 열을 포착해 가열된 물의 90%를 자원으로 재활용해 에너지시스템통합시설(ESIF) 사무실 및 실험실 공간의 주요 열원으로 사용했다.

데이터센터에서 미래의 AI 인프라 도입을 계획할 때 밀도는 중요한 요소로 작용한다. 이는 고성능 AI 솔루션을 위한 공간을 확보하는 데 큰 영향을 미치기 때문이다.

액체 냉각은 공기 냉각에서 요구되는 팬 및 이에 따른 장비들이 필요 없기 때문에 데이터센터에서 서버 랙을 더 적고 밀집되게 배치해 공간을 최대한 활용하거나 필요에 따라 확장할 수 있다.

예를 들어 1만 개의 서버를 갖춘 데이터센터에서 액체 냉각 서버를 사용한다면 필요한 공간을 77.5% 줄일 수 있다. 또 5년 동안 액체 냉각 솔루션은 섀시 전력을 14.9% 덜 사용하며 공기 냉각 솔루션에 비해 kW당 성능이 20.7% 더 높다.

HPE는 50년 이상의 경험과 300개 이상의 액체 냉각 관련 특허를 보유하고 있다. 지난 2년 동안 세계에서 가장 빠른 10대 시스템 중 4대를 공급했다. 이는 HPE 크레이 EX 액체 냉각 슈퍼컴퓨터다.

관련기사

이 중 하나인 프론티어는 미국 에너지부의 오크리지국립연구소를 위해 구축된 세계 1위 슈퍼컴퓨터로, 엑사스케일 속도 장벽을 돌파하며 수만 개의 가속기를 무결점으로 실행하는 엔지니어링 성과를 달성했다. 이처럼 막대한 성능 규모에도 불구하고 프론티어는 여전히 세계에서 가장 에너지 효율적인 슈퍼컴퓨터로 인정받고 있다.

이처럼 HPE는 컴퓨팅 집약적인 시스템을 구축하고 효율적으로 운영하는 데 필요한 노하우를 갖추고 있다. 오랫동안 AI를 준비해온 HPE는 정교한 냉각 솔루션으로 고객의 AI 여정을 지속적으로 지원할 준비가 돼 있다.

*본 칼럼 내용은 본지 편집방향과 다를 수 있습니다.