화웨이 "미래 데이터센터는 신뢰성·단순성·지속가능성”

방송/통신입력 :2024/01/22 09:47    수정: 2024/01/22 10:08

신뢰성, 분산형 냉각 아키텍처, 예측형 유지보수, 라이프사이클 보안...

화웨이가 새해 주목할 데이터센터 트렌드로 꼽은 내용이다. 화웨이는 10대 데이터센터 트렌드에 대한 컨퍼런스를 열고 백서를 내놨다.

야오 콴 화웨이 데이터센터 시설 도메인 사장은 미래 데이터센터가 갖춰야 할 세 가지 특징으로 ▲신뢰성 ▲단순성 ▲지속가능성으로 정의했다.

AI 파운데이션 모델의 성장에 따라 향후 5년 간 글로벌 AI 컴퓨팅 파워 부문이 80% 이상의 연평균성장률(CAGR)을 보일 것이란 전망도 눈길을 끈다.

이를 두고 화웨이는 클라우드를 더한 지능형 컴퓨팅 데이터센터로 전환이 촉진될 것이라고 강조했다.

아울러 컴퓨팅 성능 수요가 급즌하면서 안전성과 신뢰성은 핵심 요소로 주목받을 것이란 전망도 내놨다. 업타임인스티튜트에 따르면, 2019년부터 2022년까지 데이터센터 서비스 중단으로 인해 10만 달러 이상의 손실을 경험한 비율이 39%에서 71%로 증가했다. 컴퓨팅 성능 수요 급증에 따른 것으로 안정성이 더욱 중요해졌단 설명이다.

화웨이는 폭넓은 연구와 오랜 경험을 바탕으로 2024년 데이터센터 시설의 10대 트렌드를 발표하면서 데이터센터의 미래에 대한 통찰력을 업계와 공유했다.

신뢰성 높은 제품과 전문 서비스

데이터센터는 방대한 양의 데이터를 저장하고 처리 및 전송해 다양한 업계가 안정적으로 운영될 수 있도록 지원하지만, 안전성과 신뢰성에 대한 우려도 안고 있다. 안전하고 신뢰할 수 있는 운영을 위해서는 제품 설계와 제조 전반에 걸친 ‘풀-체인 안전성’을 구현해야 한다.

또한 사람의 개입을 줄인 고도의 자동화를 통해 제품 생산 라인의 품질을 엄격히 관리하고 제품의 신뢰성을 보장해야 한다. 제품 관련 문제 발생 시 대응 방안을 마련해 전문적인 구축과 유지보수(O&M) 서비스로 제품 고장률을 낮추고 사후 엔드투엔드 보증 메커니즘을 개선하는 것도 필요하다.

분산형 냉각 아키텍처

대규모 데이터센터는 주로 중앙 집중식 냉각 아키텍처를 사용하고 있다. 예컨대 기존의 냉각수 시스템은 냉각기 플랜트 내 7가지 하위 시스템과 수십 개의 장치를 사용한다. 이 장치는 독립적으로 작동할 수 없기 때문에 단일 지점에서 장애 발생 시 전체 플랜트 운영에 영향을 미치고, 대규모 사고를 초래할 수 있다.

실제 최근 몇 년간 중앙 집중식 냉각 아키텍처에서 단일 지점 장애 사고가 계속 발생하고 있다. 반면 독립된 하위 시스템을 갖춘 분산형 냉각 구조는 특정 디바이스에서 발생한 장애가 다른 디바이스 작동에 영향을 미치지 않는 높은 유연성을 지닌다. 아키텍처 설계에 따라 장애가 발생할 수 있는 영역이 더 작기 때문에 단일 지점에서 발생한 장애를 차단한 것이다.

예측형 유지보수

데이터센터의 유지보수는 통상적으로 사고 발생 후 이뤄지며, 사고 원인 역시 사후에 드러난다. 하지만 지능형 컴퓨팅 시대가 도래함에 따라 데이터센터 장애에 대한 대응 시간이 크게 단축될 것으로 전망된다.

앞으로는 예측형 유지보수가 데이터센터 인프라의 기본 기능으로 자리를 잡고, 사고 전 유지보수로 대체될 전망이다. AI 기술의 급속한 발전으로 인해 예측형 유지보수의 범위는 한층 확대되고, 수동적인 타깃형 유지보수에서 능동적인 예측형 유지보수로 전환해 O&M 안정성을 크게 높일 수 있다.

라이프사이클 네트워크 보안, 보호 시스템

디지털 지능형 기술 발전에 따라 네트워크 공격 빈도가 높아지고, 이에 따른 네트워크 보안 위험이 기하급수적으로 증가하고 있다. 특히 무정전 전원장치(UPS)나 냉각장비가 공격을 받으면, 데이터센터는 보안과 안정성 측면에서 두루 영향을 받게 된다.

이에 따라, 데이터센터 인프라의 보안은 하드웨어와 소프트웨어 측면을 모두 고려해야 한다. 특히 소프트웨어 보안은 데이터센터의 안정적인 운영을 보장하기 위해 공급 보안, 심층 방어, O&M과 운영 보안 등 세 가지 차원의 보안 시스템을 기반으로 구축해야 한다.

조립식 모듈형 솔루션

데이터센터 구축에 대한 수요가 증가하고 있지만 기존 데이터센터는 느린 구축 속도와 복잡한 엔지니어링으로 수요에 턱없이 부족한 실정이다. 구축 기간이 짧은 고품질의 조립식 모듈형 솔루션이 최적의 선택지로 떠오를 것으로 예상이 나오는 이유다.

제품의 현장 배송과 배송 기간 단축 외에도 신속한 서비스 출시에 대한 고객사 요구사항을 충족하고, 현장 공사로 인한 폐기물도 줄일 수 있다.

O&M 보안...효율성을 높이는 전문 관리 플랫폼

데이터센터의 확장에 따라 전체 O&M의 복잡성도 증가하고 있다. 대부분의 데이터센터 디바이스는 전문 인력이 필요하며, 결함 발견에 오랜 시간이 소요돼 전반적인 점검 수행에 어려움을 겪는다.

반면 전문 관리 플랫폼은 데이터센터의 O&M 효율성과 정확성을 크게 개선할 수 있다. 기존 벤더가 제공하는 전문 관리 플랫폼은 고객의 심층적인 디바이스 관리 역량 구축을 지원한다. 이를 통해 제때에 신속하게 결함 위치를 파악하고 복구해 O&M을 간소화할 수 있으며, 더욱 안전하고 안정적인 데이터센터 운영이 가능하다.

액체 냉각 방식의 융합

일반적으로 범용 서버를 위한 단일 랙의 전력 밀도는 공랭식 장비의 냉각 조건인 15kW를 초과하지 않는다. 반면 지능형 컴퓨팅 센터가 보유한 단일 랙의 전력 밀도는 30kW를 초과해, 열 방출을 위한 액체 냉각이 필요하다.

예측 불가능한 시나리오에서는 공랭식과 액체 냉각의 비율을 조정해 향후 서비스에 유연하게 적응하고, 고객의 ROI를 극대화할 수 있도록 두 가지 방식을 융합한 아키텍처가 부상할 것으로 관측다.

간접 증발식 냉각

간접 증발식 냉각 시스템은 아키텍처와 효율성, O&M 측면에서 냉각수 시스템 대비 강점을 보유하고 있으며, 여전히 가장 비용 효율적인 냉각 솔루션이다.

간접 증발식 냉각 시스템의 분산 냉각 구조는 단일 지점에서 고장이 발생하는 것을 효과적으로 방지해 신뢰성을 높이고, 자유 냉각원의 활용을 극대화해 단 한 번의 열 교환만 필요로 한다. 날씨가 추운 지역에서는 압축기를 휴면 상태로 유지해 최적의 PUE(전력효율지수)를 달성할 수 있다.

시스템 엔지니어링 최적화

기존의 데이터센터는 UPS, 에어컨 등 장비 효율성 개선에 초점을 두고 있으나 물리적 한계로 인해 어려움을 겪고 있다. 또한 사소한 개선사항에 투자되는 시간과 비용도 컴퓨팅 파워 시대의 요구를 충족하기엔 역부족이다.

이에 따라 데이터센터의 PUE 감소를 위해서는 효율적인 부품에서 시스템 엔지니어링 최적화로 초점을 전환해야 한다. 시스템 엔지니어링 관점에서 해당 문제를 고민하고, 현실과 부품 기술 수준을 균형 있게 고려해 최적의 솔루션을 도출해야 한다.

이를테면 UPS 이중변환모드를 S-ECO 모드로 전환하고 데이터센터 PUE를 페타플롭스 PUE로 변경해 엔드투엔드 방식으로 데이터센터의 에너지 효율을 최적화할 수 있다.

관련기사

AI 최적화

기존의 데이터센터 에너지 절약 정비는 회선과 서비스를 중단해야 하므로 서비스 중단을 초래할 수 있고, 수동 최적화는 높은 난이도와 낮은 효과, 낮은 빈도로 낮은 만족도를 보인다.

반면 AI 에너지 효율 최적화 솔루션은 사전 설정된 AI 알고리즘과 빅데이터 모델을 통해 기존 데이터센터의 에너지 효율을 최적화한다. 또한 AI 최적화는 관련 인력의 전문 지식에 의존하지 않기 때문에 빠른 최적화와 뛰어난 효과를 특징으로 하며, 기존 냉방에서 지능형 냉방으로의 전환을 용이하게 돕는다.