AI 워크로드 증가, 지속가능성 숨통을 죄다

AI 슈퍼컴 전력소비량 폭발적 성장에 대안 고민 커져

컴퓨팅입력 :2023/11/27 12:47    수정: 2023/11/27 16:28

최근 인공지능(AI)의 발전과 함께 데이터센터의 전력수요가 전세계적으로 급증하고 있다. AI를 운영하는 고성능컴퓨팅(HPC) 워크로드는 막대한 전력을 소비하는데, 곳곳에서 신규 워크로드를 구축하기 위해 경쟁적으로 데이터센터 인프라를 증설하고 있다. 이는 곧 탄소배출 절감이란 전지구적 과제의 해결을 가로막는 장애물이 되고 있다는 지적이다.

최근 더레지스터에 따르면, 다니엘 리드 유타대학교 교수는 미국 덴버에서 개최된 SC23 컴퍼런스에서 더 강력한 HPC와 AI 클러스터의 구축이 더 많은 에너지 손실과 더 많은 냉각 수요를 불러온다고 경고했다.

이달초 공개된 전세계 슈퍼컴퓨터 순위 '톱500'에 의하면, 상위권에 랭크된 대규모 슈퍼컴퓨터 클러스터는 20메가와트 이상의 전력을 소비한다. 소비전력 20메가와트는 최근 만들어지는 대규모 연료전지 발전소 한곳의 용량에 해당한다.

(출처: 오픈AI 달리3)

1위인 프론티어의 전력은 22메가와트이며, 2위인 오로라는 24메가와트다. 여기서 오로라는 당초계획의 절반 용량만 구축됐다. 4위인 후가쿠는 29메가와트에 달한다.

한 연구에 따르면, 2027년까지 고용량 슈퍼컴퓨터 한대의 구동에 약 120메가와트의 전력이 필요할 것으로 예상된다.

슈나이더일렉트릭은 올해 AI 워크로드의 전력소비량을 약 4.3 기가와트로 전망했다. 이는 2021년 키프로스 국가 전력소비량에 비견되는 양이다. 슈나이더일렉트릭은 AI 워크로드의 전력소비가 연평균 26~36%씩 증가해 2028년 아이슬란드의 2021년 전력소비량보다 많은 20GW에 달할 것으로 예측한다.

AI 워크로드는 기존 데이터센터 워크로드와 달리 100%에 가까운 가동률을 유지한다. AI 모델 학습과 추론에 많은 에너지를 소비하면서 설비의 최대 전력소비량을 계속 유지하는 양상을 띈다.

AI 워크로드를 구동하기 위한 전력은 기본적으로 GPU와 스토리지, 네트워킹 장비 등에서 소비되며, 그에 대한 냉각에도 상당 규모의 에너지가 소비된다. 엔비다아 H100 GPU 2만2천개를 장착하는 서버 랙 클러스터는 약 31메가와트의 전력을 필요로 한다. 냉각 에너지 소비는 별도다.

데이터센터를 운영하는 사업자나 기관은 전력 효율을 높이기 위한 다양한 방법을 사용하고 있다. 저전력을 소비하는 장비를 사용하거나 냉매 기반 냉각 방식의 대안책을 사용해 에너지 효율을 높이고 있다.

SC23 패널토의에서 다니엘 리드 유타대학교 교수와 앤드류 치엔 시카고대학교 교수, 제나 발트보겔 로스알라모스국립연구소 연구원, 로버트 버거 슈나이더일렉트릭 디렉터, 니콜라스 두베 휴렛팩커드엔터프라이즈 제너럴매니저, 에사 하이스카넨 핀란드 CSC 스페셜리스트 등이 HPC와 탄소중립 및 지속가능성을 주제로 의견을 나눴다.

토의 상당수를 차지한 주제는 전력사용효율(PUE)이었다. PUE는 데이터센터의 서버, 스토리지, 네트워킹 장비에서 사용하는 전력량을 전체 설비의 총 활용률로 나눈 값이다. 데이터센터의 에너지 효율성을 측정하는 대표적인 지표다. PUE가 1.0에 가까울수록 높은 에너지 효율을 가졌다는 의미다.

HPE의 니콜라스 두베는 우수한 PUE를 확보하기 위해 건조 지역에 데이터센터를 세우는 행태를 비판했다.

미국의 경우 뉴멕시코나 애리조나 등 매우 건조한 사막지역에 대규모 데이터센터를 짓고 운영하는 하이퍼스케일러가 많다. 건조한 지역에서 데이터센터를 운영할 때 증발냉각(evaporative cooling) 방식을 많이 사용한다. 증발냉각은 물의 기화를 이용해 온도를 낮추는 방식이다. 건조한 지역에서 증발 냉각 방식은 높은 에너지 효율을 달성하게 하지만 그만큼 많은 물을 사용한다.

토의자들은 증발냉각 방식에서 재생수 사용률을 100%로 높여 지역의 물 자원 소비를 최적화해야 하며, 가급적 증발 냉각을 사용하지 말아야 한다고 지적했다.

이들은 녹색에너지를 풍부하게 공급받을 수 있는 지역에 데이터센터와 AI 워크로드를 배치해야 한다고 주장했다. 지역의 에너지 수급 상황을 고려하지 않는 AI 워크로드운영의 문제점을 지적한 것이다.

니콜라스 두베는 데이터센터에서 생성된 열을 대기중으로 배출하지 말고, 농업용 온실에 배치하자는 아이디어를 제안하기도 했다. 그에 의하면, GPT-3를 한번 훈련했을 때 온실에서 토마토를 147.677킬로그램 생산할 수 있다고 한다.

시카고대학교의 앤드류 치엔 교수는 정해진 시간 내 에너지 수급 상황과 사용가능한 전력량에 따라 시스템 가동을 조절하자고 그리드 전략을 제안했다. 수력이나 풍력 발전이 용이한 시간에 AI 학습이나 추론 워크로드를 집중 배치하는 식이다.

그는 향후 가동될 후가쿠 넥스트 프로젝트에 이같은 기술을 적용해 전력비용의 90%를 절감할 수 있을 것이라고 분석했다.

관련기사

슈나이더엘릭트릭의 로버트 버거는 HPC 커뮤니티가 지속가능성 보고와 측정을 더 투명하게 해야 한다고 주장했다. 그는 데이터센터 운영자의 지속가능성 보고 방법이 너무 방대하고, 전력이나 물 소비에 대한 세부 사항을 밝히지 않는다고 지적했다.

그는 데이터센터 운영자가 총전력소비량, PUE, 총재생가능에너지 소비량, 총 물 소비량, 물 사용 효율성 등 공통요소와 함께 재생에너지 요소, 에너지 재사용, 서비스 활용도, 소음, 토지 이용 등의 요소까지 포함해 28가지 측정 기준을 제안하기도 했다.