AWS도 못한 GPU 종량제 서비스...KT는 어떻게 구현했나

컴퓨팅입력 :2021/12/28 15:06    수정: 2021/12/29 19:18

인공지능(AI) 산업 발전에 따라 GPU 컴퓨팅에 대한 수요가 급격히 늘고 있지만, 충분한 자금력과 전문인력을 보유한 일부 대기업을 제외하면 여전히 GPU 활용이 쉽지 않은 상황이다. 퍼블릭 클라우드 업체들이 지원하는 GPU 인스턴스 상품이 있지만, 아직 고비용·저효율 방식이라 활용에 한계가 있는 것이다.

이런 한계를 국내 클라우드 사업자 중 KT가 돌파해 관심을 끈다. KT는 지난 10일 GPU를 한 장부터 수천장까지 필요한 만큼 사용하고, 안 쓸 때는 다시 반납할 수 있게 한 '하이퍼스케일 AI 컴퓨팅(HAC)' 상품을 선보였다. 

이 같은 GPU 제공 방식은 국내 최초이며, 아마존웹서비스(AWS)나 마이크로소프트(MS) 같은 글로벌 사업자들도 아직 구현하지 못한 것이다.

KT는 올해 HAC 상용화를 시작으로 AI 모델 연산에 특환된 AI 풀스택 클라우드 서비스를 갖추고 글로벌 시장으로 나아간다는 계획이다.

KT직원들이 KT 클라우드 데이터 센터에서 시스템을 점검하고 있다.

KT, 기존 클라우드 기반 GPU 인프라 한계 뛰어 넘었다

KT는 지난 27일 온라인으로 간담회 열고 최근 출시한 HAC의 기술적 강점을 상세히 소개하는 자리를 마련했다.

이날 발표를 진행한 KT 클라우드·IDC 사업추진담당 김주성 상무는 먼저 AI 기업과 연구기관들이 현재 퍼블릭 클라우드 상에서 GPU를 활용하기에 여러 측면에서 한계가 있다는 점을 짚었다.

김 상무에 따르면 GPU 한장에 월 1천200만원~2천100만원이나 하는 고가인데다가, 처음 요청한 수량 대로 계속 사용해야 하는 고정 할당 방식이라 비효율적이다. 또, 대부분 클라우드 업체가 노드 당 GPU를 최대 8장까지만 지원해 대규모 모델 연산이 어렵기도 하다.

개발에도 제약이 따른다. 처음에 싱글 GPU 환경을 고려해 코드를 짰다가, 추후 멀티 GPU로 환경을 바꾸면 성능을 위한 병렬화 파라미터, 통신, 각 지표별로 연산 분할 등을 개발자가 직접 수정해야 한다. 또 가상머신(VM)을 생성한 후 싱글 GPU를 할당받았다가 추후 멀티 GPU로 바꾸려면, VM을 삭제하고 새로 만들어야 하는 번거로움도 있다.

클라우드의 최대 강점인 확장성, 효율성, 편리성이 GPU 인프라에서는 전혀 적용되지 않고 있는 것이다.

KT는 이에 '클라우드 특성을 그대로 GPU에도 적용할 수 없을까'를 고민했고, 새로운 형태의 AI GPU 서비스를 개발하기 위해 지난해부터 국내 소프트웨어 개발사인 '모레'와 협력해 왔다. 약 1년 7개월간의 개발·테스트 기간을 거쳐 지난 10월 출시한 상품이 HAC다.

KT클라우드 HAC 인프라 구성도

KT HAC, 최초의 GPU 종량제 서비스...대규모 클러스터 구성 가능

KT HAC는 우선 GPU 인프라에 대해서도 확장성을 보장한다. "고객 필요에 따라 GPU 클러스터를 확장할 수 있게 했고, 10일 출시한 상품에는 우선 100장의 GPU 카드가 꽂혔지만 이론상으로는 수천 장의 GPU 카드 사용이 가능한 구조를 만들었다"는 게 김 상무 설명이다.

또, 클라우드 최초의 GPU 종량제 서비스로 유연성, 효율성을 제공한다. 클라우드 사업자가 고객에 GPU를 직접 할당하는 기존 방식과 달리, KT HAC는 온디맨드 할당이 가능하다. 실제 연산을 실행할 때만 GPU를 사용하고 안 쓸 때는 자원을 회수하는 방식이다.

기존 방식으로는 GPU 연산을 쓰든 안 쓰든 비용이 나갔다면, 온디맨드 할당이 가능해지면서 실제 사용한 만큼만 과금이 가능해졌다. 이런 변화를 통해 최대 70% 더 저렴하게 서비스를 제공할 수 있을 것으로 KT는 기대하고 있다. 김 상무는 "연구소나 기업이 GPU를 구매했을 때 월간 25~40% 정도 활용하는 것으로 파악된다"며 "단순 계산해도 50% 이상의 비용 절감 효과를 가져올 수 있을 것으로 보고, 고객이 최종적으로 70% 정도 절감할 수 있도록 요금을 설계하고 있다"고 설명했다.

KT HAC는 개발 편의성도 높였다. "GPU 자원을 분산 처리하는 구조 덕분에 싱글 GPU에서 멀티 GPU로 변경했을 때도 코드를 재설계하거나 수정이 필요 없고, VM을 새롭게 만들 필요도 없어졌다"는 설명이다.

어떻게 가능했나?...하드웨어·소프트웨어 스택 재설계

KT와 모레는 하드웨어 스택은 물론 소프트웨어 스택까지 모두 재설계해, 이런 변화를 가능케 했다.

하드웨어 스택에서 기존 방식과 구별되는 아이디어는 프론트 노드와 백 노드를 분리한 것이다. 기존 클라우드 사업자들은 VM에 GPU 카드를 1대 1로 매칭해주는 구조로 서비스를 제공하고 있다. 반면, HAC는 프론트 노드와 백 노드를 분리해, 프론트 노드에는 VM을 생성하는 역할을 맡기고 백 노드에는 AMD GPU 100여 장이 클러스터로 묶여 있는 구조를 만들었다. 프론트 노드의 VM이 필요에 따라 백 노드에 있는 GPU를 요청해서 쓰고 반납하는 액션을 가능하게 한 것이다. 프론트 노드와 백 노드는 200G급 스위치로 통신한다.

소프트웨어 스택에서는 엔비디아 중심으로 형성된 소프트웨어 생태계와 호환을 맞추는 일이 핵심 과제였다. 엔비디아가 소프트웨어 스택을 공개하지 않아 어려움이 있었지만, KT는 모레가 협력해 엔비디아와 완전히 동일하면서 더 나아가서 병렬 처리와 최적화 처리까지 가능한 소프트웨어 스택을 구현해냈다.

KT는 올해 HAC 상용화를 시작으로 AI 풀스택을 갖춘 클라우드 사업자로 거듭나겠다는 포부다.

올해는 남은 기간 기술 검증(PoC)을 진행하며 서비스를 검증할 계획이다. 현재 모두의 연구소, 커먼컴퓨터, 바스젠바이오, 디핑소스 등 AI 관련 벤처나 교육 업체 10곳이 PoC 레벨로 HAC를 이용을 하고 있다. 검증을 마치면 국가 연구개발(R&D) 존을 마련해, 정부 AI 과제를 지원하는 등 활용 사례를 확대해 나갈 생각이다.

관련기사

KT는 자체 AI칩 개발에도 뛰어들었다. 2023년 개발 완료를 목표로 하드웨어·소프트웨어 분야 파트너 업체들과 협력하고 있다.

김 상무는 "내년는 1분기 내에 대규모 GPU팜을 만들어서 확장할 계획이며 전용 AI칩도 개발하고 있다"며 "AI 풀스택을 갖춰 2024년부터는 해외 사업까지 뛰어들겠다"고 강조했다.