"초거대 AI, 대기업 전유물 아냐" 클라우드가 돕는다

그야말로 챗GPT 열풍이다. 오픈AI의 초거대 AI '챗GPT'는 지난해 12월 출시 후 두 달 만에 월간활성이용자수(MAU)가 1억명을 넘었다. 틱톡이 1억명의 이용자를 만드는 데 9개월, 인스타그램이 30개월이 걸린 것에 비교하면 가히 놀라운 속도다. 최근 마이크로소프트 창업자인 빌 게이츠는 챗GPT와 같은 초거대AI가 세상을 바꿀 것이라고 전망하기도 했다.

세상을 바꿀 기술로 꼽히는 초거대AI 뒤에는 이를 움직이는 두뇌가 있다. 바로 초거대AI의 대규모 연산을 돌리기 위해 필요한 반도체다. 사실상 초거대AI 개발은 그 '두뇌'를 갖추기 위한 인프라 확보 전쟁이라고 말해도 과언이 아니다.

그러나 기업들에게 있어 무엇보다도 큰 장벽은 바로 비용이다. 초거대AI 개발에 사용되는 GPU 확보에 감당하기 어려울 정도의 너무 많은 비용이 들어가기 때문이다. 거대 기업이 아니면 쉽게 AI 연구에 뛰어들 수 없는 이유다.

■ 챗GTP 이어 구글, LG, 네이버, 카카오도 초거대AI 개발

세상을 바꿀 기술로 꼽히는 초거대AI 시장에 글로벌 기업들은 발 빠르게 뛰어들고 있다.

챗GPT에 대응하기 위해 구글은 AI 챗봇 '바드'를 부랴부랴 내놨다. 바드는 초거대 언어 모델인 람다(LaMDA)를 기반으로 한다. 람다는 1천370억개에 달하는 매개변수로 학습한 것으로 알려졌다. 순다르 피차이 CEO는"바드 검색 엔진은 웹에서 정보를 끌어와 답변을 제공한다"며 "사용자는 질 높고 최신 버전으로 이뤄진 답을 받을 수 있다"고 말했다.

LG가 자체 개발한 초거대 AI 연구원 '엑사원'은 3천억개의 매개변수를 가졌다. 엑사원은 6천억개의 말뭉치, 2억5천만개의 이미지를 학습해, 원어민 수준으로 한국어와 영어를 이해하고 구사할 수 있으며, 텍스트, 음성, 이미지, 영상을 자유자재로 변환할 수 있다. LG는 엑사원을 제조, 연구, 교육, 금융 등 사실상 모든 분야에서 '상위 1% 수준의 전문가 AI'로 활약할 수 있도록 만든다는 계획이다.

네이버는 초거대AI '하이퍼클로바'를 선보였다. 2천40억개의 매개변수를 활용한 하이퍼클로바는 GPT-3보다 한국어 데이터를 6천500배 이상 학습한 것으로 알려졌다. 또한 네이버는 하이퍼클로바 개발을 위해 5천600억개의 토큰의 한국어 대용량 데이터를 구축했다. 네이버는 자사 서비스에 하이퍼클로바 기술을 적용해 사용자들에게 차별화된 경험을 제공한다는 계획이다.

카카오는 한국어 특화 초거대 AI모델인 'KoGPT'를 내놨다. 'KoGPT'는 60억개의 매개변수와 2천억개의 한국어 토큰을 바탕으로 구축됐다. 홍은택 카카오 대표는 2022년도 실적발표 컨퍼런스 콜에서 "카카오브레인이 가진 한국어 특화 모델인 KoGPT를 활용해 날카로운 버티컬 AI 서비스에 집중하겠다"며 "경쟁 AI 모델 대비 작은 규모 파라미터를 활용함에도 퍼포먼스 측면에선 뒤지지 않는 결과를 내고 있다"고 밝혔다.

■ 초거대AI 인프라 투자 골머리...비용 절감 관건

AI 기술이 발달하면서 학습 대상 매개변수의 양은 폭발적으로 증가했다. GPT-3의 매개변수(파라미터)는 1천750억개이며, 올해 출시될 GPT-4의 매개변수는 100조개 이상으로 늘어날 것으로 전망된다. 새 버전마다 매개변수 증가폭이 기하급수적이다.

초거대AI 모델을 처리하려면 대규모 고성능 인프라가 필요하다. 일반적으로 GPU 1장으로 GPT-3 훈련에 335년이 소요된다. 따라서 시간을 단축하기 위해 한번에 구동 가능한 대규모의 GPU 인프라 확보가 필수적이다.

여기서 AI 연구·서비스 기업들은 비용이라는 장벽에 부딪히게 된다. 초거대AI를 만드는 데 엄청난 인프라 비용이 들어가기 때문이다. GPU 1장을 사는 데만 약 500만원 가량이 든다. 챗GPT 개발사 오픈AI가 챗GPT를 운영하는 데는 매일 수백억원 이상의 비용이 들어가는 것으로 알려졌다.

실제 홍은택 카카오 대표도 지난 2022년도 실적발표 컨퍼런스 콜에서 "초거대 AI 모델이 혁신적인 아이디어에 의해 차별화되는 게 아니라 모델 크기가 품질을 좌우한다"며 "자금력을 갖춘 글로벌 기업에 절대 유리한 싸움"이라고 밝힌 바 있다.

KT클라우드 이태경 팀장은 "챗GPT와 같은 초거대AI를 만드는 데 엄청난 인프라 비용이 들어간다"며 "거대 기업이 아니면 쉽사리 AI 연구에 뛰어들 수 없는 이유"라고 말했다. 이어 "AI를 이미 확보한 업체들의 공통적인 고민 사항은 AI 서비스의 원가를 낮추는 것"이라고 덧붙였다.

또한 대규모의 돈을 들여 엄청난 양의 GPU를 할당받은 기업들이 항상 GPU를 사용하는 것도 아니다. AI 개발 사이클을 보더라도 항상 GPU가 사용되는 것은 아니다. 실제로 글로벌로 판매된 엔비디아 GPU의 전체적인 평균 사용률은 대략 30% 정도 수준에 그치는 것으로 알려졌다.

KT클라우드는 바로 이러한 고민을 파고들었다. KT클라우드는 클라우드 서비스처럼 GPU를 쓴 만큼만 비용을 낼 수 있는 '하이퍼스케일 AI 컴퓨팅(HAC)' 서비스를 지난해 6월 상용화했다.

이 팀장은 "그동안 대부분의 클라우드서비스제공업체(CSP)는 대형 AI 모델을 돌릴 수 있을 만큼의 큰 GPU를 주지 못했으며, 가격이 매우 비쌌다"라며 "이러한 고충을 극복하기 위해 만든 서비스가 HAC 서비스"라고 설명했다.

이어 그는 "기존 CSP 서비스들은 여러 노드를 묶어주는 기술이 부재했다"라며 "우리는 아키텍처를 바꿔 고객의 개발 환경과 실제 자기가 필요로 하는 GPU가 모여 있는 곳을 분리시켰다"고 덧붙였다.

HAC 서비스는 KT클라우드 하이퍼스케일 AI 컴퓨팅 서비스로, 실사용량에 기반해 대규모 GPU클러스터링을 지원하는 종량제 서비스다. 대규모 연산을 실행할 때 필요한 만큼 GPU 클러스터를 확장하고, 연산 종료 후 사용한 GPU 자원을 언제든 반납할 수 있다. 사용량에 기반해 분당 과금한다.

이 팀장은 "그동안 초거대AI 연구는 대규모 기업의 전유물이라고 할 만큼 천문학적인 비용이 들었다"며 "HAC 서비스를 활용할 경우, 동일 예산으로 더 오랜 기간 학습시킬 수 있고, 동일 기간 내 저렴한 비용으로 학습할 수 있다"고 설명했다. 이어 "기존에 24시간 중에 평균적으로 25%정도만 GPU를 쓰던 고객이 자사 HAC 서비스를 사용할 경우 85% 정도 비용이 절감된다"고 덧붙였다.

HAC서비스는 KT클라우드가 퍼블릭 클라우드에서 쌓은 기술 및 운영경험을 국내 파트너사 '모레'의 GPU 제어 솔루션과 결합해 상호개발한 상품이다. 현재 KT클라우드는 AMD의 GPU를 사용하고 있다. HAC 서비스는 엔비디아 전용 프로그래밍 소프트웨어인 쿠다를 사용하던 고객들이 불편함을 느끼지 않도록 '모레'와 협력해 쿠다와 동일한 사용성을 보장한다.

KT클라우드는 정보통신산업진흥원(NIPA)이 2021년부터 연간 240억 규모로 추진한 '고성능 컴퓨터 지원사업'을 통해 국내 AI 기업 '스캐터랩', KT융합기술원 및 대학교에 HAC 서비스를 제공했다. KT클라우드는 대기업, 스타트업, 연구기관 등 다양한 분야에서 HAC를 활용해 AI 연구·개발을 할 수 있도록 대규모 GPU 팜 구축을 지속 확대한다는 방침이다.