구글이 여러 데이터센터에 나뉜 연산 자원으로 대규모 인공지능(AI) 모델을 학습시키는 기술을 공개했다. 통신량과 장애 영향을 줄인 구조로, 초거대 AI 인프라 경쟁에서도 성능 못지않게 효율이 핵심 변수로 떠오르고 있다.
구글 딥마인드는 23일(현지시간) 공식 블로그를 통해 '디커플드 디로코(Decoupled DiLoCo)'를 발표했다. 대규모 학습 작업을 여러 개의 독립된 연산 단위로 나누고, 이들 사이에 비동기식으로 데이터를 주고받는 구조다. 동일한 칩을 하나의 대형 클러스터로 묶어 동기 상태를 유지하는 기존 방식과 달리 떨어진 데이터센터의 연산 자원을 여러 학습 단위로 나눠 운영하는 것이 핵심이다.
디커플드 디로코는 여러 지역에 나뉜 연산 자원을 묶어 학습을 이어가는 분산 학습 구조다. 특정 구역에서 장애가 발생해도 전체 학습이 멈추지 않도록 설계했다. 구글은 이 구조를 적용해 미국 4개 지역에서 120억 개 매개변수(12B) 모델을 2~5기가비피에스(Gbps) 광역망으로 학습시켰고, 기존 동기화 방식 대비 20배 이상 빠른 결과를 냈다. 또 별도 전용망 없이도 광역 네트워크 수준에서 생산급 분산 사전학습이 가능하다는 점도 강조했다.
장애 상황을 가정한 실험도 진행했다. 카오스 엔지니어링(chaos engineering) 방식으로 하드웨어 장애를 넣은 환경에서 일부 학습 단위가 중단된 뒤에도 전체 학습을 이어갔다. 또 복구된 단위는 다시 체계에 편입됐다. 특정 장비나 특정 구역의 문제가 전체 학습 작업으로 번지는 영향을 줄이도록 설계한 구조란 점에서 주목된다.
디커플드 디로코는 기존 디로코(DiLoCo)를 확장한 기술이다. 구글 딥마인드는 지난 2023년 연결성이 낮은 여러 연산 구역에서도 언어모델을 학습할 수 있는 저통신 분산 학습 기술인 디로코를 공개했다. 당시 8개 작업 단위 기준 완전 동기식 최적화와 유사한 성능을 내면서도 통신량은 500배 줄였다고 밝힌 바 있다. 이번에는 여기에 비동기 데이터 흐름과 장애 격리 구조를 더했다.
이는 구글의 6세대 텐서처리장치(TPU)인 트릴리움 운용 전략과도 연결된다. 구글은 디커플드 디로코를 통해 'TPU v6e'와 'TPU v5p' 등 서로 다른 세대의 칩을 하나의 학습 작업에 함께 투입할 수 있다고 설명했다. 신형 칩이 모든 지역에 동시 배치되지 않는 만큼, 최신 칩 확보뿐 아니라 기존 설비 활용도도 AI 인프라 경쟁력을 가르는 요소로 부상하고 있다.
이와 별개로 구글은 추론 병목 완화에도 속도를 내고 있다. 특히 구글 리서치가 지난 3월 공개한 '터보퀀트(TurboQuant)'는 생성형 AI 운영의 최대 걸림돌로 꼽히는 메모리 병목을 압축 기술로 줄일 수 있다는 점에서 업계의 높은 관심을 받았다. 터보퀀트는 LLM의 임시 기억장치인 'KV 캐시'를 3비트 수준으로 압축해 정확도 손실 없이 메모리 사용량을 최소 6배 줄이는 기술이다. 이를 통해 구글은 디커플드 디로코로 학습 단계에서 네트워크와 장애 영향을 줄이고, 터보퀀트로 추론 단계에서 메모리 병목을 낮추는 방식으로 AI 인프라 전반의 효율 개선에 나선 것으로 보인다.
경쟁사들도 비슷한 방향으로 움직이고 있다. 엔비디아는 블랙웰 계열에서 추론 성능과 함께 토큰당 비용 절감, 전력 효율을 강조하고 있다. 마이크로소프트(MS)는 마이아 200(Maia 200)을 AI 토큰 생성의 경제성을 높이기 위한 추론 가속기로 소개했다. 메타는 MTIA 로드맵을 공개하며 맞춤형 반도체를 인공지능 인프라 전략의 중심에 두겠다고 밝혔다. 아마존웹서비스(AWS)도 트레이니엄3 울트라서버를 내놓으며 비용 효율과 에너지 효율을 전면에 내세웠다.
관련기사
- 레드햇-구글, '디지털 주권 클라우드' 맞손…AI 시대 규제 대응2026.04.22
- [카드뉴스] AI가 똑똑해지면 메모리가 필요없어질까2026.03.28
- 구글 터보퀀트가 쏘아 올린 공…메모리 반도체는 정말 위기일까2026.03.27
- [현장] 피지컬 AI 시대, LLM이 곧 '월드 모델'…노빅 "기존 토대 활용해야"2026.01.30
다만 구글은 칩 성능이나 서비스 단가에만 초점을 맞추지 않았다는 점에서 차별화된 모습을 보이고 있다. 학습 단계에선 데이터센터 간 분산 학습 구조를 손보고, 추론 단계에선 메모리 병목을 줄이는 방식으로 접근 범위를 넓혔다. 서로 다른 세대의 하드웨어를 함께 쓰는 구조까지 제시한 점도 특징이다.
업계 관계자는 "이제 AI 인프라 경쟁은 더 많은 칩 확보에서 끝나지 않는다"며 "분산된 자원을 얼마나 안정적으로 묶어 학습시키고, 추론 비용을 얼마나 낮추느냐가 핵심 경쟁력으로 떠오르고 있다"고 설명했다.











