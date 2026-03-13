래블업이 엔비디아 B200 그래픽처리장치(GPU) 504대 규모 클러스터를 73일간 운영한 소버린(주권) 인공지능(AI) 학습 인프라 경험을 공개한다.

래블업은 신정규 대표가 오는 16~19일(현지시간) 미국 산호세에서 열리는 엔비디아 GTC 2026에서 1000억 파라미터급 모델을 처음부터 학습시킨 과정과 내결함성 스케줄링 전략을 발표한다고 13일 밝혔다. 래블업은 과학기술정보통신부·정보통신산업진흥원(NIPA) 주관 '독자 AI 파운데이션 모델 개발' 사업에서 업스테이지 정예팀의 인프라 파트너로 참여 중이다.

래블업은 업스테이지의 '솔라 오픈 100B' 학습을 지원하는 과정에서 GPU 오류·NCCL(GPU 간 집합 통신 라이브러리) 타임아웃 등 대규모 분산 학습에서 반복적으로 발생하는 장애를 자동 감지하고 복구하는 구조를 구축했다. 기존 대비 평균 장애 복구 시간을 47% 줄였으며 프로세스 재시작까지 3초 이내로 단축했다.



NFS 드라이버 설정 오류 하나가 성능을 10분의 1로 떨어뜨린 사례를 추적·해결한 과정도 공유한다. MXFP8(8비트 부동소수점) 정밀도에서의 학습 안정성 확보와 RoCE·인피니밴드 환경에서의 NCCL 튜닝 등 블랙웰 세대에 맞춘 최적화 기법도 다룬다.

전시장 243번 부스에선 기술 시연도 진행한다. 관람객이 네트워크 케이블을 직접 뽑아 장애 상황을 만들면 추론 요청이 다른 경로로 자동 전환되는 '백엔드AI(Backend.AI)' 컨티뉴엄의 내결함성을 실시간으로 확인할 수 있다.

클라우드 접속이 끊겨도 로컬 자원으로 즉시 전환해 응용 프로그램 인터페이스(API) 호출을 유지하는 방식이다. 래블업은 엔비디아 DGX 스파크에서 구동되는 '백엔드AI:GO(Backend.AI:GO)'도 선보이며 128GB 통합 메모리를 갖춘 AI 전용 장비에서 로컬 AI 환경을 제공한다.

신 대표는 "504대의 B200을 73일간 운영하면서 대규모 분산 학습이 실전에서 어떻게 무너지고 어떻게 다시 세우는지를 체계화했다"며 "국가와 산업이 독자적으로 AI를 운용할 수 있는 소버린 AI 인프라 구축의 비전을 제시하겠다"고 말했다.