시스코와 엔비디아가 인공지능(AI) 네트워킹 인프라 동맹을 체결했다.
시스코는 지난주 암스테르담에서 개최한 '시스코 라이브'에서 엔비디아와 AI 인프라 솔루션 파트너십을 발표했다.
이 파트너십에 따르면, 시스코는 엔비디아 GPU 클러스터에 특수목적 이더넷 네트워킹 기반 솔루션을 제공한다. 엔비디아의 GPU 클러스터를 이더넷 인프라로 확장할 수 있는 솔루션이다.
엔비디아의 텐서코어 GPU는 시스코 UCS-X 시리즈, UCS-X 시리즈 다이렉트 등 시스코 UCS M7 세대 랙 및 블레이드 서버에서 사용가능하다. 각종 AI 관련 프레임워크와 사전훈련 모델, 개발 도구 등을 포함하는 엔비디아 AI 엔터프라이즈를 시스코를 통해 사용할 수 있다.
시스코는 엔비디아와 참조 아키텍처를 공동 검증하고 고객에게 제공한다. 생성 AI 추론을 위한 플렉스포드, 플래시스택용 시스코검증설계(CVD, Cisco Validated Design)를 시작으로 여러 검증 아키텍처가 출시될 예정이다.
시스코는 넥서스 대시보드, 시스코 인터사이트 등을 사용해 엔비디아 GPU 클러스터 운영을 간소화한다. 시스코 사우전드아이즈와 시스코 가시성 플랫폼이 AI 인프라 모니터링을 제공한다.
AI 인프라의 핵심인 GPU의 성능을 높이려면 여러 GPU를 연결하는 네트워킹 기술이 필요하다. 여기서 GPU 연결에 노드 내부와 노드 외부 등 두 종류의 네트워킹이 요구된다.
LLM 환경은 기존 네트워크 물량 대비 최소 3~4배의 네트워킹 물량이 필요하다. 손실없는 완벽한 논블로킹 네트워킹 구조를 요구하므로, 네트워킹 장비와 케이블 수가 문자그대로 '기하급수'로 증가한다.
엔비디아의 경우 표준 아키텍처에 의하면, DGX 같은 전용 서버 한 대에 GPU를 8개씩 장착할 수 있다. 8개의 GPU는 노드 내 연결은 엔비디아의 NV링크란 독점 기술을 쓴다. 그리고 GPU 서버를 여러대 연결하는 노드 외 연결은 고대역폭 인피니밴드나 이더넷 스위치를 이용한다.
엔비디아는 H100 GPU의 노드 연결에 400Gbps의 고대역폭 네트워킹을 기본 사양으로 권고한다. 엔비디아는 고사양 GPU 신제품을 내놓을 때마다 대폭의 네트워킹 사양 업그레이드를 요구해왔다. V100 GPU에서 A100으로 넘어가면서 네트워킹 사양을 100Gbps에서 200Gbps로 올렸다. 성능 요구치는 초당 300GB에서 600GB로 올렸다. H100의 성능 요구치는 초당 900GB에 이른다.
만약 네트워킹 사양을 부족하게 구성하면 아무리 많은 GPU를 구비한다 해도 LLM 학습이나 추론 성능이 떨어질 수밖에 없다. 빠른 AI 서비스를 출시하려면 고비용의 대규모 AI 인프라 도입에서 특히 각 연산 요소 간 통신에 필요한 네트워킹이 필수적이다.
현재 엔비디아 GPU 클러스터링의 네트워킹 인프라는 인피니밴드 중심이다. 델오로그룹 분석에 의하면, 전세계 엔비디아 기반 AI 인프라의 90%는 엔비디아 멜라녹스의 인피니밴드를 사용중인 것으로 추정된다.
인피니밴드가 이더넷을 압도하며 AI 인프라에 활용된 건 고대역폭과 안정성 때문이다. 하지만 기술의 발전으로 인피니밴드로만 구현가능했던 부하분산, 안정성, 고대역폭, 저지연시간 등의 요건이 이더넷에서도 충족가능해졌다.
AI 인프라는 다수의 GPU 간 병렬 연산을 빠르게 수행하기 위해 다양한 부하분산 기술을 필요로 한다. RDMA, GPU 간 P2P, GPU 다이렉트스토리지 등이 활용된다. 이중 대표적인 오프로딩 기술인 RDMA는 워크로드 내 존재하는 다수의 프로토콜 계층을 건너뛰는 제로카피 기술 'DMA'를 네트워킹까지 확장한 것이다. RDMA는 서버 간 혹은 서버와 스토리지 간 간섭없는 메모리 접근을 제공해 GPU 간 병렬 연산 능력을 극대화한다.
시스코의 경우 실리콘원 G200 스위치 ASIC을 통해 고급 혼잡 관리, 패킷 스프레이 기술, 링크 장애 조치 등 AI 환경에 유용한 여러 기능을 제공한다. 이 ASIC의 경우 전력 효율도 우월해 인피니밴드 대비 운영비용을 더 절감할 수 있다.
인피니밴드보다 이더넷을 AI 인프라에 활용할 경우 운영 인력 확보도 더 용이해진다. 인피니밴드와 달리 이더넷은 표준 기술이고 경쟁 시장이기 때문에 개방적이면서 누구나 쉽게 구축 및 운영할 수 있다. 이미 이더넷으로 구축된 외부 서비스와 연동도 더 쉽다. 운영 인력의 저변도 매우 넓다.
관련기사
- AI 네트워킹, 인피니밴드에서 이더넷으로 대세 바뀐다2024.01.30
- 마이크로소프트는 오픈AI의 슈퍼컴을 어떻게 구축했나2023.03.15
- "엔비디아, 40조 규모 맞춤형 AI 칩 시장 진출한다"2024.02.10
- 생성 AI의 엔비디아 GPU 탈출은 가능할까2023.08.17
척 로빈스 시스코 회장 겸 최고경영자는 “AI는 우리가 일하고 생활하는 방식을 근본적으로 변화시키고 있으며, 이러한 규모의 변화로 인해 기업은 인프라를 재고하고 재구축해야 한다는 것을 역사를 통해 알 수 있다”며 "엔비디아와 훌륭한 파트너십을 강화하면 기업은 AI 솔루션을 대규모로 구축, 배포, 관리 및 보호하는 데 필요한 기술과 전문 지식을 갖추게 될 것”이라고 밝혔다.
젠슨 황 엔비디아 CEO는 "모든 기업이 생성 AI를 통해 비즈니스를 혁신하기 위해 경쟁하고 있다"며 “시스코와 긴밀히 협력해 기업이 평생 가장 강력한 기술인 AI의 혜택을 받는 데 필요한 인프라를 그 어느 때보다 쉽게 확보할 수 있도록 만들고 있다”고 강조했다.