델 테크놀로지스(이하 델)가 엔비디아와 함께 기업 인공지능(AI) 도입에 필요한 모든 인프라와 자동화 서비스를 통합 제공한다.

랙부터 서버, 스토리지, 네트워크, 자동화까지 아우르는 통합 플랫폼을 통해 기업의 부담을 최소화하고 혁신을 가속화한다는 구상이다.

델의 바룬 차브라 인프라 솔루션 그룹 부사장은 18일 미국 세인트루이스에서 개최한 슈퍼컴퓨팅 25(SC25)에서 새롭게 개편한 '델 AI 팩토리'를 공개하며 고성능컴퓨팅(HPC)·생성형 AI 인프라 전략을 공개했다.

델 테크놀로지스 바룬 차브라 인프라 솔루션 그룹 부사장(이미지=델 테크놀로지스)

바룬 차브라 부사장은 기업에서 AI 도입하는 과정 중 최대 진입장벽으로 기술 인력 부족과 예산, 투자수익률(ROI)을 꼽았다.

이러한 기업 부담을 최소화하기 위해 델은 엔터프라이즈 AI 구축을 더 간편하고 빠르게 만들기 위해 델 AI 팩토리 제품군을 대폭 확장했다. 새롭게 강화된 포트폴리오를 통해 기업의 AI 워크로드 운영 과정에서 발생하는 병목을 줄이고 보다 유연하고 통합된 온프레미스 인프라 환경을 구현할 수 있도록 하기 위함이다.

바룬 차브라 부사장은 "고객은 이제 GPU를 얼마나 많이 사느냐보다, 데이터센터 전체를 어떻게 AI에 맞게 설계하고 운영할 수 있는지가 더 중요하다"며 "델 AI 팩토리는 기업이 복잡한 설계 없이 바로 쓸 수 있는 레퍼런스 'AI 공장'을 제공하는 것이 목표"라고 말했다.

이번 개편의 핵심은 새로운 랙 스케일 시스템 '델 파워에지 XE8712'다. 엔비디아와 협력해 선보이는 것으로 'GB200 그레이스 블랙웰 슈퍼칩' 기반이다.

이 시스템은 델 통합 랙과 결합해 랙 단위로 서버·전력·냉각·네트워크 상태를 자동 모니터링하고 최적화하는 '자가 관리형' AI 랙을 지향한다. 랙 한 대에 최대 36노드, 엔비디아 B200 GPU 144개까지 실어 고밀도 연산 성능을 구현하고 직결 액체냉각을 적용해 대규모 언어모델(LLM) 학습과 멀티 노드 추론 시 발생하는 전력·열 문제를 동시에 해결하도록 설계했다.

델 파워엣지 XE8712(이미지=델 테크놀로지스)

차브라 부사장은 "랙 차원에서 전력과 냉각, 네트워크까지 함께 설계하는 것이 초대형 AI 환경에서는 필수"라며 "XE8712는 이런 요구를 반영한 랙 스케일 AI 플랫폼"이라고 설명했다.

컴퓨트 라인업도 AI·HPC에 맞게 재정비했다. '파워에지 XE9785/XE9785L'은 AMD '인스팅트 MI355X' GPU와 전용 AI 네트워크카드(NIC)를 탑재한 서버로, 공랭식 10U 모델과 직접 칩을 식히는 액체냉각 3U 모델 두 가지로 제공된다.

내부 벤치마크 기준 기존 MI300X 기반 서버 대비 MLPerf 학습 성능이 최대 2.7배 향상됐고, GPU당 HBM3E 메모리는 288GB까지 확장돼 더 큰 모델과 긴 시퀀스를 한 번에 메모리에 적재할 수 있다.

인텔 제온 6 프로세서를 탑재한 '파워에지 R770AP'는 고빈도 매매(HFT) 등 초저지연 워크로드에 맞춰 연산 성능과 와트당 효율을 끌어올렸다.

차브라 부사장은 "엔비디아, AMD, 인텔과 협력해 다양한 선택지를 제공함으로써 고객이 워크로드에 맞는 최적 조합을 고를 수 있게 하는 것이 델의 전략"이라고 말했다.

엔비디아와 협력으로 업데으트된 델 AI 팩토리(이미지=델 테크놀로지스)

네트워크와 스토리지는 '데이터 병목' 해소에 초점을 맞췄다. 델은 개방형 스위치 OS인 '엔터프라이즈 소닉(SONiC) 배포판'에 엔비디아 스펙트럼X를 공식 지원해 델 파워스위치와 엔비디아 기반 스위치를 하나의 패브릭으로 운영할 수 있게 했다.

여기에 스마트패브릭 매니저를 더해 장비 자동 탐지·검증, 블루프린트 기반 자동 구성, 광모듈 텔레메트리와 열 지도 기능을 제공해 수동 설정에 비해 구성 단계를 크게 줄였다.

스토리지 측면에서는 델 파워스케일·오브젝트스케일에 엔비디아 '다이나모' 라이브러리를 연동했다. 자주 쓰는 대규모언어모델(LLM)의 중간 계산 결과를 GPU 메모리에만 쌓아 두지 않고 스토리지로 옮겨 저장해 두었다가 다시 가져다 쓰는 방식으로 GPU 부담을 줄이고 응답 속도를 높이도록 한 것이다.

이를 통해 델 내부 테스트 기준 대규모 컨텍스트 환경에서도 첫 토큰 응답 시간을 1초 수준으로 유지하고 토큰 처리량도 개선한 것으로 나타났다.

차브라 부사장은 "많은 고객이 GPU가 있지만 데이터가 따라오지 못한다는 고민을 안고 있다"며 "네트워크와 스토리지를 AI 워크로드에 맞게 다시 설계한 것이 이번 포트폴리오의 중요한 차별점"이라고 말했다.

델 AI 데이터 플랫폼을 델 위한 스토리지 엔진(이미지=델 테크놀로지스)

자동화와 서비스는 기업의 AI 도입 속도를 끌어올리는 역할을 맡는다. 델은 '델 오토메이션 플랫폼'을 통해 코히어 에이전트, 탭나인 코드 어시스턴트 등 주요 AI 워크로드를 온라인 카탈로그에서 선택해 최소한의 클릭으로 자동 배포할 수 있도록 했다.

이를 통해 수십 단계에 이르는 수작업을 줄이고, 구축 시간을 최대 3분의 1 수준으로 단축할 수 있다는 설명이다. 또 실제 고객 데이터를 활용해 8주 안에 AI 파일럿을 검증하는 'AI 유스케이스 파일럿' 서비스, 액체냉각 인프라를 사전에 점검하는 예방 정비 서비스도 함께 제공한다.

차브라 부사장은 "고객 입장에서는 대규모 투자를 결정하기 전에 자기 환경에서 성능과 효과를 직접 확인하는 것이 가장 중요하다"며 "델은 인프라부터 파일럿 검증, 운영 자동화까지 전 과정을 함께 설계하는 파트너가 되겠다"고 강조했다.