AI 팩토리가 미래 산업의 전력망...엔비디아 'NVL72'가 여는 지능 생산 시대

"AI가 AI 관리하는 구조 진화…72개 GPU가 한 몸처럼 움직여"

반도체ㆍ디스플레이입력 :2025/11/04 17:07    수정: 2025/11/04 17:11

엔비디아가 제시한 ‘AI 팩토리’ 개념이 단순한 데이터센터를 넘어 산업 인프라의 새로운 전력망으로 부상하고 있다.

정구형 엔비디아 코리아 솔루션스 아키텍트 팀장은 4일 서울 강남구 코엑스에서 열린 ‘SK AI 서밋 2025’에서 “AI 팩토리는 데이터를 투입해 학습하고, 추론하고, 다시 개선하는 지능의 생산 라인”이라며 AI가 AI를 관리하는 구조로 진화하고 있다”고 말했다.

정구형 엔비디아 코리아 솔루션스 아키텍트 팀장이 발표하고 있다.(사진=전화평 기자)

“AI 팩토리는 지능을 생산하는 공장”

정 팀장은 AI 팩토리를 “데이터를 넣으면 인사이트를 만들어내는 공장”이라고 정의했다.

그는 엔비디아가 제공하는 AI 블루프린트를 예시로 들었다. 해당 기술은 기업 개발자가 특정 사용 사례에 맞춰 맞춤형 생성형 AI 어플리케이션이나 디지털 트윈 솔루션을 신속하게 구축하고 배포할 수 있도록 설계된 포괄적인 참조 워크플로우 패키지다.

블루프린트는 오픈소스로 공개돼 있다. 정 팀장은 “개발자는 깃허브에서 그대로 클론해 자기 환경에 맞게 수정할 수 있다”고 설명했다.

AI 팩토리의 심장 ‘NVL72’

AI 팩토리의 핵심은 NV링크다. NV링크는 엔비디아가 개발한 고속 상호 연결 기술로, 서버 내 GPU 간 통신 속도를 높여 성능을 향상시킨다. 엔비디아가 제시한 NVL72는 기존 GPU 8개가 연결되던 NV링크를 72개까지 확장한 기술이다.

정 팀장은 엔비디아의 차세대 AI 인프라 시스템인 GB200 NVL72를 “에이전틱(Agentic) AI 서빙을 위한 가장 효율적이고 최적화된 플랫폼”이라고 소개했다.

NVL72 인터커넥트 구조.(사진=전화평 기자)

이 시스템은 한 개의 그레이스 CPU와 두 개의 블랙웰 GPU로 구성된 ‘GB200 슈퍼칩’을 기본 단위로 한다. 각 컴퓨트 트레이에는 슈퍼칩 두 세트가 장착되고, NV링크 스위치 트레이가 네트워크 구조로 연결된다.

정 팀장은 “이전까지는 8개의 GPU가 마더보드 위에서 NV링크로 연결됐지만, NVL72는 NV링크를 외장화해 전체 72개 GPU를 하나의 NV링크 도메인으로 묶는다”며 “모든 트레이가 콘센트 꽂듯이 연결되고, NV링크 케이블이 GPU 간 병목을 없앤다”고 설명했다.

이 구조를 통해 NVL72는 GPU 간 130TB/s의 대역폭을 확보하며, FP8 기준 720 PFLOPS의 학습 성능, FP4 기준 1천440 PFLOPS의 추론 성능을 제공한다.

그는 “NVL72는 훈련용뿐 아니라 추론용으로도 완벽하게 최적화됐다”고 강조했다.

엔비디아, AI 팩토리 운영 시스템 ‘미션 컨트롤’ 지원

NVL72는 냉각·전력·네트워크까지 미션 컨트롤이라는 운영 소프트웨어를 통해 통합 관리된다. 미션 컨트롤은 작동 중 오류가 날 경우 AI가 자동으로 오류를 바로 잡는 운영 시스템이다.

정 팀장은 “GPU가 장애가 나면 미션 컨트롤이 자동으로 복구 작업을 한다”며 “100개 중 2개가 에러라도 나머지 98개를 다시 묶어 작업을 시작한다. 장애가 나도 1분 내에 자동으로 재시작된다”고 전했다.

이 소프트웨어는 BMS(Building Management system)와 연동돼 전력 사용량·냉각 상태·하드웨어 텔레메트리를 한 화면에서 확인할 수 있다.

그는 “전력과 냉각, 센서 데이터가 미션 컨트롤과 연결되고, 그 정보는 그래파나(Grafana) 대시보드에서 한눈에 볼 수 있다”고 말했다.

젠슨 황 엔비디아 최고경영자(CEO)가 30일 오후 서울 강남구 삼성역 인근 깐부치킨 매장에서 이재용 삼성그룹 회장, 정의선 현대차그룹 회장과 치킨 회동을 하고 있다. 2025.10.30/뉴스1 ⓒ News1 김진환 기자

국내 기업들도 'AI 팩토리' 경쟁 본격화

엔비디아의 AI 팩토리 개념은 국내 주요 그룹의 핵심 전략으로 빠르게 확산 중이다.

삼성전자는 반도체 전 공정에 AI를 접목한 ‘AI 메가팩토리’를 추진하며 수만 개 GPU 규모의 AI 팩토리 인프라를 구축 중이다.

현대자동차그룹은 약 30억 달러를 투자해 NVL72 기반 ‘AI 모빌리티 팩토리’를 설계했다. 자율주행·로보틱스·스마트팩토리를 하나의 학습·추론 시스템으로 통합한다.

LG전자는 엔비디아 옴니버스 블루프린트로 디지털트윈과 로봇, AI홈을 연결하는 ‘피지컬 AI 팩토리’를 구현하고 있다.

SK하이닉스·SK텔레콤은 반도체·통신 인프라를 묶은 그룹형 AI 팩토리 플랫폼으로 데이터센터 사업화를 추진 중이다.

관련기사

정 팀장은 발표를 마치며 “AI 팩토리는 더 이상 서버실이 아니라 산업의 전력망”이라고 말했다.

그는 “AI는 이제 모델이 아니라 시스템이다. 그리고 그 시스템을 담는 공장이 바로 AI 팩토리”라며 “AI 팩토리는 전력망처럼 산업 전체를 움직이는 기반이 될 것”이라고 강조했다.