레드햇-소프트뱅크, AI-RAN 통합…"통신망서 LLM 추론 분산 처리"

llm-d로 AI-RAN 워크로드 분산·성능 높여…"네트워크 복원력 확보"

컴퓨팅입력 :2026/03/10 10:27

레드햇이 통신 인프라에서 인공지능(AI) 활용을 확대하기 위한 기술 통합에 나섰다. 

레드햇은 소프트뱅크 손잡고 AI-무선접속망(RAN) 오케스트레이터 '아이트라스'에 'llm-d'를 통합했다고 10일 밝혔다. 이 기술은 RAN 환경에서 거대언어모델(LLM) 추론을 분산 처리해 성능과 효율을 높이는 오픈소스 프레임워크다.

이번 통합은 통신 사업자가 AI와 기존 RAN 워크로드를 동일한 하드웨어(HW) 환경에서 운영하도록 지원하는 것이 핵심이다. 엣지 환경에서 생성형 AI와 언어 모델 활용이 늘면서 통신망 내부에서도 AI 추론과 네트워크 기능을 동시에 처리해야 하는 수요가 커지고 있기 때문이다.

레드햇 공식 로고. (사진=레드햇)

레드햇과 소프트뱅크는 이를 위해 'vLLM'과 'llm-d'를 결합한 AI-RAN 협력 구조를 구축했다. vLLM은 단일 그래픽처리장치(GPU) 노드에서 고성능 AI 모델 배포를 지원하는 오픈소스 프로젝트다. llm-d는 이를 쿠버네티스 기반으로 여러 노드에 분산 배치해 멀티 노드 환경에서도 AI 추론을 안정적으로 운영하도록 돕는다.

레드햇은 llm-d에 아이트라스가 통합되면서 RAN 워크로드와 LLM 요청을 여러 GPU 클러스터에 걸쳐 동시에 오케스트레이션할 수 있다고 밝혔다. 시스템은 AI 추론 요청을 지능적으로 라우팅하고 GPU 자원 관리와 오토스케일링을 자동으로 수행한다.

HW 자원 활용을 높이기 위한 구조도 적용됐다. llm-d는 LLM 추론 과정에서 연산 중심 단계인 프리필(prefill)과 메모리 중심 단계인 디코드(decode)를 분리해 각각 다른 GPU 자원에 배치한다. 이를 통해 다양한 하드웨어 환경에서 자원 활용도를 높이고 동일한 장비에서 실행되는 핵심 RAN 기능을 보호할 수 있다.

관련기사

AI 서비스 요청이 급증하거나 감소하는 상황에도 자동 확장이 가능하다. 아이트라스는 워크로드 특성에 따라 프리필과 디코드 작업자를 자동으로 배치하고 확장한다. 이를 통해 사용자 지연 시간을 줄이고 전력 소비를 낮춰 총소유비용(TCO) 절감에도 기여한다.

레드햇은 "이번 통합은 통신 사업자의 AI 기반 엣지 서비스 확대에 필요한 기반이 될 것"이라며 "엣지에서 AI와 네트워크 기능을 함께 운영하면 운영 비용을 낮추고 새로운 서비스 출시 기간도 단축할 수 있다"고 밝혔다.