레드햇-소프트뱅크, AI-RAN 통합…"통신망서 LLM 추론 분산 처리"

레드햇이 통신 인프라에서 인공지능(AI) 활용을 확대하기 위한 기술 통합에 나섰다.

레드햇은 소프트뱅크 손잡고 AI-무선접속망(RAN) 오케스트레이터 '아이트라스'에 'llm-d'를 통합했다고 10일 밝혔다. 이 기술은 RAN 환경에서 거대언어모델(LLM) 추론을 분산 처리해 성능과 효율을 높이는 오픈소스 프레임워크다.

이번 통합은 통신 사업자가 AI와 기존 RAN 워크로드를 동일한 하드웨어(HW) 환경에서 운영하도록 지원하는 것이 핵심이다. 엣지 환경에서 생성형 AI와 언어 모델 활용이 늘면서 통신망 내부에서도 AI 추론과 네트워크 기능을 동시에 처리해야 하는 수요가 커지고 있기 때문이다.

레드햇과 소프트뱅크는 이를 위해 'vLLM'과 'llm-d'를 결합한 AI-RAN 협력 구조를 구축했다. vLLM은 단일 그래픽처리장치(GPU) 노드에서 고성능 AI 모델 배포를 지원하는 오픈소스 프로젝트다. llm-d는 이를 쿠버네티스 기반으로 여러 노드에 분산 배치해 멀티 노드 환경에서도 AI 추론을 안정적으로 운영하도록 돕는다.

레드햇은 llm-d에 아이트라스가 통합되면서 RAN 워크로드와 LLM 요청을 여러 GPU 클러스터에 걸쳐 동시에 오케스트레이션할 수 있다고 밝혔다. 시스템은 AI 추론 요청을 지능적으로 라우팅하고 GPU 자원 관리와 오토스케일링을 자동으로 수행한다.

HW 자원 활용을 높이기 위한 구조도 적용됐다. llm-d는 LLM 추론 과정에서 연산 중심 단계인 프리필(prefill)과 메모리 중심 단계인 디코드(decode)를 분리해 각각 다른 GPU 자원에 배치한다. 이를 통해 다양한 하드웨어 환경에서 자원 활용도를 높이고 동일한 장비에서 실행되는 핵심 RAN 기능을 보호할 수 있다.