모레, GPU 대체 AI 인프라 성능 글로벌 입증

텐스토렌트 신제품 행사서 이종 분산 서빙 기술 첫 공개…HBM 비용 절감

컴퓨팅입력 :2026/05/04 10:20    수정: 2026/05/04 10:28

모레가 텐스토렌트 기반 시스템에서 엔비디아 DGX A100급 이상의 거대언어모델(LLM) 추론 성능을 달성하며 그래픽처리장치(GPU) 중심 AI 인프라 대안 전략을 제시했다. 

모레는 텐스토렌트 '갤럭시 웜홀' 시스템에 자사 MoAI 추론 프레임워크를 적용해 LLM 추론 성능을 입증했다고 4일 밝혔다. 모레의 MoAI 추론 프레임워크는 엔비디아·AMD·텐스토렌트 등 이종 GPU 및 신경망처리장치(NPU)를 단일 클러스터에서 통합 운용하는 분리 추론 솔루션이다. 특정 벤더에 종속되지 않고 다양한 AI 가속기를 유연하게 활용하는 인프라 전략 구축이 가능하다.

GPT-OSS·큐원·GLM·딥시크 등 최신 혼합전문가(MoE) 모델 기준 테스트에 따르면 MoAI 추론 프레임워크는 엔비디아 DGX A100급 또는 그 이상의 성능을 달성했다. 모레는 GPU와 텐스토렌트 웜홀 칩을 결합한 '이종 분산 서빙' 구조로 비용 효율성도 개선했다. 텐스토렌트 칩을 프리필(prefill·입력 처리) 전용 가속기로 활용해 고비용 구조의 고대역폭메모리(HBM) 사용을 줄이고 전체 인프라 비용을 절감했다.

관련기사

모레는 1일(현지 시각) 미국 샌프란시스코에서 열린 텐스토렌트 신제품 발표 행사(TT-Deploy)에 참여해 '텐스토렌트 갤럭시 기반 프로덕션급 LLM 추론'에 대한 기술적 성과를 소개했다. (사진=모레)

텐스토렌트 전략적 파트너이자 TT-메탈리움 플랫폼 주요 외부 기여자인 모레는 1일(현지 시각) 미국 샌프란시스코에서 열린 텐스토렌트 신제품 발표 행사 'TT-디플로이(Deploy)'에서 이 같은 성과를 처음 공개하고 데모 부스를 운영했다.


조강원 모레 대표는 "텐스토렌트 기반 시스템에서도 실제 서비스 환경에 적용 가능한 수준의 LLM 추론 성능과 안정성을 확보했다는 의미가 크다"며 "이종 GPU 간 KV 캐시 전송 효율화, 텐스토렌트 NPU 통합 등을 통해 성능 고도화를 추진할 계획"이라고 말했다.