노타, 인텔 AI PC 추론 효율 끌어올렸다

LLM 연산 GPU·NPU에 분산 배치…이기종 컴퓨팅 기반 분리형 추론 기술 '성과'

컴퓨팅입력 :2026/06/04 15:02

노타가 인공지능(AI) PC 환경에서 그래픽처리장치(GPU)와 신경망처리장치(NPU)를 동시에 활용하는 이기종 컴퓨팅 기반 거대언어모델(LLM) 추론 최적화 기술을 구현하며 온디바이스 AI 성능 개선에 나섰다.

노타는 인텔 루나 레이크 기반 AI PC에서 이기종 컴퓨팅 기반 LLM 추론 최적화 기술을 구현했다고 4일 밝혔다.

이기종 컴퓨팅은 서로 다른 장점을 가진 프로세서를 함께 활용하는 방식이다. 하나의 프로세서에 모든 일을 맡기는 대신 중앙처리장치(CPU)와 GPU, NPU처럼 역할이 다른 장치가 각자 잘하는 일을 나눠 맡도록 설계하는 것이 핵심이다. 

노타의 분리형 추론을 적용한 AI PC에서 동일한 LLM에 같은 입력을 준 실행 화면. 왼쪽 노타 분리형 추론(GPU+NPU)이 응답을 완료한 반면, 단일 NPU·단일 GPU는 아직 생성 중이다. (사진=노타)

노타는 인텔 루나 레이크 기반 AI PC에서 LLM 실행 과정을 입력 처리 단계와 답변 생성 단계로 나눠 분석하고 각 단계에 적합한 연산 장치를 배치하는 분리형 추론 방식을 적용했다. 이에 따라 입력 처리 연산은 GPU에서, 답변 생성 연산은 NPU에서 실행되도록 구성했다.

관련기사

성능 평가에 따르면 노타의 분리형 추론 방식을 적용한 결과, 단일 GPU 실행 방식 대비 토큰당 에너지 소비를 약 32% 줄이고 생성 처리량을 약 12% 높였다. 또 단일 NPU 실행 방식 대비 첫 응답 지연시간을 약 89% 단축했다.

채명수 노타 대표는 "AI PC 시대엔 GPU, NPU 등 다양한 연산 장치를 모델 특성에 맞게 조합하는 최적화 역량이 실제 AI 경험을 좌우한다"며 "모델 경량화, 런타임 최적화, 하드웨어 최적화 기술을 결합해 AI PC 시대의 온디바이스 AI 실행 효율을 높이겠다"고 말했다.