노타, 인텔 AI PC 추론 효율 끌어올렸다

노타가 인공지능(AI) PC 환경에서 그래픽처리장치(GPU)와 신경망처리장치(NPU)를 동시에 활용하는 이기종 컴퓨팅 기반 거대언어모델(LLM) 추론 최적화 기술을 구현하며 온디바이스 AI 성능 개선에 나섰다.

노타는 인텔 루나 레이크 기반 AI PC에서 이기종 컴퓨팅 기반 LLM 추론 최적화 기술을 구현했다고 4일 밝혔다.

이기종 컴퓨팅은 서로 다른 장점을 가진 프로세서를 함께 활용하는 방식이다. 하나의 프로세서에 모든 일을 맡기는 대신 중앙처리장치(CPU)와 GPU, NPU처럼 역할이 다른 장치가 각자 잘하는 일을 나눠 맡도록 설계하는 것이 핵심이다.

노타의 분리형 추론을 적용한 AI PC에서 동일한 LLM에 같은 입력을 준 실행 화면. 왼쪽 노타 분리형 추론(GPU+NPU)이 응답을 완료한 반면, 단일 NPU·단일 GPU는 아직 생성 중이다. (사진=노타)

노타는 인텔 루나 레이크 기반 AI PC에서 LLM 실행 과정을 입력 처리 단계와 답변 생성 단계로 나눠 분석하고 각 단계에 적합한 연산 장치를 배치하는 분리형 추론 방식을 적용했다. 이에 따라 입력 처리 연산은 GPU에서, 답변 생성 연산은 NPU에서 실행되도록 구성했다.