AMD "AI PC, CPU·GPU·NPU 모두 활용 필요"

"마이크로소프트는 2024년 이후 신경망처리장치(NPU)를 활용한 스튜디오 효과, 이미지 편집, 카메라 영상 처리 등을 꾸준히 투입하고 있다. 40 TOPS(1초당 1조번 연산) 이상의 NPU가 없다면 이런 기능 활용은 불가능하다."

11일 오전 서울 삼성동에서 진행된 'AI PC 부트 캠프' 행사에서 김홍필 AMD 시니어 솔루션 아키텍트(이사)가 이렇게 설명했다.

NPU는 AI 추론 연산에 특화된 프로세서로, GPU보다 전력 소모가 낮고 INT8 등 저정밀 연산에 효율적이다.

AMD는 이날 AI PC용으로 설계된 라이젠 AI 300/400 시리즈 프로세서와 NPU의 활용 상황, GPU 대비 NPU가 가진 전력소모 등 이점과 향후 전망 등을 소개했다.

이날 김홍필 이사는 "시장조사업체 IDC 통계에 따르면 올해를 기점으로 전체 PC 출하량 중 NPU 탑재 제품 비율이 크게 늘어나고 있다. 특히 소형·경량 노트북에는 앞으로 NPU가 반드시 탑재되는 방향으로 갈 것"이라고 설명했다.

AMD, 2024년부터 NPU 통합 개시

AMD가 2024년 10월부터 공급중인 노트북용 프로세서인 라이젠 AI 프로 300은 젠5(Zen 5) 기반 CPU, RDNA 3.5 기반 GPU와 XDNA 2 NPU(신경망처리장치)를 결합했다. AMD가 공급하는 프로세서 중 NPU를 통합한 첫 제품이다.

김홍필 이사는 "AI 초창기부터 현재까지 많은 AI 모델이 주로 GPU를 활용한다. GPU는 주로 FP32(부동소수점 32비트) 등 연산에 최적화된 반면, NPU는 INT8(정수 8비트) 처리에 최적화됐다. 특히 추론에서는 속도나 메모리 용량에 유리하다"고 설명했다.

올해부터 공급되는 라이젠 AI 400 시리즈는 전작 대비 작동 클록과 메모리 작동 속도 향상으로 CPU와 GPU, NPU 성능을 모두 강화했다. NPU 성능은 전작(50 TOPS) 대비 20% 향상된 60 TOPS까지 올라갔다.

"코파일럿+ 시작으로 NPU 활용 S/W 증가 추세"

마이크로소프트 윈도11 코파일럿+ 기능은 2024년 6월 출시된 퀄컴 스냅드래곤 X 엘리트를 시작으로 같은 해 11월부터 인텔·AMD 등 x86 계열 프로세서까지 확장됐다.

주변 대화나 소리를 실시간으로 감지해 자막으로 띄우는 '라이브 캡션', PC 작동 내역을 실시간으로 추적했다 필요한 시점으로 돌아가 확인하는 '리콜' 등이 지원된다.

코파일럿+ 기능 이외에도 마이크로소프트 오피스, 어도비·블랙매직·사이버링크 등 콘텐츠 제작용 솔루션, 피싱이나 악성 코드를 실시간으로 감지하는 보안 솔루션까지 NPU 활용이 확장되는 상황이다.

김홍필 이사는 "현재는 각종 콘텐츠 제작에 AI가 가장 많이 쓰이지만 앞으로는 CPU와 GPU, NPU 3개를 모두 활용해 효율적으로 로컬 AI를 구동하는 것이 중요하다. AMD는 여러 회사와 함께 더 많은 활용 사례를 만들기 위해 노력하고 있다"고 설명했다.

NPU 구동해 LLM 실행시 토큰 속도 향상

이날 AMD는 라이젠 AI 7 350 프로세서와 24GB 메모리를 탑재한 HP 엘리트북6 G1a를 이용해 NPU 활용시 전력 소모와 처리 시간을 비교했다.

첫 번째 시연에서는 클라우드 없이 PC에서 직접 거대언어모델(LLM)을 구동하는 오픈소스 소프트웨어 '레모네이드'를 활용했다.

AMD CPU와 NPU에 최적화된 딥시크 R1 80억 매개변수 모델을 이용해 첫 토큰(단어) 소요 시간과 초당 토큰 출력 시간을 확인했다.

CPU만 구동할 때 첫 토큰 출력까지 1.4초, 초당 토큰은 3.8토큰인 반면 NPU만 활용할 때는 첫 토큰 출력에 2.27초, 초당 토큰은 6.7토큰으로 향상됐다.

프로세서 전력 소모도 CPU만 활용시는 33.20W, NPU 활용시는 절반 가량인 16.59W로 전력 소모 면에서도 일정 부분 이점이 있었다.

"NPU 최적화 일부 모델은 GPU 대비 더 빨라"

두 번째 시연은 사진과 영상 콘텐츠를 생성하는 AI 모델을 구동할 수 있는 '어뮤즈'를 활용했다. 스테이블 디퓨전 3.0을 AMD 실리콘에 최적화한 모델로 2048×2048 화소 이미지 생성시 소요 시간을 비교했다.

'상자 안의 고양이(A cat in a box)'를 프롬프트로 주고 실행할 때 NPU를 활용하면 총 소요 시간은 127.5초 걸렸다. 반면 GPU만 활용시 소요시간은 296.8초로 2.5배 더 길어졌다.

프로세서 작동 온도에도 일부 차이가 있다. NPU 활용시 온도는 50도로 측정됐지만 GPU만 활용하면 전체 온도는 60도까지 상승한다. 또 과열을 막기 위해 일시적으로 성능을 끌어내리는 스로틀링이 작동해 오히려 더 처리 시간이 길어졌다.

김홍필 이사는 "NPU와 GPU의 연산 정밀도에는 차이가 있고 정밀도를 내릴 수록 처리 시간은 줄어든다. 아직 NPU에 특화된 모델이 드물지만 메모리 용량이나 성능에 일정한 제약이 있는 상황에서 NPU가 더 효율적인 선택지를 줄 수 있다는 의미"라고 설명했다.

"NPU 수치보다는 AI 모델 최적화 여부가 관건"

현재 인텔, AMD, 퀄컴 등 주요 AI PC용 프로세서 제조사는 NPU 성능을 차별화 포인트 중 하나로 내세운다. 45 TOPS(퀄컴 헥사곤)로 시작해 50 TOPS(인텔 NPU5), 60 TOPS(AMD) 등 수치상으로는 계속 향상되고 있다.

관련기사