AI PC 성능, NPU TOPS 값만 놓고 판단할 수 있나

실제 성능 아닌 이론상 최대값, 정밀도·작동 클록에도 영향...제3자 벤치마크 전무

홈&모바일입력 :2024/06/20 10:01    수정: 2024/06/21 10:31

AI PC용 프로세서와 SoC(시스템반도체)를 개발하는 여러 제조사는 현재 NPU(신경망처리장치)의 AI 연산 처리 속도를 나타내는 값인 TOPS(1초당 1조번 연산)로 치열한 신경전을 벌이고 있다.

애플은 지난 5월 아이패드 프로에 M4 칩을 탑재하며 "M4의 뉴럴 엔진 성능은 지금까지 출시된 어떤 AI PC의 NPU보다 빠르다"고 자평하기도 했다.

애플 M4 칩에 내장된 NPU인 뉴럴 엔진. 16코어로 구성됐다. (사진=애플)

인텔은 오는 3분기 출시할 루나레이크(Lunar Lake)의 NPU 성능이 메테오레이크 대비 3배 이상인 48 TOPS라고 공언했다. 다음 달 출시를 앞둔 AMD 라이젠 AI 300 프로세서는 50 TOPS를 내세웠다.

그러나 많은 제조사가 경쟁적으로 내세우는 TOPS 값은 단순 계산을 통해 얻은 이상적인 최대치이며 실제 AI 연산의 성능까지 반영하지 못한다. 또 NPU가 처리하는 데이터의 정밀도 기준을 바꾸면 두 배로 늘어나거나, 정반대로 반토막날 수 있다.

■ TOPS 값은 어떻게 얻나

TOPS는 이미지 생성, LLM(거대언어모델) 등에 필요한 AI 연산을 1초 당 몇 번 수행할 수 있는지 계산을 통해 얻은 숫자다.

AI 연산에 가장 널리 쓰이는 계산 방식은 행렬로 구성된 숫자를 서로 곱한 다음 더하는 방식인 MAC(Multiply–accumulate, 곱셈 가산)이다.

메테오레이크 내장 NPU 3의 TOPS 계산 결과. (사진=지디넷코리아)

이를 바탕으로 CPU나 NPU, GPU가 한 클록당 수행 가능한 'MAC 연산 갯수', 내장된 MAC 처리 가능 '엔진 숫자', 작동 클록을 모두 곱한 다음 1조 번(10의 12승)으로 나눈 값이 TOPS다. 이런 계산 방식에는 각 제조사간 이론의 여지가 없다.

■ 각 제조사 간 TOPS 산출시 데이터 정밀도 모두 달라

각 제조사는 이를 토대로 계산한 값을 TOPS 값으로 내세운다. 인텔 코어 울트라 시리즈1(메테오레이크) 내장 NPU 3의 TOPS는 11.5, 루나레이크(Lunar Lake) 내장 NPU 4의 TOPS는 48이다. AMD 라이젠 AI 300 시리즈의 TOPS는 50이다.

라이젠 AI 300 시리즈는 최대 12코어 CPU와 50 TOPS NPU, RDNA 3.5 GPU를 결합했다. (사진=지디넷코리아)

그러나 주요 프로세서 제조사가 내놓은 TOPS 값 계산 과정이 대등하지 않다는 것이 문제다. 가장 대표적인 것이 바로 MAC 연산 처리량에 가장 큰 영향을 미치는 자료형(데이터타입)의 정밀도 수준이다.

INT8, BF16, FP16으로 생성한 이미지 정밀도 예시. (사진=지디넷코리아)

가령 생성 AI로 그림 파일을 생성할 경우 처리하는 데이터의 비트 수가 늘어날 수록 보다 선명하고 사실적인 이미지를 얻을 수 있다. 단 MAC 연산량은 비트 수에 반비례 해 떨어진다. 반대로 정밀도를 낮추는 대신 연산 속도를 높이는 선택도 가능하다.

■ 인텔·AMD·퀄컴은 INT8, 애플은 INT4 기준 산출

문제는 TOPS를 산출할 때 각 제조사가 기준으로 삼은 자료형이 같지 않다는 것이다. 다시 말해 동일 선상에서 단순 비교가 어렵다는 것이다.

루나레이크 프로세서 포함 NPU 4. 최대 48 TOPS 연산이 가능하다. (사진=지디넷코리아)

전통적인 x86 프로세서 제조사인 인텔과 AMD는 INT8(정수, 8비트) 데이터 처리시를 기준으로 TOPS를 산출해 이를 밝히고 있다.

스냅드래곤 X 엘리트/플러스는 모두 45 TOPS급 NPU를 탑재했다. (사진=지디넷코리아)

퀄컴 스냅드래곤 X 엘리트/플러스의 헥사곤 NPU도 INT8을 기준으로 했다. 애플이 M4 칩 공개 당시 내세운 뉴럴 엔진의 TOPS는 38 TOPS이며 INT4(정수, 4비트) 기준이다.

각 프로세서 내장 NPU 별 TOPS 수치.

정밀도가 절반으로 떨어지면 TOPS는 두 배로 오른다. INT8 기준으로 TOPS를 다시 계산하면 애플 M4의 AI 성능은 절반으로 떨어진다.

■ 작동 클록 증감도 NPU 성능에 영향 미친다

작동 기기의 전원 공급 상태(어댑터/배터리)에 따라 NPU의 작동 클록이 떨어지거나 높아지면 TOPS 값도 자연히 달라진다. 그러나 TOPS 값은 어디까지나 NPU를 구성하는 반도체 IP(지적재산권)의 이론상 제원을 토대로 계산한 가장 이상적인 값이다.

여기에 AI 연산의 성격이 모두 달라 CPU나 NPU, GPU 어느 하나만으로 원활한 처리가 쉽지 않다는 것도 고려할 필요가 있다.

NPU는 저전력 상시구동으로 기존 CPU의 전력 소모 등 부담을 덜기 위한 장치다. 연산량이 집중되는 생성 AI는 NPU에만 의존할 수 없다. 또 GPU는 AI 연산에 가장 뛰어난 성능을 내지만 장시간 구동시 배터리를 크게 소모한다.

■ "일관성 지닌 벤치마크 등장할 때까지 최소 반년 이상 걸릴 것"

PC 탑재 프로세서와 메모리, SSD 등 각 부품의 상태를 보여주는 윈도11 기본 프로그램인 '작업 관리자'는 지난 해 업데이트를 통해 NPU의 활용률과 메모리 이용량을 표시하는 기능을 추가했다. 그러나 실제 작동 클록까지 실시간으로 보여 주지 않는다.

관련기사

윈도11 작업관리자의 'NPU' 항목은 실시간 이용률과 메모리 이용량만 표시한다. (사진=지디넷코리아)

가장 이상적인 방법은 모든 제조사가 TOPS의 기준점이 되는 데이터 정밀도에 INT8, FP16(부동소수점, 16비트) 등 동일한 기준을 적용해 최소한의 일관성을 확보하는 것이다. 하지만 NPU TOPS 값으로 우열을 가리고 싶은 제조사 사이에 중립적인 논의는 사실상 불가능하다.

팻 겔싱어 인텔 CEO. (사진=지디넷코리아)

컴퓨텍스 2024 기간 중 진행된 라운드테이블에서 팻 겔싱어 인텔 CEO는 "아직까지 좋은 비교 기준으로 삼을 수 있는 벤치마크 소프트웨어가 없으며 관련 업계에 일관성 있는 기준이 생기기까지 최소 반년, 적어도 1년 이상이 걸릴 것"이라고 전망했다.