영국 반도체 설계 전문기업 Arm은 지난 9월 프리미엄 스마트폰과 PC를 겨냥한 반도체 IP인 루멕스(Lumex) 컴퓨트 서브시스템(CSS)를 공개했다. CPU와 GPU, 이를 지원하는 소프트웨어와 개발자 도구를 통합해 주요 파운드리의 2, 3나노급 공정에서 고성능 시스템반도체(SoC) 개발을 돕는다.

21일 오후 국내 기자단과 만난 제임스 맥니븐 Arm 클라이언트 사업부 부사장은 "루멕스 CSS는 프리미엄 스마트폰에서 중간급 기기까지 AI 연산 성능을 손쉽게 강화할 수 있다"고 설명했다.

제임스 맥니븐 Arm 클라이언트 사업부 부사장. (사진=지디넷코리아)

이어 "차세대 AI 응용프로그램 구동시 최고의 배터리 효율, 게임 등에서 최고의 시각적 경험을 위해 설계됐다. 루멕스 CSS를 활용하는 파트너사들이 CPU와 GPU를 요구사항에 맞게 자유롭게 조합할 수 있어 유연성이 극대화됐다"고 설명했다.

C1 CPU IP, AI 처리 위한 SME2 명령어 내장

Arm은 고성능 처리가 필요한 CPU IP(지적재산권)로 코어텍스-X(Cortex-X)를, 중간/저전력 처리가 필요한 CPU IP로 코어텍스-A(Cortex-A)를 공급해 왔다.

루멕스 CSS에 포함된 CPU IP는 C1 클러스터로 기존 코어텍스-X, A를 대체한다. 성능과 배터리 지속시간, 효율과 예산 등에 따라 총 4개 코어를 용도에 맞게 선택할 수 있다.

Arm 루멕스 CSS에 포함된 C1 CPU 클러스터. 코어 종류를 4개로 세분화했다. (사진=지디넷코리아)

제임스 맥니븐 부사장은 "C1 울트라 코어는 최고 성능을 내는 플래그십 CPU 코어로 전년 대비 성능을 25% 향상시켰다. C1 프리미엄은 울트라급 성능을 유지하면서 칩 면적을 35% 줄여 서브플래그십 기기에 적합하다. C1 프로와 나노는 전력 효율 중심의 설계로, 중보급형 제품군에 적합할 것"이라고 밝혔다.

C1 CPU 코어에는 AI 연산에 주로 쓰이는 행렬 곱셈 등 연산을 처리하기 위한 SME2 명령어가 내장된다. 이를 이용해 음성인식, 번역, 생성 AI 등 각종 AI 처리 속도를 전세대 대비 5배 향상시켰다.

C1 CPU 코어에 AI 처리를 위한 명령어인 SME2가 내장된다. (사진=지디넷코리아)

제임스 맥니븐 부사장은 "C1 CPU 코어를 묶은 클러스터는 SME2 명령어를 활용해 2-3GHz로 작동시 2-6 TOPS(1초당 1조번 연산)를 처리 가능하며 작동 속도 향상시 더 높아질 수 있다"고 설명했다.

인텔 코어 울트라 시리즈3(팬서레이크). CPU 타일의 AI 처리 성능은 최대 10 TOPS다. (사진=지디넷코리아)

더 큰 코어 크기로 전력을 더 많이 쓰는 인텔·AMD 등 x86 기반 프로세서의 CPU 코어는 통상 8-10 TOPS 정도의 성능을 낸다. 루멕스 CSS가 스마트폰 등 저전력 기기를 위한 반도체 IP인 것을 감안하면 전력 효율 면에서는 분명 우위에 있다.

말리 G1 울트라 GPU, 레이트레이싱 성능 2배 향상

루멕스 CSS에 포함된 새 GPU IP인 말리 G1 울트라는 그래픽과 AI 추론 성능이 각각 20% 향상, 프레임당 소비 전력은 9% 절감, 레이트레이싱(RT) 성능은 두 배 향상됐다.

루멕스 CSS에 포함된 말리 G1 울트라 GPU. 레이트레이싱 성능을 전세대 대비 2배 높였다. (사진=지디넷코리아)

빛과 사물 사이에 비치는 그림자, 반사광 등을 보다 현실에 가깝게 표현하는 레이트레이싱 기능은 과거 PC용 고성능 GPU에서만 가능한 기술로 간주됐다.

퀄컴은 2022년 공개한 스냅드래곤8 2세대부터 GPU에 레이트레이싱을 적용했다. (사진=지디넷코리아)

그러나 2022년부터 삼성전자(엑시노스 2200)와 퀄컴(스냅드래곤8 2세대) 등이 모바일 기기용 SoC에 레이트레이싱을 투입한 이후 모바일 기기의 GPU 성능을 파악하는 지표 중 하나로 레이트레이싱 성능이 자리잡았다.

이날 제임스 맥니븐 부사장도 말리 G1 울트라의 레이트레이싱 성능 향상을 특히 강조했다.

말리 G1 울트라에 포함된 RTUv2. 처리 성능을 전세대 대비 2배 높였다. (사진=지디넷코리아)

그는 "RTUv2 아키텍처는 단일 광선 추적 방식을 채택해 보다 현실감 있는 조명을 구현하며, 코어당 전용 RT 하드웨어를 탑재해 효율성과 성능을 모두 높였다"고 밝혔다.

"내년 GPU 활용 AI 연산 가속 예정"

루멕스 CSS는 최근 공개된 타사 모바일 SoC와 달리 NPU(신경망처리장치)는 포함하지 않았다. 제임스 맥니븐 부사장은 "CPU에서 AI 연산을 처리하는 것이 오히려 더 지연 시간이 낮고 개발자들도 SME2 명령어를 보다 널리 활용할 수 있다"고 설명했다.

Arm 루멕스 CSS 구성도. C1 CPU 코어 클러스터와 말리 G1 울트라 GPU로 구성됐다. (자료=Arm)

그러나 주요 반도체 제조사들은 상시 저전력 연산과 전처리 등에 강력한 성능을 내는 NPU와 함께 GPU도 동시에 강화하고 있다. 수 억개 매개변수(패러미터)로 구성된 거대언어모델(LLM) 등 처리에는 GPU의 성능이 더 필요하다.

관련기사

제임스 맥니븐 부사장 역시 "말리 G1 울트라에 포함된 레이트레이싱 유닛은 불칸(Vulkan) API를 활용한 그래픽 처리에 최적화됐고 일부 API를 이용하면 이를 연산에도 활용할 수 있다"고 설명했다.

제임스 맥니븐 부사장은 ”내년에 GPU에 신경망을 활용한 AI 처리 강화 기술이 투입될 것”이라고 설명했다. (사진=지디넷코리아)

그는 이어 "GPU에 신경망(뉴럴) 관련 처리를 더해 AI 연산 성능을 강화하겠다는 취지를 지난 8월에 이미 밝힌 바 있다. 현재는 상세한 내용을 공개할 수 없지만 AI 처리 성능 처리 면에서 비약적인 발전이 있을 것"이라고 설명했다.