GPU 포기설 부인한 인텔...2세대 '배틀메이지' 온다

[인텔 테크투어] 루나레이크용 Xe2 그래픽스, XMX 처리 기능 추가

반도체ㆍ디스플레이입력 :2024/06/04 12:30    수정: 2024/06/05 14:01

[타이베이(대만)=권봉석 기자] 인텔은 GPU 시장 재진출 선언 이후 오랜 준비 과정을 거쳐 지난 2022년 3월 모바일(노트북)용 아크 A350M, 6월 데스크톱용 아크 A380, 10월 데스크톱용 아크 A750/A770 등 아크 A시리즈(개발명 '알케미스트') GPU를 출시했다.

그러나 개발 과정이 지연된 탓에 출시 시점이 지연됐고 결국 AMD와 엔비디아 등 경쟁사 제품 대비 한 세대 전 제품 성능으로 경쟁하는 상황이 벌어졌다. 일각에서는 인텔이 GPU 개발 우선순위를 낮추거나 포기할 수 있다는 전망도 나왔다.

인텔이 아크 GPU를 지속해 투입할 것이라고 밝혔다. (사진=지디넷코리아)

이에 톰 피터슨(Tom Peterson) 인텔 그래픽 및 소프트웨어 아키텍처 부문 펠로우는 지난 주 진행된 '테크투어 타이완' 행사에서 "차세대 프로세서, 루나레이크에는 성능과 AI 연산 성능을 크게 강화한 Xe2 그래픽 기술이 탑재되며 이를 기반으로 한 2세대 GPU '배틀메이지'도 출시될 것"이라고 밝혔다.

■ Xe2, AI 성능 강화에 중점

톰 피터슨 펠로우는 "Xe2는 Xe 코어를 개발하며 얻은 경험을 바탕으로 전력 효율과 성능 향상에 중점을 뒀고 기존 게임과 호환성을 강화했다. 게임 뿐만 아니라 고부하 작업에 최적화된 GPU"라고 설명했다.

2세대 Xe 코어 내부 구조. (사진=지디넷코리아)

핵심을 이루는 것은 2세대 Xe 코어이며 내부를 완전히 새로 설계했다. 512비트 벡터 엔진 8개는 AI 연산에 필요한 XMX(Xe 행렬 확장) 엔진도 8개 추가했다. 이는 기존 모바일(노트북)용 아크 그래픽스에는 추가되지 않았던 것이다.

벡터 엔진은 SIMD16(16개 수치를 동시에 처리)급 ALU(정수연산유닛)와 XMX 엔진 8개 등으로 구성됐다. XMX 엔진은 INT2, INT4, INT8, FP16, BF16 등 AI 연산이 요구하는 자료형을 폭넓게 지원한다.

AI 연산에 필요한 행렬 곱셈용 XMX 엔진 8개가 추가됐다. (사진=지디넷코리아)

FP16 자료형 기준으로 행렬 곱셈시 한 클록당 2천48개 작업, INT8 자료형 기준으로 클록당 4천96 작업을 처리한다. AI 연산 성능은 INT8 자료형 기준 최대 67 TOPS(1초 당 1조번 연산)이며 정밀도가 낮은 INT4 등을 이용하면 TOPS는 더 높아진다.

■ 메테오레이크와 전력소모 같지만 성능은 1.5배 향상

전작 메테오레이크는 GPU 타일을 별도로 분리했지만 루나레이크는 GPU, 각종 코덱을 다루는 미디어, 출력을 담당하는 디스플레이 등 반도체 IP(지적재산권)를 모두 '플랫폼 제어 타일'에 분산 통합했다.

루나레이크는 그래픽 관련 각종 기능을 플랫폼 제어 타일에 분산/통합했다 (사진=지디넷코리아)
루나레이크 GPU의 AI 연산 성능은 최대 67 TOPS 수준이다. (사진=지디넷코리아)

Xe2 GPU는 2세대 Xe 코어 8개로 구성된다. 톰 피터슨 펠로우는 "Xe2 GPU는 기존 메테오레이크 GPU 대비 같은 전력으로 1.5배 높은 성능을 낼 것"이라고 설명했다.

루나레이크(좌) / 메테오레이크(우)의 스테이블 디퓨전 1.5 처리 소요 시간. (사진=지디넷코리아)

2세대 Xe 코어 8개로 구성된 루나레이크 GPU의 AI 연산 성능은 67 TOPS다. 스테이블 디퓨전 1.5로 그림 파일 한 장을 생성하는 시연에서 메테오레이크 소요시간은 13.29초, 루나레이크 소요 시간은 6.345초로 처리 시간이 절반으로 단축됐다.

■ 디스플레이 엔진, 주사율 조정·절전 기능 포함

GPU가 처리한 영상을 모니터나 화면을 보내는 디스플레이 엔진은 8K60p HDR 화면 1개, 혹은 4K 60p HDR 화면 3개를 동시에 출력할 수 있다. HDMI 2.1, 디스플레이포트 2.1 규격 외에 노트북 화면을 제어하는 eDP 1.5를 지원한다.

디스플레이 엔진은 재생 콘텐츠에 맞게 화면주사율을 가변 조정한다. (사진=지디넷코리아)

eDP 1.5의 주요 기능 중 화면주사율 가변 조정이 있다. 초당 24개 그림으로 구성된 영화 재생시 60Hz 디스플레이에서는 움직임이 부자연스러워질 수 있지만 이를 2의 배수인 48Hz로 표시하면 보다 자연스러운 화면을 볼 수 있다.

각종 절전 기능으로 배터리 소모를 줄인다. (사진=지디넷코리아)

이외 기능으로는 같은 화면이 표시될 경우 데이터 전송 빈도를 낮추고 대기 상태에서 전력 소모를 최소화하는 기능을 포함했다. 대기 화면에서는 기존 대비 18mW, 유튜브 전체 화면 재생시는 351mW를 절감해 배터리 지속시간을 늘린다.

■ 미디어 엔진, 차세대 코덱 VVC 재생 지원

미디어 엔진은 각종 영상 코덱을 압축·재생하는 역할을 담당한다. 루나레이크에 포함된 미디어 엔진은 최대 8K 60p HDR 영상까지 처리할 수 있다.

미디어 엔진은 VVC 코덱 재생 기능을 추가했다. (사진=지디넷코리아)

처리 가능한 코덱은 현재 널리 쓰이는 영상 코덱인 H.264/265, 오픈소스 코덱인 AV1이며 H.265 이후 차세대 코덱으로 꼽히는 VVC(H.266) 재생도 추가했다.

VVC 코덱은 '화면 콘텐츠 코딩'으로 글자 선명도를 개선한다. (사진=지디넷코리아)

VVC 코덱은 AV1 코덱 대비 파일 용량을 10% 더 줄일 수 있고 화면의 글자나 그림에 맞는 압축방법을 지원해 화면 녹화시 유용하다. 그러나 현 시점에서 이를 재생하려면 고성능 CPU/GPU가 필요하다.

루나레이크 / 메테오레이크 VVC 재생시 전력 소모 비교. (사진=지디넷코리아)

루나레이크 내장 미디어 엔진은 VVC 코덱 재생을 하드웨어로 처리해 전력 소모를 줄였다. 4K(3840×2160 화소) 재생시 메테오레이크는 CPU를 이용한 소프트웨어 재생으로 35W를, 루나레이크는 2.9W를 써 전력 소모는 1/10 수준으로 줄어든다.

■ XeSS 이용해 1080p 게임 초당 60프레임 이상으로 구동

톰 피터슨 펠로우는 루나레이크 내장 Xe2 GPU가 AI 기반 저해상도 업스케일 기술 'XeSS'를 활용해 최신 게임을 보다 원활하게 즐길 수 있다고 강조했다.

관련기사

게임 'F1 24'를 이용한 루나레이크 게임 성능 시연. (사진=지디넷코리아)

이를 극단적으로 드러나는 것이 게임 'F1 24' 시연이다. 지난 5월 28일 출시된 게임을 루나레이크는 1080p '높음' 설정에서 문제없이 소화했다. 초당 프레임도 60프레임 이상으로 매우 원활히 구동된다.

인텔 관계자는 "게임 실행시 960×540 화소 화면을 업스케일해 풀HD(1920×1080 화소) 해상도로 4배 업스케일하는 XeSS 기능을 이용했다. 레이트레이싱이 적용돼 보다 사실적인 화면을 볼 수 있다"고 설명했다.