아마존웹서비스(AWS)가 데이터웨어하우스(DW) 서비스인 레드시프트에서 '아파치 아이스버그'를 지원하기로 했다. 이에 따라 AWS는 스노우플레이크, 클라우데라, 구글 등 주요 데이터 플랫폼 기업과 함께 아파치 아이스버그의 지지세력을 구성하게 됐다. 데이터브릭스, 마이크로소프트 등이 지지하는 델타레이크와 아파치 아이스버그의 경쟁이 날로 격화되는 모습이다.
AWS는 최근 아마존 레드시프트에서 아파치 아이스버그 태이블 포맷을 지원하고, 레드시프트에서 아파치 아이스버그 테이블의 분석 쿼리를 실행할 수 있다고 발표했다.
아파치 아이스버그는 데이터레이크 아키텍처의 주요 기술로 각광받는 오픈소스 데이터 테이블 포맷이다. 데이터레이크는 정형, 비정형 등 모든 데이터 형식을 한곳에 저장하는 중앙집중형 저장소를 일컫는다.
아마존 레드시프트는 전통적인 DW로 정형 데이터를 분석할 수 있다. 아이스버그 테이블 지원으로 레드시프트는 정형과 비정형 데이터 모두를 한곳에서 분석, 활용할 수 있는 데이터레이크하우스로 확장된다.
아마존 레드시프트를 사용해 AWS 글루 데이터 카탈로그에서 아파치 아이스버그 테이블을 조회할 수 있고, 아마존 EMR이나 아마존 아테나 등의 서비스를 사용해 테이블의 데이터 조작을 수행할 수 있다.
단, 모든 아이스버그 테이블을 조회할 수 있는 건 아니다. 새로운 테이블만 조회 가능하다. 아파치 파케이 테이블에서 아파치 아이스버그 테이블로 변환되고, 쿼리에 파티션 열을 포함하는 분할 테이블에 대한 쿼리는 지원하지 않는다. 또 AWS 글루 데이터 카탈로그에 정의된 아이스버그 테이블만 레드시프트에서 지원된다. 그밖에도 여러 제약사항이 있어 실제 사용 시 확인이 필요하다.
AWS과 아마존 S3 등을 제외한 외부 플랫폼에 저장된 데이터를 조회하는 방법도 안내했다.
AWS는 "아마존 레드시프트는 AWS의 데이터레이크에서 아파치 아이스버그 테이블을 쿼리하기 위한 트랜잭션 일관성을 제공한다"며 "구글 빅쿼리나 구글클라우드스토리지 등 외부 데이터 소스에서 분석을 실행하려는 고객은 아마존 아테나에 사전 구축된 데이터 소스 커넥터를 사용할 수 있다"고 밝혔다.
레드시프트의 아이스버그 지원은 현재 미리보기 단계로, 구체적 가격은 발표되지 않았다. 레드시프트 스펙트럼이나 레드시프트 서버리스 사용량을 기준으로 채정될 것이라고 회사측은 설명했다.
아파치 아이스버그는 데이터레이크하우스 분야에서 빠르게 확산되고 있다. 클라우데라가 자사의 데이터플랫폼에서 아이스버그 형식을 지원하고 있고, 클라우드기반 DW로 급성장한 스노우플레이크도 아파치 아이스버그를 지원하고 있다. 구글클라우드도 아파치 아이스버그의 주요 지지자다. 최근 IBM은 왓슨X데이터에서 아파치 아이스버그 테이블 생성을 지원한다고 발표했다.
현재 데이터레이크하우스의 테이블 형식은 두갈래로 양분돼 있다. 스노우플레이크, 구글클라우드, 클라우데라, AWS의 지원을 받는 아이스버그의 상대편에 마이크로소프트, SAP, 데이터브릭스 등은 리눅스재단 산하의 델타레이크 형식을 지원하고 있다.
아이스버그와 델타레이크 모두 데이터레이크의 약점인 데이터 무결성의 문제를 해결하는 방안이다. 기존 데이터레이크는 데이터의 원자성, 일관성, 격리성, 지속성(ACID) 등의 특성을 확보하기 위해 복잡한 기술을 동원해야하는데 아이스버그나 델타레이크를 이용해 무결성을 보장할 수 있게 된다.
아이스버그는 넷플릭스에서 시작한 프로젝트다. 넷플릭스 인프라의 서비스와 엔진에 활용되는 아파치 하이브에서 데이터 ACID 특성을 보장하기 위해 설계됐다. 프로젝트는 2017년 시작됐고, 2018년 오픈소스로 공유돼 아파치소프트웨어재단에 기부됐다. 아파치재단은 2020년 5월 아이스버그 프로젝트를 인큐베이션에서 최상위 프로젝트로 승격시켰다.
델타레이크는 아파치 스파크 스튜어드십 기업인 데이터브릭스에서 개발한 기술이다. 고성능 빅데이터 파일 형식인 파케이를 활용하고, 데이터 ADID 특성을 보장하기 위해 고안됐다. 아파치 스파크 API와 100% 호환되며 데이터브릭스의 여러 오픈소스 프로젝트와 상호호환된다. 데이터브릭스는 2022년 델타레이크를 오픈소스로 공유하고 리눅스재단에 기부했다.
관련기사
- AWS "기업의 데이터 전략 구축을 위한 3요소"2022.12.01
- 미래 AI 환경 위한 데이터 레이크하우스 전략은2023.04.10
- 데이터레이크 vs 데이터레이크하우스, 그리고 '델타레이크'2023.01.25
- 클라우데라, CDP에 개방형 테이블 '아이스버그' 통합2022.08.02
아이스버그, 델타레이크 등과 같은 목표로 개발되는 데이터레이크용 고성능 SQL 쿼리 기반 기술로 '아파치 후디(Hudi)'도 있다.
한편, 오라클은 최근 자사의 마이SQL 히트웨이브에서 오브젝트 스토리지 내 데이터를 조회할 수 있는 '마이SQL 히트웨이브 레이크하우스'를 출시했다. 오라클은 자사 오브젝트 스토리지만 지원한다고 밝혔지만, 향후 아이스버그와 델타레이크 등 오픈소스 테이블 형식을 지원할 계획이라고 덧붙였다.