스노우플레이크, '아이스버그 테이블' 정식 출시

컴퓨팅입력 :2024/06/05 10:00

[샌프란시스코(미국)=김우용 기자] 스노우플레이크가 자사 플랫폼에 아파치 아이스버그를 통합할 수 있는 ‘아이스버그 테이블’을 정식 출시했다. 이와 함께 기업의 데이터 거버넌스와 규제준수를 세밀하게 관리할 수 있는 ‘호라이즌’도 대폭으로 업그레이드했다.

스노우플레이크는 4일(현지시간) 미국 샌프란시스코에서 개최한 ‘스노우플레이크서밋2024’ 둘째날 행사에서 외부에 저장된 아이스버그 데이터를 자사 플랫폼에서 쉽게 사용하고 거버넌스를 준수하며 협업할 수 있게 하는 ‘아이스버그 테이블’을 정식 출시(GA)한다고 발표했다.

오픈소스 테이블 포맷인 아파치 아이스버그(Apache Iceberg)는 조직이 데이터로부터 가치를 추출하고 접근할 수 있도록 한다. 스노우플레이크는 고객이 ‘아이스버그 테이블’을 통해 데이터 상호 운용성을 확보하고, 데이터 위치에 상관없이 빠른 속도의 분석 성능을 누릴 수 있다고 강조한다.

스노우플레이크가 '아이스버그 테이블'을 정식 출시했다.

부킹닷컴, 캐피털원, 인디드, 코모도헬스 등의 기업은 스노우플레이크 고객으로서 아이스버그 테이블로 데이터 레이크하우스, 데이터 레이크 및 데이터 메시 등 개방적이고 유연한 아키텍처 패턴을 구현해 파이프라인, 모델을 더욱 단순화해 개발해 사용하고 있다. 조직은 아이스버그 테이블을 사용해 자체적으로 데이터를 처리하고 조직 운영의 유연성을 확보, 기업 가치를 높일 수 있다.

론 올트로프 스노우플레이크 데이터레이크&아이스버그 제품 매니저는 “아이스버그 테이블은 정식 출시와 더불어 많은 성능 향상을 이뤘다”며 “고객은 스노우플레이크 저장소와 성능면에서 동일한 내부의 아이스버그 테이블을 볼 수 있게 됐다”고 설명했다.

그는 “아이스버그의 쿼리 성능은 작은 파일을 수백만개로 나눠 작성하는 경우 저하되곤 했다”며 “이제 동일한 양의 데이터를 가져와 압축을 실행함으로써 더 적은 양의 파일을 만들어 성능이 좋아졌고, 결과적으로 파일 최적화를 통해 처음 아이스버그 테이블을 만들었을 때보다 2배 빨라졌다”고 덧붙였다.

전날 발표된 ‘폴라리스 카탈로그(Polaris Catalog)’와 함께 아이스버그 테이블 정식 출시는 아파치 아이스버그를 위한 벤더 중립적이고 완전히 개방적인 카탈로그 구현을 의미한다. 폴라리스 카탈로그는 다양한 엔진 간의 상호운용성이 가능해 기업들에 새로운 수준의 데이터 선택권, 유연성 및 제어권을 더욱 높인다. 조직은 스노우플레이크의 AI 데이터 클라우드에서 호스팅되는 폴라리스 카탈로그(스노우플레이크 호스팅 기반 퍼블릭 프리뷰 예정)로 시작하거나, 컨테이너를 사용해 자체 인프라에서 직접 호스팅할 수 있다.

AI 기술 발전으로 기업 데이터의 가치는 향상되고, 다양한 사업 부서 및 팀에서 데이터, LLM, 애플리케이션이 늘어나고 있다. 기업이 자사의 데이터를 보호하고, 고객이 이를 최대한 활용할 수 있도록 하기 위해 스노우플레이크는 통합된 컴플라이언스, 보안, 개인 정보 보호, 상호운용성 및 액세스 권한을 제공하는 플랫폼에 내장된 거버넌스 및 디스커버리 솔루션인 스노우플레이크 호라이즌을 발전시키고 있다. 이는 조직 내부의 콘텐츠뿐만 아니라 써드파티 업체의 콘텐츠에도 적용할 수 있다.

스노우플레이크 호라이즌의 새로운 기능 중 하나인 인터널 마켓플레이스(프라이빗 프리뷰)를 통해 사용자는 조직 내에서 특정 팀이 찾아 사용할 수 있도록 데이터, 모델 및 애플리케이션을 큐레이션 및 발행할 수 있도록 지원한다. 동시에 외부 당사자에게는 실수로 공유될 수 없도록 보안을 강화했다. 팀은 조직 내에서 콘텐츠 열람 권한을 제한할 수도 있다. 스노우플레이크는 AI 모델(프라이빗 프리뷰 예정), 아이스버그 테이블 및 다이나믹 테이블(Dynamic Tables) 등 협업 기능을 계속해서 확장하고 있다.

스노우플레이크 마켓플레이스의 '인터널 마켓플레이스' 구현 모습

스노우플레이크는 모든 사용자가 다양한 활용사례를 쉽게 찾아낼 수 있도록 AI 기능도 강화했다.

‘유니버설 서치’를 통해 고객은 스노우플레이크 스토리지, 외부 아이스버그 스토리지 및 써드파티 업체 데이터까지 AI 데이터 클라우드에서 검색할 수 있다. 스노우플레이크가 지난해 5월에 인수한 니바의 최첨단 검색 엔진 기술을 기반으로 구축된 이 기능을 통해 사용자는 자연어로 데이터를 찾아내 신속하게 조치할 수 있다. 더불어 데이터 발견 및 큐레이션을 위해 스노우플레이크는 새로운 AI 기반 오브젝트 설명(프라이빗 프리뷰 예정)을 추가했다. 이 기능은 테이블과 뷰에 대한 관련 컨텍스트와 코멘트를 자동으로 생성한다.

관련기사

스노우플레이크는 고객들의 요구에 대한 플랫폼 성능과 효율성을 지속적으로 향상시키기 위해 노력하고 있다. 스노우플레이크의 성능을 측정하는 스노우플레이크 성능 지수(SPI)에 따르면, 2022년 8월 대비 지난 4월 30일 기준으로 고객 환경에서 통일 워크로드에서의 쿼리 실행 시간이 27% 개선됐으며, 4월 기준 1년 전과 비교해 12% 개선됐다. 데이터 로딩도 더 빨라져 비용을 절감했다. 2022년 8월 대비 지난 4월 30일 기준으로 고객들은 직접 조치를 하지 않아도 JSON 포맷 파일 로딩에 대해 최대 25% 성능을 높였고, 파케이 파일 로딩에 대해서도 성능을 최대 50% 높였다.

현재 스노우플레이크는 40개 이상의 클라우드 리전을 지원하며 전세계적으로 AI 데이터 클라우드의 영향력을 높이고 있다. 데이터 관리에 대해 엄격하게 규제된 지역 및 국가도 포함된다. 유럽 고객의 데이터 서비스 등에 강력하게 적용되는 EU 전용 데이터 경계도 포함되며 미국 국방부(DoD)에 맞춘 별도의 환경 또한 제공할 예정이다. 이 환경은 바운더리 클라우드 엑세스 포인트(BCAP)와의 네트워킹 통합을 포함해 임팩트 레벨 4(IL4) 보안 컨트롤 요건을 충족한다.