지난해 11월 열린 연례 기술 콘퍼런스 'AWS 리인벤트’에서 소개된 데이터레이크 관리 서비스를 글로벌 출시했다.
새로운 서비스는 구축과 관리가 복잡한 데이터레이크를 위해 제작됐으며 미국과 유럽, 일본 등에 우선 출시된다. 국내는 평가판이 제공 중이며 차후 정식 출시 예정이다.
아마존웹서비스(AWS)는 데이터 레이크를 구축 및 관리하는 서비스인 ‘AWS 레이크 포메이션’을 정식 출시했다고 10일 공식 홈페이지를 통해 밝혔다.
데이터레이크는 유연성을 확보해 데이터의 사용 목적과 방식에 맞춰 적용하기 위해 텍스트 등 정형데이터와 이미지, 영상 등 비정형 데이터를 하나로 모은 거대한 저장소다.
데이터레이크에 저장된 데이터는 RDB, 하둡, 기계학습 등 사용자의 필요에 따라 맞는 포맷으로 변환 후 제공돼 빠르게 활용할 수 있는 것이 특징이다.
다만 기업의 방대하고 복잡한 데이터를 통합하는 만큼 데이터 레이크 구축과 관리는 매우 복잡하고 많은 시간이 필요하다. 여러 소스에서 데이터 로딩, 버킷과 파티션 설정, 데이터 청소 및 준비, 여러 서비스 상에서 보안 정책 실시, 액세스 제어 설정 세부 구성 등이 요구되기 떄문이다.
AWS 레이크 포메이션은 데이터 수집, 청소 및 카탈로깅 등 데이터 레이크 구성을 위해 시행해야 하는 복잡한 수작업을 간소화하고 자동화해 안전한 데이터 레이크를 며칠 만에 쉽게 구축할 수 있도록 돕는다.
대표적으로 엔터프라이즈 리소스 관리(ERP) 시스템처럼 데이터 레이크를 관리할 수 있는 콘솔을 제공해 데이터베이스 및 로그 등 여러 소스의 데이터를 데이터 레이크로 이동하는 작업을 구성하고 운영 체제의 데이터를 수집하는 데이터 웨어하우스 구축을 지원한다.
또한 데이터의 수집, 정리, 카탈로그 작성, 변환 및 보안을 용이하게 하고 분석 및 기계 학습에 쉽게 적용할 수 있다.
이 밖에도 데이터 자동 분류 및 정리 서비스인 AWS 글루(Glue)의 기계학습(ML) 변환을 사용해 중복된 데이터를 제거해 불필요한 스토리지 용량을 줄이고 동일한 데이터를 반복해 보면서 발생하는 오버헤드와 혼란을 제거해 데이터 분석의 효율성을 높일 수 있다.
더불어 개별 정책을 사용해 데이터 및 메타데이터 액세스를 보호하기 위해 테이블 수준 액세스만 허용된 기존과 달리 AWS 레이크 포메이션을 활용하면 각 사용자에게 사용해야 하는 열에 대한 액세스 권한만 부여할 수 있게 됐다.
관련기사
- 아마존, 대시버튼 서비스 8월 종료2019.08.13
- 드림시큐리티, '안면인증' 기술로 글로벌 시장 공략2019.08.13
- AWS, 뉴스캐스터가 읽어주는 듯한 음성변환 엔진 출시2019.08.13
- 아마존, 글로벌 IaaS 절반 독식…대기업 강세 지속 전망2019.08.13
또한 AWS에서 제공하는 온라인 스토리지 웹 서비스인 아마존 S3를 사용하던 이용자는 기존 데이터에서 변경 없이 레이크 포메이션을 사용할 수 있다.
AWS 레이크 포메이션은 아마존 S3 및 AWS 글루 등 AWS 서비스를 사용하고 있으면 추가 요금 없이 사용 가능하다.