AWS, '제로 ETL' 선언…"최신정보 실시간 확보"

아마존 오로라-레드시프트 간 데이터 이동 자동화

컴퓨팅입력 :2022/11/30 09:29    수정: 2022/11/30 10:35

[라스베이거스(미국)=김우용 기자] 아마존웹서비스(AWS)가 기업의 데이터 활용에서 소소하지만 큰 골칫거리인 'ETL'을 없애겠다고 약속했다. 우선 자사의 관계형 데이터베이스 서비스와 데이터웨어하우스 서비스 간 '제로 ETL'을 구현해 선보였다.

AWS는 29일(현지시간) 미국 라스베이거스에서 개최된 'AWS 리인벤트 2022' 컨퍼런스에서 '아마존 오로라 제로ETL 인티그레이션 위드 아마존 레드시프트'와 '아마존 레드시프트 인티그레이션 포 아파치 스파크'를 공개했다.

'아마존 오로라 제로ETL 인티그레이션 위드 아마존 레드시프트'는 AWS의 RDBMS 서비스인 아마존 오로라에 저장된 데이터를 DW 서비스인 '아마존 레드시프트'로 자동으로 복제하는 기능이다. 그동안 두 서비스 간 데이터 이동과 변환을 위해 AWS 글루 같은 별도 ETL 도구를 사용해야 했다. 새 기능 출시로 ETL 구축 없이 트랜잭션 데이터를 원하는 때에 분석할 수 있게 된다.

DSC04274

아마존 오로라에서 아마존 레드시프트로 데이터 이동과 복제는 수초 만에 이뤄진다. OTLP의 데이터가 변경되면 아마존 레드시프트의 데이터도 변경돼 항상 최신 상태를 유지한다.

애덤 셀립스키 AWS 최고경영자(CEO)는 기조연설에서 "다양한 데이터에서 진정한 통찰력을 얻기 위해 데이터를 결합하려면 ETL이란 도구가 필요한데, 누군가는 ETL 파이프라인 구축과 유지를 블랙홀이라 할 정도로 힘든 일"이라며 "ETL이 완전히 사라진 세계에선 항상 최신 정보를 실시간으로 확보할 수 있게 된다"고 말했다.

그는 "아마존 오로라와 레드시프트의 통합은 서버리스여서 데이터 볼륨에 대한 어떤 인프라 관리도 필요없다"며 "오로라와 레드시프트의 확장이 한 곳에서 심리스하게 이뤄져 ETL이란 가장 큰 고통을 없앴다"고 강조했다.

'아마존 오로라 인티그레이션 포 아파치 스파크'는 비정형 데이터와 정형 데이터 분석을 혼합하고자 할 때 유용한 기능이다. 아마존 레드시프트에 저장된 정형 데이터가 아마존 EMR에 구축된 아파치 스파크 환경으로 데이터를 자동으로 복제된다. 레드시프트와 아파치 스파크를 연계하기 위해 별도의 커넥터를 설치하지 않아도 되며, 자바, 파이썬, R, 스칼라 같은 대중적 개발언어 프레임워크로 아파치 스파크 기반 애플리케이션에서 아마존 레드시프트의 데이터를 간단히 조회할 수 있다.

관련기사

중간 데이터 스테이징 위치는 자동으로 관리된다. 애플리케이션 코드에서 별도 구성과 관리가 필요없다.

애덤 셀립스키 CEO는 "레드시프트 테이블과 스파크 활용을 데이터 이동없이, 커넥터도 없이 할 수 있다"며 "이번 발표는 제로 ETL 통합 비전을 위한 첫 단계이며 앞으로 계속 데이터에 더 쉽게 접근하고 분석할 수 있는 새로운 방법을 추가해나갈 것"이라고 강조했다.