커지는 데이터 산업…'레이크하우스' 방식이 뜬다

데이터 '웨어하우스'와 '레이크'의 혼합 방식

컴퓨팅입력 :2021/01/05 11:03    수정: 2021/01/05 11:08

기업이 의사 결정을 내리고 IT 서비스를 고도화 하는데 '빅데이터'의 중요성이 높아지면서, 데이터 유통과 관련한 기술 트렌드도 빠르게 변화하고 있다.

기업이 자체 데이터 저장 설비를 마련해 데이터를 독점적으로 활용하면서 처리 효율을 높이는가 하면, 잘 설계된 AI 서비스를 마련한 뒤 가공되지 않은 개방된 데이터 활용하는 편을 지향하는 기업도 있다. 전자를 '데이터 웨어하우스(창고)'형, 후자를 '데이터 레이크(강)'형이라 칭한다. 특히 양측의 장점을 혼합한 '데이터 레이크하우스' 방식이 2020년 들어 주목을 받은 후, 새해에 이같은 트렌드가 더욱 심화될 것이란 전망도 있다.

미국 지디넷은 지난달 31일(현지시간) 데이터 유통 방식, AI 민주화, AI 문법 등 데이터 관련 핵심 주제들에 대한 전문가들의 의견을 종합해 향후 업계 전망에 대해 보도했다. 전체 주제에 총 30여개 데이터 관련 회사 임원들이 의견을 제시했다.

데이터베이스(사진=픽사베이)

특히 데이터 유통 방식 전망에 대해선 스노우플레이크, 마이크로포커스, 파이브트란, 드레미오, 앤드리슨 호로위츠, 프레스토디비, 데이터브릭스, 오레일리, 스타버스트 등 회사 관계자들이 참여했다.

먼저 데이터 분석 용이성 면에서 데이터 웨어하우스형 기술이 향후 수년 내 급격히 발전할 것이란 전망이 제시됐다.

스노우플레이크 밥 머글리아 전 최고경영자(CEO)는 "데이터 웨어하우스 내 어떤 정보든 그 안에 있는 이미지나 비디오를 통째로 전송하는 기술은 2~3년 내 나올 것"이라며 "이는 데이터레이크 방식를 훨씬 압도하는 기술이 될 것"이라고 예견했다.

마이크로포커스 한 관계자는 "데이터 웨어하우스 벤더들은 초기 10년 이상은 신뢰할 만한 유형의 데이터베이스를 보유하면서 데이터레이크 벤더에 비해 크게 앞서갔다"며 "반면 데이터레이크 벤더들은 약 10년 정도 밖에 되지 않았고 웨어하우스형 업자들을 따라잡기 위해 노력하고 있다"고 설명했다.

파이브트란 조지 프레이저 CEO는 "현대 데이터 스택 측면에서 특히 2021년엔 데이터레이크의 필요성은 더 줄어들 것"이라면서 "데이터웨어하우스 형이 스토리지에서 분리할 수 있는 컴퓨팅 시스템 장점을 가졌으나, 데이터레이크에는 이보다 더 나은 기술적 강점이 없으며 구시대적 기술이 될 것"이라고 지적했다.

클라우드(사진=픽사베이)

반면 데이터레이크 지지자들은 데이터레이크로 가능한 활동이 데이터웨어하우스보다 광범위함을 강조했다.

드레미오 공동창업자 토머 시란은 "데이터 웨어하우스는 역사적으로 데이터레이크보다 더 많은 장점들이 있는 것은 사실이지만, 최근 오픈 소스 혁신들을 보면 앞으로는 상황이 바뀔 수 있다"며 "가령 아파치 파켓이나 델타 레이크 같은 대표적인 혁신 사례를 비롯해 아파치 아이스버그, 네시 프로젝트를 거치면서 여러 파일 시스템을 넘나드는 직렬적 및 공개 저장 방식이 가능진 사례를 살펴볼 수 있다"고 역설했다.

앤드리슨 호로위츠 한 관계자는 "사용할 준비가 완료된 AI의 경우 컴퓨팅 파워만 보장된다면 데이터레이크가 더 우세하다"며 "이같은 AI 활용 사례는 빠르게 증가하는 추세이며, 이로 인해 앞으로 더 많이 소비되는 방식은 데이터레이크일 것"이라고 말했다.

아하나 프레스토DB의 딥티 보카르 공동창업자는 "클라우드 채택이 주류가 되면서 기업들은 그들의 데이터를 클라우드에 저장하려고 할 것이며 특히 가격 경쟁력이 뛰어난 아마존 S3에 기반한 데이터레이크가 많이 사용될 것"이라고 밝혔다.

데이터레이크를 중심으로 하되 데이터 웨어하우스의 장점을 취한 일명 '레이크하우스'를 전략으로 세운 기업도 있다.

데이터브릭스 조엘 미닉 마케팅 부사장은 "데이터웨어하우스에서의 성능과 신뢰성을 유지하면서 데이터레이크의 정형 트랜잭션 계층을 제공해 확장성을 높이려고 한다"며 "양측을 합쳐 레이크하우스라고 부른다"고 설명했다.

관련기사

오레일리의 레이첼 루메리오티스 AI/데이터 부사장도 비슷한 의견을 내놨다. 그는 "최근 몇년 동안 데이터레이크가 강력한 부활을 경험했다"며 "이와 더불어 데이터 레이크하우스도 2020년에 주목을 받으며 2021년엔 지속적으로 성장할 것"이라고 전망했다.

스타버스트의 저스틴 보그먼 CEO는 "데이터레이크는 쿼리를 처리하는데는 효과적인 방식이나, 데이터웨어하우스와 기타 수많은 데이터 소스에 연결하기 위해선 트리노 엔진(구 프레스토SQL)에 초점을 맞추고 있다"면서 "많은 기업 리더들이 데이터 기반 의사결정을 진행하면서, 모든 타입의 데이터가 복합적으로 활용할 것이기 때문이다"고 강조했다.