"데이터 가상화, 데이터 활용의 필수 기술요소 됐다"

“수많은 기업이 유행처럼 데이터레이크를 구축했다. 혹자는 데이터 패브릭, 데이터 메시 등 여러 갈래로 얘기하기도 한다. 그러나 근본적인 건 따로 있다. 의사결정권자, 분석가 같은 데이터 소비자 측면에서 분석을 더 잘하고, 데이터를 더 잘 활용할 수 있느냐다. 잘못하면 유행만 따라가게 된다. 기업은 데이터의 공급과 소비 측면 모두에 대해 비용, 주체, 방법을 두고 진지하게 최적의 해법을 찾을 필요가 있다.”

김범 엔코아 전략사업본부장(전무)은 최근 본지와 인터뷰에서 오늘날 여러 기업에 나타나는 데이터 플랫폼 구축의 문제를 이같이 진단했다.

많은 기업이 디지털 전환 프로젝트의 기반으로 통합 데이터 플랫폼을 구축하고 있다. 최근까지 유행은 모든 종류의 데이터를 한 곳에 저장하는 ‘데이터레이크’였다. 김범 전무는 무조건 데이터레이크 구축에만 집중하는 현상을 지적하며, 근본적 목표에 기반한 면밀한 검토를 조언했다.

김범 전무는 “데이터레이크든, 데이터패브릭이든 뭐든 도입했다고 해서 데이터 소비 주체가 기존보다 더 나은 성과를 낸다고 확신할 수 있냐고 하면 갸우뚱하다”며 “결국 데이터 소비자가 원하는 건 고품질의 데이터를 빨리 찾아 활용하는 것이며, 데이터 이동의 문제인 아키텍처는 그 다음에 고려해야 할 사안”이라고 말했다.

그는 데이터 플랫폼을 구축할 때 ‘공급’과 ‘소비’의 양 측면을 봐야 한다고 했다. 조직에서 누가 데이터를 공급하고 소비할 것인지, 데이터를 어떻게 공급하고 소비할 것인지 정의한 다음 비용 측면에서 어떻게 투자 대비 성능을 높일 수 있는지 고민해야 한다고 했다. 동시에 데이터 플랫폼을 진화시키는 과정 속에서 기존에 사용했던 방법과 도구를 새로운 것과 어떻게 조화시킬 것인지 감안해야 한다고 했다.

그에 의하면, 데이터 플랫폼 구축에 나섰다가 원점으로 돌아가 처음부터 다시 시작하는 기업이 많다고 한다. 데이터 플랫폼을 만들어 활용하려고 보니 쓸 만한 데이터가 없는 현상이 벌어진다는 것이다.

김 전무는 “분석가가 데이터세트를 준비하고 알고리즘을 갖춰 예측 모델을 만든다고 할 때 그 작업 시간의 90%는 데이터를 찾는데 쓴다”며 “막상 데이터를 찾아도 품질이 이상하거나 쓸모없는 것일 수 있다”고 설명했다.

그는 “데이터패브릭이나 메시 같은 개념적 아키텍처도 좋지만, 결국 데이터 소비자 입장에서 가장 절실한 건 고품질 데이터를 빨리 찾게 하는 것이고, 원천 데이터를 찾았는데 분산돼 있으면, 안전한 공간에서 결합해 작업하게 하는 것”이라며 “다양하게 변화하는 현업의 분석 요건에 맞춰 해당 데이터를 줄 수 있어야 하는데 데이터 위치나 누구에게 요청해야 하는지도 모르는 게 대부분”이라고 말했다.

데이터 플랫폼을 제대로 쓰기 위한 전처리 부분을 많은 기업이 고민하지 않고 곧바로 활용부터 생각한다는 게 그의 지적이다.

그는 “데이터 공급자와 소비자 간 유기적 관계를 만들어주는 데이터 카탈로그 서비스, 혹은 데이터 포털이 필요하다”며 “원천 데이터 관리가 엉망이어서 아무리 찾는다 해도 활용을 못하는 것이므로, 데이터 자산화 작업이 선행돼야 한다”고 말했다.

과거 기간계, 정보계 등으로 불렸던 데이터웨어하우스(DW)와 데이터마트는 관계형 데이터베이스(RDB)로 만들어진 정형 데이터용 시스템이었다. 그러다 2010년대 들어 문서, 사물인터넷(IoT), 소셜, 로그 기록 등 새로운 특성을 가진 비정형 데이터 혹은 빅데이터도 활용하게 됐다. 빅데이터 투자 초기 많은 기업이 DW와 별도로 빅데이터용 분석 플랫폼을 구축했는데. 이는 이기종의 원천데이터마다 별개 데이터 시스템을 만드는 ‘데이터 사일로’ 현상을 낳았다.

데이터레이크는 여러 형태의 원천 데이터를 한곳에 저장하는 ‘물리적 데이터 저장소’다. 데이터 수집은 원천 데이터의 특성에 따라 방법을 달리한다. 배치성 원천 데이터는 ETL 및 CDC로, IoT나 로그 같은 원천데이터는 스트리밍으로, 소셜 및 웹 데이터는 크롤링 등으로 가져와 쌓는다. 데이터레이크 내부적으로 특성을 구분하지 않는 ‘랜딩존’과, 일정 수준 이상으로 정제해 DW와 데이터마트 영역으로 나누기도 한다. 데이터 소비자는 데이터레이크에 각자의 도구와 애플리케이션으로 필요한 데이터를 조회해 활용한다.

데이터레이크를 구축하면 데이터 활용도를 높이고, 디지털 혁신을 가속하며, 운영자도 통합관리를 통해 관리 부담을 덜 수 있을 듯 보인다. 그러나 데이터레이크는 과거에 없던 문제를 발생시킨다.

김 전무는 데이터레이크에서 발생하는 문제로 규제 준수와 보안, 비용, 최신성 등을 꼽았다.

그는 “기존 DW에 저장되는 원천 데이터는 DB 접근제어나 암호화 같은 기술적 보호 조치를 법적으로 규정하고, 각 조치에 활용되는 솔루션은 국가정보원의 보안인증을 획득해야 하는 등 요건을 갖춰야 한다”며 “그런데 데이터레이크로 가면, 보안을 위한 규제 준수 조치가 붕괴된다”고 설명했다.

예를 들어, 개인정보 같은 민감정보라면 누가 데이터를 봤는지 이력 정보를 남기고, 사용자를 통제하며, 마스킹과 암호화 등을 취해야 한다. 그러나 데이터레이크에선 이같은 조치를 취하기 힘들다. 사용자별 접근제어를 하지 않거나, DB 암호화를 해제해 저장하기 쉽다.

김 전무는 “금융지주사가 각 계열사의 원천데이터시스템을 다 데이터레이크에 모아 타킷 마케팅이나 교체 상품을 만든다면. 각사의 민감한 데이터가 한 곳에 다 모이게 된다”며 “너도나도 분석하려 하는데, 근본적으로 원리원칙을 어기고 있는 것”이라고 설명했다.

그는 “데이터레이크는 민감정보에 대한 규제 준수에 공백을 드러낸다”며 “이는 정책적으로 가야 하는 문제이며, 기업 경쟁력 재고나 의사결정을 위해 무작정 데이터를 한곳에 때려 넣는 건 올바르지 않다”고 지적했다.

그는 “금융권의 개인정보보호법 규제, 의료계의 의료정보보호법 규제, 제조기업의 자체 보안규제 등이 데이터레이크에서 깨지게 된다”며 “실제 이런 일이 곳곳에서 일어나지만 다들 감추고 있는 상황”이라고 덧붙였다.

데이터레이크는 비용 증가를 수반한다. 일단 데이터의 규모가 어마어마하다. 데이터 저장에 대한통제도 어렵다. 데이터레이크에 조직 내 여러 공급자가 각기 데이터를 쌓게 된다. 각자 다른 목적을 갖고 있지만, 쌓는 데이터는 비슷할 수 있다.

그는 “데이터레이크의 공간 낭비가 심각하다”며 “플랫폼 운영자 입장는 저장된 데이터를 누가 활용하는지, 실제로 쓰이는지, 오래된 데이터라면 삭제 가능한지 여부를 쉽게 판단할 수 없다”고 말했다.

데이터레이크의 가장 심각한 문제는 최신성 확보의 어려움이다. 각 원천데이터마다 데이터레이크에 쌓이는 ‘스케줄’이 상이하다. 정형 데이터는 일단위, 주단위, 월단위, 분기나 반기 단위 등으로 배치해 쌓는다. IoT는 스트리밍으로 가져온다. 데이터레이크의 랜딩존, DW, 데이터마트 별로 저장된 데이터의 최신 상태가 달라지는 것이다.

그는 “누군가 데이터를 조인하려 봤더니 DW에 있는 건 지난달 것이고, 어떤 건 최근 것일 수 있다”며 “이번달 것을 쓰고 싶다면 데이터를 새로 옮겨와야 하고, 새로운 데이터라면 모델설계와 이동에 또 수일을 소모하게 된다”고 지적했다.

이처럼 데이터레이크에서 발견되는 문제를 해소할 보완재로 데이터 가상화 기술이 대두되고 있다.

김 전무는 “데이터레이크가 완전히 무용지물은 아니고 일정 목적에서 쓸모는 있다”며 “다양한 데이터를 한곳에 모아 결합할 공간이 필요하다는 측면을 살리면서, 비용과 운영, 보안 등의 측면을 다시 한번 고찰해 보완재가 데이터 가상화”라고 설명했다.

데이터 가상화는 논리적 데이터레이크다. 실제로 데이터를 한곳에 모으는 스토리지가 필요한 물리적 데이터레이크와 달리 여러 원천데이터를 이동시키지 않고 원래 자리에 둔다. 그리고 즉시 필요한 데이터를 가져와 결합하고 활용하는데, 이 연산이 메모리 상에서 이뤄진다. 메모리가 물리적으로 휘발성 매체이므로 활용한 데이터는 저장되지 않고 사라진다.

김 전무는 “실제 데이터는 원래 테이블에 있고, 사용자에게 가상화된 공간에서 통합된 뷰로 보여준다”며 “데이터 소비자는 ANSI SQL로 각 원천데이터를 조회하고 결합할 수 있지만, 시스템 내부적으로 여러 원천데이터를 연결만 했다가 필요할 때 임시로 가져와 쓰고 버리는 ‘온디맨드’ 방식”이라고 말했다.

데이터 가상화를 활용하면, 데이터 이동과 저장에 필요한 비용을 줄일 수 있다. 또 원천 데이터 저장소에 대한 각종 규제준수 조치를 유지하면서, 가상 공간에 대한 접근통제로 데이터의 무분별한 활용을 제어할 수 있다.

그는 “암호화는 고객사 암호화 라이브러리를 KMS의 암호화키와 연결하면 결합 시 메모리에서 복호화해 쓰게 하며, 결합 후 읽을 때 다시 암호화해 보안성을 확보한다”며 “운영비용은 뷰 선언만 하면되므로 DB를 다뤄온 사람이 기존에 쓰던 방식으로 사용하면 된다”고 말했다.

그는 “데이터레이크와 데이터 가상화는 공급과 소비 입장에서 상호 보완적으로 사용해야 한다”며 “자주 변경되지 않는 데이터와 민감정보를 담지 않은 대량 데이터는 데이터레이크에 넣고, 자주 변경되거나 민감정보를 담은 경우 데이터가상화서 활용하는 형태가 이상적”이라고 강조했다.

데이터 가상화가 만능은 아니다. 데이터 가상화는 온디맨드로 원천데이터를 수시로 조회하게 돼운영계 시스템의 성능에 영향을 줄 수 있다. 밀리초, 나노초 단위의 지연시간을 요하는 운영계 시스템이라면 작은 영향도 큰 비즈니스 피해를 초래한다. 데이터 가상화가 데이터레이크의 보완재지, 대체재일 수 없는 이유다.

그는 “데이터 가상화 고객 대부분은 운영계에 직접 접근하는 대신, 운영데이터에 근접한 검증계 시스템을 두거나, 기존 DW처럼 특정 시간대에만 온디맨드하게 하거나 조치를 취한다”고 설명했다.

데이터 가상화는 요즘들어 자주 거론되는 ‘데이터 패브릭’, ‘데이터 메시’ 등을 구현하는 필수적인 기술요소다. 데이터 패브릭과 데이터 매시는 데이터 플랫폼을 위한 개념적 아키텍처로 설명된다.

데이터레이크 운영자는 정형, 반정형, 비정형 등 원천데이터를 데이터 소비자의 도메인에 맞춰 정리하는 작업을 수행해야 한다. 데이터 패브릭은 데이터팀에서 수집과 운영에 활용할 수 있는 각종 도구 및 자동화에, 데이터 소비자를 위한 시각화 등 각종 도구를 한 세트로 엮은 아키텍처다. 여기서 데이터 이동이나 처리에 대한 부분에서 데이터레이크와 혼용하기 위해 데이터 가상화가 필수다.

김 전무는 “데이터 패브릭은 데이터 소비에 초점을 맞춘 구조로, 분산 데이터를 위한 중앙집중화된 데이터에 관리 개념을 더한 ‘중앙집중형 데이터 매니지먼트’라 볼 수 있다”며 “결국 데이터 패브릭도 데이터레이크와 동일한 문제점을 갖고 있고, 제대로 된 데이터 가상화 기술을 활용해야 그 문제점을 해소할 수 있다”고 말했다.

데이터 메시는 다양한 도메인 지식을 분류해 범용 데이터세트에서 도메인별 마트 형태로 분리하는 아키텍처다. 금융, 세일즈, 마케팅 등 도메인을 구분하는데 일견 DW나 데이터마트처럼 보인다.

김 전무는 “주제 영역별로 데이터 수집이나 연결, 결합 구조는 기존과 똑같지만, 안쪽은 전통적인 데이터레이크 모양과 똑같다”며 “데이터 메시도 데이터 가상화 기술을 사용해야 구현할 수 있다”고 강조했다.

그는 요즘 차세대 프로젝트에서 거의 대부분 도입되는 ‘마이크로서비스아키텍처(MSA)’에서도 데이터 가상화가 필요하다고 했다.

MSA는 모노리틱 앱을 기능별로 쪼개 독립적 서비스들로 만든 뒤 조합해 상호 참조로 전체적인 시스템을 만드는 아키텍처다. 각 서비스는 각자 데이터를 가져오게 되는데, 일련의 각 서비스별 데이터 조회가 완료되는 것을 하나의 트랜잭션으로 한다. 각 서비스별로 데이터가 따로 존재하므로 최종 결과에서 데이터의 정합성을 확인하는 게 필요하다.

김 전무는 “MSA는 시스템 장애 측면에선 유용하지만, 비즈니스 트랜잭션 검증 입장으로 보면 매우 어렵다”며 “일단위 배치로 저녁에 확인한다고 하면 한쪽으로 데이터를 모아 검증하게 될 텐데, 힘들게 데이터별로 접근을 통제해 놓고 데이터레이크에 보안을 풀어서 검증하는 상황이 나타날 수 있다”고 설명했다.

그는 “MSA의 정합성 검증을 실시간으로 하려면 온디맨드 조회가 필수이며, 여기서 데이터 가상화가 활용된다”며 “품질 검증이든 비즈니스 트랜잭션 검증이든 데이터 가상화가 안 들어갈 수 없기 때문에, MSA 차세대를 시작했다가 데이터 가상화를 접한 뒤 다시 멈추는 경우가 많다”고 말했다.

그는 데이터 플랫폼 구축에서 데이터 가상화를 중요한 기술축으로 보고 복합적이고, 면밀하게 검토해야 한다고 강조했다.

엔코아의 데이터 가상화 솔루션은 이기종 시스템과 멀티 클라우드를 지원하고, 접근제어, 이력관리, 데이터마스킹 등의 기능을 제공한다. 데이터 통합 관리 플랫폼인 '엔코아 데이터웨어'는 데이터 포털 구축 솔루션인 'DP#'을 비롯해, 데이터 설계·메타 데이터 관리·데이터 품질 관리 등을 위한 데이터 거버넌스 솔루션 등 10여개 솔루션으로 구성됐다.