데이터 분석을 위한 데이터 거버넌스

데이터는 우리 주변의 모든 것을 변화시켰다. 기업, 정부, 그리고 우리 모두를 전세계에 걸쳐 변화시키고 있는 요인은 바로 데이터다. 오늘날 데이터를 사용해 탁월한 고객 경험을 제공하고 우수한 제품을 생산하며, 운영 효율을 높이는 기업은 이 새로운 디지털 경제의 승자가 되고 있다. 이를 위해 기업들은 기존의 정형 데이터 분석에서 벗어나 소셜, IoT, 설비등과 같은 비정형 데이터 분석을 위해 IT환경을 구축하고 데이터 분석가들을 훈련하는데 투자를 하고 있다.

그러나 데이터 분석 프로젝트는 데이터 관리 문제로 실패하는 경우가 있다.

데이터 분석 프로젝트가 성공하려면 먼저 데이터를 통제하고 진정으로 이해할 수 있어야 한다. 기업들은 엄청난 양의 데이터에 직면하고 있으며, 데이터의 확산이 계속됨에 따라 기업들은 여전히 비즈니스 가치를 극대화하기 위해 데이터를 가장 효과적으로 사용하는 방법에 대해 고심하고 있다.

오늘날 기존의 데이터 분석과는 전혀 다른 빅 데이터 분석과 같은 환경에서는 데이터를 효과적으로 사용하기 위해 전사적인 데이터 거버넌스 전략이 필요하다.

단절된 팀을 통합하고, 파편화된 데이터와 사내의 모든 종류의 애플리케이션과 시스템을 통합해야 한다. 이는 전통적인 데이터 거버넌스로는 해결할 수 없다. 대용량 데이터 분석에 중점을 둔 전사적인 데이터 거버넌스 프로그램 수행을 위해서는 다음의 4가지가 필요하다.

1.데이터 카탈로그

2.비즈니스 전반에 걸친 거버넌스 협업 지원

3.데이터 품질관리

4.인공지능을 통한 데이터 거버넌스 자동화

1.데이터 카탈로그

크든 작든 모든 데이터 거버넌스 출발은 데이터 가시성에 달려 있다. 데이터 관리자는 데이터가 어디에 있는지, 어디서 왔는지, 어떻게 사용되고 있는지, 그리고 누가 사용하는지를 확인할 필요가 있다. 데이터 거버넌스 프로그램을 실행할 때 이러한 가시성을 유지하는 것은 큰 도전이 될 수 있다. 이유는 간단하다 관리하는 데이터가 많을수록 추적하기가 더 어렵기 때문이다.

데이터 카탈로그는 이 문제를 해결할 수 있는 최적의 방안이고 최상의 데이터 카탈로그는 메타 데이터로부터 얻을 수 있다. 현재 기업내 존재하는 모든 데이터 자산과 관련된 메타 데이터는 어디에 있든지 식별할 수 있어야한다. 이를 통해 데이터를 처리하는 프로세스, 사람 및 플랫폼에 대한 중요한 통찰력을 얻을 수 있다.

여기서 한 가지 주의할 점은 여러 레거시 시스템을 사용하여 데이터를 관리하고 보유하고 있는 경우, 다양한 스키마와 다양한 유형의 메타 데이터를 처리해야 한다는 것이다. 이러한 경우 데이터 카탈로그 작업이 장시간 고비용의 프로세스가 될 수 있다. 그러나 이러한 시스템에 대한 전체 카탈로그 작업을 수행하는 것이 데이터 분석을 위한 데이터 거버넌스의 시작이다.

2.비즈니스 전반에 걸친 거버넌스 협업 지원

기존에 데이터는 부서단위로 주로 사용되었기 때문에 누구에게 데이터를 허용할지, 어떤 규정을 참조해야 하는지 등 거버넌스가 중요하게 생각되지 않았다. 하지만 전사 데이터를 사용하게 되는 현재의 데이터 분석 환경에서는 다른 부서에서 생산된 데이터가 어떤 정책과 규정을 참조하였는지, 담당자는 누구인지 등 다른 부서와 협력하는 전사적인 거버넌스가 필수적이다. 즉 데이터 분석을 위한 데이터 거버넌스는 전 부서가 함께하는 팀 스포츠이며 데이터 거버넌스 프로그램을 전사적으로 확장함에 따라 협업이 매우 중요하다.

하지만 거버넌스 담당자나 부서가 회사 내 업무 담당자들과 기존처럼 협업하는 것으로는 전체 비즈니스에 적합한 정책을 개발하기 어렵다. 왜냐하면 거버넌스 담당자나 부서는 회사내 모든 업무를 알고 있지 않으며 데이터를 다루는 모든 프로세스에 대해서도 알고 있지 않기 때문이다.

해결책은 현업 업무 담당자를 참여시켜, 업무를 실제 수행하고 있는 사람들이 프로세스에 대한 지식을 공유하고 거버넌스에 대한 의견을 제공할 수 있도록 권한을 부여할 필요가 있다.

가장 중요한 것은 모든 사람이 함께 작업할 수 있는 장을 마련해 주는 것이다. 데이터에 대한 가치, 신뢰성 및 리니지에 대한 신뢰할 수 있는 정보를 만들 수 있도록 워크플로우, 정책, 정의 및 규칙 등을 함께 제공하는 협업 도구가 필요하다.

3.데이터 품질관리

데이터 품질관리는 기업의 데이터가 사용 목적에 적합하도록 보장하는 데이터 거버넌스의 필수적인 부분이다. 완전성, 유효성, 일관성 등과같은 데이터 품질을 관리하면 데이터 분석에 신뢰할 수 있는 결과를 제공할 수 있다.

하지만 현실은 사내 모든 조직에 데이터 품질 문제가 있다. 이러한 문제는 일반적으로 데이터 분석 프로젝트 중에 발견된다. 사내에서 사용하는 애플리케이션과 데이터 베이스에서 데이터 분석을 위한 곳으로(데이터 웨이 하우스나 데이터 레이크와 같은) 데이터를 이동할 때 데이터 품질 문제는 명확 해진다.

불완전하고 일관되지 않으며 부정확한 데이터로 인해 데이터 사용자는 데이터 및 데이터가 포함된 시스템에 대해 신뢰할 수 없게 된다. 저 품질의 데이터를 사용한 분석 결과는 비효율적인 마케팅, 공급망 오류, 나쁜 고객 경험 등과 같이 비즈니스에도 영향을 주게 된다.

이러한 문제를 해결하기 위해 종종 데이터 분석 시스템의 데이터에 대해서만 품질을 개선하고자 한다. 하지만 개별적인 품질 개선은 전사적인 데이터 품질을 개선할 수 없다.

데이터 품질을 관리하는 일관되고 포괄적인 방법이 없으면 저 품질의 데이터가 기업 전체에 계속 영향을 미치게 된다. 데이터에 대한 신뢰는 계속 떨어지고 비용은 계속 상승한다. 그리고 업무 규정을 준수하지 않을 위험이 있다.

현업 업무담당자들이 데이터를 사용하는 데이터 분석 시대에는 하나 또는 두 개의 전술적 데이터 품질 개선은 더 이상 의미가 없다. 데이터 품질은 조직 전체의 모든 수준에서 해결되어야 한다. 또한 모든 관계자들이 데이터 품질을 이용할 수 있어야한다.

4.인공지능을 통한 데이터 거버넌스 자동화

데이터 분석을 위한 데이터 거버넌스와 관련된 또 다른 큰 문제는 계속 증가하는 데이터 양과 다양한 유형의 데이터 자산을 다루게 된다는 것이다.

ML/AI와 같은 기술을 사용하면 중요 데이터 검색, 품질, 룰 기반의 검증 및 보고에 필요한 많은 기능을 자동화할 수 있다. 또한 사용자에게 지능적인 추천 기능을 제공함으로써 생산성 향상에 도움을 줄 수 있다.

다음은 AI 지원 데이터 거버넌스 도구가 실제로 작동하는 방법에 대한 몇 가지 예다.

▲데이터 사용자가 검색한 데이터 세트와 유사한 데이터 세트 추천

▲새로운 비정형 데이터를 자동으로 온 보드, 구조화 및 분류

▲비즈니스 용어는 실제 데이터 세트와 자동으로 연결

▲이전 태그 지정 작업에서 학습한 로직에 따라 유사 데이터에 자동으로 태그 지정

이러한 기능은 비교적 사소한 것처럼 보일 수 있지만, 빅 데이터 분석과 같이 대용량 데이터를 관리하는 경우 시간과 자원 측면에서 상당한 비용을 절감할 수 있다. 또한 분석팀이 일상적이 데이터 관리 작업에 신경 쓸 필요없이 분석에 더 많은 시간을 사용할 수 있도록 도와준다.

■ 전사 데이터 거버넌스를 지원하는 통합 솔루션

데이터 분석에 사용하는 데이터 카탈로그, 데이터의 정확성과 신뢰성, 계속 늘어나는 각종 규제의 준수를 추가적으로 고려해야 한다면 데이터 거버넌스 솔루션을 사용하지 않고는 처리하기가 어렵다.

인포매티카의 엔터프라이즈 데이터 거버넌스 플랫폼은 이러한 목적에 부합되는 제품으로 엔터프라이즈 데이터 카탈로그(Enterprise Data Catalog), 데이터 엔지니어링 퀄리티(Data Engineering Qua lity), 액손 데이터 거버넌스(Axon Data Governance) 등으로 구성돼 있다. 이는 데이터 정책관리, 규정 준수, 데이터 카탈로그, 데이터 품질 등의 거버넌스 관련 핵심 문제를 처리할 수 있는 하나의 완전한 데이터 거버넌스 솔루션을 구성한다. 그리고 인포매티카 인텔리전트 데이터 플랫폼(Informatica Intelligent Data Platform)인 CLAIRE의 ML 및 AI 기술을 사용해 데이터 관리 및 거버넌스 프로세스를 자동화한다.

엔터프라이즈 데이터 카탈로그는 기업 내 대부분의 데이터 및 애플리케이션 소스에서 메타 데이터를 자동으로 검색하고 인덱싱 할 수 있다. 또한 데이터 품질 통계와 데이터 리니지 정보를 모두 추출하여 분석에 필요한 데이터의 신뢰성 및 관련성을 시각화 할 수 있도록 도와준다. 액손 데이터 거버넌스에서 정의한 비즈니스 용어를 IT 자산과 매핑 시키면 현업 부서 사용자가 기술 용어 대신 비즈니스 용어를 사용하여 데이터 세트를 검색할 수 있다.

또한 CLAIRE의 머신 러닝을 사용하여 데이터 세트를 자동으로 분류한다. 스마트 도메인 기능은 미리 정의한 데이터 패턴을 데이터와 비교하여 자동으로 데이터에 태그를 지정할 수 있다. 그리고 유사 데이터를 검색하여 검색된 데이터에도 자동으로 태그를 지정할 수 있다.

마지막으로 셀프 서비스 데이터 분석 사용자는 이러한 분류를 사용하여 데이터 자산을 검색하고 데이터 자산을 사용하기 전에 데이터 자산과 관련된 모든 내용을 이해할 수 있다.

데이터의 관련성을 시각화한 Enterprise Data Catalog의 리니지 화면

데이터 엔지니어링 퀄리티는 온프레미스, 클라우드, 하둡, NoSQL 등을 포함한 전사 시스템의 중요한 데이터 문제를 신속하게 식별할 수 있는 통합된 역할 기반의 데이터 검색 및 프로파일링을 지원한다. 웹 UI를 지원하는 인포매티카 애널리스트와 클라이언트 개발 툴인 인포매티카 디벨로퍼를 통해 비즈니스와 IT가 협업해 신속하게 데이터 품질문제를 파악하고, 비즈니스 규칙과 정책을 쉽게 설계 및 적용하며, 데이터 품질을 측정하고 모니터링 할 수 있다.

CLAIRE 엔진은 기존의 유사 데이터 관리 방법에 기반하여 데이터 품질 규칙을 지능적으로 추천한다. 또한 데이터 유사성을 자동으로 감지할 수 있으며, 이는 중복 데이터를 감지하고 제거하는데 사용된다.

데이터 엔지니어링 퀄리티는 그 외에도 표준화, 매칭, 전 세계 주소, 이메일, 전화번호 클렌징 및 다목적 데이터 품질 관리 또한 할 수 있다.

액손 데이터 거버넌스는 전사 데이터를 쉽게 이해하고 그에 따라 정책을 관리할 수 있다. 데이터와 관련된 비즈니스 측면(비즈니스 용어, 프로세스, 품질, 규제, 회사정책)을 정의하고 연결해 다양한 이해관계자의 관점에서 데이터의 의미, 데이터가 사용되는 방식, 데이터 사용자, 사용목적을 이해할 수 있다.

또한 엔터프라이즈 데이터 카탈로그, 데이터 엔지니어링 퀄리티 및 CLAIRE의 모든 기능을 통합 활용하여 현업 부서 및 IT 사용자 모두 협업 가능한 데이터 거버넌스 프로그램을 실현할 수 있게 해준다.

엔터프라이즈 데이터 카탈로그의 시스템 및 데이터 리니지를 통해 비즈니스 과정에서 데이터가 어떻게 상호 연결되어 있고 정보가 흐르는지 확인할 수 있다. 그리고 Axon의 논리 모델을 엔터프라이즈 데이터 카탈로그의 물리 모델과 매핑해 현재 조회 중인 논리 모델의 기반이 되는 물리적 데이터에 쉽게 접근할 수 있다.

액손 데이터 거버넌스에서 정의한 정책 및 품질 규칙을 데이터 엔지니어링 퀄리티에서 구현하고 품질 점검 결과를 액손 데이터 거버넌스에서 실시간으로 모니터링 할 수 있다. 이를 통해 비즈니스 컨텍스트에서 데이터 품질에 대한 가시성을 제공해 데이터가 용도, 프로세스, 프로젝트 및 규제 등에 적합한지 확인할 수 있다. 데이터 분석가에게는 신뢰할 수 있는 데이터로 작업을 수행할 수 있게 보장한다.