[기고] ‘데이터옵스’ 이제 선택 아닌 필수

효성인포메이션시스템 데이터사업팀 권동수 전문위원

전문가 칼럼입력 :2020/08/17 11:05

권동수 전문위원

최근 정부가 ‘한국판 뉴딜’을 발표하면서 ‘데이터 댐’ 건설 계획을 제시해 주목을 끌었다. 데이터 댐은 공공 및 민간기업이 데이터를 수집하고 이를 가공해 유용한 정보로 재구성한 집합 시스템을 의미한다. 데이터 댐이 만들어지면 더욱 똑똑한 인공지능(AI)을 개발하고, 5G 통신과 융합해 실감나는 가상현실도 제공할 수 있다.

권동수 효성인포메이션시스템 전문위원

데이터는 오늘날 원유 그 이상의 가치를 지닌 마르지 않는 디지털 자산(원유)이다. 히타치 밴타라의 IoT & 빅데이터 부분 CTO인 빌 슈마르조의 ‘경제 디지털 자산 가치이론’에 따르면 데이터 양이 증가할수록 더욱 정확한 데이터 분석과 예측이 가능해지고 결과적으로 데이터의 경제적 가치가 상승한다. 가트너 리서치 수석 부사장 피터 손더가드도 데이터는 21세기 휘발유, 분석은 이 휘발유를 연소시키는 엔진이라고 강조했다.

이처럼 중요한 디지털 자산인 데이터가 복잡하게 얽혀 있을 경우 기업의 데이터 운영에 오히려 악영향을 끼친다. 기업은 데이터에서 많은 가치를 원하지만 필요한 정보를 정확히 찾아내는 일은 쉽지 않고, 데이터 수집·저장·분석에 많은 비용과 시간을 소모한다. 복잡한 데이터가 업무 혁신의 걸림돌이 되고 있는 것이다. 따라서 데이터의 가치와 잠재력을 발굴하고 효율적으로 운영 가능한 시스템이 요구된다. 기업은 단순한 데이터 취합과 축적에서 한 단계 더 나아가 데이터 ‘운영’ 전략을 고민해야 한다.

■ 데이터 운영 시대의 해결사 ‘데이터옵스(DataOps)’

데이터 보안 및 개인정보 보호, 데이터 사일로 문제, 분산된 데이터 증가 등 데이터 관리의 어려움을 극복하는 해결책으로 ‘데이터옵스(DataOps)’가 주목 받고 있다. 데이터옵스란 적합한 데이터를 적시에 올바른 장소로 가져올 수 있는 프로세스를 자동화함으로써 데이터의 궁극적인 잠재력을 최대한 발휘하도록 하는 전략 실행 방법이다. 개발과 운영을 함께하는 데브옵스(DevOps)와 마찬가지로 데이터 분석과 운영을 하나로 통합해 비즈니스 의사 결정의 품질과 예측 가능성을 높이고 가치 창출 시간을 단축한다.

451 리서치가 최근 실시한 데이터옵스 현황 설문조사 결과에서 기업들은 데이터 탐색 및 접근을 위해 상당한 시간을 투자하는 것으로 나타났다. 응답자 80%가 기업 내 데이터 소스가 100개 이상이라고 답했고, 데이터 및 비즈니스 분석가의 요청에 맞는 데이터 환경 준비에 하루 이상 소요된다고 답한 응답자 비율도 92%에 달했다. 응답자 30%는 미가공 데이터로부터 통찰력을 얻기까지 일주일 이상 걸린다고 언급했다. 급속도로 변화하는 비즈니스 환경에 대응하기에는 지나치게 느린 속도다. 데이터옵스는 데이터 관리의 어려움을 극복할 방법으로 꼽힌다. 81%의 응답자는 자사의 성공에 데이터옵스가 긍정적 영향을 줄 수 있다는 데 동의했다.

데이터옵스의 가장 큰 이점으로 분석 프로젝트의 효율성 개선을 들지만 이는 데이터옵스의 여러 이점 중 일부에 불과하다. 데이터옵스가 제공하는 혜택은 크게 ▲운영 민첩성 ▲분석 이니셔티브 ▲거버넌스 세 가지를 꼽을 수 있다. 설문 대상자 53%가 데이터옵스의 영향력이 가장 높은 분야로 운영의 민첩성을 꼽았으며 32%는 분석, 14%는 거버넌스를 언급했다.

■ 데이터옵스의 화두가 된 ‘클라우드’

운영 민첩성을 지원하는 데이터옵스는 기업이 변화하는 비즈니스에 더욱 잘 대응하고 운영 효율성을 개선하는 데 초점을 맞춘다. 운영상의 민첩성이 가장 첫 손에 꼽힌 것은 ‘데이터옵스(DataOps)’에서 옵스(Ops), 즉 운영이 그만큼 중요하다는 것을 말한다. 데이터옵스 개선으로 이점을 얻는 기술 분야로 클라우드 마이그레이션(57%), 백업∙재해복구(52%), 개발∙테스트(51%) 순으로 나타났다. 이들 기술 모두는 운영 민첩성과 연관된다.

데이터옵스 개선으로 이점을 얻을 수 있는 기술 분야

또한 운영 민첩성을 저해하는 요인 가운데 하나로 클라우드 트렌드가 꼽혔다. 응답자 86%는 2개 이상의 클라우드 제공업체에 자사 데이터가 분산되어 있다고 답했고, 3개 이상(55%), 4개 이상(22%), 5개 이상(11%)의 클라우드를 활용하는 것으로 조사됐다.

복수의 클라우드 제공업체에 분산된 데이터를 제대로 관리하지 못할 경우, 특정 환경에 많은 양의 데이터가 저장되어 다른 곳으로 이동시킬 가능성이 낮아지는 데이터 중력(data gravity) 현상이 발생한다. 이는 다른 분석 툴이나 플랫폼에서 해당 데이터를 사용하는 것이 불가능해 데이터의 활용도와 가치가 떨어지고, 결국 개별적으로 분리되어 분석에 사용할 수 없는 다크 데이터로 남게 된다. 데이터가 통합되지 못하고 다크 데이터로 존재하면 사내 공유가 힘들어 분석 및 거버넌스의 어려움도 수반된다.

■ 데이터옵스로 기업의 운영, 분석, 거버넌스 강화

데이터옵스는 조직 전체의 데이터 관리자와 소비자 간 데이터 플로우 커뮤니케이션 통합 및 자동화 향상에 중점을 둔 협업적 데이터 관리 규칙으로 등장했다. 효과적인 데이터옵스 구현을 위해서는 데이터 관리 인프라, 메타데이터 기반의 주도적인 데이터 관리 툴, 정책 기반 자동화가 중요하다.

데이터옵스는 많은 기업에게 새로운 접근 방식이다. 첫 단계는 대부분 분석과 머신러닝을 위한 데이터 파이프라인 강화로 시작한다. 데이터 탐지, 통합, 전송 자동화, 가속화는 가공되지 않은 데이터를 실행 가능한 통찰력으로 전환하는 데 필요한 시간을 단축시키는 것이 핵심이다. 그러나 데이터옵스의 더 큰 이점은 적합한 데이터를 적시에 올바른 장소로 가져올 수 있는 프로세스를 자동화해 데이터의 궁극적인 잠재력을 최대한 발휘하도록 돕는다는 점이다.

효과적인 데이터옵스 구현을 위해서는 탐색, 메타데이터 관리, 정책 기반 거버넌스∙유지관리, 자동화된 데이터 통합 및 데이터 파이프라인 구축 기술이 필요하다. 다양한 기술이 적절한 데이터 플랫폼과 연결될 때 성공적인 데이터 운영이 가능하다.

■ 데이터 활용과 운영의 핵심, 빅데이터 분석 플랫폼

데이터 분석과 관리 방식에 새로운 툴과 기술이 등장했지만 데이터 민첩성 부족은 수년간 문제가 되어 왔다. 그리고 이 문제는 많은 기업들에게 디지털 트랜스포메이션을 기반으로 혁신 가속화를 지원하는 분석, 머신러닝, AI 구현에 가장 큰 걸림돌이 되고 있다.

관련기사

효성인포메이션시스템이 제공하는 ‘펜타호’(Pentaho)’는 기업이 데이터를 통해 가치를 창출할 수 있도록 분석을 위한 인프라 구축부터 활용까지 가능한 엔드-투-엔드 빅데이터 분석 플랫폼이다. 데이터 수집과 저장, 분석, 시각화 과정을 워크플로우 단위로 처리하는 점은 펜타호의 가장 큰 특징이며, 빅데이터 활용에 초점을 둔 운영 시스템 개선 프로젝트에 최적이다. 기업이 데이터에서 인사이트를 도출할 때 걸림돌이 되는 요소를 사전에 제거하고 데이터 관리 방식을 현대화하도록 지원한다.

과거 프로젝트는 데이터 저장에 무게를 둔 단발성 프로젝트가 많았다. 그러나 앞으로는 ‘활용’에 초점을 맞춘 운영 시스템 개선 프로젝트가 많아질 전망이다. 데이터 활용 민첩성을 높이고 성공적인 데이터 운영을 위해, 데이터옵스의 시대를 준비해야 한다.

효성인포메이션시스템 펜타호

*본 칼럼 내용은 본지 편집방향과 다를 수 있습니다.