성공적인 인공지능·머신러닝 모델을 위한 데이터 관리

2020년 11월 비지니스 컨설팅 업체인 McKinsey에서 'The state of AI in 2020' 이라는 제목으로 인공지능에 관한 흥미로운 설문조사 보고서를 출간하였습니다. 이 보고서에 따르면, 지난 몇 년간 인공지능과 머신러닝이 데이터 분석에 점점 더 많이 사용되고 있다는 것이 재확인되었습니다.

특히 이번 설문조사 보고서에서 중요하게 보여지는 점은 전사적인 측면에서 봤을 때 인공지능과 머신 러닝이 비즈니스 가치창출과 비용절감에 도움이 되었고 이를 직접 확인할 수 있는 긍정적인 비지니스 지표들이 있다고 답변한 비율이 많다는 것입니다. 약 22%에 달하는 응답자들이 영업이익 (EBIT)의 5%정도가 인공지능을 이용한 데이터 분석에 기인한다고 답변했습니다.

또 하나의 주목할 만한 트렌드는 2020년 초부터 시작된 COVID-19으로 인한 글로벌 팬데믹으로 인해 데이터 중심 비즈니스의 추세가 가속화되었음을 들 수 있습니다. 인공지능 사용의 증가는 이러한 데이터 중심 비즈니스로 변해가는 과정에서 필수 불가결한 것으로, 지난해 성과가 좋았던 글로벌 기업의 61%가 인공지능에 대한 투자를 늘렸다고 답변했습니다.

그러나 같은 보고서에서 인공지능 사용증가를 이끌었던 글로벌 팬데믹이 인공지능 채택을 가로막는 원인으로 작용할 수 있는 몇 가지 잠재적 가능성을 지적했습니다. 인공지능을 보다 적극적으로 채택한 기업의 응답자들이 COIVD-19으로 인한 팬데믹 기간동안 인공지능 모델이 “잘못된 정보를 주었다” 라고 응답하는 경우가 더 많은 것으로 보고되었습니다. 물론 인공지능 모델을 더 많이 사용하는 회사가 인공지능모델의 문제를 더 많이 발견하고 보고하는 것이 당연할 것입니다. 그러나 이러한 잘못된 인공지능 모델의 보다 근본적인 이유는 다른데 있습니다.

지난 2년여의 COVID-19으로 촉발된 급격한 시장변화는 인공지능모델의 기본 가정을 무효화했으며 결과적으로 인공지능을 위한 초기 데이터와 모델 모두를 다시 재구성해야 할 필요성이 대두되었습니다. 보건분야의 인공지능 모델에 관련된 Forbes의 기사 (What 400 Flawed Healthcare AI Models Can Teach Us)에 따르면 COVID-19이 인공지능 모델에 영향을 끼치기 시작했고 또 여러 인공지능 모델을 분석한 결과 수백개의 모델 모두에 치명적인 결함이 있다고 보고합니다.

이러한 결함은 인공지능 모델에 이용한 데이터(연구 대상 전체를 대표하지 못하는 작은 표본 데이터 사용)와 투명성(데이터 소스, 모델링 기술 및 관련된 정보의 제한적인 공개, 데이터 부족, 편향된 데이터)의 두 가지 원인 중 하나로 모아집니다. 이는 결국 인공지능을 이용한 데이터 분석에서 샘플데이터(데이터 크기, 품질, 계보, 적합성)와 데이터 투명성(가시성, 공통된 이해, 인공지능 모델의 투명성, 비즈니스 메트릭에 대한 성능)이 얼마나 중요한지를 보여줍니다.

인공지능 모델의 사용이 산업 전반에 걸쳐 보편화됨에 따라 편향된 데이터 등으로 인한 인공지능 모델의 결함의 문제는 소비자나 개인에게 큰 영향을 미친 수 있고 궁극적으로는 인공지능 모델에 대한 신뢰를 약화시킬 수 있습니다. 실제로 많은CDO (Chief Data Officer) 나 인공지능 개발자들이 인공지능 모델을 구축할 때 가장 어려운 부분은 인공지능 알고리즘이 아니라 데이터라고 말을 합니다. 이렇게 인공지능을 위한 데이터 품질의 중요성에 대해서 Google의 보고서에서는 샘플 데이터는 인공지능/머신러닝 모델에서 가장 과소평가되는 부분이라 라고 말합니다. 인공지능과 머신러닝을 구현을 방해하는 일반적인 데이터 문제는 다음과 같이 요약할 수 있습니다.

충분하지 않은 데이터: 위의 예에서 지적했듯이 너무 작고 분석에 필요한 대상을 대표하지 못하는 데이터를 사용하는 것이 가장 일반적인 문제입니다.

열악한 데이터 품질: 중복 데이터, 표준화 부족, 일관성 없는 형식 등과 같은 기본 데이터 품질 문제는 인공지능 모델에 큰 영향을 줄 수 있습니다.

편향된 데이터: 인공지능 알고리즘을 훈련하는 데 사용되는 샘플 데이터의 편향으로 인해 머신러닝 모델 또한 편향될 수 있습니다.

부적절한 데이터의 사용: 인공지능 모델을 구축할 때 사용된 데이터는 인공지능 모델이 목표로 하는 비즈니스 목표를 위한 데이터로 제한되야 하고 개인정보 보호정책과 같은 데이터 거버넌스 관련 정책 및 규정을 준수해야합니다.

데이터 드리프트: 인공지능 모델을 위해 구축된 데이터 파이프라인들은 다양한 데이터 소스로부터 데이터를 통합하는데 데이터 구조와 품질은 여러 이유로 인해 시간이 지남에 따라 변경되고 이렇게 변경되는 데이터 구조로 인해 종종 데이터 파이프라인이 작동하지 않게 됩니다.

그렇지만 긍정적인 부분은 이러한 데이터 문제 중 많은 부분을 해결할 수 있는 데이터 카탈로그 솔루션이나 데이터 품질관리를 위한 다양한 제품들이 시중에 나와 있다는 것입니다. 특히 지난 25년간 데이터 관리 시장을 선도하는 인포매티카 솔루션들은 데이터 인텔리전스를 이용한 인공지능 알고리즘이 탑재되어 저명한 IT 시장조사 리포트인 Gartner Magic Quadrant에서 메타데이터 관리(그림 1) 그리고 데이터 품질 관리 부분(그림 2)에서 리더에 위치하고 있습니다.