[기고] 데이터 기반 마케팅 구현을 위한 데이터 관리 첫걸음

"데이터를 귀중한 자원으로서 수집하고, 정제하고 활용해야"

전문가 칼럼입력 :2021/06/04 15:23    수정: 2021/06/04 15:58

민선 애피어 최고 AI 과학자
민선 애피어 최고 AI 과학자

역사적으로 마케팅은 항상 데이터에 크게 의존해 왔다. 요즘과 같이 빠르게 변화하는 세상에서 데이터 기반 마케팅의 화두는 서로 다른 다양한 소스로부터 발생하는 엄청난 양의 데이터를 어떻게 잘 관리할 것인가 하는 점이다.

마케팅 데이터 관리와 관련해서 중점을 둬야 할 핵심 이슈는 세 가지로 정리할 수 있다. 첫 번째는 데이터 품질이다. '무가치한 데이터를 넣으면 무가치한 결과가 나온다(Garbage in, garbage out)'라는 GIGO의 법칙은 마케팅에서 염두에 둬야 할 일리 있는 격언이다.

데이터 품질이 보장됐다면 고려해야 할 두 번째 요소는 데이터의 유용성이다. 어떤 데이터가 가치 있고, 어떤 데이터 세트를 함께 살펴봐야 의미 있는 결과를 얻을 수 있는가를 판단해야 한다.

마지막으로 강력한 거버넌스, 즉 관리 규정을 확립해야 한다. 유럽연합의 일반개인정보보호법(GDPR, General Data Protection Regulation), 싱가포르의 개인정보보호법(PDPA, Personal Data Protection Act) 등 관할 지역별로 따라야 할 법적 및 기업 의무가 포함된다.

데이터 기반 마케팅 구현을 위한 데이터 관리 첫걸음(제공=애피어)

'좋은' 데이터 란 무엇인가?

데이터 품질이 좋다 좋지 않다를 규정하기 위해서는 여러 차원에서 살펴봐야 한다. 일관된 오류 또는 비일관적으로 반복되는 데이터 노이즈와 같은 문제는 데이터 세트가 엄청나게 크더라도 그 유용성과 가치를 크게 감소시킬 수 있다.

데이터가 완벽하게 정확하더라도 데이터를 선택할 때 기준으로 삼은 가정 자체가 편향되거나 왜곡된 경우에는 훨씬 더 미묘한 문제가 발생할 수 있다. 이렇게 수집된 데이터는 결과적으로 인공지능(AI) 모델이 잘못된 결과를 도출하는 원인으로 작용한다. 물론 데이터를 선택하는 과정에서 차용한 일부 편향이 유용한 경우도 있지만, 그 편향 자체를 인지하고 이해하는 것이 무엇보다 중요하다.

편향을 인지하기만 하면, 데이터의 편향을 해제해 머신러닝 및 AI 알고리즘에 미치는 영향을 제거할 수 있다.

데이터의 빈도, 최신성 및 기간 범위도 품질에 영향을 미친다. 새 데이터와 이전 데이터가 모두 유용하지만 일반적으로 마케팅에서는 보다 최근의 데이터를 더 선호하는 편인데, 관련성이 더 높기 때문이다. 또 추세 분석이나 원인과 결과를 이해하는 데는 새 데이터와 이전 데이터를 모두 살펴보는 것이 더 좋은 결과를 낸다. 그리고 광범위한 기간을 커버하는 데이터는 마케팅에서 강력한 힘을 발휘할 수 있다.

마케팅에 사용할 수 있는 데이터 소스는 무엇인가?

마케터가 사용할 수 있는 데이터가 너무 많기 때문에, 어떤 소스의 데이터가 가장 가치 있고 어떻게 사용할 수 있는지 그 방법을 아는 것이 중요하다. 대부분의 경우 데이터는 크게 고객의 온라인 행동 데이터와 오프라인 행동 데이터의 두 그룹으로 나눌 수 있다. 둘 다 기존 고객을 이해하고 그들에게 매력적인 상품이나 서비스를 제안하는 데 똑같이 의미 있는 작용을 한다.

요즘은 웹사이트에서의 고객 행동과 같은 온라인 데이터를 대량으로 확보할 수 있다. 여기에는 고객이 구매한 제품, 결제를 완료한 시점, 재방문 여부 등이 포함된다. 또한 오프라인 데이터 소스도 풍부하다. 실제 매장 방문, 고객 센터로 걸려 온 문의 전화, CRM 데이터 등이 포함된다.

일반적으로 온라인 데이터는 규모가 매우 큰 반면, CRM 및 금융 거래 관련 신청과 같은 오프라인 데이터 소스는 고객이 구매할 때 사용한 결제 방식과 같은 정보를 이해하는 데 유용하다. 이를 통해 할인 쿠폰, 무료 배송, '지금 구매, 나중에 지불' 서비스와 같은 편리한 결제 수단을 사용할 수 있는 옵션 등 고객이 선호하는 형태로 인센티브를 제공할 적절한 시기를 파악하여 판매를 진작시키는 모델을 개발할 수 있다.

또 API 및 기타 도구를 사용해 소셜 미디어와 같은 다른 소스를 통해 잠재고객에게 도달하고 상호작용할 수도 있다. 자사 데이터에서 확보한 인사이트는 다른 플랫폼 API를 통해 다양한 유형의 신규 고객에게 다가갈 수 있는 커다란 힘을 제공한다.

데이터를 한 데 모아 활용하기

적합한 데이터를 찾아 수집하는 것, 즉 데이터 품질을 유지하면서 데이터를 집계하는 것이 데이터 통합 프로세스의 첫 단계다. 여기서 극복해야 할 장애물은 서로 다른 소스의 데이터를 통합해 효과적으로 사용할 수 있도록 하는 것이다. 즉, 각 소스로부터의 데이터들 사이에서 공통적인 요소를 찾아 고객 기록이 완전하고 중복이 없도록 해야 한다. 가장 이상적인 방법은 데이터를 연결하는 데 사용할 수 있는 공통 식별자를 찾아 한 소스의 데이터 포인트 A를 다른 소스의 데이터 포인트 B와 일치시키는 것이다.

예를 들어 CRM 데이터의 이름과 휴대전화 번호로 누군가를 식별할 수 있을 것이다. 또 다른 온라인 데이터 소스도 같은 휴대폰 번호를 포함하고 있다고 하자. 이 경우 두 휴대전화 번호가 동일한 사용자의 것이라는 합리적인 추정이 가능하다. 아니면 이처럼 서로 다른 시스템의 두 가지 기록이 같은 사람에 대한 것인지 확실하게 결정하기 위해 속성 조합이 필요할 수도 있다.

이는 실제 상황에서는 훨씬 더 복잡하다. 사람들이 실수로 또는 의도적으로 숫자를 잘못 입력하는 경우가 많기 때문이다. 또는 일부 시스템에서는 실명을 사용하고 다른 시스템에서는 가명 또는 아이디를 사용하는 경우도 많다. 이 때문에 데이터를 제대로 통합하기가 힘든 것이다.

데이터 집계를 어렵게 만드는 또 다른 요소는 타이밍이다. 같은 사람에 대한 두 개의 데이터 기록이 있는 경우, 어느 쪽이 최근의 기록인지 아는 것이 중요하다. 또한 가장 최근의 기록이 마케터에게 더 도움되는 기록이 아닐 수도 있다는 점에 주목해야 한다. 두 개의 데이터 기록이 하나는 원인을, 다른 하나는 결과를 반영하는 일련의 과정을 나타내는 것일 수도 있다. 이 경우, 두 기록 모두 가치가 있기 때문에 똑같이 비중 있게 다뤄야 한다.

일단 데이터를 확보하면 이를 모델에 입력하고 어떤 데이터가 유용한지, 모델 개선을 위해 사전 집계에서 누락됐지만 추가 확보해야 할 데이터가 있는지 파악해야 한다. 여기서 고객 데이터 플랫폼으로 투입하는 데이터가 선택 기준에 따라 편향을 유발할 수도 있다.

무엇보다 중요한 것은 데이터 거버넌스

데이터 관리에서 가장 중요한 요소는 거버넌스다. 데이터 관리 관련 내부 정책, 프로세스 및 절차로서 관할 법률이 정하는 규정에 따라야 한다.

예를 들어, 유럽연합의 GDPR은 시민과 관련된 데이터를 보유한 기업 및 기관이 일련의 특정 지침 및 규칙을 따르도록 요구하고 있다. 싱가포르의 PDPA에는 정보 수집 및 사용 동의에 관한 특별 조항이 있으며, 데이터 사용 방법 및 보존을 제한한다. 그 외에도 많은 국가에서 데이터 손실 보고와 관련한 특정 법률을 정하고 있다. 호주는 눈에 띄는 데이터 침해(Notifiable Data Breach) 통지 의무 규정을 두고 있으며, 뉴질랜드는 최근에 개인정보 보호법을 수정했다. 한국도 최근 EU 시민의 개인정보를 별도의 절차 없이 한국으로 이전할 수 있도록 하기 위해 EU로부터 GDPR 적정성 평가를 받고 있는 등 선진국 수준의 개인정보보호 국가로 인정받기 위해 노력하고 있다.

이는 실제 비즈니스에서 어떤 데이터가 수집되는지, 어떻게 사용될 것인지, 적절한 데이터 삭제 절차가 있는지를 포함해 강력한 정보 보안 체계를 갖추고 있음을 기업이 고객에게 명확하게 밝혀야 함을 의미한다. 이 모든 프로세를 명확하게 설명하고 각 요소별 책임 소재가 누구에게 있는지 밝히는 것이 데이터 거버넌스 정책이다.

관련기사

데이터 거버넌스는 데이터 관련 규정을 준수하는 것 이상의 의미를 갖는다. 좋은 데이터 거버넌스는 데이터 아키텍처에서 보안 및 데이터 보존에 이르기까지 모든 과정을 포괄하여 모범 사례를 적용하고 가능한 최상의 데이터 품질을 지원하는 적절한 절차를 마련하는 것을 의미한다. 데이터를 데이터의 라이프사이클 관점에서 관리하는 것이 거버넌스라고 할 수 있다.

데이터가 새로운 시대의 석유라는 생각에 동의한다면, 마케팅 담당자는 데이터를 귀중한 자원으로서 수집하고, 정제하고 활용해야 할 것이다. 마케팅 데이터를 관할 지역에서 요구되는 의무를 준수하면서 올바르게 관리하는 것도 중요하다. 데이터를 수집하고, 저장하고, 관리하고, 사용하는 데는 비용이 발생한다. 하지만 이 비용은 고객을 깊이 있게 이해해서 고객이 관심 가질 만한 매력적인 제안으로 매출 증대에 기여할 수 있는 유형 자산으로 간주해야 할 것이다.

*본 칼럼 내용은 본지 편집방향과 다를 수 있습니다.

민선 애피어 최고 AI 과학자

국립칭화대를 포함한 최고의 학교들에서 연구 활동을 해 온 인공지능(AI) 과학자다. 딥러닝계의 대모로 알려진 페이페이 리(Fei-Fei Li)를 비롯한 세계에서 가장 영향력 있는 AI 지도자들과 함께 이미지넷 프로젝트, 로봇 운영 시스템 (ROS) 및 마이크로소프트 키넥트의 인간 자세 추정 시스템 프로젝트 등에 참여했다. 현재는 애피어의 최고 AI 과학자로서 학계에서 진행중인 최신 기술 연구가 애피어 제품에 반영될 수 있도록 노력하고 있다.