데이터도 '오픈소스'처럼 활용될 수 있을까

독점 시 이점 크고 개인정보 등 한계…극복 시도 등장 중

컴퓨팅입력 :2021/02/08 10:50    수정: 2021/02/09 07:09

오픈소스 문화가 형성돼 있는 소프트웨어 업계와 달리, 데이터 경제는 개인정보 등의 제약으로 생태계가 폐쇄적으로 구축되고 있다는 진단이 나왔다.

특히 인공지능(AI) 기술의 경우 기술과 비즈니스 모델 혁신을 가속화할 방안으로 개방형 혁신이 추진됐고, 그 성과가 두드러지는 반면 데이터 분야는 그 특성상 이같은 전략이 채택되기 어렵다는 것이다. 다만 이런 한계를 극복하고, 개방형 혁신을 꾀하기 위한 기술 연구 및 정책적 지원이 점진적으로 나타날 것이란 전망이 제기됐다.

정보통신정책연구원(KISDI)이 최근 발간한 '오픈 알고리즘과 클로즈드 데이터 : AI 경제의 근본적인 딜레마' 보고서에서는 이같은 내용이 언급됐다.

사진 = 이미지투데이

■데이터 독점 경쟁 점화…기업·국가 단위 견제 양상 

보고서는 먼저 기업이 데이터를 독점해야 할 자산으로 주목하는 상황을 언급했다. 네이버가 부동산 매물 정보를 확보하는 과정에서 제공 업체에게 카카오에 대한 정보 제공을 막은 점을 사례로 들었다.

데이터가 소스코드나 AI 알고리즘과 마찬가지로 정보재임에도, 독점 시 이익을 극대화할 수 있다는 이점이 있어 사유화되는 경향이 있다는 분석이다.

이런 현상은 지속적으로 데이터가 투입돼야 하는 AI 분야에도 영향을 미치고 있다.

지난 2019년 소프트웨어정책연구소에 따르면 기업의 AI 학습용 데이터 확보 방식에 대해 고객이 제공한 데이터를 활용하고 있다고 응답한 비중이 55.4%로 가장 높게 나타났다. 데이터 거래소를 이용한다고 응답한 비중은 1.5%에 그쳤다.

지난달 한국개발연구원(KDI) 조사에서도 AI 기술과 솔루션 도입 활성화를 위한 기반 조성을 위해 데이터 개방 등 AI 인프라 구축이 필요하다는 응답이 19.8%로 높게 나타났다.

이에 대해 이준배 KISDI 디지털경제연구실 실장은 "이미 넓은 고객 기반을 갖추고 있는 기업일수록 데이터 활용과 AI 기술 적용에 우위를 가짐을 뜻한다"며 "페이스북을 비롯한 대형 인터넷 커뮤니티가 AI 기술의 선도 그룹을 형성하고 있는 사실과 무관하지 않다"고 지적했다.

이런 상황을 인지하고 국가 차원에서 대비하는 모습도 나타났다. 유럽연합(EU)은 건강, 환경, 에너지, 농업, 교통, 금융, 제조, 공공 분야 중심으로 데이터를 공유할 수 있는 '공통 데이터 공간'을 만들겠다고 밝혔다. EU 사법재판소에서 EU-미국 간 데이터 역외 이전 협정을 무효화 판결을 내림에 따라 미국 기업으로의 데이터가 반출되는 것을 막기도 했다.

데이터가 패권 경쟁의 양상을 보이는 데 반해 AI는 기술 개발 및 산업 응용 단계에서의 개방 및 공유가 활발히 나타나고 있다. 오픈소스로 공개된 AI 알고리즘인 구글 '텐서플로', 페이스북 '파이토치' 등이 일례다. 그 외 기업, 학회에서도 관련 특허 및 연구 성과를 공개하는 편이다.

기업이 데이터와 달리 AI 성과를 개방, 공유하는 이유는 다양한 이점이 존재하기 때문이다. 일단 자사 기술 생태계를 확장할 수 있다. 구글, 아마존, 마이크로소프트(MS)의 경우 클라우드 사업자로서 이런 전략을 추구하고 있고, 이를 통해 회사 가치를 높이면서 자사 클라우드 이용자를 늘려가고 있다. 다양한 분야 기업들이 클라우드 사업자가 제공하는 AI 운영 환경을 도입하게 된다는 것이다.

그 외 각 주체의 연구 성과가 공유됨에 따라 결과물의 상호 검증이 이뤄지고, 기업의 문제 해결도 빨라진다는 이점도 들었다.

■기업 기밀·개인정보로 '개방형 혁신' 제약…"기술·정책 지원 등 해결책 모색"

보고서는 AI의 사례를 살펴 개방형 혁신 전략이 유리한 조건들을 제시했다.

우선 기업이 내부 자원을 활용하기보다 외부 전문가·이용자 커뮤니티와 협력하는 것이 유리할 때 개방형 혁신이 추진된다고 봤다. AI의 경우 기술 도입 및 적용에 따르는 복잡성, 실패 가능성이 큰 분야로 이같은 전략이 유리한 측면이 있었다.

문제 해결에 기여한 성과자의 명성을 알리기 쉬운 경우에도 개방형 혁신 전략이 실행되기 쉽다. 관련 인력이 쌓은 명성을 바탕으로 이직 기회를 확보하기 쉽다는 점이 기술 혁신의 동력으로 발휘된다는 것이다.

데이터는 AI와 달리 이같은 특성이 적다고 봤다. 무엇보다 개인정보가 포함돼 있어 보안 등의 문제로 데이터 분석 성과를 쌓더라도 개인적 명성을 쌓기 쉽지 않고, 그 동안 이런 성과를 인정해주는 인식도 적었다. 분석한 데이터의 외부 개방 및 반출에도 제약이 따른다. 

출처=픽사베이

이에 기업이 생존을 위한 자원으로 데이터를 취급하고 있어 당장 개방형 혁신이 이뤄지기에 현실적 어려움이 존재한다고 지적했다. 이는 결국 학습 목적에서 데이터를 필요로 하는 AI의 발전에도 걸림돌로 작용할 수 있다는 분석이다.

다만 바뀌는 부분도 있다. 최근 데이터 분석가, 과학자, 개발자 및 대형 데이터 프로젝트 총괄 관리자 수요가 증가하고 있는 점을 언급했다. 

보고서는 향후 데이터 분석과 연구가 활성화되면서 개인정보 및 기업 기밀 보호 등의 제약을 지키면서 데이터를 활용할 수 있게 하는 연구가 개방된 연구의 영역으로 편입되고 있으며, 개인정보와 기업 기밀 보호 등 제약을 준수하면서 데이터를 활용한 혁신과 연구가 활성화될 것으로 전망했다.

관련기사

의료 연구 현황을 사례로 들었다. 병원별 임상 데이터에 표준화된 규준을 정립하고, 분석 결과물만을 공유하는 식으로 데이터 분석 연구를 활성화하고 있다는 설명이다. 

보고서는 그 외 "분석 기술을 보유한 스타트업, 중소기업과 데이터 보유 기업의 협업 확산 및 일반 국민의 데이터 문해성(literacy)를 늘리는 방향의 정책적 지원이 가능할 것"이라고 조언했다.