정부가 오는 2030년까지 엔비디아 고성능 GPU 26만장을 국내에 들여온다. AI 3대 강국 달성을 위한 조치다. 당장 내년에 10조1000억원의 예산을 AI 분야에 투입한다. 인공지능(AI)은 데이터가 연료다. 데이터가 없으면 존재할 수 없다. AI는 데이터를 학습해 패턴을 인식하고 미래를 예측하는 기술이기 때문이다. 좋은 데이터가 많아야 AI도 더 정확하고 똑똑해진다. AI전쟁에서 승리하려면 천재보다 데이터가 더 많아야 한다는 말이 나오는 이유이기도 하다.
AI의 3대 구성 요소는 알고리즘, 컴퓨팅파워, 데이터다. 이 중 우리가 가장 잘 할 수 있는 분야가 데이터다. 알고리즘과 컴퓨팅파워는 규모의 경제와 정비례한다. 엄청난 돈을 투입해야 한다. 우리가 미국과 중국을 추월하기 힘든 이유다. 데이터는 다르다. 규제와 밀접한 연관있는 데이터는 정부와 민간이 어떻게 대응하는냐에 따라 세계 1등이 될 수 있다. 이런 데이터의 중요성은 지난 10월 국회서 열린 '2025년 국감'에서도 지적됐다. 지디넷코리아는 데이터 분야 산학전문가들을 초청해 '한국 데이터 산업'의 현주소를 짚어보고 어디로 나아가야 할 지를 모색한 좌담회를 개최했다. (편집자 주)
=일시 및 시간/11월 11일 15시~16시30분
=장소/데이터스트림즈 회의실(3호선 남부터미털 인근).
=주제/데이터산업 육성을 통한 AI 3대 강국 달성
=패널/이원석 연대 교수, 권성은 제로투원파트너스 대표, 유희경 데이터사이언스랩 대표, 정종섭 웨슬리퀘스트 대표, 이영상 데이터스트림즈 대표
=사회 및 정리/지디넷코리아 방은주 부장
=사회:먼저, 각자 회사 소개를 간략히 해달라
-정종섭 웨슬리퀘스트 대표: 올해 21년 업력의 웨슬리퀘스트는 경영 컨설팅 노하우를 기반으로 AI(인공지능) 모델 개발부터 데이터 가치평가, 플랫폼 구축까지 아우르는 데이터 전문기업이다. AI 기반 산불 위험도 예측모델 개발을 비롯해 식약처의 AI기반 농산물 중점 수거 및 검사대상 선별 모델 개발과 조달청의 LLM기반 조달물품 유사 구매실례 추천 및 입찰 참여 가능성 분석 모델 개발에 참여하는 등 사회 현안 해결을 위한 데이터 분석 및 AI 모델을 개발하고 있다.
또 데이터 가치평가 모델 개발 및 컨설팅, 국가 데이터 표준화 지원 사업을 통해 AI 및 데이터 자산 활용가치를 극대화하고 있다. AI 모델 개발과 테스트, 배포, 관리를 자동화하는 MLOps 솔루션을 자체 개발해 근로복지공단 및 식품의약품안전처에 제공하기도 했다. 올해는 이런 기술력을 바탕으로 LLM 분야에 집중해 스마트 산재보상시스템 구축 사업의 LLM 기반 요약보고서 생성 등 더욱 고도화한 생성형 AI 솔루션 개발과 컨설팅을 진행 중이다. 플랫폼 구축 관련해서는 노루페인트, CJ푸드빌, CJ대한통운 등의 데이터 플랫폼 구축 및 이관 등의 사업을 수행하고 있다
-이영상 데이터스트림즈 대표: 데이터스트림즈는 설립한 지 25년째된 회사다. 데이터 통합 전문 회사로 시작했다. 데이터 통합이라고 하면 은행의 정보계, 그 당시는 데이터 웨어하우스였다. 이어 데이터 마이그레이션 쪽에 확실한 위치를 차지했고, 2005년부터 데이터 거버넌스와 메타 데이터, 데이터 표준화와 품질 관리 등 전반적인 데이터 거버넌스 개념을 정립했다.
데이터 거버넌스를 기반으로 데이터를 통합하기 위해서는 가상화 통합 등 여러 방법이 있다. 우리가 가상화부터 시작해 최근에는 인공지능도 하고 있고, 무엇보다 데이터 패브릭 분야에서 국내 선발주자다. 데이터를 제일 잘 활용하기 위해서 데이터 페이브릭이란 플랫폼이 필요하고, 이걸 우리가 개발했다.
-이원석 연세대 교수: 약 30년간 데이터베이스(DB)를 연구하고 있다. 우리 분야에 20년전 데이터스트림이 있었는데, 데이터스트림즈라는 회사 이름을 보고 이 이름을 어떻게 썼을까? 했다(웃음). 2014년부터는 빅데이터와 개인정보에 관심을 갖고 연구하고 있다. 정부 과제로 익명 처리, 익명 결합, 익명 식별자 솔루션화 등을 했다. 요즈음은 거버넌스 시스템 자동화 쪽에 관심을 갖고 있다. 저는 AI 안한다. (내 관심 분야는) 자동화가 안된다. 오늘 시의적절하게 지디넷코리아가 좋은 주제로 좌담회 자리를 만들어줬다. 좋은 이야기가 많이 나왔으면 좋겠다.
-권성은 제로투원파트너스 대표: 우리 회사는 10년 업력을 갖고 있다. 본격적으로 비즈니스를 한 건 2019년 통신 분야 빅데이터 플랫폼의 빅데이터 센터로 지정되면서부터다. 당시, 가공하는 능력이 우수해 센터로 지정됐다. 우리는 빅데이터 가공 및 활용에 주력하고 있다. 데이터는 갖고 있는데, 이걸 가지고 무엇을 해야할 지 모르는 곳을 대상으로 어떻게 활용하면 좋을 지를, 활용면에서 컨설팅을 하고 있다. 최근에는 빅데이터를 활용한, 이를 엔진으로해서, AI 알고리즘이든 모델이든, 결합한 인공지능 서비스 개발에 더 많은 일을 하고 있다. 데이터를 활용한 AI 서비스를 만드는 전문 기업, 이게 우리 캐치플레이즈다. 심리상담 플랫폼과 심리상담 앱, AI기자를 개발했다.
AI기자의 경우, AI기자를 개발해 취재하고 취재한 기사를 직접 작성하고, 그 다음에 사람 도움 없이 CMS(콘텐츠관리시스템)까지 같이 개발, CMS를 통해 사람이 전혀 관여하지 않고 신문이 나오게 하는, 이런 AI 기자 플랫폼 서비스를 개발해 제공하는 등 주로 데이터를 활용한 서비스 개발에 주력하고 있다.
-유희경 데이터사이언스랩 대표: 2016년 창업해 올해로 10년차 빅데이터 AI 전문기업이다. 창업 당시는 의료데이터를 기반으로 한 예측 서비스를 개발했다. 실제로 뇌파 데이터를 수집해 해외 선진과학자와 함께 치매를 조기에 선별하고 예측하는 기술을 연구했는데, 그 사업화 과정에서 헬스케어 데이터 산업의 높은 규제 장벽과 책임성을 깊이 체감했다. 그러던 중 2019년부터 정부가 데이터 산업 육성을 본격화하면서, 공공 및 민간 분야를 아우르는 다양한 데이터 사업에 참여할 기회를 얻었다.
가장 전문 분야는 빅데이터 분석이고, 그 역량을 기반으로 소방안전 및 산림 빅데이터센터 등 국가 주요 데이터센터 구축에 참여, 지자체와 공공기관의 공공 데이터 구축∙개방 사업을 수행했고, 우리나라 인구감소위기 대응을 위한 데이터플래그십 사업을 통해, 민간 대기업 및 지자체의 빅데이터 시각화 플랫폼을 개발∙운영중이다.
최근에는 생성형 시각화 빅데이터 플랫폼을 지자체에 최초로 도입하면서 데이터를 기반으로 하는 AI 솔루션의 연구개발과 보급에 주력하고 있다. 데이터사이언스랩은 앞으로도 사람에게 이로운 인공지능 (Beneficial AI)라는 기업 미션을 바탕으로 공공, 산업, 지역사회가 필요로 하는 데이터기반 의사결정을 기술적으로 지원하고, 한국형 AI 데이터 생태계 조성에 기여하고 싶다.
=사회:각 패널들의 기업 소개를 잘 들었다. 본격적으로 토의를 해보자. 먼저, 예산 문제다. 정부가 내년에 10조 원 넘는 예산을 AI에 투입한다. 그런데 정부 AI예산이 거대 LLM과 AI반도체 등 AI 분야에 상대적으로 많다는 지적이 나온다. 반면 중소기업과 소상공인을 위한 데이터 지원 예산은 상대적으로 빈약한 느낌이다. 이번 2025년 국회 국정감사에서도 지적된 '데이터바우처 지원 사업' 예산 축소가 대표적이다. 어떻게 생각하나?
-정종섭 대표: 중소기업 등을 대상으로 한 데이터 활용 확산 예산이 중요하고 지금보다 늘려야 한다고 생각한다. 중소·스타트업은 어떤 데이터가 필요하고 어떻게 분석·활용해야 하는지 등 데이터 인사이트가 부족하다. 이를 개선하려면 크게 두 지원이 필요하다. 첫째, 사전 컨설팅이다. 잠재적 데이터 분석 및 활용 수요가 있는 중소·스타트업을 대상으로 사전 컨설팅 지원이 필요하다. 기업의 데이터 활용역량 및 비즈니스 모델 진단을 통해 비즈니스 목적에 따른 데이터 분석 및 활용 방향성을 구체화할 수 있게, 특히 예비창업자 등 사업모델이 정립되지 않은 초기 사업자의 데이터 역량 및 비즈니스 수준을 정확히 파악할 수 있게 기업진단 모델 개발 및 적용이 필요하다.
둘째, 통합컨설팅 지원이다. 데이터 활용 역량이 부족한 중소·스타트업 등이 데이터 기반 경영을 할 수 있게 데이터 기획에서부터 데이터 분석, 그리고 활용까지 통합 컨설팅 지원이 필요하다. 예를들면, 신사업 창출 등 사업화 수요가 있는 기업을 대상으로 비즈니스 이슈 분석 및 분석 주제 정의, 데이터 수집·처리·분석, 데이터 분석결과의 비즈니스 적용 방안 제시, 현장 적용 지원에 이르기까지 데이터 기획과 분석, 활용을 통합 컨설팅 서비스 제공이 필요하다.
-이영상 대표: AI예산이 10조라고 했을때, 이중 많은 부분이 미국으로 간다. 우리나라에 남는 건 서비스다. MB(이명박 정부)때는 SW강국에 2조원을 투입했다. 시류에 흔들리지 말고, 국부에 도움이 되는 방향으로 사업과 기업 지원이 이뤄졌으면 좋겠다. 각 기업이 체감할 수 있게, 스며들게, 예산을 풀었으면 좋겠다. 특히 생태계를 만들어야 한다. 기업과 생태계를 형성하는데 신경을 써야하는데 우리는 이게 부족하다.
-권성은 대표: 데이터바우처 사업은 중소기업 및 스타트업들이 기업 혁신 및 신제품과 서비스 개발을 위해 데이터를 활용할 수 있게 지원해 주는 유용한 정책이다. 경영자나 관리자의 직감에 의존하기보다 데이터에 기반해 의사결정이나 혁신을 실행하는 경험은 중소기업 및 스타트업에게는 디지털 전환 혹은 인공지능 전환을 촉진하는 새로운 성장의 기회를 제공했다고 생각한다. 중소기업이나 스타트업이 데이터 기반 의사결정을 하거나 디지털 전환 혹은 AI솔루션을 도입하는데 따르는 비용 부담 및 위험을 완화하고 민간 혁신 가속화에 기여했다.
이런 측면에서 데이터 바우처 예산은 중소, 소상공인에게 맞춤형 데이터를 지원해주는 등 직접적으로 기업 비즈니스에 도움이 되는 예산이라고 생각하는데 최근 줄어들어 아쉽게 생각하고 정책적인 뒷받침이 있으면 좋겠다고 생각한다.
예를 들어 어느 제조업의 경우 데이터바우처 지원을 통해 공정데이터를 가공해 분석해 본 경험을 발판으로 공정효율화를 적극적으로 추진할 수 있는 동력을 얻었고, 어느 기업의 경우 폐기물 운송 영상 이미지 데이터를 가공한 후 인공지능 학습을 통해 폐기물 데이터 인식 정확도를 향상시킨 생산성 증대 경험을 하기도 했다.
데이터바우처 사업 초기에는 데이터 단순 구매 혹은 단순 가공을 통한 데이터 활용 경험이 주(主)가 되기도 했지만 점차 발전해 최근 데이터바우처 사업에는 AX 전환을 위한 데이터 활용 경험이 높아지는 추세를 보이고 있다. 이는 흔히 말하는 ‘데이터는 AI의 연료, 데이터는 21세기의 석유’라는 명언을 정책 실행에서 잘 보여주는 것이라고 생각한다.
대기업이나 혁신 기업, 빅테크 기업과 같이 인공지능 전환의 큰 물줄기를 이끌고 가는 AI 대표 선수와 대표 기업을 지원하기 위한 데이터 지원 정책이 중요하다는 것에는 이견이 없다. 다만, 중소기업 및 스타트업의 인공지능 전환을 지원하는 풀뿌리 AI와 풀뿌리 AX를 위한 데이터 지원 역시 놓치지 않아야 한다. 하부 토대 데이터 지원을 놓지 않아야 우리나라가 건강한 AI강국이 될 수 있다.
이런 의미에서 중소기업 및 스타트업 등을 위한 데이터 지원은 기본소득 지원이나 대학에서 취약계층 장학금을 지원하는 거랑 같다고 본다. 중소기업과 스타트업이 소외당하지 않게 꾸준한 데이터 지원 정책을 시행해야 한다.
-이원석 교수: 우리 뇌는 좌뇌와 우뇌가 역할이 다르다. 좌뇌는 언어, 수학, 코딩을 관장한다. AI관점에서 보면 지도학습 AI(llm)로, 정답이 있는 데이터를 사용한다. 반면 우뇌는 새로운 지식을 발견하는 창의성을 관장한다. 비지도학습 AI에 해당하고, 정답이 없는 데이터를 사용한다.
좌뇌의 지도학습 LLM으로는 우리의 지방소멸, 인구감소, 의사 수 문제를 해결하지 못한다. 미국은 좌뇌는 쳇GPT와 구글이, 우뇌는 팔란티어 등이 있다. 두 AI를 다하고 있다. 우리나라는 강력한 개인정보보호법으로 우뇌용 데이터를 제공할 수 없다. 한쪽으로 편향돼 있다. 최근 AI는 좌뇌용으로 이 쪽 예산이 집중 및 편중돼 있다.
빅데이터 플랫폼센터 사업은 지난 8년간 막대한 예산과 인력을 투입해 민간의 데이터 개방유통 생태계를 만들려고 했다. 성과는 크지 않은 듯 하다. 아직도 쓸만한 데이터가 개방되거나 유통되고 있지 않다. 데이터 유통 생태계를 만드는데 성공하지 못했다. 이의 원인은 개인정보보호법이 한 이유다. 자유로운 데이터 결합을 막아 융합데이터 생산이 불가능한 상태다.
우리는 데이터 공급자와 데이터 수요자만 있다. 데이터 융합데이터를 만들고 데이터품질, 표준화를 담당하는 중간 단계가 없다. 그래서 양질의 융합데이터 상품을 생산하기 불가능한 구조다. 새로운 형식과 목적을 갖고 익명정보와 익명결합 등 신기술을 적극 수용해야 한다. 우뇌용 데이터 생산 및 유통을 활성화해야 한다. 데이터 유통은 아이쇼핑으로는 안된다. 원유를 소비자에게 제공하는데만 지원하지 말고, 중간의 가공업체, 즉 원유->가공업체-> 소비자의 선순환 생태계 조성이 필요하다. 다시 말하건데, 우리나라가 AI 3대 강국을 위한 데이터 강국이 되려면 융합데이터 유통 활성화 정책을 시급히 시행해야 한다.
=사회:데이터 주권과 접근성 문제를 짚어보자. AI 경쟁력 핵심은 데이터인데, 공공·민간 데이터를 어떻게 개방하고 연계해야 데이터 주권을 지키면서 혁신을 촉진할 수 있을까?
-유희경 대표: 데이터 주권과 혁신을 위한 데이터 개방은 매우 중요하지만, 동시에 충돌하는 지점이 많은 복잡한 문제다. AI 경쟁력의 핵심이 데이터라는 점은 명확하지만, 무조건적인 개방은 주권과 보안 리스크를 키우기 때문이다. 데이터 주권을 개인, 조직, 공공 데이터의 주체별로 합목적적인 세부 정의가 필요하다. 그래서 ‘데이터 주권’을 단순 보유권이 아니라, 데이터 활용과 공개를 스스로 결정할 수 있는 ‘제어권’으로 재정의하는 것이 바람직하다. 개인은 참여·비참여를 선택할 권리가 있고, 기업은 데이터가 핵심 자산인 만큼 활용과 보호의 균형이 필요하며, 공공은 공익성과 책임성이 중요하다.
공공데이터의 경우 지난 수년간의 데이터정책을 통해 데이터 인프라는 확충이 됐다고 본다. 데이터 보유기관의 지속적이고 적극적인 구축 참여는 필수이나, 개방은 활용도 및 개방으로 인한 공익창출과 비용 효율 측면에서 일괄적인 전면 개방 정책보다 '선택과 집중 전략'이 필요한 시점이다. 즉, '신뢰할 수 있는 기술과 거버넌스'를 통해 '필요한 만큼만, 안전하게, 목적에 맞게 연계'하는 것이 현실적인 해법이다.
-이원석 교수: 데이터 개방은 원유로 말하면 원유를 모두에게 제공한다는 뜻이다. 융합 데이터 상품이 될 수 없다. 데이터를 생산하는 주체는 개인이고, 개인정보에 대한 적절한 대처 없이는 불가능하다. 이미 많은 개인정보가 글로벌 IT 기업에 넘어 갔다. 국가 차원의 개인정보 보호는 매우 중요한데, 동전의 양면같은 보호와 활용, 이 둘 모두 중요하다. 미국은 시장경제 중심의 개인정보 보호법을 갖고 있는데, 틱톡을 봐라, 어떻게 대처하고 있는 지. 이렇게 해결할 수 없는 우리나라나 유럽은 공통의 문제를 갖고 있다.
데이터 자주권을 말하는데, 누구에 대한 자주권인가? 미국과 중국처럼 신기술로 해결해야한다. 우리나라는 우리가 필요한 기술을 우리가 개발해 쓸 수 있는 역량이 있다. 익명기술에 초점을 둔 국가 미래형 개인정보 R&D를 시작해야 한다. 가명과 익명을 모두 사용하는 투트랙의 새로운 형태 미래형 개인정보 체계를 만들어 적용해야 한다. 개인정보 개념을 세분화하는 것도 필요하다. 개인정보를 완벽하게 보호하면서 개인데이터도 완벽한 익명정보를 활용해야 한다. 익명 정보는 미국과 중국을 빼고 모든 나라에 필요한 기술이다. 데이터 자주권은 개인정보와 클라우드 쪽에 기회가 있다.
-권성은 대표: 데이터 주권과 데이터 개방은 서로 갈등 관계에 있는 상충되는 개념, 즉 트레이드 오프(Trad-off 관계) 관계다. 따라서 데이터 주권을 개인 차원 데이터 주권, 기업 및 기관 등 조직 차원 데이터 주권, 그리고 국가 차원 데이터 주권으로 세분해 정의하고 각 층위에 따른 데이터 주권과 개방 정도에 대해 세밀히 접근하는 것이 필요하다.
개인과 조직 차원의 데이터 주권은 개인정보 보호 및 기업 영업비밀 보호 이슈를 어떻게 해결할 것인지와 데이터 개방에 따른 보상이 무엇인지에 대한 방안 도출을 통해 해법을 찾을 수 있을 듯 하다.
국가 차원의 데이터 주권은 다국적 클라우드 서비스 기업의 통제를 어떻게 할 것인지에 대한 것으로, 이는 정책 입안을 통해 해결해야 하는 별개의 사안이다. 따라서 층위에 따른 접근 방안을 차별적으로 모색해야 각 층위의 혁신을 촉진할 수 있다.
-이영상 대표: 최근 사우디의 한 칼럼니스트가 여태까지 미국 클라우드를 썼는데, 알리바바가 클라우드를 무상으로 제공한다는 사실을 지적한 바 있다. 사우디가 미국에 종속 안되려면 관심을 가져야 할 게, 실제 활용을 하려면 융합과 통제에 관심을 둬야하고, 그러러면 데이터 거버넌스와 매니지먼트를 먼저 자립화해야 한다. 미국 제품 쓰며 데이터 활용을 하는 순간 데이터 주권은 사라진다. 우리나라도 마찬가지다.
-정종섭 대표: 유럽연합(EU)이 추진하고 있는 'Common Data Space'나 'GAIA-X 데이터 스페이스', 일본의 우라노스 생태계가 데이터 스페이스 모델로 우리나라에서도 정착했으면 한다. 기존 데이터 산업이 정부 주도였다면, 민간 이해관계자들이 자발적으로 참여해 주도하고 정부는 지원하면서, 유스 케이스(비즈니스 이슈 해결에 포점을 준) 중심으로 영역별, 주제별로 다수 이해관계자들이 참여하는 데이터 스페이스가 국내서 이뤄져야 한다.
또 데이터 제공자가 데이터 공개범위와 수신자를 직접 통제하는 데이터 주권 보장, 신뢰 기반의 데이터 교환 및 서비스 모델, 서로 다른 데이터를 합의한 공통표준으로 호환할 수 있게 상호운용성 확보, 참여자들이 공통규칙을 정하는 연합형 거버넌스가 필요하다.
이를 위해 효과성이 높은 영역과 주제(배터리, 농업, 항공우주 등)를 선정해 한국형 데이터스페이스 모델 시작이 필요하다. 특히, 유스 케이스 기반의 비즈니스 모델 명확화를 통해 데이터스페이스가 비즈니스 가치를 창출해야 한다. 공공과 민간 데이터 개방 및 연계와 관련해서는 기존에 정부 주도로 AI 학습용데이터를 구축하고 AI 허브에 올리고 개방했다면, 과기정통부 뿐 아니라 다른 공공기관과 민간도 함께 데이터를 AI 허브에 올려 개방형 데이터 생태계를 구축하는 것이 필요하다.
=사회: 데이터 품질 관리와 표준화 문제도 이야기해보자. AI 3대 강국을 달성하려면 양적 확대뿐 아니라 품질 높은 데이터를 구축해야 한다. 데이터 품질관리와 표준화 체계를 위해 정부 또는 민간이 어떻게 해야 할까
-권성은 대표: 데이터 표준화 및 데이터 품질 관리 이슈는 이미 정부가 많은 노력을 들여 그 기준을 공표했지만 데이터를 보유하고 있는 각 기업들이 아직 제대로 실천하지 못하는 문제가 있다. 따라서 데이터 보유기업의 실천 행위에 대한 동기 부여를 강하게 할 수 있는 정책 운영이 필요하다. 식당에 블루리본이나 미슐랭 등급을 부여하듯이 보유 데이터에 대한 품질 인증 등급을 하고 보유 데이터에 대한 신뢰도를 높여 이를 데이터 보유 기업이 적극 활용할 수 있게 해주는 기업 인센티브 정책이 하나의 방안이 될 수 있을 것으로 생각한다.
-정종섭 대표: 동의한다. 그 동안 표준화 사업에서 한 건 하나의 테마를 정해 지엽적으로 할 뿐, 표준화가 필요한 영역들이 많이 숨어 있다. 즉, 아직 품질과 표준체계가 미흡한 영역, 예를 들어 독자 AI 파운데이션 모델 품질 지표 등이 정립되지 않았다. 기존 표준은 소수 표준 전문가들 주도로 진행돼 왔는데, 향후에는 데이터를 만지고, AI 모델 만드는 사람들이 적극적으로 참여해야 시장 수요에 적합한 표준들이 만들어지고 활용된다.
또 정부는 국가 차원의 데이터 품질관리 기준과 표준화 체계를 마련해 공통 기준을 제시하고, 이를 산업 전반으로 확산하는 역할을 담당해야 한다. 아직까지 품질과 표준체계가 미흡한 영역을 선제적으로 찾아내고, 법과 제도, 가이드라인을 정비함으로써 데이터 신뢰도를 높여나가야 한다. 민간은 정부가 마련한 표준과 품질관리 체계를 적극 수용하면서, 산업 특성에 맞는 사실상 표준을 자율적으로 개발 및 적용해 민간 데이터의 품질 향상을 이끌어내야 한다.
이러한 민관 역할 분담을 통해 데이터 생태계를 활성화하면, AI 산업 전반의 경쟁력도 높아질 것으로 기대한다. 참고로 우리 웨슬리퀘스트는 2년연속 국가데이터 표준화 지원사업 수행을 통해 플랫폼 간 데이터 연계 표준 가이드, 유동인구 데이터 표준, AI 더빙 데이터 표준화 방안을 마련했다.
-유희경 대표: AI 3대 강국을 목표로 한다면, 데이터 정책 역시 상위 AI 전략과 정렬돼야 한다. 지금까지 데이터의 중요성 자체에는 이견이 없었지만, 이해관계자별 관점 차이 때문에 논의가 분산되는 경우가 있다. 그래서 먼저 데이터 개념을 명확히 구분하는 작업이 필요하고, 이에 AI 활용을 전제로 하는 데이터를 ‘AI 데이터’로 정의하고, 활용 목적에 따라 크게 두 가지로 구분하고 싶다.
첫째는 AI 구축용 데이터(Training/Fine-Tuning)이다. 모델의 지능을 처음 만들고, 가중치를 변화시키는 데이터로 빌드업(Build-Up) 단계에서 사용된다. NIA의 학습데이터 구축이 그 예다. 둘째는 AI 실행용 데이터(Run-Time 데이터)로, 완성된 모델이 실제 서비스에서 추론할 때 참조하는 데이터이다. 여기에는 사용자 입력 데이터와 RAG와 같은 외부 지식 연동 데이터가 포함되며, 모델의 지능을 바꾸지 않고 실시간 의사결정에만 활용된다. K-Data의 데이터바우처 사업에 활용하는 데이터가 그 예다.
품질 관리와 표준화는 이 두 종류의 데이터가 다르다는 점을 전제로 더 유연한 설계가 필요하다. 정부는 기준·참조 아키텍처·평가체계, 그리고 공공·산업별로 반드시 필요한 국가 핵심 AI 데이터셋을 장기적으로 구축해야 하고, 민간은 실제 서비스 요구를 반영한 현장 기반 데이터 생성·검증을 빠르게 반복해야 한다. 특히 버티컬 AI와 피지컬 AI 영역에서는 환경·센서·과업(Task) 특성이 결과 품질에 직접 영향을 주기 때문에, 단일 표준은 한계가 있으므로, 향후는 도메인별·목적별 ‘패키지형 표준’의 형태로 진화시키는 것이 보다 현실적이라고 본다.
-이원석 교수: 고품질 융합 데이터 판매를 유도해야 한다. 지능화AI는 데이터 다양성과 다중성이 중요함하다. 특히 표준화는 최소한으로하고, 가급적 결합키 표준화만 하며, 다른 표준화는 시장 자유에 맡겨야 한다. 그래야 창의성이 방해받지 않는다. 또 현장에서는 기업간, 분야간 융합 및 연계 지역 표준화 활성화를 지원해야 한다.
현재 만들어진 가명정보결합 전문기관에서 익명정보의 익명결합 방식 체계화를 지원, 초기 익명정보에 대한 법적 우려 사항을 제거해야 한다. 이외에 데이터활용 연합체를 활성화해 양질의 가명 및 익명 융합데이터 상품 생상 체계를 확립해야 한다. 데이터 가치를 시장에서 판단하게 하면 문제가 자동으로 해결된다.
-이영상 대표: 정부는 데이터 관리 정책을 좀 더 실천이 용이하도록 다듬어야 한다.이 정책에는 지금까지 정부가 주력해온 개인정보보호나 데이터보안은 물론 데이터표준화에 대한 정책이 있어야 한다. 정부가 활용하는 데이터에 대한 카타로그를 중심으로 핵심데이터 즉, 정부를 운영하기 위한 마스터데이터를 정하고 이를 중앙정부, 정부기관, 공사 및 단, 지방정부 이런 식으로 마스터데이터를 중심으로 데이터 표준, 오너쉽, 공유 범위, 관리 조직 등에 대한 정책 기준을 정해야 한다.
또 민간의 활용성이 높은 데이터도 별도로 관리하고 전체적으로 품질 수준을 확보할 수 있는 방안을 수립해 정부의 데이터거버넌스 성숙도를 올려야 한다. 민간은 자체적으로 데이터관리 조직과 체계를 갖고 데이터를 자산화 할 수 있는 능력을 키워야한다. 이를 통해 데이터 활용도를 높일 경우 AI의 활용효과도 높아진다.
=사회: 데이터산업 활성화를 위해서는 데이터 가치 평가 및 거래 활성화도 중요하다. 우리나라는 데이터 ‘가치를 경제적으로 평가하고 거래하는 시장이 아직 미성숙하다. 데이터 거래소나 데이터은행 활성화를 위해 필요한 제도적 장치는 무엇일까
-이영상 대표: 국내 데이터 거래 경향은 통신사나 신용카드사에서 생산하는 데이터를 활용해 상권분석데이터를 생산해 판매해왔는데, 주요 고객은 공공이나 지자체가 대부분이었다. 민간 시장은 아직 활성화되지 못하고 있는 상황이다.
주요 이유는 데이터 구매 비용에 대한 부담이 가장 크며 공공이나 지자체에서 데이터를 구매해 정책 연구에 쓰고 있지만, 이를 민간에도 무상제공하고 있으나, 무상 제공 데이터 품질은 정확하게 비즈니스에 적용하기에는 품질이나 해상도가 부족하므로 민간 데이터 수요자는 상대적으로 저렴하게 고품질의 데이터를 확보하기 힘든 상황이다. 즉, 데이터 수요 활성화를 위한 생태계가 형성돼 있지 않다.
데이터거래를 활성화 하기 위해서는 생태계 마련이 가장 시급한데, 공공이 무상으로 데이터를 푸는 정책보다는 품질과 활용도가 높은 데이터의 유통을 장려하고, 데이터 기반의 비즈니스를 활성화해야 한다. 즉, 프랜차이즈 기업이 가맹점을 모집할 때 공공이 제공하는 해상도가 낮은 데이터에 의존해 정확한 데이터를 기반으로 사업을 하지 않을 경우, 그 피해에 대한 법적 책임을 확실히 하게 하고 공공이 직접 제공하는 데이터는 1차적 데이터 중심이 돼야 하며 그 설명 또한 명확하게해 데이터 활용의 효과를 명확히 해야 한다.
-정종섭 대표: 데이터 가치 산정과 가격에 대해 용어 혼선이 있는 것 같다. 데이터 가치는 주로 사용자 활용에 중점을 둔 ‘사용가치(value in use)’를 의미하고, 데이터 가격은 판매자와 사용자가 시장의 물가, 인플레이션, 투입 비용 등을 고려해 합의한 ‘교환가치(value in exchange)’를 의미한다. 이해하기 쉽게 말하면, 데이터 가치는 데이터를 보유하고 있는 조직에서 데이터 가치가 어느정도 되는지를 말하는 것이다.
현재 우리나라의 4개 데이터 가치평가기관에서 적용하고 있는 방법은 수익접근법이다. 시장접근법이 가장 좋은데(회사 M&A 시장에서 기업의 가치를 평가하는 것처럼), 시장접근법은 비교 가능한 데이터의 활발한 거래 시장(거래 당사자가 자유의사에 의해 거래하는 시장)이 존재하고, 비교 가능한 데이터의 과거 거래실적이 존재해야 사용할 수 있다. 그러나 우리나라는 데이터 거래 관련 정보가 집계되고 있지 않고, 시장 접근법 적용이 어려운 상황이다.
현재 우리나라는 기보와 신보에서 보증 또는 담보대출을 받을 때 만 이뤄지고 있고, 데이터가치평가의 경우 정부 지원을 통해 일부 이뤄지고 있는 실정이다. 데이터가치 평가가 활성화되기 위해서는 첫째, 데이터 가치평가를 필요로 하는 용도와 수요가 늘어나야 한다. 둘째, 4개 데이터 가치평가 기관의 결과가 차이가 없어 결과값에 대한 신뢰 확보가 중요하고 셋째, 데이터가치 평가 소요시간도 짧아져야 하며 넷째, 비용도 적어져야 하며 다섯째, 이 과정에서 데이터거래사와 같은 전문인력이 양성돼야 한다.
또 데이터 거래소나 데이터은행 활성화를 위해 필요한 제도적 장치는 첫째, 우리나라 데이터산업은 초기 단계여서 데이터 구매와 가공을 지원 받을 수 있는 바우처사업을 지속적으로 추진해야 하고 둘째, 활용 가능한 데이터에 쉽게 접근할 수 있게 '통합 데이터 지도' 중심의 플랫폼 연결체계를 마련해야 하며 셋째, 데이터 우수 활용사례를 지속적으로 전파애햐 하고 넷째, 수요자의 경우 데이터에 대한 이해 부족, 구매 후 바로 활용이 쉽지 않아 중간에 가공 및 분석, 적용을 도와줄 수 있는 전문가가 필요, 1000여명에 달하는 데이터거래사의 법적 참여 요건을 명시, 생태계 활성화를 위한 마중물 역할을 해야 하고 다섯째, 무엇보다도 중요한 것은 현장에서 필요로 하는 고수요 및 고활용 데이터를 수요 기반으로 조사하고 확충하는 것이다.
-이원석 교수: 시장 중심 데이터 가치 평가 체계를 갖춰야 한다. 데이터는 활용성과 결합가능성을 지녀야 한다. 현재 데이터 가격이 너무 비싸다. 특히 유통생태계가 없다보니 원시데이터 가격이 비싸다. 원시데이터를 다양한 수준을 갖는 합성데이터로 가공 및 유통해 가격대를 낮추고 활용 목적을 다양화, 다중화해야 한다. 저가의 저수준 데이터를 맛보기용으로 유통할 필요도 있는데, 소비자가 사용할 수 있는 고품질, 고가치, 저비용 융합데이터 체계를 갖춰야 한다.
지능화AI용 데이터에 적합한 새로운 가치 평가 척도도 필요하다. 2020년 데이터 3법 이전의 데이터는 데이터 자급자족시대고, 데이터3법 개정 이후 가명정보 결합전문기관은 데이터 물물교환 시대다.
앞으로 지능화AI 시대에서는 데이터 슈퍼마켓 시대로 변화해야 한다. 즉, 다양한 융합 가공 데이터 를 진열해 맛보기 익명데이터 제공하고, 익명결합을 위한 데이터 핏팅룸이 필요하다. AI 고속도로 보다 데이터 고속도로가 우선이다. 자유로운 고품질 융합데이터의 공급망(SCM) 체계를 갖추는게 시급하다.
-권성은 대표: 데이터 거래소나 데이터은행 활성화를 위해서는 ‘촉진자 그룹’이 필요하다. 현재 데이터 거래소는 데이터 상품이 단순 진열, 혹은 단순 전시돼 있고, 데이터 거래소 즉 데이터 플랫폼 운영진은 ‘부동산 임대업’처럼 관리 중심이다. 손님이 오지 않는 데이터 백화점을 열어 놓은 인상이다.
활성화를 위해서는 데이터 분석 서비스 기업이 일종의 ‘촉진자’로서 영업 및 마케팅 그리고 데이터 활용 서비스 제공 역할을 통해 이 데이터 마켓을 활성화하게 역할을 해야 한다. 분석 서비스 기업의 데이터 전문가들을 지원해 데이터 마켓을 활성화하는 것도 검토해주길 당국에 제안한다.
=사회:이번엔 글로벌 문제를 짚어보자. 국내 데이터산업이 글로벌 경쟁력을 가지려면 무엇을 어떻게 해야 할까
-이원석 교수: 인구가 계속 감소하고 있는데, 우리나라가 10년안에 글로벌 리더십을 못가지면 망한다. 미국 및 중국과 결이 다른 국제 데이터 리더십을 확보해야 한다. 개인정보 관리도 마찬가지다.
즉, 새로운 데이터 활용 리더십으로 익명정보와 익명결합 기술기반의 유통을 통한 융합데이터상품 산업화 분야에서 글로벌 리더십을 보유해야 한다. 이는 국제 데이터 산업의 데이터 공급망 주도를 통한 융합데이터 국제화와도 일맥 상통한다. 현재의 개인정보보호법은 정보화시대에 입안한 것으로, 빠르게 AI로 진화하는 미래 초개인화 지능사회에는 적합하지 않다.
새로운 개인정보 개념의 리셋이 필요하다. 익명정보로 데이터 활용의 길을 열어야 금단의 영역이 아닌, 활용의 영역으로 장기적으로 자율주행, 1인 1휴머노이드, 양자컴퓨터 시대에서 우리가 세계 시장을 선도할 수 있다.
-정종섭 대표: 기존 바우처 사업, 해외진출 지원사업은 지원이 1년이다. 다년간 지속적인 지원을 통해 실질적인 성과창출이 이뤄지게 해야 한다. 그리고 클라우드, 데이터처리 가공시 국내 기업 기술을 활용할 경우 오랜 시간이 소요되므로, 미국 등 선진국과의 기술격차 해소를 위해 데이터 핵심기술에 대한 개발 지원이 필요하다.
기업들이 해외 시장 진출시 해외 거래처 및 바이어 발굴 역량 부족, 현지 제휴 및 합찰 투자 파트너 발굴 곤란, 경쟁제품 및 통관 등 현지 투자여건에 대한 정보부족같은 어려움이 있다. 따라서, 데이터 기술 개발부터, 사업화, 해외진출 까지 전주기 지원을 통한 글로벌 강소기업 육성을 위한 신규사업을 추진해야 한다. 데이터 수집 기술, 데이터 저장과 처리 핵심 기술 개발 지원, 시제품 개발 지원, 데이터 상품 개발 지원도 필요하다.
특히 국내 기업이 해외 데이터를 활용해 해외 서비스 개발 및 비즈니스를 할 수 있게 해외 데이터 확보 및 국가간 데이터 공유체계 구축도 요청된다. 국가별 데이터 개방정책, 데이터 국경간 이동 제한 및 개인정보보호에 대한 규제로 해외 데이터 거래 활용이 어려운 상황이므로, 주요국(유럽, 일본, 중국 등) 데이터 이동에 관한 협약 추진 등 데이터 공유 협력 기반을 마련해야 한다.
-유희경 대표: 두 가지만 말하겠다. 첫째, 데이터의 질과 분야별 특화에 중점해야 한다. 특히 버티컬과 피지컬AI용 데이터에 주력해야 한다. 둘째, 글로벌용 AI 서비스 개발을 위한 개방형 연합이 필요하다. 산업부가 지난 9월 피지컬AI 활성화를 위한 산학연관 글로벌 얼라이언스를 만들었는데, 이런 게 좋은 예라고 본다.
관련기사
- 데이터산업진흥원 "2026년 데이터 바우처 공급기업 신청하세요"2025.11.13
- 조인철 의원 "데이터바우처 예산 크게 줄어 문제"2025.10.30
- 2025년 의료 AI·데이터 활용 바우처 지원사업 수요기관 공모2025.07.16
- KT CEO 후보 몇 명 지원했나2025.11.17
-권성은 대표: 우리 회사의 바람으로 대신하겠다. 우리 회사는 앞으로 3년~5년 이내에 데이터 분석 및 정보 서비스 기업으로서 아시아 시장에 진출하고 싶은 소망이 있다. 해당 시장의 거래선 구축을 위한 시장 진출 지원이 있다면 글로벌화에 보다 용기를 가질 수 있을 듯 하다.
-이영상 데이터스트림즈 대표: 한국에서 먼저 1등을 해야한다. 밖(해외)은 더 험난하다. 해외 진출을 촉진하는 생태계, 그것도 글로벌 생태계를 갖춰야 한다. 이는 기업이나 민간이 하기 힘들다. 정부가 책임감을 갖고 앞장서야 한다.











