[데이터 주권] 왜 '데이터'가 AI 시대의 핵심 자원인가

①AI 성능 좌우하는 데이터, 국가 전략 자산으로 부상

컴퓨팅입력 :2025/08/19 12:19

오픈AI ‘챗GPT’ 등장으로 인공지능(AI) 시대가 본격 도래하면서 데이터의 전략적 가치가 점차 커지고 있다. 유럽 일반개인정보보호법(GDPR), 중국 데이터보안법, 미국 클라우드 액트 등 주요국은 데이터 주권을 강화하기 위해 규제를 잇따라 도입하고 있고, 데이터가 국경을 넘어 이동하는 것을 제한하거나 특정 산업 데이터를 국내에 보관하도록 하는 정책도 확산되고 있다.

특히 개인 정보와 산업 기술, AI 학습 데이터는 국가 경쟁력과 직결되는 자산으로 간주되고 있다. 이에 따라 데이터 주권은 단순한 법률 문제가 아니라 외교, 무역, 안보, 기술 전략까지 아우르는 핵심 의제로 부상했다. 향후 데이터 주권이 국가 간 협력과 갈등을 동시에 촉발하는 핵심 변수가 될 것이란 전망이 나온 가운데 지디넷코리아는 글로벌 AI 경쟁에서 한국이 어떻게 대응해야 할 지에 대해 심도있게 살펴보고자 한다. [편집자주]

AI 모델은 데이터를 기반으로 학습하는 만큼 데이터의 양과 질이 곧 성능을 결정한다. 자연스럽게 데이터는 석유, 반도체 못지않게 국가와 기업의 경쟁력을 좌우하는 전략적 자원으로 부상 중이다. 

최근 각국이 데이터의 국경 간 이동을 제한하거나 자국 내 보관을 의무화하는 등 '데이터 주권'을 강화하는 것도 같은 맥락이다.

(이미지=챗GPT)

유럽 일반개인정보보호법(GDPR), 중국 데이터보안법, 미국 클라우드 액트 등 주요국은 잇따라 규제를 도입하며 데이터 주권을 강조하고 있다.

개인정보와 산업 기술, AI 학습 데이터는 국가 경쟁력과 직결되는 자산으로 간주되고 있으며 단순한 법률 문제가 아니라 외교, 무역, 안보, 기술 전략까지 아우르는 핵심 의제로 떠올랐다. 향후 데이터 주권은 국가 간 협력과 갈등을 동시에 촉발하는 핵심 변수가 될 것이란 전망도 나온다.

파라미터에서 데이터로 이동한 AI 트렌드

생성형 AI의 등장은 데이터가 성능을 좌우하는 자원임을 분명히 보여줬다. 사람에게 교과서와 문제집이 학습의 기반이듯 AI 모델은 방대한 텍스트·이미지·영상 데이터를 통해 성장한다. 챗GPT 같은 대형 언어모델은 이미 수천억 개의 단어를 학습해 만들어졌다.

2022년 딥마인드의 '친칠라(Chinchilla)' 연구는 같은 연산량이라면 모델의 파라미터를 키우는 것보다 더 많은 데이터를 학습시키는 편이 성능 향상에 효과적임을 입증했다. '데이터가 곧 성능'이라는 명제를 확고히 한 사건으로 이후 AI 경쟁의 핵심은 연산 능력에서 데이터 품질과 양으로 옮겨갔다.

하지만 고품질 데이터는 무한하지 않다. 이미 인터넷에 존재하는 상당량의 정제된 데이터가 학습에 활용됐으며 머지않아 부족 현상이 나타날 수 있다는 경고가 나온다. 과학 논문, 전문 기사, 교재처럼 학습에 적합한 '좋은 데이터'는 한정적이기 때문이다.

매개변수보다 데이터가 중요하다는 것을 밝힌 딥마인드의 AI모델 친칠라(이미지=딥마인드)

이 때문에 AI 기업들은 언론사와 계약을 맺어 데이터를 확보하거나 합성데이터를 만들어 부족분을 채우려 하고 있다. 오픈AI가 뉴스코퍼레이션, 파이낸셜타임스와 수억 달러 규모 계약을 체결한 것도 같은 맥락이다.

합성데이터는 실제 데이터를 기반으로 만들어진 가상의 데이터로 환자 기록을 활용해 '가상 환자 데이터'를 생성하는 방식이다. 프라이버시 보호와 희소 데이터 보완에 장점이 있어 의료·금융 등 민감 영역에서 주목받는다. 

그러나 전문가들은 합성데이터만 반복 학습할 경우 '모델 붕괴'가 발생할 수 있다고 경고한다. 결국 현실 세계의 원천 데이터 확보가 여전히 절대적으로 중요하다.

본격화된 데이터 확보 경쟁법적 분쟁까지 확산

데이터 희소성이 커지면서 글로벌 대기업들은 학습 데이터 확보를 둘러싸고 법적 분쟁에 잇따라 휘말리고 있다. 과거에는 웹 데이터를 자유롭게 수집해 학습에 활용했지만, 지금은 저작권과 보상 문제가 전면에 등장했다.

오픈AI와 마이크로소프트는 방대한 웹 콘텐츠를 학습에 사용하는 과정에서 뉴욕타임스와 다수 언론사, 작가 집단으로부터 무단 사용 소송을 당했다.

오픈AI를 비롯한 주요 빅테크 기업도 데이터 확보 과정에서 법정 분쟁을 치르는 등 치열한 경쟁을 이어가고 있다.

앤트로픽은 불법 다운로드한 도서를 학습에 활용했다는 혐의로 재판을 앞두고 있으며 스태빌리티AI도 게티이미지와 아티스트들로부터 저작권 침해 소송에 직면했다.

이 사례들의 공통점은 '데이터 출처'다. 어떤 데이터를 어떤 방식으로 확보했는지가 기업의 신뢰도와 법적 리스크를 좌우한다.

국가 단위의 데이터 통제도 강화된다. EU는 올해 9월 데이터법을 시행하고, 2026년 8월부터 AI법을 전면 적용한다. 한국 기업이 유럽 시장에 진출하려면 데이터 이전, 저장, 학습 과정의 투명성을 입증해야 한다. 이는 단순 준수 차원을 넘어 글로벌 거래의 전제 조건이 되고 있다.

데이터 주권이 곧 국가 경쟁력

한국에서도 데이터 주권 논란은 뜨겁다. 대표적 사례가 구글과 애플의 지도 데이터 요청이다. 두 기업은 자율주행·위치 서비스 강화를 위해 한국의 1:5,000 축척 고정밀 지도 데이터를 해외 서버로 이전할 수 있도록 수년째 요구해왔다. 그러나 군사 시설 등 안보 문제와 직결된다는 이유로 정부는 요청을 거부하거나 결정을 보류했다.

2025년 들어 구글이 다시 해외 이전을 요구했고, 애플도 같은 요구를 제기하면서 논란은 커졌다. 

일각에서는 "외국 기업 요구에 굴복해선 안 된다"는 안보 우려가 또 다른 쪽에서는 "글로벌 서비스 경쟁력 강화를 위해 제한적 개방이 필요하다"는 주장이 맞서고 있다. 

이 논쟁은 데이터가 단순한 산업 자원이 아니라 국가 안보와 직결된 전략 자산임을 보여준다.

개인 차원에서도 데이터 주권은 현실로 다가왔다. 6월 시행된 '마이데이터 2.0'은 국민이 전 금융자산을 한눈에 조회할 수 있도록 했으며 데이터가 기업의 자산일 뿐 아니라 개인의 권리라는 점을 제도적으로 명확히 했다.

AI 발전으로 데이터는 단순한 정보가 아니라 국가와 기업의 미래 경쟁력을 좌우하는 자산이 됐다. 

배경훈 과기정통부 장관 (사진=과기정통부)

이에 따라 정부 역시 데이터 주권을 국가 전략의 핵심 과제로 보고 있다. 최근 발표한 '소버린 AI' 구상은 GPU, 데이터, 인재를 3대 자원으로 삼아 기업이 자유롭게 선택·활용할 수 있도록 지원하는 정책이다.

정부는 AI와 데이터 주권 확보를 위해 100조원 규모 투자 계획을 내놓으며, 국민 누구나 활용할 수 있는 한글형 AI를 개발하겠다는 목표도 제시했다.

관련기사

배경훈 과학기술정보통신부 장관은 "국방, 안보 분야뿐 아니라 기업들도 외부에 공개할 수 없는 정보에 대해서도 AI를 활용할 수 있어야 하는데 외산 솔루션만으로 여러 서비스를 만들어야 하는 상황이 벌어질 수 있다"고 지적했다.

이어 "글로벌 기술 패권 경쟁에서 뒤처지지 않기 위해 올해와 내년 사이 주권형 생태계 기반을 반드시 마련해야 한다"고 강조했다.