가트너 "합성 데이터 사용도 전략 필요…수익성 따져야"

가트너 4가지 주요 합성 데이터 생성 기법 제시…"조직 목표·리소스 고려"

컴퓨팅입력 :2025/09/07 11:05

소프트웨어(SW) 테스트와 개인정보 규제 대응 수단으로 주목받는 합성 데이터가 확산하고 있지만, 기업 목표와 자원에 맞춘 전략적 도입이 필요하다는 지적이 나왔다.

7일 가트너가 공개한 보고서에 따르면 SW 엔지니어링 리더들이 합성 데이터를 이런 이유로 맞춤형 전략을 촉구하고 있는 것으로 전해졌다. 

그동안 SW 개발자는 실데이터를 가공해 SW 품질 테스트에 활용해 왔다. 유럽 일반 개인정보 보호법(GDPR)이나지불카드 산업 데이터 보안 표준(PCI-DSS) 등 개인정보 규제 강화로 인해 실데이터 사용이 제한되고 있다. 이처럼 데이터 접근이 어려운 상황에서는 합성 데이터가 안전하고 효과적인 대안이 될 수 있는 것이다.

합성 데이터 사용에도 전략이 필요하다는 보고서 결과가 나왔다. (사진=구글 제미나이)

보고서는 합성 데이터가 보안·신뢰성·맞춤성에서 강점을 갖는다고 강조했다. 생성 기법에 따라 데이터 구조와 속성을 통제할 수 있으며 특정 고객군이나 희귀 사례, 신규 기능까지 다양한 시나리오를 실험할 수 있다는 설명이다. 

특히 인공지능(AI)·머신러닝(ML) 개발에서도 합성 데이터 활용도가 큰 것으로 알려졌다. 기존보다 균형 잡힌 학습 데이터를 공급할 수 있으며, 엣지 케이스나 드문 상호작용도 재현 가능해서다. 

SW 엔지니어링 리더들은 합성 데이터가 테스트 자동화를 위한 CI/CD 파이프라인과도 쉽게 통합된다고 입을 모았다. 개인정보 보호, 데이터 구조 불일치, 데이터 부족 등의 문제를 해결할 수 있어 실제보다 효율적인 테스트 환경을 구축할 수 있다고 밝혔다.

가트너는 합성 데이터의 무조건적인 활용은 금물이라고 당부했다. 데이터 모델이 비공개된 시스템이나 단순 테스트에는 오히려 오버엔지니어링이 될 수 있으며, 팀 내부의 심리적 저항도 고려해야 한다고 설명했다.

가트너는 4가지 주요 합성 데이터 생성 기법을 제시했다. 비즈니스 규칙 기반 방식, 생성적 적대 신경망(GAN), 대형언어모델(LLM), 변분 오토인코더(VAE) 등을 조합해 활용 영역에 맞춰 선택해야 한다고 밝혔다.

예를 들어 GAN은 이미지나 음성 같은 비정형 데이터를 만들 때 적합하며, LLM은 보안 보고서나 사용자 피드백을 재현하는 데 유용하다. VAE는 전자상거래용 고객 기록처럼 구조화된 데이터에 효과적인 것으로 알려졌다.

관련기사

기술 선택 외에도 가트너는 합성 데이터 도입의 투자수익률(ROI)와 순현재가치(NPV)를 정밀하게 평가하라는 제안도 나왔다. 이를 위해 내부 재무팀과 협업해 할인율 등 기준을 사전 조율해야 한다고 설명이다.

가트너는 "합성 데이터 투자의 수익은 결함 감소, 출시 시간 단축, 테스트 효율화, 품질 향상 등으로 이어진다"며 "조직의 목표와 리소스를 고려해 맞춤형 도입 전략을 수립하라"고 조언했다.