"개인정보 노출 없이 AI 고도화"…클라우데라, '합성 데이터'로 승부수

보안 규제·혁신 갈림길 선 기업 겨냥해 '합성 데이터 거버넌스' 대안 제시

컴퓨팅입력 :2026/01/27 15:32

기업의 인공지능(AI) 도입 가속화로 프라이버시 리스크가 최대 화두로 떠오른 가운데 클라우데라가 '합성 데이터'를 해법으로 제시했다. 민감 정보 의존도를 낮추는 동시에 AI 모델의 성능을 고도화할 수 있는 관리 체계를 제안하며 보안과 혁신 사이에서 고민하는 기업 시장 선점에 박차를 가하는 모습이다.

클라우데라는 기업 리스크 감소를 위한 도구로 합성 데이터를 꼽으며 이에 대한 체계적인 관리, 운영을 통해 데이터 노출을 줄이면서 AI 개발을 지속할 수 있다고 27일 강조했다.

최근 AI가 기업 운영 전반에 깊숙이 통합되면서 대규모언어모델(LLM)은 고객 지원, 데이터 분석, 개발자 생산성, 지식 관리 등 다양한 업무에 활용되고 있다. 여기에 AI 에이전트까지 부상하며 AI는 정보를 검색하고 추론하는 것을 넘어 실질적인 업무를 수행하는 단계로 진화하고 있다.

그러나 AI 활용이 확대될수록 프라이버시 리스크에 대한 우려도 제기된다. AI 모델의 성능 향상에 필요한 데이터는 민감 정보를 포함하고 있기 때문이다. 지원 대화 기록, 거래 내역, 운영 로그 등 개인식별정보(PII), 규제 대상 정보, 기업 고유의 비즈니스 맥락이 포함되는 경우가 많다.

세르지오 가고 클라우데라 CTO (사진=장유미 기자)

합성 데이터는 실제 데이터셋의 핵심 패턴을 반영하면서도 실제 기록을 재현하지 않도록 알고리즘으로 생성된 데이터로, 기업은 이를 통해 민감한 정보 노출을 줄이면서도 AI 개발과 테스트를 진행할 수 있다.

클라우데라 관계자는 "합성 데이터는 단순한 테이블 데이터 생성 단계를 넘어 진화했다"며 "현재 기업들은 원본 데이터를 사용하지 않고도 실제 업무 흐름의 구조를 반영한 합성 인스트럭션 데이터, 합성 대화 데이터, 합성 인시던트 티켓, 합성 질의응답 데이터를 생성할 수 있다"고 설명했다. 

이 같은 상황에 맞춰 클라우데라는 기업들이 AI 도입 과정에서 겪는 실질적인 기술적 난제를 해결할 세 가지 핵심 분야로 합성 데이터 활용처를 구체화했다. 

우선 기업용 AI의 완성도를 결정짓는 '도메인 특화 미세조정(SFT)'이 가장 먼저 꼽힌다. 기업은 자사 고유의 정책이나 제품 카탈로그 등을 AI가 정확히 학습하길 원하지만, 정작 학습에 필요한 내부 데이터는 민감 정보가 섞여 있어 활용에 제약이 많았다. 클라우데라가 제시한 합성 데이터는 실제 데이터의 구조와 의도를 완벽히 재현하면서도 개인정보 노출 위험은 제거해 보안과 성능이라는 두 마리 토끼를 잡았다는 평가를 받는다.

AI 상용화의 고비마다 발목을 잡던 '모델 평가' 방식에도 변화가 예상된다. 그간 기업들은 AI 모델의 오류나 컴플라이언스 위반 여부를 확인하기 위해 수작업으로 테스트 세트를 구축해 왔으나, 이는 막대한 시간과 비용이 소요되는 '병목 구간'이었다. 클라우데라는 합성 데이터를 통해 엣지 케이스와 오류 시나리오를 자동 생성함으로써 수동 방식보다 훨씬 빠르고 정교한 검증 체계를 구축할 수 있게 했다.

최근 시장의 화두인 '검색증강생성(RAG)'과 'AI 에이전트'의 고도화에도 합성 데이터가 투입된다. AI가 스스로 정보를 찾고 업무를 수행하려면 정교한 큐레이션 데이터가 필수적이다. 클라우데라는 다단계 상호작용이 포함된 합성 데이터를 통해 AI의 도구 활용 능력을 철저히 검증, 실제 고객의 민감한 대화 데이터를 입력하지 않고도 에이전트의 성능을 최적화하는 경로를 제시하고 있다.

관련기사

세르지오 가고 클라우데라 최고기술책임자(CTO)는 "합성 데이터는 체계적으로 관리될 때 개인정보 노출을 줄이면서 모델 개발을 진행할 수 있는 리스크 감소 도구"라며 "LLM과 에이전트 AI 배포가 확대되면서 합성 데이터는 민감한 개인정보에 대한 의존도를 낮추는 현실적인 경로가 될 것"이라고 말했다.

최승철 클라우데라코리아 지사장은 "최근 연쇄적인 대형 데이터 유출 사고가 이어지면서 국내 기업들은 철저한 데이터 보안을 준수하면서 AI 혁신을 추진해야 하는 과제를 안고 있다"며 "합성 데이터는 데이터 보안 리스크를 최소화하면서도 AI 경쟁력을 확보할 수 있는 전략 수단이 될 것"이라고 강조했다.