[인터뷰] 데이터브릭스 AI 총괄 "AI 개발보다 품질 평가 무게 둬야"

[SW키트 스페셜①] 데이터브릭스 크레이그 와일리 AI 제품 총괄 "규제 산업 공략 자신"

컴퓨팅입력 :2025/11/10 06:01    수정: 2025/11/10 06:03

에이전틱 인공지능(AI) 시대가 왔습니다. AI는 사람 지시 없이 스스로 판단하고 행동하는 자율적 기술로 진화하고 있습니다. 그 핵심에는 데이터가 있습니다. 데이터 수준이 곧 에이전틱 AI 성능을 결정하기 때문입니다. 지디넷코리아는 이번 [SW키트 스페셜] 기획을 위해 미국의 데이터 관리 기업 데이터브릭스와 스노우플레이크, 디노도를 방문했습니다. 각 기업이 어떻게 데이터 품질을 확보하고, 어떤 전략으로 경쟁력을 높이고 있는지 조명합니다. [편집자주]

에이전틱 인공지능(AI) 시대에 기업 고민이 바뀌고 있다. 이제는 '무엇을 개발할 것인가'보다 '어떻게 기술을 평가하고 개선할 것인가'에 더 초점 맞추기 시작했다. AI가 비즈니스에서 안정적으로 작동하도록 평가·검증·개선하는 체계를 갖추는 것이 더 중요하다는 인식이 확산하고 있다.

데이터브릭스 크레이그 와일리 AI 제품 총괄은 미국 샌프란시스코 본사에서 지디넷코리아를 만나 "앞으로 AI와 데이터를 지속적으로 평가하고 개선할 수 있는 시스템이 기업 경쟁력을 결정할 것"이라고 재차 강조했다. 

데이터브릭스 크레이그 와일리 AI 제품 총괄.

데이터브릭스는 AI·데이터 플랫폼 기업으로 2013년 미국 샌프란시스코에서 설립됐다. 데이터 분석과 AI 개발을 한 환경에서 처리할 수 있는 통합 플랫폼을 제공한다. 대표 제품은 '데이터브릭스 데이터 인텔리전스 플랫폼'이다. 

와일리 총괄은 데이터브릭스에서 AI 제품 부문을 총괄하고 있다. 데이터브릭스 합류 전 구글클라우드에서 버텍스 AI를 구축했고, 아마존웹서비스(AWS)에서 '아마존 세이지메이커' 초대 총괄 매니저로 근무한 바 있다.

와일리 총괄은 앞으로 에이전틱 AI 경쟁력이 모델 크기에만 있지 않다고 강조했다. 그는 "기업이 AI를 제대로 활용하기 위해서는 거대한 모델보다 정확한 데이터와 풍부한 맥락 정보(Contextual Data)에 집중해야 한다"며 "작고 효율적인 모델이라도 업무 환경과 데이터 의미를 충분히 반영하면, 대형 모델 못지않은 결과를 낼 수 있다"고 주장했다.

"AI 에이전트 상용화 기술 장벽 여전...품질 평가 부족 탓"

와일리 총괄은 여전히 많은 기업이 AI 에이전트를 실제 비즈니스에 활용하지 못한다고 지적했다.

와일리 총괄은 여전히 많은 기업이 AI 에이전트를 실제 비즈니스에 활용하지 못한다고 지적했다. 그는 "기업이 AI 기술을 제대로 평가·개선하지 못한 탓"이라며 "시스템 내 성능과 데이터 품질을 지속 확인하고 피드백을 반영해 성능을 개선하지 못했기 때문"이라고 이유를 밝혔다.

와일리 총괄은 AI 품질 평가가 일반 소프트웨어(SW)를 테스트하는 방식과 다르다고 설명했다. 일반 SW와 달리 AI는 같은 명령어에도 맥락에 따라 다른 결과를 내놓는다는 이유에서다. 이에 일반 SW처럼 '얼마나 잘 작동하는가'를 객관적으로 평가할 수 없다고 말했다.

그는 "AI는 논리적으로 틀리지 않아도 맥락을 놓치거나 사용자가 설정한 방식으로만 답하는 경우가 다수"라며 "이런 품질을 수치로 정의하거나 일관되게 측정하기 매우 복잡하다"고 말했다. 

와일리 총괄은 또 다른 이유로 시스템 운영 환경 변화를 지적했다. AI 모델이 학습 단계에서 높은 성능을 보이다가 실제 데이터나 사용자 피드백을 받고 낮은 성능을 보일 수 있어서다. 그는 "AI는 데이터에 작은 변화가 있어도 다른 결과를 낼 수 있다"고 말했다. 그러면서 "기업이 이를 실시간으로 평가하고 개선하는 체계를 갖추지 못하면 실제 현장에서는 에이전틱 AI 성능 자체를 유지하기 어려울 것"이라고 강조했다. 

와일리 총괄은 이런 문제를 해결하기 위해 '에이전트 브릭스'를 개발했다고 밝혔다. 에이전트 브릭스는 AI가 스스로 성능을 평가하고 개선할 수 있도록 돕는 플랫폼이다. 사용자는 복잡한 데이터·모델 구조를 알지 못해도 자연어 피드백으로 정확도를 개선할 수도 있다. 

그는 "앞으로 AI 개발에서 평가 중심으로 엔터프라이즈 환경이 변화할 것"이라며 "AI 신뢰성과 품질을 동시에 높이는 우리 철학을 에이전트 브릭스에 넣었다"고 말했다. 그러면서 "AI가 AI를 평가하는 구조를 통해 기술 불확실성을 줄이는 것이 목표"라고 덧붙였다. 

와일리 총괄은 이런 AI 평가 시스템이 장기적으로 효율적인 에이전틱 AI 시스템 구축을 도울 것이라고 내다봤다. 그는 "최근 우후죽순으로 늘어나는 '원클릭 에이전트' 개념이 유행하기 시작했다"며 "이는 실제로 품질이 낮은 에이전트를 생성하거나 시스템 수정이 불가능하다"고 지적했다.

이어 "버튼 한 번에 모든 기술 장벽을 해결하진 못한다"며 "약간 더 복잡하더라도 높은 품질과 안정성을 보장하는 평가 중심 시스템이 장기적으로 이득"이라고 강조했다. 그러면서 "고객은 자신 있게 외부 서비스나 내부 자동화에 AI를 더 활발하게 통합할 수 있을 것"이라고 내다봤다.

"규제 산업 공략 자신엄격한 데이터 관리 적용"

와일리 총괄은 데이터브릭스 플랫폼이 금융과 의료처럼 규제가 엄격한 산업에서도 경쟁력을 발휘하고 있다고 강조했다.

와일리 총괄은 데이터브릭스 플랫폼이 금융과 의료처럼 규제가 엄격한 산업에서도 경쟁력을 발휘하고 있다고 강조했다.

그는 "규제 산업에서는 데이터 출처와 사용 목적을 명확히 기록하고 증명하는 체계가 필수"라며 "플랫폼 내 '엔드 투 엔드(End-to-End) 데이터 라인리지' 기능 등은 이런 요구를 모두 충족한다"고 설명했다.

데이터 라인이지는 데이터 출처와 사용 경로를 보여주는 시스템이다. 현재 데이터브릭스의 유니티 카탈로그 내 탑재된 기능이다. 사용자가 AI 모델을 훈련할 때 사용하는 데이터와 실제 서비스에서 사용하는 데이터가 다를 경우, 데이터 라인이지가 이런 불일치를 즉시 확인할 수 있게 돕는 식이다. 이를 통해 기업은 중복된 데이터 파이프라인을 제거하고, 비용 낭비를 막을 수 있다. 

이어 "규제 기관이 요구하는 것은 단순히 데이터를 안전하게 보관했는지가 아니라, 어떤 데이터를 왜, 어떻게 사용했는지에 대한 명확한 설명"이라며 "우리는 이를 테이블 단위로 자동 기록해 기업이 언제든 근거 자료를 제시할 수 있도록 지원한다"고 덧붙였다.

와일리 총괄는 에이전틱 AI 시대에 메타데이터 관리도 중요하다고 봤다. 실제 데이터브릭스는 2023년부터 생성형 AI로 메타데이터를 자동 생성하기 시작했다. 그는 "테이블마다 설명이 자동으로 붙고 각 열(Column) 의미를 요약해 준다"며 "기업이 정보를 일일이 작성하지 않아도 AI가 데이터 구조와 의미를 분석해 자동으로 설명문을 채워 넣는다"고 강조했다. 이어 "덕분에 데이터 검색이나 활용, 거버넌스 수준이 눈에 띄게 높아졌다"고 말했다.

와일리 총괄은 기업이 에이전틱 AI를 제대로 활용하려면 데이터 접근 관리 체계를 더 정교하게 구축해야 한다고 강조했다. AI가 다루는 데이터가 많아질수록, 누가 어떤 정보에 접근할 수 있는지를 정확히 구분하는 것이 중요하다는 이유에서다.

관련기사

그는 "우리 플랫폼은 직원마다 접근 권한을 다르게 설정해, 민감한 정보를 아무나 볼 수 없도록 관리하고 있다"며 "이런 접근제어 시스템을 통해 개인정보(PII)를 자동으로 찾아내고 분류해 데이터를 정제하고 있다"고 설명했다.

현재 데이터브릭스는 오픈AI를 비롯한 엔비디아와 협력하고 있다. 구글과의 협업도 진행 중이다. 그는 "우리는 누가 만든 모델이든 상관없다"며 "우리 플랫폼 안에서 안전하게 접근하고 관리할 수 있는 환경을 만드는 것이 협력 목표"라고 밝혔다.