"암기력보다 실무 추론"…데이터브릭스, 기업용 AI 벤치마크 공개

데이터브릭스가 기업 환경에서 인공지능(AI) 추론 능력을 평가하는 플랫폼을 공개했다.

6일 테크크런치 등 외신에 따르면 데이터브릭스는 미국 재무부 공보 기반으로 구축된 오픈 벤치마크 '오피스QA'를 지난달 출시했다.

오피스QA는 짧은 지문이나 상식 평가에 치중했던 기존 벤치마크와 달리 8만9천 쪽 분량 문서를 평가 대상으로 삼는다. 수십 년에 걸친 문서 속에서 정보를 탐색하거나 표와 스캔 된 PDF를 해석하는 등 실제 사무 환경과 유사한 과제를 부여하는 것이 특징이다.

데이터브릭스는 미국 재무부 공보 기반으로 구축된 오픈 벤치마크 '오피스QA'를 내놨다. (사진=데이터브릭스)

데이터브릭스는 오피스QA가 단순 질의응답이 아닌 문서 전반을 이해하고 명확한 근거를 바탕으로 추론하는 능력을 검증하는 데 초점을 맞췄다고 밝혔다. 이를 통해 AI가 실제 업무 현장에서 겪는 기술적 한계를 보다 정확하게 드러내려는 전략이다. 기존 학술적 성과 위주 평가 체계를 넘어 실질적인 비즈니스 업무 수행력을 검증하려는 취지다.

데이터브릭스는 오피스QA의 벤치마크를 오픈소스로 공개해 학계와 산업계 참여를 유도하고 기업용 AI 성능 기준 형성에 대한 영향력을 확보할 방침이다.