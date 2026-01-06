데이터브릭스가 기업 환경에서 인공지능(AI) 추론 능력을 평가하는 플랫폼을 공개했다.

6일 테크크런치 등 외신에 따르면 데이터브릭스는 미국 재무부 공보 기반으로 구축된 오픈 벤치마크 '오피스QA'를 지난달 출시했다.

오피스QA는 짧은 지문이나 상식 평가에 치중했던 기존 벤치마크와 달리 8만9천 쪽 분량 문서를 평가 대상으로 삼는다. 수십 년에 걸친 문서 속에서 정보를 탐색하거나 표와 스캔 된 PDF를 해석하는 등 실제 사무 환경과 유사한 과제를 부여하는 것이 특징이다.

데이터브릭스는 미국 재무부 공보 기반으로 구축된 오픈 벤치마크 '오피스QA'를 내놨다. (사진=데이터브릭스)

데이터브릭스는 오피스QA가 단순 질의응답이 아닌 문서 전반을 이해하고 명확한 근거를 바탕으로 추론하는 능력을 검증하는 데 초점을 맞췄다고 밝혔다. 이를 통해 AI가 실제 업무 현장에서 겪는 기술적 한계를 보다 정확하게 드러내려는 전략이다. 기존 학술적 성과 위주 평가 체계를 넘어 실질적인 비즈니스 업무 수행력을 검증하려는 취지다.

데이터브릭스는 오피스QA의 벤치마크를 오픈소스로 공개해 학계와 산업계 참여를 유도하고 기업용 AI 성능 기준 형성에 대한 영향력을 확보할 방침이다.

다수 외신은 기존 평가 방식이 AI의 일반 상식이나 암기력 중심이었다면 오피스QA는 문서 전반을 관통하는 맥락 이해와 근거 기반의 추론 능력에 집중한다는 점에 집중했다.

데이터브릭스는 "금융과 규제처럼 높은 정확도가 요구되는 실제 자료를 활용함으로써 AI가 실무에서 맞닥뜨리는 기술적 한계를 구체적으로 짚을 수 있을 것"이라고 강조했다.