구글이 대규모 언어모델(LLM) 학습에 필요한 데이터를 획기적으로 줄이는 ‘액티브 러닝(Active Learning)’ 기반 데이터 선별 기법을 지난 7일(현지시간) 자사 블로그에 공개했다.
기존에는 수십만 건 이상이 필요한 학습 데이터를 단 수백 건으로 줄이면서도, 모델 성능을 유지하거나 오히려 개선하는 결과를 얻었다는 설명이다.
이번 연구는 온라인 광고에서 ‘정책 위반’이나 ‘유해 콘텐츠’를 판별하는 모델 고도화를 목표로 했다. 광고 안전성 판별은 단순 키워드 필터링을 넘어, 문화·맥락을 이해하는 고급 해석 능력이 필요하다. 이런 복잡한 작업에는 LLM이 유리하지만, 고품질 학습 데이터 확보가 어렵고 비용이 많이 든다는 한계가 있었다. 특히 광고 정책이 바뀌거나 새로운 유형의 유해 콘텐츠가 등장하면, 방대한 데이터를 다시 수집·학습해야 하는 문제도 있었다.

구글이 제안한 방식은 ‘적은 양의 고품질 데이터’로도 모델을 빠르게 재학습할 수 있게 하는 것이 핵심이다. 먼저, 예시 몇 개만 제공한 초기 모델(LLM-0)로 광고를 분류한 뒤, 분류 결과를 비슷한 특성끼리 묶어(클러스터링) 모델이 혼동하는 영역을 찾는다. 이후 서로 다른 판정을 받은 비슷한 사례 쌍을 전문가에게 보내 정확한 판정을 받는다. 이렇게 선별된 데이터는 다양성과 정보성을 동시에 확보하며, 다음 학습에 활용된다.
이 과정을 반복해 모델과 전문가의 의견 일치율을 높인다. 성능 평가는 ‘코헨 카파(Cohen’s Kappa)’라는 지표를 활용했다. 이는 정답이 명확하지 않은 분류 작업에서 두 명의 판정자가 우연 이상의 수준으로 얼마나 일치하는지를 나타낸다. 카파 값이 1에 가까울수록 의견 일치도가 높다.
실험 결과, 구글은 10만 건의 대규모 데이터 대신 250~450건의 전문가 판정 데이터만으로도 기존과 같은 수준, 혹은 65% 향상된 모델 정합도를 달성했다. 특히 파라미터가 큰 모델일수록 데이터 절감 효과가 극대화돼, 실서비스에서는 최대 1만 배 적은 데이터로도 품질을 유지하거나 개선할 수 있었다고 밝혔다.
관련기사
- 'AI 코딩 비서' 영토 넓히는 구글…이번엔 '무료 협업툴' 꺼냈다2025.08.08
- 구글, '제미나이 2.5 프로'에 코딩·추론 성능 개선2025.06.07
- 구글, 유튜브 광고에 AI 투입…'피크 포인트'로 클릭률 높인다2025.05.15
- 정부, 구글 고정밀 지도 반출 결정 유보…"구글이 요청"2025.08.08
구글은 이번 방식이 광고 안전성뿐 아니라 정책이 자주 변하거나 위험 요소가 빠르게 진화하는 다른 분야에도 적용 가능하다고 보고 있다.
구글 측은 “LLM의 폭넓은 탐색 능력과 전문가의 정밀한 판별을 결합해 데이터 병목 현상을 해소할 수 있다”며 “앞으로도 데이터 품질과 효율성을 동시에 높이는 연구를 이어갈 것”이라고 말했다.