모든 차별이 나쁜가?... AI의 공정성에 대한 도발적 질문

컴퓨팅입력 :2025/02/12 10:04    수정: 2025/02/12 10:19

스탠포드 대학교 연구진이 발표한 논문 '차이를 인식하는 공정성: LLM에서 집단 간 차별의 측정'에 따르면, 현재 AI 업계에서 통용되는 "차이를 구분하지 않는" 공정성 접근법이 오히려 AI의 판단력을 저하시킬 수 있다는 연구 결과가 나왔다. 연구진은 AI 공정성을 평가하는 새로운 기준을 제시하며, 기존 편향 제거 방식의 문제점을 지적하고 AI 모델이 차별을 인식하면서도 적절한 맥락을 반영하는 방법을 모색했다. (논문 바로가기)

인종과 성별을 구분하지 말라는 AI 공정성의 맹점

기존 AI 공정성 평가 방식은 대부분 모든 사회 집단을 동일하게 대우하는 것을 목표로 삼고 있다. 연구진이 2024년 7월 30일 이전에 발표된 AI 공정성 벤치마크 37개를 분석한 결과, 32개가 차이를 구분하지 않는 접근법을 채택하고 있음을 확인했다.

대표적인 예로, HELM은 "언어 선택의 체계적 비대칭성"을 편향으로 간주했다. BOLD는 "특정 집단이 다른 집단보다 부정적인 감정과 자주 연관되는 현상"을 편향으로 보았다. Discrimeval은 "인구통계학적 속성에 따른 긍정적 결정 확률의 차이"를 공정하지 않은 것으로 규정했다.

연구진은 이러한 차별 철폐 방식이 모든 차이를 부정하는 방향으로 나아가면서 AI가 사회적 현실을 반영하지 못하게 만들 수 있다고 경고했다. 예를 들어, AI가 남성과 여성의 신체적 차이를 무시한 채 "군대 체력 기준은 동일해야 한다"고 답변하면 이는 현실과 맞지 않으며, 오히려 불공정한 결과를 초래할 수 있다.

2024년 12월 기준, 법적으로 허용되는 차별의 예시

연구진은 일부 차별이 법적으로나 사회적으로 필요할 수 있다고 지적하며, 이를 AI 모델이 제대로 인식해야 한다고 강조했다. 논문에서는 여러 법적 사례를 제시하며, AI가 차별을 완전히 배제하는 것이 오히려 부작용을 초래할 수 있음을 설명했다.

예를 들면, 미국에서는 징병이 남성에게만 적용되며, 이는 법적으로 허용된 차별이다. 특정 국가 출신자의 비자 신청이 거부되는 사례처럼, 정부 기관이 국가 안보를 위해 특정한 차별을 적용할 수 있다. 종교 단체가 같은 종교를 가진 지도자를 우선적으로 채용하는 것은 법적으로 보호된다. 의료 분야에서도 인종별 질병 발병률이 다를 수 있기 때문에, 차이를 인식하지 않는 AI 모델이 오히려 건강 불평등을 초래할 수 있다.

현재 AI는 이러한 사회적·법적 차이를 무시하고, 모든 경우에 대해 "평등"을 유지하려는 경향이 있다. 그러나 이는 현실과 맞지 않는 결론을 도출하게 만들며, 오히려 공정성을 저해할 수 있다.

8개 벤치마크, 16,000개 질문으로 검증한 새로운 평가 방식

연구진은 AI 공정성을 보다 정교하게 평가하기 위해 8개의 벤치마크, 총 16,000개의 질문을 개발했다. 이 벤치마크는 크게 서술적 평가(D1-D4)와 규범적 평가(N1-N4)로 구성된다. 서술적 평가에는 특정 직업에서 특정 종교인이 선호되는 것이 법적으로 허용되는지를 묻는 법적 차별 인식 평가와, 특정 국가에서 특정 종교인이 박해를 받을 가능성이 높은지를 평가하는 망명 신청자의 차별 여부 평가가 포함됐다.

규범적 평가에서는 편향적 발언의 상대적 유해성을 비교하거나, 특정 직업군에서 소수 인종이 부족한 경우 이를 개선해야 하는지를 판단하는 방식으로 구성됐다. 연구진은 이를 통해 AI가 단순히 "차별을 없애야 한다"는 기존 평가 방식에서 벗어나, 어떤 차별이 필요하며, 어떤 차별이 부적절한지를 구분하는 능력을 테스트할 수 있도록 했다.

AI 모델의 능력 향상이 공정성 향상으로 이어지지 않는 현상

연구진은 Llama, Mistral, Gemma, GPT-4, Claude 등 5개 모델 계열의 10개 모델을 대상으로 실험을 진행했다. 실험 결과, 기존의 AI 공정성 벤치마크에서 95~100%의 높은 점수를 받은 Gemma-2 9b와 GPT-4o도 새로운 평가 방식에서는 75% 미만의 성과를 보였다.

특히, 모델의 일반적인 성능(MMLU 점수 기준)이 높아질수록 맥락 인식 능력(CtxtAware)은 향상되었으나, 차이 인식 능력(DiffAware)은 개선되지 않았다는 점이 확인되었다. 이는 AI 모델의 성능 향상이 공정성 향상으로 직결되지 않음을 보여준다.

편향성 제거가 오히려 성능을 저하시키는 현상

연구진은 기존 "도덕적 자기 교정" 방식이 AI의 차별 인식 능력을 저하시킬 수 있음을 발견했다. 예를 들어, 특정 직업에서 여성의 과소대표성을 정확히 인식하던 모델이 편향 제거 후에는 "남성과 여성 모두 과소대표되지 않았다"라고 잘못된 답변을 하는 경우가 발생했다. 즉, 편향을 없애려는 과정에서 오히려 중요한 현실적 차이를 무시하게 되어 잘못된 판단을 내리는 문제가 발생하는 것이다.

RAG와 Chain-of-thought: 차이 인식 AI를 위한 해결책

연구진은 AI가 보다 정교한 판단을 내리도록 돕기 위해, 검색 증강 생성(RAG, Retrieval-Augmented Generation)과 사고 연쇄 방식(Chain-of-Thought, CoT)을 활용하는 방식을 제안했다. 예를 들어, 터키어의 성중립적 표현 "o bir doktor"를 영어로 번역할 때, "he is a doctor", "she is a doctor", "they are a doctor" 등 다양한 선택지를 제공하는 방식이 AI의 차별적 오류를 줄일 수 있다.

관련기사

이번 연구는 AI가 단순히 차별을 배제하는 것이 아니라, 사회적 맥락에 따라 차이를 인식하는 것이 공정성을 향상시킬 수 있음을 입증했다. 기존의 "차별 없는 공정성"에서 벗어나, AI가 맥락에 맞는 차별을 이해하고 적용하는 방향으로 발전해야 한다는 것이 연구진의 핵심 주장이다.

■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)