AI 헬스케어, 혁신인가 불공정한 기술인가

컴퓨팅입력 :2025/03/11 22:21

의료 산업에서 AI의 역할이 빠르게 확대되고 있다. 진단 보조, 의료 영상 분석, 전자의무기록(EMR) 활용 등에서 AI의 적용이 증가하면서, 미국 식품의약국(FDA)은 2024년까지 882개의 AI 기반 의료 기기를 승인했다. 특히, 영상의학 분야가 전체 AI 의료 기기의 76%를 차지할 만큼 주요한 역할을 하고 있다.

그러나 이러한 발전에도 불구하고, AI 의료 기술이 특정 인구 집단에 불공평한 결과를 초래할 가능성이 제기되고 있다. npj Digital Medicine에 게재된 보고서는 의료 AI의 편향 문제를 심층적으로 분석하며, 편향이 발생하는 과정과 이를 해결하기 위한 전략을 제시하고 있다. 보고서는 AI가 의료 불평등을 심화시킬 수 있으며, 이를 해결하기 위해선 데이터 수집, 알고리즘 개발, 배포 및 사용 단계에서 공정성을 유지하는 것이 중요하다고 강조한다.

AI 의료 편향, 어디서부터 시작되나?

의료 AI에서 발생하는 편향은 크게 3가지로 분류할 수 있다.

1. 데이터 편향: AI가 배우는 데이터부터 불균형하다

AI 모델의 성능은 학습 데이터에 의해 결정되는데, 의료 데이터 자체가 특정 인종이나 성별 중심으로 수집된 경우 AI가 편향된 결과를 도출할 가능성이 크다. 예를 들어, 심장 MRI 분석을 수행하는 AI 모델이 백인 환자에게 93.5%의 정확도를 보였으나, 흑인 환자에게는 84.5%에 그치는 현상이 관찰되었다. 이는 AI가 학습한 데이터셋이 인종적 다양성을 충분히 반영하지 못했기 때문이다.

특히, 미국의 한 의료 AI 알고리즘은 환자의 건강 상태를 평가하는 기준으로 의료비 지출 데이터를 활용했는데, 역사적으로 흑인 환자의 의료비 지출이 백인보다 낮았던 탓에 AI가 흑인 환자의 건강 위험도를 과소평가하는 오류를 범했다. 이러한 데이터 편향은 AI의 진단 결과가 특정 인구 집단에 불리하게 작용할 수 있음을 시사한다.

2. 알고리즘 편향: AI도 사람이 만든 알고리즘을 따른다

AI 모델이 특정 변수나 패턴을 과도하게 반영하는 알고리즘 편향도 문제로 지적된다. 유방암 검진에서 AI가 잘못된 판정을 내렸음에도 방사선 전문의들이 AI의 결과를 그대로 신뢰한 사례가 보고된 바 있다. 이는 ‘자동화 편향(Automation Bias)’으로, AI가 제시하는 결과를 의료진이 비판적으로 검토하지 않고 무조건 신뢰하는 경향을 의미한다.

반대로, AI가 과도하게 경고를 울려 의료진이 이를 무시하는 ‘간과 편향(Dismissal Bias)’ 문제도 존재한다. 경고 빈도가 지나치게 높으면 의료진이 AI의 알림을 신뢰하지 않게 되어 중요한 경고까지 간과할 위험이 크다.

3. 모델 배포 및 사용 편향: 현실에서는 또 다른 문제가 발생한다

AI 모델이 의료 현장에서 실제로 사용될 때도 새로운 편향 문제가 발생한다. 의료진이 AI의 결정을 신뢰하는 정도는 의료 시스템 및 환경에 따라 달라질 수 있으며, 일부 의료진은 AI의 조언을 무시하는 경향을 보이기도 한다.

또한 AI 모델이 학습한 데이터와 실제 병원에서 사용하는 데이터 간의 차이로 인해 모델 성능이 저하될 가능성이 있다. AI는 시간이 지나면서 의료 환경이 변하는 ‘개념 이동(Concept Drift)’ 현상으로 인해 점점 더 부정확한 결과를 내놓을 수 있다.

의료 AI, 어떻게 더 공정하게 만들 수 있을까?

의료 AI의 편향을 완화하기 위해서는 개발 단계부터 배포 후 지속적인 감시까지 다각적인 노력이 필요하다.

1. 다양한 환자 데이터를 활용한 학습

AI 모델을 훈련할 때 다양한 인종, 성별, 나이 등을 균형 있게 반영해야 한다. 이를 위해 ‘페더레이티드 러닝(Federated Learning)’ 같은 기술이 활용될 수 있다. 이는 여러 기관의 데이터를 통합하면서도 개인정보 보호를 유지하는 방식으로, 보다 균형 잡힌 AI 모델을 개발하는 데 도움을 준다.

2. AI의 공정성 정량화

AI 모델이 특정 집단에 대해 편향된 결과를 도출하는지를 평가할 수 있도록 공정성 지표를 적용하는 것이 중요하다. 대표적으로 ▲‘인구 통계적 패리티(Demographic Parity)’, ▲‘기회 균등(Equal Opportunity)’, ▲‘균형된 오류(Equalized Odds)’ 등의 평가 방식이 있다. 이러한 평가 기준을 도입하면 AI의 공정성을 수치화하고 개선할 수 있다.

3. 설명 가능한 AI(Explainable AI) 기술 적용

의료진이 AI의 결정을 신뢰하기 위해서는 AI가 특정 진단을 내린 이유를 명확히 설명할 수 있어야 한다. 이를 위해 ‘SHAP(Shapley Additive Explanations)’ 같은 설명 가능한 AI 기술이 활용되고 있다. 이를 통해 AI의 의사결정 과정이 보다 투명해지고, 의료진이 AI의 결과를 보다 비판적으로 검토할 수 있다.

4. 실시간 모니터링 및 정기적 업데이트

AI 모델이 의료 현장에서 지속적으로 평가되고 조정될 필요가 있다. 특히, AI 모델이 시간이 지나면서 성능이 저하되는 ‘개념 이동(Concept Drift)’ 문제를 방지하기 위해 실시간 성능 모니터링과 주기적인 재학습이 필수적이다.

AI 의료 혁신, 형평성과 신뢰를 갖춰야 한다

AI는 의료 혁신의 중심에 서 있지만, 편향 문제를 해결하지 않으면 의료 불평등을 심화시킬 수도 있다. 따라서 AI 의료 모델은 개발 단계에서부터 ▲다양한 데이터를 반영하고, ▲공정성 평가 지표를 도입하며, ▲설명 가능한 AI 기법을 활용하고, ▲실시간 성능 모니터링을 강화해야 한다.

관련기사

의료 AI의 공정성과 신뢰성이 확보되지 않는다면, AI는 의료 혁신을 위한 도구가 아니라 의료 형평성을 저해하는 위험 요소가 될 수도 있다. 의료 AI의 진정한 발전은 단순한 기술적 혁신이 아니라, 의료 서비스의 공정성과 형평성을 함께 확보하는 방향으로 이루어져야 한다.

■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)