AI, 동물 통증도 잘 잡아낸다…"수의사 보다 11.5% 더 정확"

컴퓨팅입력 :2025/02/18 09:16    수정: 2025/02/18 09:43

AI, 수의사보다 11.5% 더 정확한 판단력 보여

이스라엘 하이파 대학교와 브라질 상파울루 주립대학교 공동 연구팀이 발표한 연구에 따르면, 인공지능(AI)이 수의사보다 더 정확하게 동물의 통증을 판단할 수 있는 것으로 나타났다. CLIP 인코더(CLIP encoder)를 기반으로 한 AI 시스템은 양의 얼굴 표정을 분석해 통증을 평가하는 데 있어 전문 수의사들보다 우수한 성능을 보였다. (☞ 논문 바로가기)

구체적으로 AI는 양 안면 표정 척도(SFPES)를 사용한 인간 평가자들보다 통계적으로 유의미하게 높은 정확도를 달성했다(AUC 차이 = 0.115, p < 0.001). 더욱 주목할 만한 점은 AI가 현재 '골든 스탠다드'로 여겨지는 USAPS 행동 평가에서도 인간 전문가와 대등한 수준의 성능을 보였다는 것이다(AUC 차이 = 0.027, p = 0.163).

정밀한 연구 설계: 48마리 양 대상 96개 이미지 분석

연구팀은 17마리의 베르가마시아종, 18마리의 라카우네종, 13마리의 도르퍼종 등 총 48마리의 양을 대상으로 연구를 진행했다. 각 양의 정면과 측면 이미지를 수술 전(통증 없음)과 수술 3-4시간 후(최대 통증 예상 시점) 시점에서 촬영했다. 총 96장의 이미지(48마리 x 2단계 x 2방향)를 분석에 활용했으며, 더욱 정확한 결과를 위해 USAPS 측정값을 기반으로 데이터셋을 정제해 최종적으로 39마리의 데이터를 사용했다.

AI 모델의 혁신적 접근법: CLIP 인코더와 나이브 베이즈 분류기 결합

연구팀이 개발한 AI 파이프라인은 두 가지 핵심 기술을 결합했다. 먼저 CLIP 인코더는 양의 정면과 측면 이미지를 각각 768차원의 임베딩 벡터로 변환한다. 이후 두 벡터를 결합해 1,536차원의 단일 벡터를 생성하는데, 이는 양의 얼굴 표정에 대한 종합적인 디지털 표현이다. 이렇게 변환된 데이터는 나이브 베이즈(Naive Bayes) 분류 모델을 통해 최종적으로 통증 여부를 판단한다.

특히 연구팀은 'leave-one-animal-out' 교차 검증 방식을 도입해 개별 양의 특성이 학습에 영향을 미치지 않도록 했으며, 특징 선택(feature selection) 기법을 활용해 모델의 과적합을 방지하고 연산 복잡성을 줄였다. 이러한 방식은 적은 양의 훈련 데이터로도 효과적인 학습이 가능하다는 장점이 있다.

AI의 혁신적 성과: 정확도 82.29%, 특이도 83.33% 달성

AI 시스템은 정확도 82.29%, 민감도 81.25%, 특이도 83.33%, F1 스코어 82.11%를 기록했다. 이는 USAPS 컷오프 포인트 4 기준 인간 평가의 정확도 79.56%, 민감도 87.76%, 특이도 71.35%, F1 스코어 81.11%를 뛰어넘는 수준이다. 특히 SFPES를 사용한 인간 평가(정확도 70.83%, 민감도 86.72%, 특이도 54.95%)와 비교했을 때 현저히 우수한 성능을 보여주었다.

전문가 평가의 주관성 한계: 성별, 피로도 등 8가지 편향 요소 확인

기존 통증 평가 방식은 관찰자의 사전 훈련 정도, 성별, 피로도, 경험, 소요 시간 등 다양한 요인에 의해 영향을 받는다. 특히 최근 연구에서는 고양이 통증 평가에 사용되는 세 가지 척도(CMPS-Feline, CSU-FAPS, FGS)의 평가자 간 신뢰도가 대부분 낮음에서 보통 수준에 그치는 것으로 나타났다. 현재 연구의 주요 한계점으로는 상대적으로 작은 데이터셋 크기와 농장 환경에서의 실제 적용 가능성 검증이 부족하다는 점을 들 수 있다.

AI 진단의 한계와 과제: 중간 강도 통증 평가 능력 검증 필요

현재 AI 시스템은 극단적인 통증 상황(수술 직후)만을 평가했다는 한계가 있다. 연구진은 진통제 투여 후와 수술 24시간 후 등 다양한 시점에서의 평가 능력 검증이 필요하며, 특히 경증에서 중등도 통증의 진단 정확도 검증이 추가로 필요하다고 지적했다. 향후 연구 과제로는 AI의 의사결정 과정을 설명할 수 있는 설명 가능한 AI(XAI) 연구와 시간적 차원을 포함한 행동 분석 AI 개발이 제시되었다.

임상 현장 도입을 위한 로드맵: PainChek 사례를 통해 본 실용화 방안

관련기사

인간 통증 평가에서는 이미 페인첵(PainChek)이라는 AI 기반 모바일 앱이 실제 임상에서 활용되고 있으며, 96.4%의 정확도를 보이고 있다. 연구진은 이를 모델로 삼아 동물용 통증 평가 앱 개발을 차기 목표로 제시했다.

■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)