생성형 AI로 만든 가짜 뼈 스캔 영상, 전문의도 속았다

컴퓨팅입력 :2025/02/12 21:48    수정: 2025/02/13 08:31

5개국 15,799명 환자 데이터로 입증된 의료 AI의 새 지평

유럽 핵의학분자영상저널에 게재된 연구에 따르면, 생성형 인공지능(AI)을 활용해 만든 합성 의료영상이 실제 임상 진단에 활용될 수 있는 수준에 도달했다. 이 연구는 비엔나 종합병원(오스트리아), ASST Spedali Civili of Brescia(이탈리아), Careggi 대학병원(이탈리아), Champalimaud 재단(포르투갈), West China 병원(중국) 등 5개 의료기관에서 총 15,799명의 환자(16,823건의 스캔)를 대상으로 진행되었다. (☞ 보고서 바로가기)

5년 생존율 22%: 골전이 조기 발견의 시급성

골전이 진단의 정확성 향상은 매우 시급한 과제다. 2022년 기준으로 골전이 진단 후 5년 생존율은 전립선암의 경우 22%, 유방암 23%, 폐암 2%, 신장암 7%에 불과하다. 최근 [177Lu]Lu-PSMA 방사성리간드 치료나 알파선 방출체 라듐-223과 같은 혁신적 치료법이 등장했지만, 여전히 골전이 환자의 예후는 좋지 않다. 따라서 비정상적 섭취를 조기에 발견하여 통증을 줄이고 운동성을 유지하며 삶의 질을 개선하는 것이 매우 중요하다. 심장 아밀로이드증의 경우도 마찬가지로, 최근 진단법과 치료법의 발전으로 조기 발견의 중요성이 더욱 부각되고 있다.

소규모 병원의 한계를 극복한 AI 학습 방법론

연구진은 단일 센터의 181명 환자 데이터만으로도 효과적인 AI 모델을 개발할 수 있음을 입증했다. 이는 환자 수가 적은 소규모 지역병원에서도 AI 시스템을 개발할 수 있다는 가능성을 보여준다. 연구는 두 가지 주요 질환에 초점을 맞췄는데, 골전이를 나타내는 비정상적 흡수 패턴과 심장 아밀로이드증을 나타내는 심장 흡수 패턴이다. 모든 스캔은 99mTc-DPD와 99mTc-HMDP 추적자를 사용하여 방사성 의약품 주입 후 최소 2시간이 지난 후에 촬영되었다.

400건 중 6건만 식별: 전문의도 구분 못한 AI 생성 영상의 정확도

판독 실험에서 4명의 전문의들은 실제 영상과 AI 생성 영상을 구분하는데 실패했다. 골전이 관련 영상에서는 47.7%(95% 신뢰구간 44.6-50.6%), 심장 아밀로이드증 관련 영상에서는 49.0%(95% 신뢰구간 45.9-52.2%)의 정확도를 보였다. 특히 심장 아밀로이드증 케이스에서는 전문의들 간의 의견 불일치가 더 두드러졌다(Fleiss' kappa: 0.04).

합성 데이터 추가로 33% 향상된 AI 진단 성능

기존 181개의 실제 스캔만으로 훈련된 기본 모델의 성능과 비교했을 때, 합성 데이터를 1:50 비율(9,231개)로 추가한 경우 골전이 탐지 정확도가 평균 33%(±10%) 향상되었다(p<0.0001). 심장 아밀로이드증 탐지는 1:100 비율에서 최적의 성능을 보여 5%(±4%) 개선되었다(p<0.0001).

262명 사망자 분석으로 입증된 임상적 유효성

2,446명의 환자를 중앙값 1.8년(IQR 1.1-2.4) 동안 추적 관찰한 결과, 262명(11%)이 사망했다. AI가 골전이를 예측한 환자군은 유의미하게 높은 사망률을 보였다(조정 HR 3.09 [2.24-4.26], p<0.0001). 심부전 관련 입원을 추적한 2,172명 중 83명(4%)이 입원했으며, AI가 심장 아밀로이드증을 예측한 환자군은 더 높은 입원 위험을 보였다(조정 HR 2.79 [1.56-4.98], p=0.0005).

MS-SSIM 0.89: 개인정보 보호와 데이터 품질을 동시에 달성

생성된 합성 영상의 프라이버시 보장을 위해 실시한 이미지 유사성 분석에서, 가장 유사한 영상 쌍도 평균 제곱 오차 144, 평균 절대 오차 4, 다중스케일 구조적 유사성 지수 0.89를 기록했다. 이는 합성 영상이 실제 환자 데이터의 단순 복제가 아닌 새로운 데이터임을 입증한다.

1024x256 해상도 유지: 임상 적용을 위한 기술적 혁신

이전 연구들과 달리, 이번 연구는 1024x256 픽셀의 원본 해상도를 그대로 유지하며 합성 영상을 생성했다. 이는 실제 임상 환경에서 요구되는 고해상도 이미지의 품질을 보장하는 중요한 기술적 진보다.

의료 AI 발전의 현실적 과제들

관련기사

연구진은 이번 연구의 한계점도 명확히 했다. 첫째, 후면 촬영 영상을 제외하고 전면 촬영 영상만을 사용한 점은 특정 병변을 놓칠 수 있는 한계로 지적됐다. 둘째, Champalimaud 재단의 경우 다른 센터들과 다른 주석 처리 프로토콜을 사용했다는 점도 성능 결과에 영향을 미쳤을 수 있다. 또한 비엔나 종합병원의 데이터를 사용한 생성 모델이 같은 병원의 새로운 데이터(코호트 D)에 대해 테스트된 점은 해당 결과를 다른 외부 검증 결과들보다 신중하게 해석해야 함을 시사한다. 연구진은 합성 데이터가 실제 임상 데이터를 완전히 대체할 수 없으며, 특히 배액관, 튜브, 카테터 등이 포함된 복잡한 케이스에서는 제한적일 수 있다고 강조했다. 의료 기술과 프로토콜의 지속적인 변화를 고려할 때, 생성 모델의 정기적인 업데이트도 필수적이다.

■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니>다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)