의료 AI 개발의 가장 큰 걸림돌 중 하나는 환자 데이터를 구하기 어렵다는 점이다. 개인정보 보호 규정, 병원 간 데이터 공유 제한, 희귀 질환의 절대적인 데이터 부족 등이 맞물려 우수한 알고리즘을 개발하고도 훈련 데이터가 없어 상용화에 실패하는 사례가 반복돼 왔다. 그런데 이 문제를 정면으로 돌파하는 연구가 나왔다. 영국 옥스퍼드대학교(University of Oxford)와 임페리얼 칼리지 런던(Imperial College London), UAE 모하메드 빈 자예드 인공지능대학교(Mohamed bin Zayed University of Artificial Intelligence) 공동 연구팀이 실제 환자 흉부 X선 사진을 전혀 사용하지 않고, AI가 생성한 합성 이미지만으로 폐렴 진단 모델을 훈련시켜 실제 데이터에서 92.3%의 정확도를 달성했다.

합성 X선 사진으로만 훈련한 AI, 실제 데이터에서 92% 달성

연구팀은 구글(Google)의 이미지 생성 AI 모델인 '나노 바나나(Nano Banana)'를 활용해 300장의 흉부 X선(CXR, Chest X-Ray) 합성 이미지를 만들었다. 폐렴 환자와 건강한 사람의 이미지를 각각 생성했으며, 성별, 체형, 나이, 촬영 자세 등을 다양하게 변형해 실제 임상 환경의 다양성을 최대한 반영했다.

이 합성 데이터만으로 훈련된 AI 분류기(classifier, 이미지를 특정 범주로 구분하는 모델)를 실제 환자 데이터셋에 적용한 결과, RSNA(미국방사선학회) 폐렴 탐지 데이터셋(14,863장)에서 AUROC(수신자 조작 특성 곡선 아래 면적, 모델 성능 지표) 0.923을 기록했다. 또 다른 공개 흉부 X선 데이터셋(5,856장)에서는 AUROC 0.824를 달성했다. 두 데이터셋 모두 합성 데이터만으로 훈련했음에도 의미 있는 진단 성능을 보여줬다는 점에서 주목받고 있다.

이미지 후처리가 성능을 가른 결정적 변수

연구 과정에서 예상치 못한 변수가 성능에 큰 영향을 미쳤다. 나노 바나나가 생성한 이미지에는 두 가지 문제가 있었다. 흉부 영역 아래로 필요 없는 부분이 포함돼 있었고, AI가 자동으로 삽입하는 디지털 워터마크(watermark, 이미지에 삽입되는 식별 표시)가 존재했다.

연구팀은 생성된 이미지의 하단 30%를 일괄 잘라내는 후처리를 적용했다. 이 단순한 처리 하나가 성능을 크게 바꿔놓았다. 후처리를 하지 않은 원본 합성 이미지로 훈련한 모델의 AUROC는 RSNA 데이터셋 기준 0.853에 그쳤지만, 후처리된 이미지로 훈련한 모델은 0.923으로 뛰어올랐다. 워터마크와 불필요한 영역이 모델 학습을 방해했던 것이다. 이 결과는 합성 데이터의 품질 관리와 전처리가 모델 성능만큼이나 중요하다는 사실을 시사한다.

기존 전문 의료 AI보다 나은 성능, 그 이유는

연구팀은 나노 바나나 생성 이미지를 흉부 X선 전용으로 설계된 텍스트-이미지 변환 모델인 '뢴트겐-v2(RoentGen-v2)'의 합성 이미지와도 비교했다. 뢴트겐-v2는 의료 영상 특화 모델임에도 불구하고, 후처리된 나노 바나나 이미지로 훈련된 분류기가 두 실제 데이터셋 모두에서 더 나은 성능을 기록했다.

연구팀은 이 결과를 설명하기 위해 그래드캠(Grad-CAM)이라는 시각화 기법을 활용했다. 그래드캠은 AI가 이미지의 어느 부분을 보고 판단을 내렸는지 열지도(heatmap) 형태로 보여주는 도구다. 분석 결과, 나노 바나나 이미지로 훈련된 모델은 폐렴 환자에서는 폐 내 경화(consolidation, 폐포가 액체로 채워진 상태) 부위를, 건강한 환자에서는 심장과 횡격막 경계를 집중적으로 살피는 것으로 나타났다. 이는 실제 영상의학과 의사가 X선을 판독할 때 주목하는 임상적으로 의미 있는 부위와 일치한다.

가능성과 한계, 임상 적용까지 넘어야 할 산

연구팀은 결과가 고무적이라고 평가하면서도 현재 단계의 한계를 명확히 짚었다. 우선 프롬프트(prompt, AI에게 내리는 명령어) 설계만으로는 촬영 각도나 자세의 다양성을 세밀하게 제어하는 데 한계가 있었다. 또한 이번 연구는 폐렴 인식에만 국한됐으며, 다른 질환이나 다양한 의료 영상 분야로의 일반화 가능성은 아직 검증되지 않았다.

무엇보다 합성 데이터만으로는 미국 FDA(식품의약국)나 유럽 CE 인증 등 의료기기 규제 승인을 받기 어렵다는 점도 현실적인 장벽이다. 디지털 워터마크가 지식재산권과 책임 소재에 미치는 영향, AI가 합성 데이터로 훈련된 경우의 법적 책임 프레임워크도 아직 정립되지 않은 상태다. 연구팀은 합성 의료 데이터의 투명하고 책임 있는 활용을 위한 정책과 가이드라인이 기술 발전과 함께 마련돼야 한다고 강조한다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. AI가 만든 가짜 X선 사진으로 진짜 환자를 진단하는 게 가능한가요?이번 연구에서는 AI가 생성한 300장의 합성 흉부 X선 이미지만으로 훈련한 모델이 실제 환자 데이터 약 2만 장에서 최고 92.3%의 정확도(AUROC)를 기록했습니다. 다만 현재는 임상 적용 전 단계로, 규제 승인과 추가 검증이 필요합니다.

Q2. 합성 데이터가 실제 환자 데이터를 대체할 수 있나요?완전한 대체는 아직 어렵습니다. 합성 데이터는 개인정보 문제를 피하면서 AI 훈련에 활용 가능한 보완재로서 가능성을 보여줬습니다. 하지만 현행 의료기기 규제는 실제 임상 데이터를 통한 검증을 요구하고 있어, 합성 데이터만으로 규제 승인을 받는 것은 현재로서는 불가능합니다.

Q3. 이미지를 자르는 후처리가 왜 그렇게 큰 차이를 만드나요?AI가 생성한 이미지에는 진단과 무관한 워터마크나 흉부 외 신체 부위가 포함됩니다. 이 불필요한 정보가 모델 학습을 방해해 성능을 떨어뜨립니다. 하단 30%를 잘라내는 단순한 후처리만으로도 AUROC가 0.853에서 0.923으로 크게 향상됐습니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

관련기사

리포트명: Recognizing Pneumonia in Real-World Chest X-rays with a Classifier Trained with Images Synthetically Generated by Nano Banana

■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)