"응급실 진단, AI가 의사 앞섰다"…하버드 연구 결과

인공지능(AI)이 실제 응급실 사례에서 인간 의사보다 더 정확한 진단을 내렸다는 연구 결과가 발표돼 주목된다.

테크크런치 등 외신은 하버드 의과대학과 베스 이스라엘 디코니스 메디컬센터 공동 연구진이 진행한 연구가 국제 학술지 사이언스에 게재됐다고 최근 보도했다.

연구진은 오픈AI의 추론 특화 AI 모델 ‘o1’과 ‘4o’의 진단 능력을 평가하기 위해 실제 응급실 환자 사례를 활용했다. 실험에서는 응급실을 찾은 환자 76명을 대상으로, 내과 전문의 두 명의 진단과 AI 모델의 진단을 비교했으며, 또 다른 전문의들이 블라인드 방식으로 이를 평가했다.

그 결과 o1 모델은 각 진단 단계에서 인간 의사와 GPT-4o 기반 모델을 상대로 동등하거나 더 우수한 성과를 보였다. 특히 환자 정보가 제한적인 초기 응급실 분류 단계에서 강점을 드러냈다. 연구진에 따르면 o1은 해당 단계에서 약 67%의 정확도를 기록해, 각각 55%와 50%를 기록한 인간 의사보다 높은 수치를 나타냈다.

치료 방향을 결정하는 환자 관리 평가에서도 격차는 컸다. o1 모델은 평균 89점을 기록한 반면, 의사들의 평균 점수는 34점에 그쳤다. 또한 의사가 AI의 도움을 받아도 점수는 크게 개선되지 않은 것으로 나타났다.

연구진은 이번 실험에서 별도의 데이터 전처리 없이 실제 전자 의료 기록과 동일한 정보를 AI에 제공했다고 강조했다.

다만 연구진은 이러한 결과가 AI가 실제 임상 환경에서 독립적으로 판단을 내릴 준비가 됐다는 의미는 아니라고 선을 그었다. 향후 실제 환자 치료 환경에서의 검증을 위한 전향적 임상시험이 필요하다고 밝혔다.

또한 이번 연구는 텍스트 기반 정보에 한정된 평가라는 점도 한계로 지적됐다. 연구진은 현재 AI 모델이 영상이나 신체 검사 등 비텍스트 정보에 대한 추론 능력은 상대적으로 제한적이라고 설명했다.

"응급실 진단, AI가 의사 앞섰다"…하버드 연구 결과

관련기사

지금 뜨는 기사

이시각 헤드라인

전문가 6인이 쓴 K-피지컬 AI 성적표…"정책 방향은 'A', 실행은 빠르게"

"국가AI컴퓨팅센터 GPU, B200 확정 아냐…최신 AI 반도체 도입"

"배터리 0%까지 써야 오래 간다?"...스마트폰 충전 오해 5가지

국가대표 AI 2차 선발 돌입…4개 팀, 이달 3팀으로

ZDNet Power Center