인공지능(AI)이 실제 응급실 사례에서 인간 의사보다 더 정확한 진단을 내렸다는 연구 결과가 발표돼 주목된다.
테크크런치 등 외신은 하버드 의과대학과 베스 이스라엘 디코니스 메디컬센터 공동 연구진이 진행한 연구가 국제 학술지 사이언스에 게재됐다고 최근 보도했다.
연구진은 오픈AI의 추론 특화 AI 모델 ‘o1’과 ‘4o’의 진단 능력을 평가하기 위해 실제 응급실 환자 사례를 활용했다. 실험에서는 응급실을 찾은 환자 76명을 대상으로, 내과 전문의 두 명의 진단과 AI 모델의 진단을 비교했으며, 또 다른 전문의들이 블라인드 방식으로 이를 평가했다.
그 결과 o1 모델은 각 진단 단계에서 인간 의사와 GPT-4o 기반 모델을 상대로 동등하거나 더 우수한 성과를 보였다. 특히 환자 정보가 제한적인 초기 응급실 분류 단계에서 강점을 드러냈다. 연구진에 따르면 o1은 해당 단계에서 약 67%의 정확도를 기록해, 각각 55%와 50%를 기록한 인간 의사보다 높은 수치를 나타냈다.
치료 방향을 결정하는 환자 관리 평가에서도 격차는 컸다. o1 모델은 평균 89점을 기록한 반면, 의사들의 평균 점수는 34점에 그쳤다. 또한 의사가 AI의 도움을 받아도 점수는 크게 개선되지 않은 것으로 나타났다.
연구진은 이번 실험에서 별도의 데이터 전처리 없이 실제 전자 의료 기록과 동일한 정보를 AI에 제공했다고 강조했다.
다만 연구진은 이러한 결과가 AI가 실제 임상 환경에서 독립적으로 판단을 내릴 준비가 됐다는 의미는 아니라고 선을 그었다. 향후 실제 환자 치료 환경에서의 검증을 위한 전향적 임상시험이 필요하다고 밝혔다.
또한 이번 연구는 텍스트 기반 정보에 한정된 평가라는 점도 한계로 지적됐다. 연구진은 현재 AI 모델이 영상이나 신체 검사 등 비텍스트 정보에 대한 추론 능력은 상대적으로 제한적이라고 설명했다.
관련기사
- [AI는 지금] AI가 일자리 뺏는다더니…의사·변호사 몸값 더 뛰었다, 왜?2026.04.14
- 내년부터 5년간 매년 ‘668명’ 지역의사 뽑는다2026.02.10
- "AI 때문에 실직하면 월 150만원"…美서 첫 시범 운영2026.03.26
- 게임산업은 AI 열풍 최대 피해자…근거는2026.03.17
전문가들은 이에 신중한 접근이 필요하다고 강조했다. 연구 공동 저자인 아르준 만라이는 “AI 모델이 다양한 기준에서 기존 성능을 능가했다”고 평가했지만, 가디언과의 인터뷰에서 “현재로서는 책임 소재를 명확히 할 수 있는 제도적 틀이 부족하다”고 지적했다.
또 다른 응급의학과 의사 크리스틴 판타가니는 이번 연구가 내과 의사와 AI를 비교한 점을 언급하며 “실제 응급의학 전문의와의 비교가 필요하다”고 비판했다. 이어 “응급실에서 가장 중요한 것은 최종 진단이 아니라 생명을 위협하는 상태를 신속히 판단하는 것”이라고 강조했다.











