연구 참여 환자 78.5%, 의사보다 챗GPT-4 답변 선호
호주 CSIRO's Data61과 모나쉬 대학교의 공동 연구에 따르면, 챗GPT-4는 의학 라이선스 시험(USMLE)과 의학 지식 자가평가 프로그램(MKSAP) 등 의료 벤치마크에서 높은 성과를 보였다. 특히 근시 관련 질문에서는 80.6%의 정확도를 보여주며 이전 버전인 GPT-3.5(61.3%)와 구글 바드(54.8%)를 크게 앞섰다. (☞ 논문 바로 가기)
흥미로운 점은 환자들이 의사보다 챗GPT의 답변을 더 선호하는 경향을 보였는데, 환자 설문에서 챗GPT의 응답은 78.5%가 '좋음' 또는 '매우 좋음'으로 평가받은 반면, 의사의 응답은 22.1%에 그쳤다.
당뇨병 자가관리 상담에서 드러난 AI의 주요 문제점, 개인화 진단 역량 부족
연구팀이 발견한 주요 문제점은 다양했다. 챗GPT는 혈당 수치 단위를 자동으로 mg/dL로 가정하는 등 맥락을 고려하지 않은 채 답변했으며, 개인의 인슐린 투여 방식이나 식단 특성을 고려하지 않은 일반적인 조언을 제공했다.
특히 '혈당이 25'라는 동일한 질문에 대해 챗GPT-4는 극도로 낮은 수치로, 챗GPT-4o와 챗GPT-4o-mini는 극도로 높은 수치로 각각 다르게 해석하는 등 일관성 없는 답변을 보였다. 또한 발한과 떨림 증상이 있는 환자의 혈당이 5mmol/L일 때, 이를 가성 저혈당이 아닌 저혈당 무감지증으로 잘못 진단하는 사례도 발견됐다.
AI 의료상담의 현재 성과? ‘의료 문서 작성’과 ‘교육’ 분야 두각
연구에 따르면 챗GPT는 방사선 검사 보고서 해석과 의학 교육에서 긍정적인 성과를 보였다. 의료 전문가들은 챗GPT가 단순화한 방사선 보고서에 대해 5점 만점에 평균 4.27점을 부여했으며, 정보 누락은 보고서당 평균 0.08건, 부정확한 정보는 0.07건에 불과했다. 또한 전자건강기록(EHR) 해석에서도 자연어 추론에서 9.6%, 의료 질의응답에서 9.5%의 정확도 향상을 보였다.
의료 AI의 미래: RAG 기술로 정확도 높인다
연구진은 AI의 의료상담 정확도를 높이기 위해 Retrieval Augmented Generation(RAG) 기술 도입을 제안했다. RAG는 미국 국립보건원(NIH)이나 질병통제예방센터(CDC) 같은 신뢰할 수 있는 외부 데이터베이스와 AI 모델을 연결해 최신 의료 정보를 반영할 수 있게 한다. 이를 통해 환자 개개인의 건강 프로필과 최신 의료 기준에 부합하는 실시간 데이터 기반의 조언이 가능해질 것으로 기대된다.
AI 의료상담의 한계?
서구 중심적 식단 제안과 영어 외 언어 지원 미흡
연구는 AI 의료상담이 서구 중심적 식단을 제안하거나 영어 외 언어 지원이 미흡한 점을 지적했다. 예를 들어, 통밀 잉글리시 머핀이나 아몬드 버터 같은 서구적 식단을 제안하는데, 이는 파키스탄과 같은 국가의 사회경제적 조건이나 식문화와 맞지 않는다. 또한 구독형 모델인 챗GPT-4는 경제적 약자들의 의료정보 접근성을 제한할 수 있다는 우려도 제기됐다. 연구진은 이러한 격차를 줄이기 위한 노력이 필요하다고 강조했다.
GPT-4의 당뇨병 교육 활용은 ‘인슐린 펜을 보관하는 방법’ 안내 수준
챗GPT는 단순한 정보 제공을 넘어 당뇨병 교육에서 활용될 수 있는 잠재력을 지니고 있다. 특히, GPT-4는 환자들의 일상적인 당뇨병 관리, 식단 조절, 운동 계획과 관련하여 가독성이 높은 설명과 유용한 지침을 제공하는 데 적합하다.
연구에서는 GPT-4가 인슐린 주사법, 저장 방법, 및 운동 계획과 관련된 세부 정보를 명확히 제공하는 사례를 언급했다. 예를 들어, "인슐린 펜을 보관하는 방법"에 대한 질문에서 GPT-4는 실온에서의 보관 가능성과 각 인슐린 유형별로 상이한 보관 지침을 상세히 설명했다. 그러나 모델이 제공한 일부 정보는 지역적 환경이나 구체적인 환자 요구를 완전히 반영하지 못했으며, 이는 의료 전문가와 협업이 필요한 부분으로 남아 있다.
신뢰를 위해서는 인간 전문가의 감독 필수적
챗GPT의 의료 상담 역량을 강화하기 위해 연구진은 여러 전략을 제안했다. 가장 중요한 전략 중 하나는 Retrieval Augmented Generation(RAG) 기법의 활용이다. RAG는 GPT-4가 실시간으로 최신 의료 데이터를 검색하고 통합할 수 있도록 해, 더 정확하고 신뢰할 수 있는 정보를 제공할 수 있게 한다. 이 방법은 환자와 의사 간의 정보 격차를 줄이는 데 큰 도움을 줄 수 있다.
관련기사
- 인공지능도 코미디 가능할까…AI 코미디언 도전기2025.01.31
- 中 딥시크, 오픈AI 못잖네…美 수출 통제 실효성 논란2025.01.30
- 챗GPT 유·무료 버전 비교했더니…월 2만원 차이가 만드는 성적 차이2025.01.29
- "교수님 보다 AI한테 먼저 물어봐요"...대학에 부는 생성형 AI 바람2025.01.29
또한 AI가 보다 신뢰할 수 있는 도구가 되기 위해서는 인간 전문가의 검토와 감독이 필수적이다. 특히, 고위험 상황에서 AI가 제공하는 모든 정보는 전문가의 검토를 거쳐야 하며, 모델이 의사결정을 독점적으로 수행하는 것을 방지해야 한다는 점이 강조되었다.
■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT-4o를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)