[현장] 구글 제미나이, AI 의대생으로 재탄생…"상용화는 아직"

메드-제미나이, 의료 현장 적용 가능성 논의…"데이터 학습·피드백 더 필요"

컴퓨팅입력 :2024/08/27 16:14    수정: 2024/08/27 22:58

구글의 의료 생성형 인공지능(AI) '메드-제미나이'가 높은 의료 지식을 갖췄지만 특화 솔루션으로 자리 잡으려면 멀었다는 평가가 나왔다. 그동안 구글이 '제미나이'로 공개한 애플리케이션에 잇따른 환각 사례가 끊이지 않고, 메드-제미나이 사용 테스트 결과가 상용화 수준까지 올라오지 않아서다.

27일 구글리서치 로리 필그림 소프트웨어(SW) 엔지니어는 서울 포시즌스호텔에서 열린 '리서치앳코리아'에서 메드-제미나이 기능을 소개했다. 메드-제미나이는 올해 5월 출시됐다. 의료 정보 요약부터 의사 의뢰서 작성, 진단 보고서 작성, 어려운 의학 지식 쉽게 풀어쓰기 기능 등을 갖췄다. 

메드-제미나이는 의료 태스크에 맞게 미세 조정된 제미나이 제품군이다. 의대생 시험 유형 문제로 구성된 메드QA-USMLE 벤치마크에서 오픈AI의 GPT-4를 비롯한 AI 시스템의 성능을 앞지른 것으로 전해졌다.

구글리서치 로리 필그림 소프트웨어(SW) 엔지니어는 서울 포시즌스호텔에서 열린 '리서치앳코리아'에서 메드-제미나이 기능을 소개했다.

필그림 SW엔지니어는 최근 제미나이 1.5 프로를 통해 메드-제미나이 성능을 올렸다고 했다. 심전도 신호를 비롯한 수술 영상, 이미지 등을 인식하도록 훈련했다고 했다. 특히 영상이나 유전체학 분야를 중점적으로 학습한 상태다.

필그림 엔지니어는 "의료용 AI는 여러 초음파 등 이미지를 영상, 텍스트와 함께 해석할 수 있어야 한다"며 "기간별, 시간별로 이미지 및 영상 시퀀스가 어떻게 변화하는지 알 수 있어야 한다"며 훈련 이유를 밝혔다. 

필그림 엔지니어는 메드-제미나이 성능도 높였다고 말했다. 특히 AI가 의료 영상을 기간별, 시간별로 이미지 시퀀스를 추측·이해할 수 있는지 훈련했다고 했다. 메드-제미나이가 사람 신체나 장기에 생기는 공간적 변화를 정확히 확인할 수 있어야 해서다.  

필그림 엔지니어는 게놈 유전체학 데이터도 메드-제미나이에 학습시켰다고 했다. 이때 구글리서치는 해당 데이터를 제미나이가 이해할 수 있는 영상 정보로 변형하는 과정을 거쳤다. 이후 제미나이 1.5 프로로 사전 트레이닝을 수행했다.  

최근 구글은 메드-제미나이의 실제 의료 현장 적용 가능성을 평가했다. 필그림 엔지니어는 "메드-제미나이가 의료 영상을 분석하고 보고서 작성을 어느 수준으로 했는지 블라인드 테스트를 진행했다고" 밝혔다. 

테스트는 방사선과에서 진행됐다. 심사진이 인간 의사의 보고서와 메드-제미나이의 보고서를 블라인드로 비교하는 식이다. 심사진 중 72%가 메드-제미나이 보고서가 인간 의료진이 작성한 보고서와 수준이 비슷하거나 더 높다고 응답한 것으로 전해졌다. 생성형 AI가 방사선 영상을 보고 작성한 진단 및 치료법 보고서 품질이 인간 의사보다 비슷하거나 더 낫다는 의미다. 엑스레이 부문에서는 해당 수치를 50%대 기록한 것으로 전해졌다. 

"메드-제미나이 개선점 필요꾸준히 보완할 것"

필그림 엔지니어는 메드-제미나이에 개선할 부분이 남았다고 인정했다. 여전히 더 많은 데이터가 필요하고 다양한 방식으로 개발자와 의료진 피드백을 받아야 해서다.

필그림 엔지니어는 메드-제미나이에 개선할 부분이 남아있다는 점을 인정했다.

메드-제미나이와 의료진 보고서 대상으로 진행한 블라인드 테스트 결과치도 이에 대한 근거다. 심사진 중 72%만 메드-제미나이 보고서가 인간 의료진보다 더 낫거나 비슷하다고 평했다. 일각에서는 메드-제미나이가 사람 건강을 다루는 만큼 기능 수치를 끌어올릴 필요성이 있다는 분위기다.

최근 구글이 내놓은 제미나이 기반 서비스에 발생하는 잇따른 환각현상도 문제다. 제미나이를 적용한 검색서비스 'AI 오버뷰'는 출시 초기 사용자 질문에 틀린 답변이나 문맥을 벗어난 응답을 하는 등 환각현상을 보였다. 구글은 이를 인정하고 검색어 제한 및 소셜미디어 레딧 등 웹사이트 이용자가 생성한 콘텐츠를 답변 출처로 사용하지 않도록 했다.

관련기사

이에 필그림 엔지니어는 "앞으로 더 많은 의료 데이터가 필요하고 다양한 방식으로 사용 피드백을 받을 필요가 있다"고 말했다. 그러면서 "첫 테스트에서 70%대 반응을 얻은 건 상당히 고무적"이라며 "미래 의료산업에서 생성형 AI가 3D와 텍스트를 동시에 해석함으로써 질병 치료를 현재보다 정확하고 신속하게 할 것으로 기대한다"고 강조했다.

이 외에도 구글리서치 라이자 마틴 프로덕트 매니저는 제미나이로 개발된 업무용 AI 툴 '노트북LM'을 소개했다. 리지 도프만 그룹프로덕트 매니저는 뇌 재구성 과정과 데이터셋 등 뉴론 연구 프로젝트 '커넥토믹스'를 설명했다.