"당뇨병성 망막증 진단…AI, 의사 수준 됐다"

구글 "AI 진단 능력 입증…임상실험 검증 필요 단계"

인터넷입력 :2017/04/27 16:18    수정: 2017/04/27 16:19

손경호 기자

하루에도 수많은 환자들의 사진을 보고 암이나 기타 질병 여부를 판단해야하는 의사들의 수고를 덜어주는 인공지능(AI) 기술이 지난 몇 개월 새 눈에 띄는 성과를 거뒀다.

수많은 환자들의 사진을 학습한 인공신경망 알고리즘이 오랫동안 이 분야에 종사해 온 전문가 수준의 판별력을 갖출 수 있게 됐기 때문이다.

27일 서울 역삼동 구글코리아에서 진행된 구글AI포럼은 '딥러닝 기술을 활용한 질병 조기 발견'이라는 주제로 그동안 구글 리서치 의학영상팀의 연구성과를 공유했다.

사람의 조직샘플을 확대한 모습. 구글은 인공신경망을 활용해 암 세포를 분간해내는 기술을 전문가 수준으로 끌어올리는데 성공했다.(사진=구글리서치 블로그)

이날 화상세미나에서 구글 리서치 의학 영상팀 릴리 펭 프로덕트 매니저는 "지금까지 연구에서 딥러닝이 의사를 위한 보조수단으로 유망할 것이라는 사실을 입증했다"며 "이제는 임상실험을 통한 검증이 필요한 단계"라고 밝혔다.

■당뇨병성 망막증 진단, AI가 의사 수준

릴리 펭 매니저는 당뇨병성 망막증, 암 조기 발견 분야에서 딥러닝을 적용했을 때 어떤 성과를 낼 수 있는지 공개했다.

당뇨병성 망막증은 전 세계 4억1천500만명의 당뇨병 환자들에게 발병할 수 있는 위험한 질병이다. 조기에 발견해 치료하면 다행이지만 그렇지 못하면 실명까지 갈 수도 있다. 그럼에도 불구하고 관련 의료 전문가는 부족한 실정이다.

펭 매니저가 참여한 연구팀은 이런 문제를 해결하기 위해 환자들의 안구 뒤쪽인 '안저'를 촬영한 12만8천175개 고화질 사진을 심층 인공신경망(deep convolution neural network)에 학습시켰다. 이 사진들은 미국에서 전문자격증을 보유한 안과의사, 안과학 전공 레지던트 등을 포함해 54명의 전문가들이 당뇨병성 망막증이라고 판단한 결과물이다.

학습을 거친 인공신경망을 대상으로 1만2천개 다른 사진에 대해 질병 여부를 판단하도록 한 뒤, 그 결과를 8명으로 구성된 의사들이 다수결로 판단한 결과와 비교해 보도록 했다.

그 결과 9천963개 사진에 대해 의사들이 판단한 것과 인공신경망의 판단이 거의 일치한다는 결과가 나왔다.

사진을 보고 당뇨병성 망막증 여부를 판단하는데 필요한 민감도(sensitivity), 특이도(specificity)를 고려한 F스코어(최대값이 1)가 의사 8명 평균인 0.91보다 약간 높은 0.95를 기록했다.

■인공신경망, 암 초기 진단 수고 던다

또 다른 흥미로운 결과는 암을 발견하는 과정에서도 인공신경망이 눈에 띄는 성과를 거뒀다는 점이다.

일반적으로 암 진단을 위해서는 환자의 조직 샘플을 검사한 뒤 작성된 병리 보고서가 필요하다. 이 과정에서 병리학자의 진단은 이후 환자 치료의 방향을 결정하는 중요한 과정이다. 때문에 조직 샘플 슬라이드 검사는 오랫동안 내공을 쌓아온 전문가들의 영역이었다.

그럼에도 불구하고 병리학자들의 진단이 엇갈리는 경우가 생긴다. 유방암은 여러 병리학자들의 진단이 실제와 일치하는 비율이 48%에 그친다. 전립선암도 비슷한 수준이다.

환자 조직 샘플을 분석한 슬라이드를 보고 이러한 과정을 판단해야하는 탓이다. 환자의 슬라이드가 여러 장이거나 각 슬라이드를 40배 배율로 디지털화하면 10기가픽셀에 달한다. 다시 말해 보다 면밀한 분석을 위해서는 병리학자들이 10메가픽셀 사진 1천장을 봐야한다는 뜻이나 마찬가지다.

이를 보완하기 위해 펭 매니저가 참여한 연구팀은 인공신경망에 네덜란드 라드바우드대 의료센터에서 제공한 림프절 이미지들을 학습시켰다. 이러한 데이터는 IEEE 바이오의료 이미징 분야 국제 심포지엄(ISBI)가 지난해 주최한 카멜리온16이라는 의료용 림프절 이미지 분석 자동화 경연대회에서 제공된 것이다.

이 인공신경망은 유방 근처 림프절로 전이된 유방암의 위치추정에 필요한 알고리즘을 학습했다. 그 뒤 병리학자가 하는 것처럼 환자 조직샘플 슬라이드를 여러 배율에서 검사하도록 추가적으로 학습시키는 과정을 거쳤다.

그 결과 암의 정확한 위치를 추정한 정도를 나타내는 점수(FROC)가 89%를 달성했다. 인간 병리학자에게 시간제한을 두지 않고 분석을 수행하라고 했을 때는 이 점수가 73%다.

그러나 이런 결과만으로 의료 분야에서 AI가 인간보다 낫다고 단정하기는 어렵다. 펭 매니저에 따르면 인공신경망은 92% 민감도로 암 여부를 분석해냈지만 슬라이드 하나 당 8개 정도는 정상세포까지 종양으로 판단하는 허위 양성 진단을 내렸다. 반면 병리학자들은 민감도는 73% 수준이지만 허위 양성 진단은 0건이었다.

때문에 펭 매니저는 인공신경망과 병리학자의 전문성을 함께 활용하면 더 정확한 진단을 내릴 수 있다고 강조했다. AI가 오판한 8개 허위 양성에 대해서만 병리학자가 판단을 내리면 훨씬 효율적으로 더 많은 환자들을 빠르고 정확하게 진단해 치료할 수 있게 된다는 설명이다. 병리학자 혼자서 130장에 달하는 슬라이드를 분석하려면 30시간이 걸리지만 1차 진단에 AI의 도움을 받으면 더 효율적인 분석이 가능해진다.

■머신러닝 오픈플랫폼 '텐서플로' 성과 주목

펭 매니저는 구글이 마련한 머신러닝 오픈플랫폼인 텐서플로가 구글 외부에서도 이 같은 연구를 가속화 시킬 것이라고 전망했다. 기본적인 텐서플로 내에 이미 기본적인 아키텍처나 참고할만한 모델이 존재하는 만큼 적은 시간을 들이고도 테스트를 위한 프로토타입을 만들 수 있다는 것이 첫번째 장점이다.

이에 더해 인공신경망 등 알고리즘을 돌리는데 필요한 GPU 기반 컴퓨팅 자원을 지원해 슈퍼컴퓨터 수준의 컴퓨팅 자원이 필요한 경우에도 손쉽게 알고리즘을 학습시킬 수 있다는 점에 두번째다.

끝으로 펭 매니저는 그동안 아키텍처에서부터 학습시킬 모델을 만드는데 들여야했던 시간들을 없애고 대신 문제점을 찾거나 학습을 거친 알고리즘을 검증하고 실제 적용하는 등 분야에 더 많은 시간과 노력을 집중할 수 있게 된다.

관련기사

그렇다면 이러한 인공신경망 기반 당뇨병성 망막증, 암 진단 기술은 언제쯤 상용화 될 수 있을까?

펭 매니저는 "의료영상 이미지를 처리하는 기술 자체는 상당히 오래된 것"이라며 "기술 자체는 빨리 구현할 수 있다고 하더라도 임상검증이나 FDA 승인 등을 거치는 절차는 줄어들지 않을 것"이라고 말했다. 개발 시간을 제외하면 다른 새로운 의료기기나 장비 등이 상용화되는 일정과 크게 다르지 않다는 설명이다.