"전세계 수백개 AI모델 코로나에 무용 지물"

테크놀로지리뷰 보도...네덜란드와 영국 연구 결과 소개

컴퓨팅입력 :2021/08/01 11:13    수정: 2021/08/01 16:26

팬데믹으로 자리잡은 코로나19(Covid) 바이러스를 탐지하기 위해 개발된 수백 개 AI 알고리즘(도구)이 대부분 임상에서 무용지물이였다는 외신 보도가 나왔다. 부적합한 데이터를 사용했기 때문이다.

MIT가 발행하는 기술전문지 테크놀로지리뷰는 7월 30일자로 "오리지널이 아닌 짜집기한 괴물(Frankenstein) 데이터를 사용한 탓에 최근 전세계서 개발 수백개 AI모델들이 임상에서 실제 효과를 보지 못했고 오히려 환자들에게 더 위험할 수 있다"는 요지의 기사를 게재했다.

테크놀로지리뷰는 코로나19와 관련한 수백개 AI 논문을 검토한 네덜란드와 영국의 저명한 두 연구팀의 연구 결과를 소개하며 이 같은 요지를 실었다.

네덜란드에 있는 마스트리히트 대학의 전염병학자 로어 와이넌츠(Laure Wynants)와 그의 동료들은 작년에 개발된 232개 AI 알고리즘들을 검토했다. 모두 코로나19를 보다 잘 진단하기 위해 개발된 AI모델들이다. 검토 결과 232개 중 단 2개 AI알고리즘만 쓸만했고 나머지는 모두 임상에 적합하지 않다는 결론을 내렸다. 이 같은 결과는 지난해 하반기 '브리티시 메디컬 저널'에 실렸다. 와이넌츠는 "충격적인 결과"였다면서 "걱정으로 연구를 시작했지만 내 두려움을 뛰어넘었다"고 토로했다.

와이넌츠와 그의 동료들이 조사한 결과는 데릭 드릭스(Derek Driggs)가 수행한 연구와도 일치한다. 케임브리지 대학의 기계학습(머신러닝) 연구원인 데릭과 그의 동료들 역시 코노라19와 관련된 415개 AI 알고리즘을 검토했다. 특히 데릭은 코로나19 진단 모델 중 가슴 엑스레이 및 흉부 컴퓨터 단층 촬영 (CT) 검사와 같은 의료 이미지로 환자를 예측하는 AI에 집중해 조사 했다. 데릭은 "415개 AI툴 중 임상 실험에 적합한 건 거의 없다는 결론을 내렸다"고 말했다. 데릭과 그의 동료가 검토한 논문은 지난해 '네이처 머신 인텔리전스(Nature Machine Intelligence)'에 게재됐다.

데릭은 팬데믹 기간 중 의사를 도와 머신러닝 툴을 직접 개발하기도 했다. 그는 "코로나19는 AI와 의학 발전을 위한 하나의 큰 테스트에 불과했다"면서 "팬데믹이 벌어지는 긴 시간 동안 노력을 했지만 우리가 그 시험을 통과했다고 생각하지 않는다"며 수백개 AI툴이 코로나19 환자를 진단하는데 실패했음을 털어놨다.

데릭은 "머신러닝 모델에 많은 하이프(hype, 과장 광고 및 거품을 의미)가 있다. 우리가 검토한 수백개 AI모델 중 극히 일부 알고리즘만 병원에서 사용하고 있다. 상당수는 마케팅 용어로 사용되고 있다"면서 "비현실적인 기대는 준비도 안된 많은 AI툴의 사용을 부추긴다. 이들이 오히려 환자들을 해칠까 걱정된다"고 우려했다.

하지만 웨이넌츠 와 드릭은 여전히 AI가 전염병 퇴치에 도움이 된다는 걸 믿고 있다. 문제는 잘못된 방법, 즉 부정확한 데이터를 기반으로 한 AI모델이다. 이는 비환자를 환자로 진단하거나 치명적 환자를 과소 평가하는 등 오히려 더 해롭기 때문이다.

드릭은 "AI연구자들이 똑같은 기본 실수를 범하고 있다. AI툴을 훈련하고 테스트하는데 부정확한 데이터를 쓴다"고 말했다. 

실제, AI는 데이터를 먹고 산다. 쓰레기를 넣으면 쓰레기가 나온다. 코로나19 진단에 돕는 수백개 AI모델이 개발됐지만 대부분 무용지물이 된 건 결국 잘못된 데이터를 사용했기 때문이다. 데릭은 "팬더믹은 AI커뮤니티가 오랫동안 질질 끌고 온 문제를 전면에 노출 시켰다"면서 "이번 팬더믹으로 명확해졌다. AI툴을 만드는 많은 연구원들이 변해야 한다는 거다"고 진단했다.

실제, 이번에 발견된 AI 문제의 대부분은 AI연구원들이 툴 개발에 사용한 조악한 데이터 때문이다. 글로벌 팬더믹 기간 중 관련된 대부부의 의료 데이터는 의사들이 갖고 있었고, 단지 AI연구원들은 이들을 신속히 돕고 싶었다. 하지만 AI연구원들이 사용할 수 있는 데이터는 라벨링 등 품질면에서 문제가 있는 공개된 데이터셋이 유일했다.

데릭은 "오리지널 데이터를 여러 곳에서 사용하면서 진흙이 묻었고, AI연구원들이 진흙 묻은 데이터를 사용하면서 정확한 예측에 중요한 피처(함수)를 놓치는 경우가 많았다"며 이 같은 데이터 문제를 '프랑켄슈타인(Frankenstein) 데이터 셋' 문제라고 명명했다.

그럼 해결 방법은 없을까? 데릭은 AI연구원과 의료진간 협업과 AI모델의 학습 방법 공개가 답이라고 제시했다. 의학적 전문성이 없는 AI연구원과 수학적 지식이 없는 의료 연구원들이 각자 AI모델을 만들다보니 부정확한 AI모델들이 개발되기 때문이다. 데릭은 "AI연구원들이 모델을 어떻게 학습했는 지 공유해야 한다. 그래서 다른 AI연구원들이 이를 기반으로 테스트하고 개발할 수 있게 해야 한다. AI연구원과 의료진간 협업과 AI모델 공개, 이 두 가지가 현재 우리가 할 수 있는 유일한 방법으로 이 두 가지만 돼도 우리가 발견한 AI모델들의 문제를 50% 정도 줄일 수 있을 것"이라고 진단했다.

일부는 데이터 표준화도 지적했다. 런던소재 비영리 글로벌헬스연구소인 웰컴 트러스트(Wellcome Trust)에서 임상기술팀을 이끌고 있는 빌럴 마틴(Bilal Mateen)은 "AI데이터 포맷이 표준화되면 데이터 얻는 게 더 쉽다"고 말했다.

관련기사

의료AI기업 대표 A 씨는 "코비드를 위해 개발되고 허가를 받은 제품은 거의 없다"면서 "(글로벌하게) 다른 목적으로 개발했다 도움이 안된 것도 사실"이라고 말했다.

창업 경험이 있고 성균관대 AI대학원에서 박사 과정을 밟고 있는 김성민 씨는 "AI의 한계는 데이터다. 절대적으로 데이터 의존적이여서 어떤 데이터를 어떻게 활용하는냐에 따라 결과가 달라진다"면서 "데이터가 임상과 동떨어져 있기 때문에 임상에 활용할 수 없는 모델이 나올 수 밖에 없다"고 밝혔다. 그는 "AI에서 데이터는 iid(independent and identically distributed)라 불리며 iid 데이터셋이 있어야 정상적인 모델이 나온다. 하지만 임상에서 동떨어진 데이터가 있고, 더구나 중복 데이터가 있기 때문에 iid 데이터가 아닌 괴물 데이터가 된 것"이라면서 "딥러닝 기반의 AI기술은 기본적으로 데이터 품질 한계를 뛰어 넘기 어렵다"고 밝혔다.