천정희 교수, 유전체 분석 보안경진 대회서 우승

인공지능 기술 발전으로 인간 유전자 정보를 데이터로 만들어 기계학습에 적용하면 획기적인 의학 발전과 치료제 개발이 가능할 것으로 기대를 모으고 있다. 하지만 현실에서는 환자의 개인정보 보호 문제로 유전자 빅데이터를 확보하는 길이 막혀 있다.

환자 개인정보를 암호화해 보호하면서 필요한 유전정보만 골라서 분석하는 AI 기술이 있다면 어떨까? 암호 상태에서도 데이터 연산이 가능하도록 하는 4세대 암호기술 ‘동형암호(Homomorphic Encryption)’를 활용하면 가능하다.

서울대 AI연구원(원장 장병탁)은 올해 열린 iDASH의 국제 유전체 정보분석 보안경진대회(Secure Genome Analysis Competition)에서 천정희 교수팀이 ‘혜안’을 활용해 우승했을 뿐 아니라 알리바바를 포함해 우승 과 준우승 팀 6개 중 4개 팀이 혜안 알고리즘을 사용했다고 31일 밝혔다.

iDASH(Integrating Data for Analysis, Anonymization and SHaring)는 미국 국립보건원(NIH) 후원으로 시작한 세계 유일의 유전체 정보분석 보안경진대회다. 암호학적 기술을 정보분석에 적용하는 능력을 겨룬다. 올해는 21개국 100여 팀이 참석했다. 8월에 발표한 문제에 대해 3개월 후 솔루션을 제출한 팀 중 우승자를 가리는 방식으로 진행됐다. 동형암호 대회는 예일대학과 알리바바를 포함해 36개 팀이 참석한 가운데 천정희 교수팀과 삼성SDS 등 4팀이 공동 우승을 차지했다.

대회 심사를 맡았던 김미란 UNIST 교수(대회 당시 텍사스 주립대학교수)는 “동형암호화된 데이터의 머신러닝 분야에서 현재로서는 혜안이 최적의 암호로 보인다"고 전했다.

올해 대회는 동형암호를 이용해 환자들의 유전정보와 암 데이터를 분석해 환자가 걸린 암의 종류를 예측하는 모델을 만드는 과제가 주어졌다. 데이터를 분석하는 과정에서 반드시 개인정보를 암호화해야 하기 때문에 동형암호를 효율적으로 구현한 팀이 높은 점수를 받았다.

데이터를 분석하는 데 필요한 복잡한 연산을 동형암호가 이해할 수 있는 덧셈과 곱셈으로 빠르게 변경할 수 있는지가 성공의 관건이었다. 대부분 팀이 선형회귀모델을 이용해 0.96대 AUC(Area Under Curve, 1에 가까울수록 모델의 성능이 우수함)를 얻은 것과 달리 천정희 교수팀은 인공신경망 모델을 이용해 0.98이라는 가장 높은 AUC 값을 기록했다.

동형암호 기술을 인공신경망 모델에 적용하기 위해서는 활성화 함수로 지수함수와 나눗셈을 이용하는 소프트맥스 함수를 계산해야 하는 어려움이 있는데, 이를 반복적인 다항식 연산으로 표현, 근사하는 방법을 이용해 성공적으로 계산해냈다. 그 결과, 천 교수팀은 제한 시간 5분을 모두 활용해 유일하게 0.98대 AUC를 기록, 차별화한 성과를 거뒀다.