"AI공유 시대 온다···AI에서도 분업과 대량생산 일어나"

"인공지능(AI)에서도 분업과 대량생산이 일어납니다."

이경전 경희대 교수(경영학&빅데이터응용학과)는 29일 서울디지털재단(이사장 강요식)이 경희대 빅데이터연구센터, IAAE(국제인공지능&윤리협회, 이사장 전창배)와 공동으로 주관해 서울 코엑스 2층에서 개최한 'AI서울 포럼 2022'에서 "데이터 공유가 아니라 AI공유를 해야 한다"며 이 같이 밝혔다.

그는 이날 'AI공유:역사와 전망'을 주제로 기조 강연을 했다. 이 교수는 한국연구재단 중점연구소 빅데이터연구센터 소장과 인공지능&비즈니스모델 연구소장, 하렉스인포텍 사용자중심인공지능(UCAI) 연구소장도 맡고 있다.

이 교수 외에 이정혜 유니스트(UNIST) 경영학부 교수 등이 강연을 했다. 흔히 데이터는 AI 원료라 부르며 AI 못지 않게 중요시하고 있다. 이 교수는 "이렇게 소중한 데이터는 개인이나 기업에게 자산이다. 그렇기 때문에, 개인도 기업도 자신의 데이터를 공개하거나 공유하고 싶어하지 않는다. 개인은 사생활 보호를 위해 그렇고, 기업도 자사의 고객 데이터 공유는 법적으로 어렵고 또 사업적으로도 그래야 할 이유가 없다. 데이터를 공유하라고 압박을 하면 오히려 질 낮은 데이터만 공개될 우려가 있다"면서 "데이터 공유 대신 AI공유(AI Sharing)를 해야한다"고 강조했다.

이경전 경희대 교수가 22일 서울 코엑스 2층에서 열린 'AI서울 포럼 2022'에서 기조 강연을 하고 있다.

그가 말하는 AI공유는 정확히 말하면 AI모델 공유다. AI 공유에 대해 이 교수는 "데이터를 공유하지 않고 각 주체가 소유 및 유지하는 것"이라면서 "대신 인공지능을 상호간에 공유한다. 이렇게 하면 성과를 높이고 비용을 낮출 수 있다. 개인사업자, 소상공인, 중소기업에 이득이 된다"고 설명했다. AI공유는 아직 낮설은 개념인데 이 교수는 "오늘 세계 최초로 한국에서 AI공유 세미나를 열었다"고 역설했다.

그는 AI공유 이전의 AI모델을 세 종류로 분류했다. 그러면서 이들이 각각 문제가 있다고 진단했다. 예컨대 각 회사가 자체 데이터를 가지고 AI를 개발하는 것은 규모가 큰 기업만이 할 수 있어 중소기업과 영세상인은 그림의 떡이므로 AI격차(AI 디바이드)가 발생하고, 독과점적 빅테크 기업의 AI는 종속 문제를 일으키며, 정부 주도 데이터 댐은 데이터 품질에 문제가 있다는 것이다. 반면 "AI시대를 맞아 AI를 잘 만드는 방법론이 AI 공유"라고 재차 강조한 그는 "자기 데이터를 안전히 지키며 계속 고도화하는 AI를 가질 수 있는 것이 AI공유의 장점"이라고 설명했다.

■ 연합학습, 2015년 구글이 처음 제안..."데이터 보호하면서도 잘 활용 가능"

AI공유를 구현해주는 기술이 연합학습(Federated Learning)이다. 2015년 구글이 처음 제안했다. 이 교수는 연합학습이 수학적으로 보면 모델 공유나 파라미터 공유로 "프라이버시와 데이터 공유 두 문제를 한번에 해결할 수 있다. 데이터를 잘 보호하면서도 잘 활용할 수 있는 기술"이라면서 "3개 병원의 데이터를 합치면 더 강력한 모델을 만들 수 있다"고 예시를 들었다. AI공유에 관심이 많은 그는 실제 간단한 뉴럴네트워크를 공유하는 연구를 했고, 파라미터(매개변수)가 15개에 불과한 아주 심플한 CNN을 설계했다고 공개했다.

'AI공유(AI Sharing)'라는 아이디어는 누가 제일 처음 냈을까? 이 교수에 따르면 2016년 MIT테크놀로지뷰에 소개된 논문 'Privacy-Preserving Deep Learning(2015)'을 쓴 레자 쇼크리(Reza Shokri)와 바탈리 쉬마티코브(Vitaly Shmatikov)다. 이 교수는 "두 사람 논문을 보고 깜짝 놀랐다. 10년에 한번 씩 놀라는데 두 사람 논문이 그랬다"면서 "두 사람이 논문을 쓸 당시의 밸류를 뛰어넘는게 AI공유"라고 말했다.

그는 AI공유는 AI를 커뮤니케이션하는 것이라며 "이전에는 AI가 아니라 AI시스템이 서로 커뮤니케이션했는데 여기서는 응용이 크게 나오지 못했다"고 밝혔다. 이어 AI공유를 위한 실 사례로 의료 분야 등을 들며 "한국은 (AI공유가) 많이 뒤떨어져 있다"고 진단했다. 이 교수는 이날 "AI공유 놀라운 사례"라며 AI공유 모델인 'EXAM'을 소개했다.

EXAM은 작년 10월 네이처 메디슨(Nature Medicine)에 보고된 코로나19 관련 최초의 AI 공유 실험이다. 세계 4개 대륙에 존재하는 20개 의료 기관에서 코로나19 환자 데이터를 공유하지 않고 AI공유 방식으로 학습, AI가 더 잘 작동하는 등 훨씬 더 좋은 결과를 얻었다는 것이다. 그는 "많이 안 알려져 있는데, 이 논문을 보고 눈물을 흘렸다. AI를 시민에게 돌려줄 수 있는 방법"이라며 의미를 부여했다.

AI공유는 뉴욕타임즈, 월스트리스트저널(WSJ) 같은 외국 유명 매체에서도 거론한 개념이라고도 말했다. 그에 따르면 WSJ는 돈 세탁을 막기 위해 AI공유를 사용한다는 기사를 올 6월 수록했다. 그는 어느 언론 매체에 AI공유가 의료 분야에만 적용되는 것이 아니라면서 교통 흐름 예측을 위한 모빌리티 서비스 기업 간 AI 공유, 금융 사기 방지를 위한 신용카드 회사 간 AI 공유, 스마트공장에서 용접 로봇 간 AI 공유, 개인건강 모니터링을 위한 AI 공유 등 다양한 사례가 IEEE 사물인터넷 저널과 IJCAI, IEEE 모바일 컴퓨팅 트랜잭션 등 세계 톱 저널과 학술대회에서 2020년대 들어 속속 발표되고 있다고 소개하기도 했다.

이 교수는 결제 분야에서 오랜 업력을 지닌 기업 하렉스인포텍(대표 박경양)과 함께 AI공유 컨셉의 사용자 중심 AI플랫폼인 'UB 플랫폼'을 만드는 연구를 지난 2년간 해왔다. 그는 "내 데이터를 플랫폼이 가져가는게 아니라 오히려 플랫폼이 나에게 AI를 주면 그 AI를 활용해 내가 원하는 성과를 거둘 수 있다"면서 "소상공인이 AI 공유 플랫폼에 참여하면 프랜차이즈 같은 거대 플랫폼이 아니더라도 사용자중심 AI(UCAI) 기반 추천 서비스를 통해 새로운 고객 유입 같은 효과를 얻을 수 있다"고 설명했다.

이 같은 보편적 상거래 엔진(GCI)은 하나의 엔진이 만들어지면 여러 서비스를 만들 수 있는데 "울산에서 하렉스인포텍이 활용중"이라면서 "사업자간 AI를 공유하는 플랫폼으로 계속 발전해 갈 것으로 기대한다"고 말했다. 이어 "사용자 중심 플랫폼(UB 플랫폼)을 활용하면 사람이 생성한 데이터가 아닌, AI가 생성한 결과(데이터)를 빅데이터로 분석해 상품 기획 아이디어를 얻을 수 있다"면서 "실제 우리가 음식에 적용해 보니 AI가 제육 토스트, 낙지 크림 스파게티 같은 현실에 존재하지 않는 상품을 추천, 새로운 상품 아이디어를 얻는 계기를 제공했다"고 소개했다.

AI공유를 연구하면서 교환 등 역사 발전에 관심이 생겨 아담 스미스의 책 국부론을 다시 읽고 있다면서 "AI공유 플랫폼이 실험실에서 나와 기업, 사용자 중심으로 이전 할 것"이라면서 "AI공유는 연결과 지능화의 결합으로 데이터 효과와 네트워크 효과가 작동하는 AI 공유 플랫폼이 발전할 것"이라고 내다봤다.

■ "연합학습은 적은 비용으로 프라이버시 이슈도 해결"

이 교수에 이어 '스마트 도시와 연합학습'을 주제로 발표한 이정혜 유니스트(UNIST) 교수는 연합학습에 대해 "분산 환경에서 수집한 데이터를 적은 비용으로 프라이버시 이슈 없이 활용할 수 있는 유용한 대안"이라면서 "분산 환경에서 많은 데이터가 생성하고 저장됨에 따라 더 나은 데이터 기반 의사결정을 위해서는 데이터 공유나 협업이 필수"라고 밝혔다. 다양한 유형의 전자 데이터 수집 센서를 사용하는 것이 스마트시티라면서 그 예로 미국 로스엔젤러스와 스페인 바르셀로나, 싱가포르, 네덜란드 암스테르담 등을 들었다. 우리나라는 세종과 부산시가 수년 전 스마트시티 국가 시범도시로 선정된 바 있다.

이정혜 UNIST 교수가 22일 서울 코엑스 2층에서 열린 'AI서울 포럼 2022'에서 기조 강연을 하고 있다.

기존에는 데이터가 중앙에 모아져 있는데, 개인 정보 같은 민감 정보를 포함하고 있는 데이터는 어떻게 할까?라는 고민에서 나온게 프라이빗 AI와 연합학습(페더레이티드 러닝)이라면서 "연합학습은 분산된 로컬 데이터를 모으거나 교환하지 않고, 또 데이터를 보유하고 있는 여러 분산형 장치 또는 서버에서 한번 정제 작업을 거친 중간값들을 보내 모델을 훈련시키는 새로운 AI학습 패러다임"이라고 소개했다.

분산 데이터를 한 곳에 모으려면 비용 문제가 발생하고, 원본 데이터를 전달하거나 공유할때는 프라이버시 누출 문제가 있는데 이 둘을 해결한 것이 연합학습이라는 것이다. 이 교수는 연합학습 알고리즘으로 'FedSGD(Federated Stochastic Gradient Descent)' 등을 소개하며 "연합학습 종류는 크로스 사일로와 크로스 디바이스가 있다"면서 연합학습의 활용 예시를 설명했다. 연합학습이 질병 예측 같은 정밀 의료와 음악 추천 등의 스마트 시티 분야에 활용할 수 있다면서 고려 해야 할 점도 제시했다. 예컨대 연합학습을 스마트 시티에 활용할때 다수 장치를 사용하기 때문에 네트워크 통신이 느려지는 문제가 발생할 수 있다는 것이다. 이에 그는 "연합학습을 스마트시티에 활용하려면 적용 도메인별 특수한 상황을 고려해 연합학습 시스템을 개발해야 한다"고 조언했다.

■ 강요식 서울디지털재단 이사장 "세계는 멈추지 않고 진보...ICT 중요"

행사에는 이경전 교수와 이정혜 교수 외에 김성륜 연세대 교수가 '무선 기반 AI에서 페더레이션/스플리트 설계'를 주제로 강연을 했고, 전창배 국제인공지능&윤리협회 이사장이 '인공지능 윤리, 왜 중요한가? 어떻게 해결할 것인가?'를 주제로, 김형주 중앙대 교수가 '칸트(KANT)를 통해 본 인공지능과 윤리'를 주제로 각각 발표했다.

한편 이날 서울디지털재단은 기조 강연을 한 이경전 교수, 이정혜 교수, 김성륜 교수 3인을 재단이 추진하는 AI응용시스템 연구개발 자문 위원으로 위촉했다. 행사에는 강요식 서울디지털재단 이사장과 조병옥 전 사우디아라비아 대사 등이 참석했다. 강 이사장은 인사말에서 "우리 재단은 서울시를 ICT와 과학으로 지원하며 디지털 격차와 스마트시티를 통한 혁신 성장에 주력하고 있다"면서 "확신건데, 세계는 머물지 않고 나아가고 있다. AI쉐어링을 처음 듣는 분도 많을 듯 한데 오늘 행사에서 무언가 하나라도 꼭 얻어갔으면 좋겠다"고 당부했다.