장동인 대표 "AI도입, 외부 인력에만 의존하면 실패"

전자·통신 산업 AI융합 최고경영자 과정서 강연...기업 데이터 AI에 맞게 바꿔야

컴퓨팅입력 :2020/10/20 22:24    수정: 2020/10/21 06:26

"딥러닝이 원하는 데이터 포맷이 있습니다. 데이터가 이렇게 안돼 있으면 인공지능(AI)을 도입해도 무용지물입니다. 회사 데이터를 인공지능에 맞게 뜯어 고쳐야 AI 도입에 성공합니다."

장동인 에아아이비비랩(AiBB Lab) 대표는 20일 한국프레스센터 19층에서 열린 '2020 전자·통신산업 AI융합전략 최고경영자 과정'에서 강연자로 나와 "외부 AI인력에만 의존하면 AI도입이 실패한다"며 이 같이 밝혔다.

이 행사는 과기정통부와 정보통신산업진흥원(NIPA), 한국전자정보통신산업진흥회(KEA), 지능정보산업진흥회가 주최 및 주관했다. 통신 산업 분야 경영자 30여명이 참석해 강연을 들었다.

빅데이터전문가 협의회장을 맡고 있는 장 대표는 빅데이터와 AI 분야 전문가다. 미국 EDS, 한국오라클 등 국내외 기업에서 오랫동안 근무했고 국방과학연구소 빅데이터 PM도 역임했다. 현재 'CEO를 위한 코딩스쿨'을 운영하고 있다.

장 대표는 컴퓨터 역사와 AI 역사가 거의 비슷하다면서 "두번의 AI 겨울이 왜 있었는지 이해하는게 중요하다"며 운을 뗐다. AI라는 말은 1956년 처음 등장했는데 그동안 산업과 시장이 침체하는 겨울이 두 차례(1970년대 중반~1980년대 중반과 2000년 전후) 있었다.

그에 따르면 AI는 기호주의(top-down)와 연결주의(bottom-up) 두 흐름이 있다. 기호주의는 규칙, 논리 등을 미리 정해 놓고  규칙(rule)을 만드는 것으로, 룰을 기반으로 추론엔진을 만든다. 전문가 시스템이 좋은 예다. 하지만 세상의 모든 문제는 룰로 해결이 안되며, 룰에 없는 것은 풀지 못하는 단점이 있다. AI겨울을 초래한 이유이기도 하다.

연결주의는 인간의 신경 조직을 수학적 알고리즘으로 만든 것으로, 대량의 데이터로 기계가 학습을 한다. 트레이닝으로 모델을 생성한다. 학습한 모델로 신규 데이터에 대한 답을 찾을 뿐 아니라 학습하지 않은 데이터에 대한 답도 잘 찾는다. 머신러닝과 딥러닝이 이에 속한다. 하지만 연결주의는 데이터가 너무 많이 필요하고, 고용량 GPU가 필요하다는 단점이 있다. 왜 그런 결정을 내렸는지도 설명하지 못한다. 이 역시 AI 겨울을 불렀다.

1,2차 AI겨울이 온 건 잘못 된 장밋빛 전망도 한몫 했다. 1958년 사이먼 뉴웰(Simon Newell)은 "10년내 디지털 컴퓨터가 체스 세계 챔피온을 이길 거다"고 한데 이어 1965년 "기계가 사람이 할 수 있는 모든 일을 할 것"이라고 예견했다. 또 1967년 마빈 민스키(Marvin Minsky)는 "이번 세기에 AI를 만드는 문제는 거의 해결 될 것"이라고 했고, 1970년에는 "3~8년안에 우리는 평균 정도의 인간지능을 가지는 기계를 가지게 될 것"이라고 내다봤다. 하지만 모두 이뤄지지 않았다.

장동인 에이아이비비랩 대표가 강연을 하고 있다.

장 대표는 3번째 AI겨울이 올 것인가? 물으며 "아직도 인공지능이라는 말의 거품을 깨닫고 있지 못하고 있다. AI는 100% 정확하지 않다"고 진단했다.

AI 대표주자인 딥러닝이 퀀텀 점프를 한 건 '이미지넷(ImageNet) 챌린지'라는 AI 기반 영상 인식 대회 때문이다. 이 행사는 딥러닝 대모라 불리는 페이 페이 리(Pei Pei Li) 스탠포드대 교수가 만든 것으로 2010년부터 매년 열리고 있다. 특히 2012년 대회에서 우승한 '알렉스넷(AlexNet)'은 알고리즘 분류 에러율이 16%로 뚝 떨어지며 센세이션을 불러 일으켰고, 2015년 마이크로소프트(MS) 북경팀이 만들어 우승한 '레스넷(Resnet)'은 사람의 에러율보다 낮은 수치를 기록, AI 영상인식 분야에서 획기적 진전을 이뤘다.

장 대표는 "2012년 이미지넷 대회 이후 딥러닝이 많이 사용됐고, 엔비디아 칩도 이때부터 사용됐다"면서 "엔비디아는 알렉스넷과 블록체인 등장으로 뜬 회사"라고 해석했다.

2016년 등장한 모델인 '욜로(YOLO, You Only Look Once)'를 거론하며 "지금껏과 다른 모델로 굉장히 빠르다"며 "자율주행차의 물체 인식 등 여러 방면에 많은 영향을 미쳤다'고 말했다. '욜로'는 버전 1~3까지 나왔다. 버전4는 원작자의 논문이 아니다.

AI는 딥러닝과 머신러닝을 포함하는데 양자가 차이가 있다. 스스로 '학습'한다는 점에서 둘은 같지만 딥러닝은 지도학습인 머신러닝과 달리 출력 값에 대한 정보를 학습시키지 않아도 되는 비지도 학습이다. 즉, 고양이와 강아지 사진을 구분하는 문제를 풀 때, 지도학습은 고양이와 강아지 사진과 함께 판단을 위한 특징 정보를 같이 알고리즘 형태로 제공하지만, 딥러닝은 스스로 특징까지 추출해 문제를 푼다.

장 대표는 "일반 프로그램은 데이터를 넣으면 뭐가 나오지만 딥러닝은 데이터를 만들어 놓으면 프로그램이 나오고 이걸 모델이라 부른다. 모델을 만드는게 학습"이라며 "딥러닝은 정확한 답이 안 나온다. 내가 돌리거나 다른 사람이 돌리면 서로 다른 답이 나온다. 딥러닝은 답이 없다"고 설명했다. 이어 딥러닝 장점은 사람과 달리 독립변수(패러미터)가 몇 만개라도 된다면서 "이건 사람이 못하는 것으로, 굉장히 많은 패러미터를 발생하는 제조 분야의 품질을 올린다든가, 예측을 할때 굉장히 유용하다"고 덧붙였다.

기업이 업무 효율을 높이기 위해 최근 많이 도입하는 솔루션인 RPA는 "AI가 아니다"면서 "AI가 원하는 데이터는 따로 있으며, 회사내 데이터를 AI에 맞춰 바꿔야 AI도입 효과가 있다"고 강조했다. 기존의 기업 시스템은 ERP, CRM, 영업, 홈페이지, 모바일 등 기능별로 구축돼 있는 경우가 많은데 "AI를 통해 예측이나 얻고 싶은 것(label)이 무엇인지 먼저 결정하는게 AI도입시 가장 중요하다"고 강조했다.

장 대표는 데이터셋 준비하기, 데이터 프리프로세싱, 피처 엔지니어링, 모델 설계하기, 모델 모니터링하기, 모델 검증하기, 모델 사용하기 및 피드백 등 딥러닝을 위한 8단계 시스템을 독자적으로 고안하기도 했다.

AI 도입시 흔히 저지르는 실수도 지적했다. "외부 AI 전문 인력은 회사의 비즈니스를 모른다. 외부 AI 전문가를 데려와 알아서 해봐라 하면 실패한다"면서 "현업과 AI전문가간 협업이 중요하며, 현업에서 아이디어를 내는 등 전사적으로 매달려야 한다"고 진단했다. 이를 위한 직원 및 CEO 교육도 강조했다.

딥러닝이 제일 잘하는게 예측(포캐스팅)이라면서 "기존 데이터로 포캐스팅이 만족하지 않으면 딥러닝을 해야 한다"면서 "최적화와 분류(클래시피케이션)도 딥러닝이 잘하는 분야"라고 말했다. 딥러닝의 단점도 지적했다. 학습(트레이닝) 데이터가 조금이라도 다르면 이상한 결과물이 나온다는 것이다. 쓰레기를 넣으면 쓰레기가 나오는 격이다. 이어 수직적이고 경직된 조직보다 수평적이고 유연한 조직이 AI도입 성공 가능성이 더 높다고 진단했다.

관련기사

"좋은 AI는 좋은 데이터에서 나온다. AI는 노가다라는 걸 이해해야 한다"면서 "전산 시스템에 있는 것만이 데이터가 아니다. 직원들 PC속에 있는 것도 데이터고, 회의록도 데이터다. AI 시대에는 모든게 데이터"라며 아직 남아 있는 데이터 거버넌스는 사라져야 할 관행이라고 지적했다.

정부가 추진하는 데이터댐에 대해서는 "내가 필요한 건 우리 회사 데이터지, 외부 데이터가 아니다. 기업에서 필요한 데이터는 외부 데이터도 있지만 잘 정제되고 AI에 맞게 구조화된 내부 데이터가 훨씬 중요하다"면서 "현장에 도입해 효과를 내는 곳에 정부 지원이 집중적으로 이뤄져야 한다. 최근 미국 오픈AI가 공개해 화제를 모은 GPT3(Generative Pre training3) 같은 걸 우리 정부가 만들어야 한다"고 제안했다