"AI 데이터 구축에 1조4천억...AI 창업자들 정말 훌륭"

[인터뷰] 박정은 NIA AI데이터추진단장..."데이터 품질 계속 높여 갈 것"

인터뷰입력 :2020/09/28 11:12    수정: 2020/09/28 18:35

"일이 하나 끝나면 두 개 생기네요."

한국정보화진흥원(NIA) AI데이터추진단을 이끌고 있는 박정은 단장은 28일 "할일이 점점 많아진다. 하지만 보람이 크다"며 이 같이 밝혔다.

그는 과기정통부가 추진하는 '인공지능(AI) 학습용 데이터 구축 사업'의 NIA 실무 단장을 맡고 있다. 사업 성공을 위해 NIA는 지난 6월 AI데이터추진단을 신설, 진흥원내 대표적 정책 및 기획통으로 경기도 정보화담당관실에 파견 나가 있던 박정은 박사를 불러들여 단장에 선임했다.

박 단장은 1996년 NIA에 들어와 정책본부장 등을 역임했다. 특히 사이버코리아, 브로드밴드IT코리아, 유비쿼터스코리아(u코리아) 등 우리나라 정보화 강국 청사진 마련에 큰 역할을 했다. 10여년전 '정보화 강국 코리아'에 이어 이제 'AI강국 코리아'에서도 키맨으로 활동하게 됐다.

박정은 NIA AI데이터추진단장.

디지털 뉴딜 핵심사업으로 주목받고 있는 'AI 학습용 데이터 구축 사업'은 다양한 AI서비스 개발에 필요한 10대 분야(자연어처리, 헬스케어, 자율주행, 농축수산, 국토환경, 미디어, 안전, 지역, 기타, 자유주제 등)의 AI 학습용 데이터 150종을 연말까지 구축, 민간에 무료로 개방하는 것이다. 과기정통부가 3차 추경으로 2925억원을 확보, 시행한다. 내년에 2925억원, 후년(2022년) 7800억원 등 향후 2년간 1조원 이상의 정부 재정이 투입되는 매머드 사업이다.

과기정통부와 NIA는 올해 사업 수행 기업 및 기관으로 지난 8월말 584곳을 선정했다. 이어 29일 오전 10시 한국은행 인근 포스타워10층에서 사업 성공을 다짐하는 출범식을 개최, 사업을 본격 시행한다.

지난 3개월간 많은 AI 창업자들을 만났다는 박 단장은 "우리나라 젊은 AI 창업자들이 정말 훌륭하더라. 이들에게 진짜 도움이 되는 데이터를 만들어야 겠다는 생각이 더 커졌다"면서 "양질의 데이터는 한번에 만들어지지 않는다. 좋은 데이터가 만들어 질 수 있게 계속해 품질을 높이는 작업을 하겠다. 관련 전문가들이 아무때나 우리에게 피드백을 주면 좋겠다"고 부탁했다. 아래는 박 단장과의 일문 일답

-박 단장이 맡고 있는 AI데이터추진단에 대해 말해달라

"AI학습용 데이터 구축 사업을 위해 NIA가 지난 6월 신설한 조직이다. AI데이터기획팀과 AI데이터사업팀 등 두 개 팀으로 구성됐다. 기획팀 13명, 사업팀 26명 등 39명이 일하고 있다."

-AI학습용 데이터 구축 사업 예산은 어떻게 되나

"2022년까지 AI학습용 데이터 구축 사업이 계속 되는 걸로 확정됐다. 예산은 올해를 포함해 2022년까지 3년간 총 1조 4000여억원이 투입된다. 올해는 상반기 본 예산 390억원(데이터셋 20종)과 추경 예산 2925억원(데이터셋 150종)이 사용된다. 내년 본 예산은 2925억원, 2022년은 7800억원이다. 예산과 별도로 중장기 계획을 연말까지 만들 계획이다."

-내년에도 올해 처럼 150종의 데이터셋을 구축하나

"올해 사업을 해보니 데이터 특성에 따라 종(種)으로만 하기 어려운 부분이 있더라. 그래서 내년에 몇 종이 될 지 지금 딱 잘라 말하기 뭐하다."

-올해 10개 분야에서 데이터셋을 구축한다. 10개 분야는 어떻게 선정한 건가. 수요조사를 했다던데

"민간과 공공의 수요를 받아 10개 분야를 정했다. 민간은 4월27일부터 5월6일까지 약 10일간 AI 및 데이터 기업, 협단체, 대학원, 연구소 등 600곳을 대상으로 수요 조사를 했다. 공공은 6월1일부터 10일까지 부처 및 지자체 대상 총 531개 과제를 대상으로 수요 조사를 해 과제를 도출했다. 수요 조사를 기반으로 바텀업(bottom up) 방식으로 10개를 선정했는데 앞으로 핵심 분야 전체를 조망하는 톱다운(top down) 방식도 병행할 계획이다."

박 단장이 AI학습데이터 구축 사업을 설명하고 있다.

-데이터를 모으는 10개 분야에 제조와 금융 등이 빠져 있다

"정부 사업이다 보니 선정 기준을 공공성과 범용성에 초점을 뒀다. 제조와 물류, 금융, 교육, 에너지 분야도 수요 조사에서 필요하다고 나왔지만 공공성과 범용성에 밀려 제외됐다. 이들 분야는 중장기 계획에서 검토할 예정이다."

-AI와 데이터는 동의어나 다름없다. 과기정통부와 NIA가 빅데이터 플랫폼 사업도 추진하고 있는데, 두 사업간 연계성은

"AI학습용데이터사업은 가공된 데이터를 무료로 이용할 수 있게 해주는 것이 기본이다. 빅데이터 플랫폼사업은 데이터를 시장에서 유통, 수익을 내게 하자는 거다. 데이터면에서도 약간 차이가 있다. 빅데이터 플랫폼 사업의 데이터는 로(raw)데이터다. 반면 우리는 로 데이터를 모아 가공까지 해준다. 이게 두 사업의 차이점이다. 그러나 중장기적으로는 연계, 활용할 수 있게 해야 할 것 같다."

-10개 사업 중 자연어 사업을 설명해주면

"자연어 분야는 음성인식 고도화 등을 위한 음성 및 말뭉치 데이터 총 9개 과제(32종 데이터셋)를 구축한다. 대규모 데이터가 필요한 대표적 분야다. 9개 사업에 32개 데이터셋을 구축한다. 그동안 소규모로만 진행됐다. 그러다보니 조용한 데서 정확한 발음만 데이터를 모았다. 하지만 중소기업이나 스타트업이 원하는 데이터는 시끄러운데서 나는 소리, 방언이나 사투리, 발음이 정확하지 않은 노인 및 아이들 소리도 원한다. 이번에 이들 소리도 데이터셋을 구축한다."

-다른 분야도 간략히 말해달라

"헬스케어 분야는 의료분야 수요가 높은 암, 치매, 피부질환 진단을 위한 의료영상 데이터와 진료 및 건강데이터 등 총 9개 과제(20종 데이터셋)를 수행한다. 또 자율주행은 자율주행기술발전을 위한 차선, 도로표지판, 차량 등 자동차 분야 3개 과제 외에 드론, 항만 총 5개 과제(14종 데이터셋)를 한다. 농축수산 분야는 농작물 질병과 해충진단 및 농수산물 스마트 팜, 스마트어장, 축산 데이터 4개 과제(12종 데이터셋)를, 국토환경 분야는 환경오염 모니터링과 기후변화 예측 등을 위한 이미지 데이터 및 위급상황 데이터 등 3개 과제(10종 데이터셋)를, 미디어 분야는 영상 내 음성인식, 야외 소음환경, 사람 동작 인식 데이터 등 4개 과제(11종 데이터셋)를 각각 시행한다. 

박 단장은 1996년 NIA에 입사했다.

또 안전 분야는 안전감시 및 안전활동 자동화를 위한 영상데이터, 노후시설물 이미지 데이터 등 6개 과제(16종 데이터셋)를, 기타 분야는 소상공인과 제조분야 인공지능 도입을 위한 영상·이미지 데이터 5개 과제(8종 데이터셋)를, 자유 분야는 최신 시장 수요 등을 반영한 21개 데이터셋을, 지역 분야는 지역 수요를 반영한 자유 과제 6개를 다룬다."

-지역 과제에 참여한 지자체는 어딘가

"창원시가 수학 분야 학습자 역량을 측정하는 데이터셋을 만든다. 또 대전시는 기계시설물 고장 예지 센서 데이터를, 대전시 유성구는 생활 및 거주환경 데이터를, 제주도는 월동작물 자동탐지 드론 이미지 데이터를, 광주광역시는 치매 고위험군 라이프로그 데이터와 폐암 예후 예측 데이터를 각각 구축한다."

-이번 사업으로 연말까지 150종의 AI용 데이터셋이 만들어진다. 데이터 라벨링 등 공통 분야가 꽤 있을 듯 하다. 또 구축 데이터의 품질도 중요한데...

"데이터 품질 수준을 글로벌 최고 수준으로 할 방침이다. 이를 위해 과기정통부가 지난 22일 '품질 자문위'를 구성해 첫번째 킥오프 회의를 열었다. 품질 자문위는 8개 분과(자연어처리, 헬스케어, 자율주행, 농축수산, 국토환경, 미디어, 안전, 기타)로 운영된다. 분과별로 산학연 전문가와 데이터를 활용할 활용기업 등 10명 내외, 전체적으로 총 80여명이 참여한다. 품질 자문위는 데이터 구축계획 타당성, 구축단계별 품질 절차 준수, 원시 데이터 및 라벨링 데이터의 품질 및 활용도 검증 등을 자문한다. 세계적으로 아직까지 품질 기구나 표준이 없는 실정이다. 데이터 품질 등은 우리가 세계에서 처음하는 작업이다. 전체 가이드를 기준으로 분야별 특성을 반영한 공통 품질 기준을 마련, 매년 보완해 나갈 계획이다."

-기업과 기관 입장차가 있어 공통의 가이드라인을 만드는게 쉽지 않을 것 같다

"서비스 목적에 따라 원하는 데이터 라벨링 방향이 다르다. 가이드라인을 어떻게 만드는냐에 따라 라벨링 하는 기업의 경쟁력이 달라질 수 있다. 우리가 기업에 강제적으로 똑 같은 걸 강요할 수 없는 이유다. 그래서 분야별로 기업들이 모여 그 안에서 협의하게 했다. 너무 들쑥날쑥이면 안되니 최소한의 가이드라인을 만들고, 여기에 맞추자는 거다. AI학습 데이터의 공통 가이드라인을 만드는 건 세계 처음인 것 같다."

-연말까지 150종의 데이터셋이 완성되면 언제부터 어떻게 활용할 수 있나

"과기정통부가 만든 AI포털인 AI허브에 150종 데이터들을 순차적으로 올릴 계획이다. 내년 상반기까지는 모두 올린다. AI허브에 올리기에 앞서 한국정보통신기술협회(TTA)가 데이터 품질을 확인한다. TTA 검사를 통과해야 데이터가 올라간다."

-데이터 품질은 무엇을 어떻게 평가 하나

"몇가지 기준이 있다. 원천 데이터가 현실 세계를 반영할 만큼 다양성이 충분한 지, 기술적으로 해상도 등이 적합한 수준인지, 라벨링이 적정히 됐는 지 등을 본다. 이외에 개인정보나 지재권 문제도 검토한다."

-이번 사업을 진행하면서 느낀 점은

"사업이 단기간에 대규모로 이뤄지다보니 걱정하는 분들이 많다. 이 사업은 일자리 창출은 물론 우리나라 경제 체제를 디지털로 전환하는 기반이 된다는 점에서도 중요하다. 데이터를 구축하는 것 뿐 아니라 데이터의 품질도 중요하다. 양질의 데이터는 사업 한번으로 구축 되는게 아니다. 품질 가이드와 함께 계속해 품질을 높이는 시스템을 만들거다. 좋은 데이터가 만들어 질 수 있게 관련 전문가들이 우리한테 피드백을 계속 줬으면 좋겠다. 품질만 보면 올해는 '버전1'이다. 이 버전을 계속 발전시켜 나가겠다."

관련기사

-박 단장 경력 및 이력을 말해달라

"1996년에 NIA(당시 한국전산원)에 입사했다. 앞서 1991년 NIA에서 인턴으로 1년간 일했다. NIA에 와서 처음 한 일은 시군구 행정정보화다. 당시 진주시에 두달간 출장가 시 업무를 다 분석, 시군구 행정 정보화 밑그림을 그렸다. 지난 20여년간 주로 정책과 기획쪽에서 일했다. 정책본부장도 10년전에 했다. u코리아 등 정부가 정보화 기본 계획을 만들때도 참여했다. 7~8년전 빅데이터를 보는 순간, 이게 정말 유비쿼터스를 실현시킬 핵심 기술이라는 생각이 들었다. 그때부터 빅데이터 마스터플랜을 만들고 빅데이터 사업을 발굴했다. 우리 진흥원에 빅데이터 센터도 만드는 등 빅데이터에 드라이브를 걸었다. 당시 데이터를 기반으로 모든게 바뀔 것 같다고 생각했는데, 진짜 그런 세상이 왔다. 정책과 기획 외에 사업을 맡아 진행하는 건 이번이 처음이다. 일은 재미있다. 그런데 쉽지 않다(웃음)."

박 단장이 서울 광화문 사무실을 배경으로 포즈를 취했다.