"대한민국 대표하는 데이터셋 만들 것...글로벌 IT기업보다 우수"

"올해 대한민국을 대표하는 데이터셋을 새로 구축합니다."

세간에 관심이 높은 인공지능(AI) 학습용 데이터 구축 사업을 총괄하고 있는 한국지능정보사회진흥원(NIA) 고윤석 지능데이터본부장은 29일 지넷코리아와의 인터뷰에서 "올해 5797억원을 투입해 데이터셋 310종을 추가로 구축한다"며 이같이 밝혔다.

흔히 '데이터 댐'이라 불리는 이 사업은 과기정통부와 NIA가 주관하고 있다. AI기반 혁신 서비스를 빠르게 확산하기 위해 마련됐다. 민간에서 활용도가 높은 AI용 학습 데이터를 구축해 개방하는 사업이다. 2017년 처음 시작했고, 한국판 뉴딜 사업(2020년)과 맞물려 '데이터 댐' 구축 프로젝트로 확대됐다. 기존에 구축한 데이터들은 'AI허브'라는 포털에 공개돼 있다. 고 본부장은 "191종 5억3000만건 데이터가 이미 만들어져 개방돼 있다"면서 "오는 2025년까지 음성, 자율주행 데이터 등 총 1,300종을 구축해 민간에 제공할 계획"이라고 밝혔다.

올해 '데이터 댐'에 투입하는 예산은 역대 가장 많은 5797억원이다. 특히 올해는 여러 주목할만 한 새로운 데이터들을 구축한다. 대한민국을 대표하는 간판 데이터셋을 만드는게 대표적이다. 세계적으로 대규모 데이터셋은 마이크로소프트(MS)의 영상 데이터셋인 '코코(COCO)'와 구글의 이미지넷(ImageNet)'이 유명한데, 이들보다 더 많고 품질도 버금가는 데이터셋을 만든다는 목표다.

고 본부장은 "이런 류의 사업은 세계적으로 처음이다. 시행착오를 겪으며 고도화하고 있다"면서 "우리 나름대로 자부심을 갖고 열심히 일하고 있다. 애정을 갖고 지켜봐달라"고 당부했다. 아래는 고 본부장과의 일문일답

고윤석 NIA 지능데이터본부장이 광화문에 마련한 임시 사무실에서 데이터 댐 사업을 설명하고 있다. 미국 대학에서 컴퓨터를 전공한 고 본부장은 기업들에게서 이 사업이 인기가 좋다면서 우리나라가 AI강국이 되는 초석이 되는 사업이라고 강조했다.

-올해 '데이터 댐' 사업은 어떻게 진행하나

"올해는 총 310종 데이터셋을 새로 구축한다. 지원하는 예산은 5797억원이다. 1차, 2차, 3차 세 차례로 나눠 사업공고가 나간다. 1차와 2차는 이미 접수를 마감했다. 3차는 다음달 22일까지 접수를 받는다."

-1~3차 사업은 각각 어떻게 다른가

"구축하는 데이터 종류와 수량이 다르다. 먼저 구축하는 데이터 종류를 보면 1차는 48개 분야 120종 데이터를 만든다. 2차는 105개 분야 150종, 3차는 13개 분야 40종 데이터를 구축한다. 특히 1차 사업은 한국형 대규모 데이터와 난이도가 높은 데이터를 구축하는 것에 초점을 뒀다. 구축하는데 시간이 오래 걸린다. 이 때문에 사업 공고도 3개 사업 중 가장 빠른 지난 1월에 나갔다. 예산 지원도 가장 많다. 사업당 최저 13억원에서 최대 86억원에 달한다. 2차는 범용성과 지역 특화 과제에 중점을 뒀다. 3차는 봄여름가을겨울 4계절이 필요한 데이터 등 데이터 수집에 1년 이상 걸리는 다년도 과제와 이전 과제를 고도화하는 것에 집중했다. 올해 처음으로 다년도 과제를 신설했다."

-그동안 구축한 영상과 음성, 텍스트 데이터는 얼마나 되나?

"지난해 6월 현재 영상 데이터는 6만6천시간, 텍스트는 12억3741건을 모았다. 또 이미지는 1억4천만장, 영상은 1만9039시간에 달한다. 음성의 경우 메타(옛 페이스북)가 5만 시간 분량을 보유하고 있는데 우리가 1만6천시간 더 많은 분량을 갖고 있다."

-이 사업을 하는 기업들의 불만 중 하나가 사업(구축) 기간이 짧다는 거였다. 올해는 개선되나?

"작년까지만 해도 이런 문제가 있었던게 사실이다. 뉴딜 사업을 추경으로 시작했다. 그러다 보니 시간이 촉박했다. 올해는 이를 개선했다. 첫 사업 공고를 작년보다 50일 정도 앞당겨 냈다. 사업자들이 데이터를 구축하는 기간이 올해는 6~7개월 정도 된다. 보통의 정부 SI사업이 이 정도 걸린다."

-올해 사업 특징을 말해준다면

"우리나라를 대표하는 간판 브랜드 데이터셋을 구축할 계획이다. 마이크로소프트(MS)나 구글보다 더 나은 데이터셋을 만들 예정이다. 또 올해 처음으로 다년도(2년) 과제를 신설했다. 1년안에 끝내지 않아도 되는 과제다. 예를 들어 봄여름가을겨울 데이터를 모아야 하는 과제가 그렇다. 기존 과제를 업데이트하는 고도화 과제도 새로 만들었다. 지난 과제에서 2D로 데이터셋을 만들었다면 시장과 환경변화에 따라 이를 다시 3D로 만드는 과제에 지원할 수 있다."

-올해 시행하는 과제 수가 310개다. 과제 발굴은 어떻게 하나?

" 과제는 철저히 수요 중심으로 하려고 하고 있다. 과제 발굴에 꽤 많은 시간이 걸린다. 올해 나온 과제도 작년에 8개월이나 준비한 거다. 데이터를 쓰는 AI 기업들이 난이도가 높고 스페시픽한(구체적인) 데이터를 원한다. 이런 니즈에 부응하기 위해 전문가 100명 이상이 참여하는 과제기획운영위원회를 운영하고 있다. 과제기획운영위원회 외에 활용협의회와 검수위원회도 따로 운영하고 있다. 활용협의회는 구축한 데이터를 개방하기 전에 미리 써보는 일종의 테스터들이다. 6대 분야 18개 기관으로 구성돼 있다."

-과제 수가 너무 많은 건 아닌가?

"산업계 요구에 비하면 '세발의 피'다. 작년에 수요 조사를 해보니 업계가 요구한 건 1300개가 넘었다. 이중 추려서 올해 310개를 과제로 냈다."

-310개 과제는 어떤 기준으로 분류(카테고리)가 돼 있나

"크게 6개 분야로 이뤄졌다. 기반기술 2종(한국어와 비전)과 전략분야 4종(헬스케어, 농축수산,재난안전환경, 교통물류)이다. 전략 분야는 헬스케어 분야가 관심이 제일 높다. 이들 6개 분야 외에 제조, 로보틱스, 법률, 교육, 스포츠, 금융, 지식재산, 문화관광 등 각 분야별 데이터 구축에도 집중하고 있다."

-제조 분야는 중기부가 구축하지 않나?

"시장에서 제조 분야 요구가 많다. 그래서 올해 과제에 제조 분야를 넣었다. 제조는 데이터 모으는게 쉽지 않다. 기업 비밀과 관련돼 있어 기업들이 개방하기를 꺼린다."

-그동안 구축한 데이터셋 중 어떤게 인기있나

"방언 데이터가 인기가 가장 좋다. 헬스케어가 좋을 거라 생각했는데 의외였다. 방언 데이터를 기업 차원에서 모으는게 힘들어 그런 것 같다. 다운로드 횟수를 보면 감성대화 말뭉치와 이상행동을 감지하는 CCTV 데이터가 제일 많다."

-데이터 종류가 많아 내가 원하는 데이터가 어디에 있는 지 찾는게 쉽지 않을 것 같다

"데이터셋 1종을 다운로드 받는데 평균 4~5일 걸린다. 올해는 보다 쉽게 데이터를 구별, 내려받을 수 있게 객체로 내려받는 걸 준비하고 있다. 하나의 이미지셋은 하위 폴더를 수만개 갖고 있다. 보통 샘플 데이터를 보고 괜찮으면 데이터 전체를 내려 받는데, 샘플 데이터는 전체 데이터의 3~5% 정도다. 전체 데이터셋을 다운받기 전에 샘플 데이터를 활용하면 더욱 효과적으로 데이터를 활용할 수 있다. 이외에 데이터를 누구나 쉽고 빠르게 검색할 수 있게 자동차, 소나무, 건물 등 객체로 검색할 수 있는 서비스를 준비 중이다.“

고 본부장이 광화문에 마련한 임시 사무실에서 올해 시행하는 데이터댐 사업을 설명하고 있다.

-이 사업을 시작할때부터 데이터 품질 이야기가 나왔는데 지금도 나오고 있다. 데이터 품질은 어떻게 체크하나?

"4가지 조건으로 데이터 품질을 검수한다. 다양성, 구문정확성, 의미정확성, 유효성이다. 다양성을 먼저 보면, 모으는 데이터가 차량이라고 하면 그 안에 버스만 있으면 안된다. 택시 등 다양한 차량 데이터가 있어야 한다. 둘째는 구문정확성이다. 구문, 즉 스트럭처가 제대로 돼 있는지를 본다. 이는 폴더 이름과 데이터가 맞는지 보는 것이다. 즉, 자동차라는 폴더에 기차가 들어가 있으면 안된다. 데이터양이 워낙 많다 보니 샘플링 방식으로 검수한다. 오류율이 높으면 전수조사를 한다. 셋째는 의미정확성이다. 데이터에 이름을 붙이는 라벨링을 할 때 물체(오브젝트)를 끊어서 하면 안된다. 예컨대 고양이 데이터를 모으는데 고양이 모습이 절반인 건 안된다. 요즘은 오토라벨링이라는 기술이 많이 발전해 이 부분을 검수하는데 시간적으로나 정확한 검수에 많은 도움이 된다. 네 번째는 유효성이다. 구축한 데이터를 모델에 학습시켰을 때 모델의 성능이 올라가야만 유효성을 만족시킨다. 특히 개인의 얼굴, 이름, 주소 등 개인정보가 포함된 데이터는 샘플링 검수가 아닌 전수 검수를 하고 있다."

-이런 장치가 있음에도 품질 문제를 지적하는 사람이 여전히 있다

"품질에 문제가 있다고 하는 사람은 크게 두 부류다. 하나는 데이터에 정말 문제가 있는 경우인데, 현재 구축한 데이터가 5억3천만건이나 된다. 샘플로 조사하기 때문에 100% 완벽할 수가 없다. 문제 있는 데이터가 발견되면 즉시 이 데이터를 만든 사업자한테 개선을 요구한다. 두 번째는, 대부분 이 케이스인데, 기업들이 가지고 있는 AI모델하고 우리가 구축한 데이터가 맞지 않을 때다. 이 경우 AI 모델 성능이 제대로 안 나온다. 예컨대 이런 경우다. 우리가 구축한 AI용 데이터는 바운딩 박스(네모 상자로 객체를 표시하는 방식)인데 다운로드를 받아 간 기업이 더욱 정밀한 형태의 데이터가 필요하다면 우리 데이터를 활용해도 성능 향상이 미미할 수 있다. 기업이 가지고 있는 AI모델과 우리가 구축한 데이터가 안 맞기 때문이다. 이 경우 기업은 다시 라벨링을 해야 한다. 이런 이유 때문에 데이터 품질 문제를 제기하는 거다."

-사정이 이렇다면, 데이터 품질을 100% 만족시키기는 힘들 것 같다. 사각지대가 있을 수밖에 없는 구조 같은데...

"그래서 만든 대안이 있다. 원본(원천) 데이터를 함께 제공하는 거다. 하나의 데이터셋인데 두 종류 데이터, 즉 라벨링을 안한 원천데이터와 라벨링을 한 데이터, 이 두 종류를 모두 제공한다. 두 데이터 중 라벨링을 안한 데이터를 가져가는 기업이 데이터 품질 문제를 제기한다. 기업이 따로 라벨링을 해야 하기 때문이다. 우리가 구축한 데이터 양이 5억 3천만건이나 된다. 영상데이터만 해도 6만 시간이 넘는데, 어떤 영상 데이터 하나는 파일 하나를 보는데 몇 시간이 걸린다. 이렇게 많은 데이터들을 다 전수 조사하는 건 불가능하다. 이미 구축한 데이터를 모아 놓은 개방 사이트인 'AI허브'를 개편할 예정인데, 이때 각 데이터 당 문제를 밑에 적시하게 할 수 있게 할 예정이다. 문제 데이터를 보다 빨리 수정할 수 있게 하기 위해서다."

-양질의 일자리 문제도 계속 지적되고 있다

"2020년 기준 이 사업으로 직접 고용과 크라우드워커를 포함해 4만여명의 고용을 창출했다. 일자리 지적은 크게 보면 두 가지다. 하나는 저가 일자리 양산이다. 이 사업이 저가 일자리만 양산하는 게 아니다. 데이터를 만드는 과정을 보면 알 수 있다. 데이터는 수집, 가공, 정제, 활용의 네 단계를 거친다. 각 단계마다 난이도가 쉽지 않다. 수집만 봐도 난이도가 각각 다르고, 고도의 전문성을 요하는 게 꽤 있다. 자율주행차용 데이터 수집이 그렇다. 자율주행차용 데이터를 수집하려면 좋은 인력에 장비, 여기에 오랜 시간이 필요하다. 데이터에 이름을 붙이는 라벨링도 마찬가지다. 인형 눈알 붙이기라고 비하할 게 아니다. 데이터 라벨링도 수준 높은 게 꽤 있다. 헬스케어 분야가 대표적이다. 품질 검증도 마찬가지다. 데이터를 가지고 해석할 수 있어야 하는 전문 영역이다. 이런 전문 영역 일자리가 꽤 있다."

-이 사업에 참여하고 있는 사람들의 만족도는 어떤가?

"작년에 처음으로 만족도 조사를 했다. 민간과 정부 중 정부 데이터를 구축하는 쪽이 만족도가 높았다. 특히 작년에 NIA가 노력해 국가직무능력표준(NCS) 직종에 데이터 라벨링을 추가했다."

-데이터 라벨러 교육을 NIA가 직접 한다고 하던데..

"작년에 NIA가 1만명 라벨러 양성을 위한 교육을 직접 했다. 올해도 1만명 정도를 뽑아 교육한다. 특히 올해는 저변 확대에 신경을 쓸 예정이다. AI대학원과 SW중심대학, 생산성본부, K-MOOC 같은데와 협력할 거다. 교재는 우리가 만들어 놓은 걸 쓰면 된다."

-흔히 데이터는 AI재료라고 한다. 이 사업이 정부가 강조하는 AI강국에는 어떤 역할을 했다고 생각하나

"AI를 잘하려면 크게 세 가지를 갖춰야 한다고 본다. 첫째, 일고리즘이다. 이는 고급 인력과 관계 있다. 고급 인력은 단기에 양성할 수 없다. AI강국인 미국, 영국, 캐나다, 중국을 보면 기초과학이 탄탄하다. 둘째는 컴퓨팅 파워다. 데이터센터와 GPU, 슈퍼컴퓨터를 많이 보유해야 한다. 이는 경제규모와 밀접한 관련이 있다. 셋째가 데이터다. 알고리즘과 컴퓨팅 파워는 우리가 세계 1,2위가 되기 힘들다. 데이터는 다르다. 한국어라는 독창적 환경을 갖고 있는 등 우리가 세계 최고 수준이 될 수 있다. 특히 데이터가 특수 형태서 일반 형태로 바뀌고 있다. 예컨데, 한국어로 AI모델을 만들면 영어로도 적용이 가능하다. 텍스트 요약을 한국어로 학습했다고 해서 영어로 못하는 게 아니다. AI는 데이터와의 싸움이다. 양질의 데이터를 서둘러 많이 확보하는게 중요하다."

-예전 DJ 정부때 정부 문서를 DB화하는 공공근로 사업을 한 적이 있다. 어떤 유사점이 있나?

"DJ정부때 정부 캐비닛 속에 있는 서류를 스캔 또는 DB화하는 사업을 했다. 이때도 양질의 일자리 지적이 제기됐었따. 누구나 할 수 있는 스캔 작업을 대학생이 하고 있다는 지적이였다. 그런데, 나중에 보니 그 인력들이 IT기업에 가고, 그 사업으로 디지털 데이터가 쌓이니 서비스가 만들어졌고, 그렇게 해 우리나라가 오늘날의 IT강국이 됐고, IT가 우리 경제를 일으키는 큰 힘이 됐다. 지금의 데이터 댐도 그러지 않을까 한다. 지금 구축한 대규모 데이터가 점차 오픈되면서 앞으로 우리나라의 AI 개발이나 AI서비스가 크게 발전할 거고, AI강국의 밑거름이 돼 우리 경제를 도약시킬 것으로 생각한다. NIA에서 20년 정도 근무하며 여러 사업을 했는데 이 사업이 시장에서 반응이 제일 좋다(웃음). 기업에 있는 분들이 품질 문제 등을 지적하지만 고맙다는 소리를 많이 한다."