"데이터 적어도 AI 성능 끌어올려"

이원섭 CNAI 대표 15일 4차산업혁명 페스티벌서 강연..."합성 데이터가 AI 상용화 핵심"

컴퓨팅입력 :2022/09/15 17:54    수정: 2022/09/15 21:15

“데이터가 많지 않아도 인공지능(AI) 성능을 끌어올릴 수 있다.”

이원섭 씨앤에이아이(CNAI) 대표는 지디넷코리아가 15일 주최한 '4차 산업혁명 페스티벌 2022'의 부대행사로 열린 '퓨처 테크 컨퍼런스'에 연사로 나서 이같이 말했다.

AI 모델의 성능을 끌어올리기 위해서는 양질의 데이터가 많아야 한다는 점이 상식처럼 통했다. 학습할 수 있는 데이터가 많아야만 다양한 시나리오에 따라 대응하고 예측하는 부분이 고도화가 된다는 이유에서다.

이 같은 이유로 AI 경쟁력 고도화를 위해 기업은 물론 정부도 데이터를 끌어모으고 개방하고 공유하는데 힘을 기울여왔다.

하지만 이원섭 대표는 데이터가 부족해도 AI 모델을 고도화시킬 수 있다고 강조했다.

지도학습이든 비지도학습이든 학습용 데이터가 없다면 만들어내면 된다는 것이다. 즉 합성데이터가 향후 AI 서비스의 상용화 핵심이 될 것이란 전망이다.

이 대표는 “2026년부터는 진짜 데이터보다 가짜 데이터가 더 많아질 것이란 가트너의 보고서가 나왔다”며 “합성데이터 시장이 빠르게 성장할 것이란 전망도 많이 나오고 있다”고 운을 뗐다.

이어, “데이터를 모을 때 진짜 데이터를 모으는 것보다 합성데이터는 비용을 줄일 수 있다는 점이 큰 장점이다”며 “물론 진짜 데이터가 많을수록 가상의 데이터를 더욱 많이 뽑아낼 수 있다”고 설명했다.

그러면서 “합성데이터를 여전히 익숙하지 않게 여기는 이들도 있지만 테슬라와 엔비디아가 대표적으로 합성데이터를 활용하고 있다”고 덧붙였다.

테슬라가 자율주행 기능 고도화를 위해 실제 운전 영상 외에도 학습데이터를 사용하고 있다는 것이다. 또 AI 분야에서 선두주자로 꼽히는 엔비디아 역시 자율주행과 로보틱스 모델 고도화에 대상 이미지를 합성해 쓰고 있다.

CNAI에서 합성데이터를 활용해 AI 성능을 높인 사례를 들어 청중의 눈길을 끌기도 했다.

이 대표는 “삼성병원과 위내시경 솔루션 회사가 암을 구간 별로 찾아내는데, 13개 구간에서 받은 이미지는 8천장에 불과했다”며 “구간 별로 따지면 사실상 몇백장 수준의 데이터에 불과했고 또 구간마다 고르게 암이 있는게 아니라 없는 경우도 많아 AI 모델 학습용으로 쓰기엔 턱없이 부족했다”고 말했다.

이어, “결국 비지도학습으로 할 수밖에 없는데 합성데이터를 쓰면서 성능을 8%나 끌어올리게 됐다”고 밝혔다.

이같은 성과를 바탕으로 한국지능정보사회진흥원의 학습데이터 구축 사업에서 CT와 MRI 이미지 관련 프로젝트를 수행하게 됐다. 이 데이터는 AI허브에 공개될 예정으로 관련 분야 종사자들은 쉽게 찾아보고 학습데이터의 이점을 가늠해볼 수 있을 전망이다.

이 대표는 “합성데이터는 데이터 생성 분야를 비롯해 자율주행부터 리테일, 스마트시티 분야는 물론 향후 국방 등에서 활용이 늘어날 것”이라며 “다양한 프로젝트로 합성데이터가 유의미하게 적용 가능한 도메인 발굴하는 일에도 집중하고 있다”고 말했다.

합성데이터가 세계적으로 각광을 받고 있는 점도 눈여겨 볼 부분이다. 지난해 주요 합성데이터 회사들이 인수되면서 세간의 이목을 집중시켰다고 이 대표는 강조했다.

관련기사

'AI.리베리(Reverie)'란 회사는 페이스북을 운영하는 메타가 지난해 전격 인수했다. 합성데이터 분야의 대표적인 회사였는데, 메타는 메타버스 서비스를 위해 이 회사의 기술로 3D 이미지 이뮬레이터를 만들고 있다.

인스타카트에 인수된 캐퍼(Caper)는 소핑카트에 물건을 담기만 해도 상품을 인식하는 비전AI 기술을 가지고 있는데 역시 합성데이터를 활용하고 있다.