[AI기업] 클레온 "딥러닝 기반 영상 생성 국내 최고"

진승혁 대표 인터뷰..."사진 1장과 30초~1분 음성데이터 있으면 '디지털 쌍둥이' 재현

인터뷰입력 :2021/08/30 09:30    수정: 2021/08/30 18:00

"딥페이크 기술로 새로운 영상과 목소리를 만들려면 보통 사진 10만 장이 필요한데 우리가 개발한 AI기술(딥휴먼)은 사진 1장만 있으면 됩니다. 클레온은 딥러닝 기반 영상생성 기술에서 국내 최고라고 자부합니다."

인공지능(AI) 스타트업  클레온(KLleon)은 지난 15일 SBS가 특별 방송으로 방영한 '불멸의 시대'에서 현재의 사람 얼굴과 목소리를 그대로 재현한 디지털 기술(디지털 트윈)을 선보여 시선을 받았다. 당시 클레온은 췌장암 4기 진단을 받은 전직 헬스트레이너의 가상 얼굴과 목소리를 방송에서 그대로 재현, 주목을 받았다. AI기술을 활용해 사람이 디지털 세상에서 영원히 살 수 있음을 보여 준 것이다.

클레온이 '디지털 쌍둥이'를 재현한데 들어간 재료(데이터)는 그 사람 얼굴 사진 1장과 30초~1분 분량 목소리가 전부였다. SBS가 국내서 처음으로 진행한 이번 '디지털 트윈' 프로젝트에는 클레온을 포함해 3개 기업이 참여했는데 이중 클레온은 정면 사진 1장과 30초만의 음성 데이터로 디지털 트윈을 재현하는 자사 AI기술인 '딥휴먼'을 제공했다.

최근 서울 성수동 본사에서 만난 진승혁 클레온 대표는 "딥러닝 기반 영상생성 기술은 우리가 최고"라면서 "사람 얼굴에 이어 배경도 자유자재로 바꿀 수 있는 기술을 개발중"이라고 밝혔다. 보통 딥페이크 기술은 영상속 얼굴과 목소리를 바꾸려면 기본적으로 사진 10만 장과 40시간 정도의 AI 학습 시간이 필요한데 클레온이 이를 사진 1장과 시간도 거의 실시간 수준으로 구현하는 기술을 갖고 있다.

진승혁 클레온 대표. 세종과학고를 나온 진 대표는 세번째 창업 회사로 클레온을 창업했다. 클레온은 사진 1장만 있으면 새로운 얼굴로 바꿔주는 AI기술을 보유하고 있다.

2018년 설립된 스타트업인 클레온은 얼굴 생성 및 변환 기술과 함께 음성 생성 기술 등 7가지 핵심 기술을 개발, 보유하고 있다. 이들 기술을 조합하면 무수히 많은 '디지털 쌍둥이'를 만들어 낼 수 있다. 특히 클레온은 디지털 쌍둥이와 함께 사용할 수 있는 다채로운 배경 기술도 개발하고 있는데 이 둘을 결합하면 무수히 많은 스토리를 사이버상에서 구현할 수 있을 전망이다. 클레온이 "컬처 콘텐츠 분야에서 글로벌 넘버1 기업이 되는게 목표"라고 말하는 이유다.

클레온을 설립한 진 대표는 서울 소재 세종과학고를 조기 졸업하고 한양대 융합전자공학부를 마쳤다. 세번째로 창업한 회사가 클레온이다. 그는 한때 '게임 도사'였다. 스타크2 순위가 5위였는데  e스포츠 선수 영입 제안도 받았다. 진 대표는 "우선은 밸류(기업가치) 10조원 회사를 만드는데 주력하겠다"면서 "내년에 본사를 미국으로 옮길 예정"이라고 밝혔다. 아래는 진 대표와의 일문일답.

-클레온은 무슨 뜻인가

"KL 다이버전스(KL Divergence)라는 수학 용어가 있다. 4차원 거리 개념이다. 육안으로 보기엔 가깝지만 실제로는 굉장히 먼 거리를 말한다. 육안으로 보기엔 가깝지만 멀 수 있다는 철학적 개념에 자유롭게 변신하는 카멜레온을 더해 회사 이름을 클레온이라 지었다. 언제든 변하고, 멀어보이지만 가깝고, 가까워보이지만 먼, 그런 걸 뜻한다."

-클레온이 세번째 창업 회사라고 들었다. 설립 배경이 궁금하다

"8년전(21살)에 처음 사업을 했다. 매출 50억대 회사도 운영해 봤다. 이전 회사에서 얻은 교훈이 있다. 조직 문화와 사람(인재)이 중요하다는 거다. 두번째 회사를 정리하고 인강(인터넷 강의)를 듣는데 너무 졸렸다. 내가 좋아하는 연예인(수지)이 강의하면 열심히 들을텐데 하는 생각이 들었다. 시험 삼아 구현해봤는데 잘 됐다. 이전 회사에서 느낀 것도 있고 해 2018년 클레온을 설립했다. 세종과학고 동창과 같이 설립했다. 공동창업자(코파운더)는 현재 연구분야를 총괄한다."

진승혁 대표는 한때 게임도사였다. 무료한 인터넷 강의에서 창업 아이디어를 얻었다.

-클레온은 어떤 AI 기술을 갖고 있나?

"총 7가지 핵심 기술을 갖고 있다. 가장 핵심은 어떤 영상 속 인물도 실시간으로 바꿔주는 얼굴 변환 기술과 입력된 음성에 맞는 입모양을 생성하는 기술이다. 사진 1장만 있으면 원하는 인물로 바꿔준다. 원하는 메이크업(화장)을 바로 내 얼굴에 입힐 수도 있다. 또 여러명의 얼굴을 합쳐 새로운 가상의 얼굴을 만들 수도 있다. 활용 분야는 다양하다. 예컨대, 관심있는 영화나 드라마 속 인물의 얼굴을 새로운 주인공 얼굴로 바꿀 수 있다. 영상의 목소리를 원하는 목소리로 변환할 수 있는 다대다 목소리 변환도 가능하다. 텍스트를 입력하면 그 사람의 목소리로 생성된 영상이 만들어지는 다대다 목소리 생성도 가능하다. 내 얼굴을 다른 사람 얼굴로 바꾸려면 보통 다른 사람 얼굴 10만장과 40시간 학습 시간이 필요하다. 하지만 우리 기술은 사진 1장과 2초 정도면 이를 가능하게 해준다. 우리 AI기술은 추가 학습이 필요없다. 이런 점에서 기술혁신을 이뤘다. 특히 일대다가 아니라 다대다 얼굴 변환이 가능하다. 학술용어로 '멀티 투 멀티 페이셜 리인액트먼트'라 부른다."

-지난 5월 B2C 시장을 겨냥해 '카멜로(KAMELO)' 앱을 론칭했다. 어떤 제품인가

"'카멜로'를 활용하면 촬영하지 않고도 원하는 얼굴과 목소리를 재생, 누구든 나만의 콘텐츠를 만들 수 있다. 원본 영상 속 얼굴과 목소리를 바꿀 수 있을 뿐 아니라 2~12명 얼굴을 섞어 새로운 가상 얼굴을 생성할 수도 있다. 원하는 화장을 입히는 메이크업 기능과 원하는 소리를 녹음하는 펀사운드 기능이 있다. 지금은 얼굴과 목소리만 변환시키지만 앞으로 체형과 배경도 바꿀 계획이다. 내가 좋아하는 가상 인물과 내가 좋아하는 세계 어디를 가상으로 걷을 수 있게 된다. 우리처럼 사진 1장으로 얼굴을 생성하는 기업은 아직 없다. 우리가 하는 분야를 나는 딥러닝 기반 영상생성 시장이라고 말한다.  AI휴먼과 디지털휴먼도 이에 들어갈 것이다. 카멜로'로는 B2C 시장을 겨냥해 내놓은 제품이다. B2C 시장에서 성공하고 싶다."

클레온의 핵심 기술 이미지. 사진 1장만 있으면 새로운 얼굴로 바꿀 수 있다.

-국내외 적으로 '카멜로'와 같은 얼굴 및 음성 변환 및 생성 기술을 가진 기업이 얼마나 있나?

"국내에는 우리와 같은 기업이 없다. 세계적으로는 모르겠다."

-중국에도 얼굴 전환 앱이 있지 않나

"중국 기술은 상용화 기술이라고 보기엔 애매한 면이 있다. 우리 기술이 중국보다 훨씬 낫다. 특히 일대다는 여러개 있지만 다대다 변환 기술은 우리가 세계 처음이라고 생각한다."

-유명인 얼굴과 목소리를 재현하면 지재권 문제가 없나?

"상용화 하려면 당연히 풀고 가야할 문제다. 유명인 얼굴과 목소리를 쓰려면 먼저 승인을 받아야 한다고 생각한다."

-클레온 고객사는 얼마나 되나

"올 4월부터 기업을 대상으로 영업하고 있다. 4개월만에 대기업 10곳을 고객으로 확보했다. 기업마다 우리가 가진 7가지 기술 중 원하는게 다르다. 예를 들어 CJENM에는는 다국어 더빙 기술을, SBS에는 트윈AI 챗봇 기술을 제공했다. 모인에는 나만의 AI셀럽 기술을, 웅진에는 부모님 얼굴과 목소리로 동화책을 읽어 줄 수 있는 기술을 각각 제공했다. 내가 원하는 사람과 목소리로 상담을 받을 수 있는 프로젝트도 진행하고 있다. 모 대기업과 연구개발(R&D)을 같이 하고 있다. 일반인들이 초상권 보호가 안되는 경우가 있는데, 일반인 얼굴을 모자이크 하는 대신 가상으로 바꿔주는 프로젝트도 준비중이다."

-기술경쟁력을 말해달라

"사진 1장과 30초~1분 분량 음성 데이터만 있으면 나만의 영상을 만들 수 있다. 이건 기술 강점이고,실제 우리 강점은 기업 문화다."

-기업문화가 더 강점이라고? 어떤 기업 문화를 갖고 있나?

"AI 스타트업이 대부분 늙었다. 비즈니스와 사업 모델도 '올드'하다. 기업 문화 역시 딱딱하다. 컬처 개념이 없다. 문화사업 하려면 창의적이여야 하는데 그렇지 않다. 우리는 다르다. 직원 32명의 평균 나이가 28살이다. CEO인 나는 29살이다. 32명 중 엔지니어가 20명이고 사이언티스트도 10명 정도 있다. 구글이 만든 OKR(Objective Key Result)을 쓰기 위해 보통 자유로운 피드백을 추구하는데, 여기에 우리는 홀로크러시 조직 문화를 더했다. 나는 애자일 기업이 민주적이라는데 동의하지 않는다. 그건 기업이 아니고 동아리다. 홀로크러시가 좋은 점은 사람에 역할을 부여하는 게 아니라 역할에 사람을 부여한다는 거다. 사람 중심이 아니라 역할 중심으로 움직인다. 우리가 하는 일도 창의적이다. 요즘 트렌드에 빠싹한 친구들이 많아 기술 및 제품에 적용하기 쉽다. 출퇴근도 체크 안한다. 오후 1시부터 5시까지 코어타임에만 사무실에 있으면 된다. 하지만 성과 관리는 확실히 한다. 출퇴근은 알아서 하지만 태스크를 주고 명확히 체크한다. 임원은 나를 포함해 4명이 있는데 모두 1년 계약직이다. 목표 중 80% 이상을 달성하면 연임, 50~80%는 정규직으로 전환, 50% 이하면 정리한다. 이 제도는 올해부터 시행하고 있다. 스타트업 한다고 얘들 장난치는 거 많은데 나는 이게 싫다."

-인력 경쟁력은 어떤가

"연구원 8명이 전부 KAIST 석박사다. 톱티어급 논문도 많이 냈다. 스타트업 중 우리처럼 양질의 인력 갖고 있는 곳이 없다고 자부한다."

-매출과 투자유치 현황은

"올해 매출은 15억원 정도를 예상하고 있다. 투자 유치는 씨드로 1억5천, 프리A로 20억원을 받았다. 씨드는 블루포인트파트너스에서, 프리A는 카카오인베스트먼트에서 받았다."

-상장 계획은

"상장 욕구가 크지 않다. 일단은 밸류(시장가치) 10조원 회사를 만드는게 목표다. 내년에는 확실히 본사를 미국으로 이전할 생각이다. 아이템보다 중요한 건 시스템과 인력이라고 생각한다. 지금 뜨는 아이템은 5년 후면 아닐 수 있다. 새로 혁신할 방향을 늘 찾고 시스템과 좋은 인력, 확실한 기술을 갖추면 지속 성장을 할 수 있다고 본다. 나는 늘 3가지를 강조한다. 사람과 조직문화, 기술이다. 이 세가지만 집중한다."

-5년후, 10년후 회사 비전은

"나가야할 분야는 확실히 정했다. 콘텐츠 쪽이다. 문화와 관련한 컬처 콘텐츠를 혁신할 수 있는 다양한 기술을 개발해 컬처 콘텐츠 분야 글로벌 넘버1이 되는게 목표다. 연구는 넓게, 비즈니스 분야는 좁게하고 있다."

관련기사

-정부가 AI강국 코리아 달성에 힘을 쏟고 있다. AI강국 코리아에 제언을 한다면

"정부가 잘하는 것 같다. 요즘 메타버스가 유행인데 아직 이른 감이 있다. 메타버스는 개념이고 결국 AI가 모든 걸 만들어줘야 한다. 원천 기술이 올라와야(성숙해야) 메타버스도 가능하다. 개인적으로 투자를 한다면 중국과 미국이 못하는 곳에 투자하고 싶다. 정부도 이런 부문에 보다 많은 투자를 해야 한다."