카카오브레인, 이미지 생성 모델 'RQ-트랜스포머' 공개

고해상도 이미지 저해상도 3차원 코드맵으로 구성

인터넷입력 :2022/04/19 22:29

카카오브레인이 지난해 공개한 초거대 멀티모달 인공지능(AI) 민달리(minDALL-E) 업그레이드 버전의 이미지 생성 모델 ‘RQ-트랜스포머(Transformer)’를 오픈소스 커뮤니티 깃허브(GitHub)에 공개했다고 19일 밝혔다. 이번 모델은 39억개 매개변수(파라미터)로 구성, 3천만쌍의 텍스트와 이미지를 학습한 AI 모델이다.

민달리 대비 모델 크기는 3배, 이미지 생성 속도와 학습 데이터셋 크기는 2배 늘렸다. 민달리가 ‘달리’를 재현한 형태라면, RQ-트랜스포머는 카카오브레인의 독자적인 기술로 개발된 게 특징이다. 고해상도 이미지를 2차원 코드맵으로 표현한 기존 기술과 달리, 3차원 코드맵으로 표현된 이미지를 순차적으로 예측해 생성하도록 했다.

RQ-트랜스포머는 이미지 압축에 따른 손실이 적어, 높은 품질의 이미지를 저해상도 코드맵으로 표현할 수 있다. 기존 이미지 생성 모델보다 적은 계산 비용과 높은 이미지 생성 속도를 달성할 수 있단 얘기다.

(사진=카카오브레인)

카카오브레인은 자체 개발 기술을 토대로 이미지 품질을 개선하고, 저비용으로 많은 데이터를 학습할 수 있게끔 연구개발(R&D)를 이어간다는 방향이다. 또 주어진 텍스트 조건에 의한 이미지 생성을 넘어, 자유롭게 떠올리는 아이디어를 컴퓨터 프로그램을 통해 디지털 이미지로 실현하도록 기술 역량을 쌓아갈 예정이다.

관련기사

회사는 오는 6월 열리는 세계적인 학술대회 ‘CVPR 2022’에서 RQ-트랜스포머 기술 관련 논문을 발표한다. 이미지 생성 모델 연구 개발을 담당하고 있는 카카오브레인 GM(Generative Model)팀은 이를 발판 삼아, 정교한 이미지를 만들고 생성 속도를 향상하기 위한 연구를 진행할 방침이다.

김일두 카카오브레인 대표는 “인간의 명령에 따라 이미지를 만들어내는 컴퓨터는 그 명령 뒤에 내재된 의도를 파악하고 이해하는 기술을 보여준다”며 “이번에 공개한 획기적인 AI 모델은 인간과 컴퓨터가 자유롭게 대화하는 미래를 향한 여정의 첫 시작이 될 것”이라고 말했다.