카카오브레인, 이미지·텍스트 데이터셋 '코요' 공개

상반기 중 데이터셋 활용한 초거대 인공지능 모델 공개

인터넷입력 :2022/08/30 09:43

카카오브레인은 7억4천만개가량 이미지, 텍스트로 이루어진 데이터셋 ‘코요(Coyo)’를 31일 공식 홈페이지를 통해 공개한다고 밝혔다.

데이터셋은 초거대 인공지능(AI) 모델이 정교한 결과값을 구현하는 데 필요한 핵심 요소다. 높은 성능을 위해 많은 기업들이 수작업으로 이미지, 텍스트 쌍을 맞춰 데이터셋을 수집하는데, 이때 높은 비용과 많은 시간이 소요된다.

카카오브레인은 코요 개발 시 독자 개발한 기술로 이미지, 텍스트를 온라인에서 자동 수집함으로써 투입되는 비용과 시간을 줄이고, 동시에 양질의 데이터를 선별해 높은 성능을 조성했다.

카카오브레인.

실제로 유수 글로벌 AI 기업에서 공개한 초거대 AI 모델 재현을 통해 교차 검증을 마치며 데이터 품질을 확인했다. 코요는 카카오브레인이 앞서 공개한 초거대 AI 이미지 생성 모델 ‘RQ-Transformer’와 AI 아티스트 ‘칼로(Karlo)’ 개발에 적용됐다.

관련기사

코요는 멕시코 대표 화가 프리다 칼로(Frida Kahlo)의 고향인 멕시코시티 코요아칸 앞 글자를 땄다. 카카오브레인은 코요를 세계 최대 수준으로 확대한다는 목표 하에, 한국어를 비롯한 다양한 언어로 개발할 방침이다.

내년 상반기 중으로 코요 데이터셋을 활용한 초거대 AI 모델을 추가 공개할 예정이다. 김일두 카카오브레인 대표는 “앞으로도  다방면으로 기술 리더십을 선도하고 AI 커뮤니티와 협력하며 생태계 발전에 이바지할 것”이라고 했다.