카카오가 차세대 언어모델 카나나 2.0을 앞세워 AI 경쟁의 무게중심을 성능과 효율, 멀티모달 확장에 두고 있다는 점을 분명히 했다. 단순히 더 큰 모델을 쌓는 것이 아니라, 추론 효율과 체감 속도를 높이고 한국어·한국 문화에 특화된 역량을 강화해 ‘에이전틱 AI’ 시대를 선도하겠다는 전략이다.

24일 경기 용인시 카카오 AI 캠퍼스에서 열린 ‘이프 카카오(if kakao)25’ 둘째 날 카카오 김병학 성과리더는 자체 개발 카나나 모델이 에이전틱 AI를 향해 어떻게 진화하고 있는지와 향후 계획에 대해 발표했다.

카나나 모델은 롱컨텍스트 처리와 멀티모달 이해, 추론 능력, 외부 도구를 활용하는 능력을 집중적으로 강화하고 있다. 이러한 카나나 모델 진화의 근간에는 강력한 언어모델이 존재한다는 설명이다.

카카오는 올해 2월 언어모델의 라인업을 완성했으며, 불과 3개월 만에 수학, 코딩 등의 고난이도 문제 해결 능력을 향상시킨 카나나-1.5를 공개했다. 이후 인퍼런스(Inference) 효율성을 높인 카나나-1.5를 기반으로 MoE 구조의 모델을 개발했으며, 추론(Reasoning) 모델에 대한 연구를 진행해왔다.

현재 카나나-1.5를 통해 축적한 기술을 확장해 고성능과 효율성, 그리고 실제 서비스에서 가장 편리한 AI를 목표로 카나나-2를 개발중이다. 특히, 추론 효율성의 강화와 체감 속도의 개선, Agentic AI의 핵심 역량 강화에 집중하고 있다고 말했다. ▲복잡하고 여러 단계로 이루어진 지시를 정확히 따르는 능력(Instruction Following) ▲외부 도구를 능숙하게 연결하고 사용하는 툴 사용(Tool Use) ▲다국어 확장 ▲환각 없이 사실에 기반하여 답변하는 능력(Grounding)을 글로벌 최고 수준으로 끌어올리는 것이 목표다.

김 성과리더는 장기적으로 지시를 따르는 'Instruct' 모델과 깊게 생각하는 'Resoning' 모델을 통합해 카카오 서비스에 최적화된 하이브리드 언어모델을 완성할 계획이라고 밝혔다.

카나나-2의 구조적 특징에 대해서도 설명했다. 모든 크기의 모델에 공통적으로 적용한 ‘MLA(Multi-Head Latent Attention)’ 기법은 압축을 거쳐 긴 인풋을 효율적으로 처리하는 방식이다. 가장 큰 크기의 모델에 적용한 ‘MoE(Mixture of Experts)’는 추론 시 일부 파라미터만 활성화돼 높은 효율성을 보이는 구조다. 현재 두 구조를 이용한 ‘카나나-2-30b-a3b’ 모델을 개발중이며, 획기적인 추론 처리량과 빠른 응답 속도에 대해 소개했다.

경량 모델의 고도화에도 집중하고 있다. 기존 버전의 모델에 비해 뛰어난 성능을 보이고 있으며, 향후 최적화 기법을 거쳐 다양한 규모의 고성능 경량 모델을 구축하는 핵심 기반이 될 것이라고 설명했다.

고성능 언어모델을 기반으로 다양한 형태의 정보를 자유자재로 이해하고 생성하는 'Any-to-Any' 구조의 옴니모달 모델에 대한 방향성도 언급했다. 김 성과리더는 실제로 사람 간의 대화처럼 자연스럽고 몰입감있는 대화 역량 확보하는 것을 목표로 수립하고, ▲음성 기반의 멀티턴 대화 처리 능력 ▲사람처럼 끊김없이 소통하는 Full-duplex 음성 대화 지원 ▲인간의 가치에 부합하는 답변을 위한 학습과 안전성 강화를 위해 집중할 계획이라고 말했다.

김 성과리더는 “국내 최초로 방언과 한국 문화를 인식할 수 있는 모델이다. 감정을 담은 자연스러운 음성 인터페이스를 제공하며, 복잡한 수학 문제 풀이나 다자간 팟캐스트 음성 생성도 가능하다. 실제 서비스 적용을 고려해 한국어·한국 문화에 특화된 데이터셋을 자체 구축해 한국어 성능을 글로벌 모델보다 높게 끌어올린 것이다”라고 강조했다.

카카오는 멀티모달 이해를 넘어 생성하는 능력까지 고도화하기 위해 현재 이미지 생성 모델 'Kanana-kollage(콜라주)’를 개발해 서비스에 적용하고 있으며, 동영상 생성 모델인 'Kanana-kinema(키네마)'로 확장하고 있다. 인물의 포즈를 정교하게 제어하는 모듈을 추가해 자연스러운 인물 영상을 만들어내며, 생성 속도 단축을 위해 최적화 작업을 진행중이다.

김 성과리더는 “키네마는 단순히 이미지를 움직이는 수준을 넘어 인물 포즈를 정교하게 제어하고 자연스러운 형상을 구현하는 모델이다. 연내에는 한국어·영어 외에도 일본어, 중국어, 베트남어까지 음성 지원을 확장할 것이다”라고 밝혔다.

마지막으로 김 성과리더는 “카나나 모델을 바탕으로 이용자의 마음을 먼저 읽고, 알아서 도와주는 에이전틱 AI를 현실로 만들어 나갈 것” 이라며 “개발자들의 아이디어와 전문성이 더해져 국내 AI 생태계가 한 단계 도약하기를 기대한다”고 말했다.