카카오가 새로운 기술인 '컴퓨터 사용 에이전트(CUA)'를 개발하고 있다. 이 기술은 컴퓨터 화면을 보고 마우스와 키보드를 조작하여 작업을 자율적으로 수행하는 것으로, 오픈AI와 구글 등이 이미 관련 서비스를 시작했다. 카카오는 자체 개발한 시각 언어 이해 모델 '카나나-v'의 기능을 확장하여 CUA를 도입하고 있다.
CUA는 AI가 실제로 작업을 수행할 수 있는 기술로, 웹 브라우저를 자동 조작하여 작업을 처리할 수 있다. 이 기술을 활용한 서비스로는 오픈AI의 '오퍼레이터'와 구글의 '마리나 프로젝트' 등이 있다. 카카오는 CUA 중 '그래픽 사용자 인터페이스(GUI) 그라운딩' 개발에 집중하고 있으며, 사용자의 목표를 구체적인 단계로 분할하는 '계획(Planning)' 기술도 개발 중이다.
카카오는 카카오톡을 중심으로 다양한 서비스에서 AI 에이전트를 구현할 계획이며, CUA를 선택지로 고려하고 있다. 특히 AI 에이전트를 구현하는 데 도움이 되는 다양한 환경에서 이 기술을 적용할 예정이다. 카카오 관계자는 CUA를 단순한 사용자 인터페이스(UI) 조작 기술이 아닌 서비스형 에이전트 기술로 발전시키고자 한다고 밝혔다.
또한, 카카오는 경량화된 멀티모달 모델의 연구 및 개발을 검토하고 있으며, '카나나 인 카카오톡'과 같은 온디바이스 AI 서비스에 멀티모달 기술을 활용할 예정이다. 장기적으로는 음성, 비전, 텍스트를 아우르는 통합형 AI 모델 '카나나-o'를 구축할 계획이다.