SK텔레콤의 정예팀이 '독자 AI 파운데이션 모델 프로젝트' 2단계를 진행하면서 옴니모달 모델로의 발전을 추구하고 있습니다. 이 프로젝트는 초거대 AI 모델 'A.X K1'을 텍스트, 이미지뿐만 아니라 음성까지 실시간으로 이해할 수 있는 모델로 고도화하는 것을 목표로 하고 있습니다.
SKT의 정예팀은 매개변수 500B 규모의 'A.X K1'을 공개하여 2단계로 나아가기로 결정했습니다. 2단계에서는 이미지와 음성 등 멀티모달 기능을 점진적으로 도입할 예정입니다.
서울대 컴퓨터공학부 교수인 김건희 교수는 SKT 뉴스룸에 기고문을 통해 "초거대 언어모델이 텍스트, 사진, 동영상을 통합적으로 이해하는 멀티모달을 넘어 최근 음성까지 이해하는 옴니모달 모델로 진화 중"이라고 강조했습니다.
이번 고도화의 핵심은 '옴니모달'로의 진화입니다. 옴니모달은 텍스트, 이미지, 영상뿐만 아니라 음성까지 모든 형식의 데이터를 종합적으로 이해하고 생성하는 것을 의미합니다. 이러한 모델은 오픈AI의 'GPT-4o'가 대표적인 예입니다.
김 교수는 음성 대화의 기술적 난이도를 강조하며 "기존 텍스트 기반 대화가 순차적인 턴(turn) 기반 단방향 소통 방식이라면, 음성 대화는 동시적이고 양방향적인 상호작용이 필요하다"고 설명했습니다. 또한 사용자의 감정이나 어조 등을 반영해야 하는 어려움도 언급했습니다.
이를 극복하기 위해 김 교수는 "하나의 통합된 언어모델이 음성 정보까지 처리하는 기술이 발전하고 있다"며 "음성을 포함한 다양한 데이터로 미세조정(파인튜닝)하는 방식이 옴니모달 모델 개발의 핵심"이라고 설명했습니다.
SK텔레콤은 진화된 A.X K1을 기반으로 '모두의 AI' 서비스를 실현할 계획입니다. 김 교수는 "SKT의 에이닷, 티맵, B tv 등 생활 밀착형 서비스에서 실시간 음성 대화를 지원하고, 크래프톤의 게임 AI와 포티투닷의 모빌리티 AI 고도화에도 핵심 기술로 활용될 것"이라고 전망했습니다.
마지막으로 김 교수는 소버린 AI의 성공을 위해 국가 핵심 데이터 주권을 활용할 필요성을 강조했습니다. 그는 "옴니모달 모델은 다양한 형식의 비정형 데이터를 외부 플랫폼에 의존하지 않고 직접 학습하고 운영할 수 있게 해준다"며 "성공적인 옴니모달 모델은 디지털 주권을 넘어 물리적 인프라 주권까지 강화하는 기반이 될 것"이라고 덧붙였습니다.