Home chevron_right Ai chevron_right Article

MS, 혁신적 AI 기술로 음성과 이미지 창조력 공개! AI의 미래를 열다!

마이크로소프트(MS)가 음성 전사(받아쓰기)와 음성 생성, 이미지 생성 특화 모델 3종을 개발자용으로 공개했다. 2일(현지시간) 사티아 나델라 MS 최고경영자(CEO)는 링크트인을 통해 “모든 개발자에게 성장하는 MAI(MS AI) 모델 제품군을 제공하게 됐다”며 음성

이정원기자

Apr 02, 2026 • 1 min read

미국 소프트웨어 기업 마이크로소프트는 음성 전사 및 생성, 이미지 생성을 위한 특화 모델 3종을 개발자들을 위해 공개했습니다.

사티아 나델라 마이크로소프트 최고경영자(CEO)는 링크드인을 통해 "MAI(MS AI) 모델 제품군을 통해 모든 개발자들에게 성장의 기회를 제공하게 되었다"며, 음성 전사 모델 'MAI-트랜스크라이브-1', 음성 생성 모델 'MAI-보이스-1', 이미지 생성 모델 'MAI-이미지-2'을 소개했습니다.

MAI-트랜스크라이브-1은 25개 언어를 인식할 수 있는데, 이 중 영어와 한국어를 포함합니다. 이 모델은 업계 표준 벤치마크 '플뢰르'에서 오픈AI나 구글과 같은 경쟁사를 제치며 가장 낮은 오류율을 보였습니다. 또한, MS는 이 모델이 다국어 회의나 시끄러운 장소에서도 음성을 정확하게 인식할 수 있다고 강조했습니다.

MAI-보이스-1은 몇 초의 음성 데이터만으로 맞춤형 음성을 생성하며, 60초 분량의 오디오를 1초만에 생성할 수 있습니다. MAI-이미지-2는 성능이 우수한 이미지를 낮은 비용으로 생성할 수 있는 강점을 갖추고 있습니다.

마이크로소프트는 딥마인드 공동창업자인 무스타파 술레이만을 MAI 부문 CEO로 선정하여 인간을 능가하는 '초지능'을 연구 및 개발하고 있습니다. 그러나 아직 범용 기반 모델을 완성하지는 못한 상황입니다.

술레이만 CEO는 블룸버그 통신과의 인터뷰에서 "우리는 최첨단 기술을 제공해야 하며, 2027년까지 최고 수준에 도달할 것"이라며 "나델라 CEO도 최근 사내 개발자 모임에서 3∼5년 내 최첨단 AI 자립의 중요성을 강조했다"고 설명했습니다.

#ai #artificial intelligence #technology #robot #future