Home chevron_right Ai chevron_right Article

LG, 구글과 오픈AI 제치고 '텍스트와 이미지 동시 추론' 기술 선보여

LG AI연구원이 9일 텍스트와 이미지를 동시에 이해하고 추론하는 멀티모달 AI 모델 '엑사원(EXAONE) 4.5'를 공개했다. 엑사원 4.5는 LG AI연구원이 자체 개발한 비전 인코더와 거대언어모델(LLM)을 하나의 구조로 통합한 비전-언어 모델(VLM, Visi

이정원기자

Apr 09, 2026 • 1 min read

LG AI연구원은 9일, 텍스트와 이미지를 동시에 이해하고 추론하는 멀티모달 AI 모델 '엑사원(EXAONE) 4.5'를 공개했습니다.

엑사원 4.5는 LG AI연구원이 개발한 비전 인코더와 거대언어모델(LLM)을 하나로 통합한 비전-언어 모델(VLM)로, 산업 현장에서 다루는 복합 문서를 정확하게 읽고 추론하는 능력이 강점입니다.

이 모델은 STEM 성능 평가에서 평균 77.3점을 기록하여, 미국 오픈AI GPT5-mini, 클로드 소넷 4.5, 중국 알리바바 큐웬(Qwen)3 235B를 앞섰습니다.

또한, 일반 시각 이해와 전문 문헌 속 정보 이해 및 추론 성능을 평가하는 다양한 지표에서도 뛰어난 성능을 보였습니다.

'엑사원 4.5'는 330억개 파라미터로 구성되어 있으며, LG AI연구원이 개발한 고속 추론 기술을 적용하여 텍스트 이해 및 추론 영역에서 동등한 수준의 성능을 보여주었습니다.

LG AI연구원은 이 모델을 통해 멀티모달 시대로 진입하며, 음성, 영상, 물리 환경까지 AI의 이해 범위를 확장해 실질적으로 판단하고 행동하는 AI를 만들어 나갈 것이라고 밝혔습니다.

#ai #artificial intelligence #technology #robot #future