LG AI연구원은 9일, 텍스트와 이미지를 동시에 이해하고 추론하는 멀티모달 AI 모델 '엑사원(EXAONE) 4.5'를 공개했습니다.
엑사원 4.5는 LG AI연구원이 개발한 비전 인코더와 거대언어모델(LLM)을 하나로 통합한 비전-언어 모델(VLM)로, 산업 현장에서 다루는 복합 문서를 정확하게 읽고 추론하는 능력이 강점입니다.
이 모델은 STEM 성능 평가에서 평균 77.3점을 기록하여, 미국 오픈AI GPT5-mini, 클로드 소넷 4.5, 중국 알리바바 큐웬(Qwen)3 235B를 앞섰습니다.
또한, 일반 시각 이해와 전문 문헌 속 정보 이해 및 추론 성능을 평가하는 다양한 지표에서도 뛰어난 성능을 보였습니다.
'엑사원 4.5'는 330억개 파라미터로 구성되어 있으며, LG AI연구원이 개발한 고속 추론 기술을 적용하여 텍스트 이해 및 추론 영역에서 동등한 수준의 성능을 보여주었습니다.
LG AI연구원은 이 모델을 통해 멀티모달 시대로 진입하며, 음성, 영상, 물리 환경까지 AI의 이해 범위를 확장해 실질적으로 판단하고 행동하는 AI를 만들어 나갈 것이라고 밝혔습니다.