대규모 언어모델(LLM)의 추론 비용이 미래에 급격히 낮아질 것으로 전망되지만, 토큰 수요가 증가할 수 있어 전체 비용은 증가할 수 있다고 분석되었습니다. 가트너는 2030년까지 1조 파라미터 규모의 LLM의 추론 비용이 2025년 대비 90% 이상 하락할 것으로 전망했습니다.
생성형 AI 모델이 처리하는 토큰 단가가 낮아질 것이라는 분석에 따르면, 가격 하락의 이유로는 반도체와 하드웨어 인프라의 효율성 향상, AI 모델 설계 혁신, NPU 등 추론 전용 반도체의 확산, 엣지 디바이스 활용 등 다양한 기술 혁신이 작용한 결과로 분석되었습니다.
가트너는 또한 2030년까지 LLM이 2022년 초기 모델 대비 최대 100배까지 비용 효율성이 개선될 것으로 내다봤습니다. 그러나 토큰 가격 하락이 기업의 AI 비용 절감으로 이어지지는 않을 것으로 분석되며, 고도화된 AI 기능은 더 많은 토큰을 필요로 하기 때문에 전체 추론 비용은 증가할 것으로 예측되었습니다.
가트너는 미래 AI 경쟁력이 워크로드를 효율적으로 처리할 수 있는 능력에 달려 있다고 분석했습니다. 반복적이고 빈도가 높은 작업은 저렴한 소형 언어모델이나 도메인 특화 모델로 처리해야 하며, 고비용 프론티어급 모델은 수익성이 높은 복잡한 작업에만 선택적으로 활용해야 한다고 설명했습니다.
윌 소머 가트너 시니어 디렉터 애널리스트는 “기업의 최고제품책임자(CPO)들은 범용 토큰 가격 하락을 고급 추론 역량의 대중화로 오해해서는 안 된다”며 “고급 추론을 뒷받침하는 컴퓨팅 자원과 시스템은 여전히 부족하며, 현재 저렴한 토큰 비용으로 아키텍처 비효율을 가리려는 기업은 향후 에이전트 기반 AI 확장 단계에서 한계에 직면하게 될 것”이라고 강조했습니다.