Как отмечают аналитики Gartner, к 2030 году затраты на инференс для языковых моделей с триллионом параметров сократятся для поставщиков ИИ-услуг более чем на 90 % по сравнению с уровнем 2025 года. Однако это не приведёт к повсеместной доступности высокопроизводительных вычислений.
В исследовании Gartner стоимость одного токена была условно принята равной 3,5 байтам, что примерно соответствует четырём символам английского алфавита. Специалисты прогнозируют, что снижение издержек станет следствием совокупности факторов: роста эффективности специализированных ИИ-чипов и поддерживающей инфраструктуры, прогресса в архитектуре моделей, оптимизации загрузки аппаратного обеспечения, внедрения специализированных ускорителей для инференса, а также развития периферийных вычислений для отдельных задач.
В итоге, по оценкам Gartner, к 2030 году крупные языковые модели станут в сотню раз более рентабельными по сравнению с первыми аналогичными по масштабу системами, появившимися в 2022 году. Расчёты показывают, что эксплуатация моделей на современном ИИ-оборудовании будет ожидаемо намного выгоднее, чем на устаревших или гибридных платформах, использующих более доступные, но менее мощные полупроводники. На это, в частности, неоднократно указывала компания NVIDIA.
Источник изображения: Gartner
Тем не менее, удешевление токенов не сделает передовые технологии общедоступными. Во-первых, сокращение операционных расходов провайдеров ИИ не обязательно приведёт к пропорциональному снижению цен для бизнес-пользователей. Кроме того, современным ИИ-системам потребуется значительно больше токенов, чем сегодня. Например, автономные ИИ-агенты могут использовать в 5–30 раз больше токенов на одну задачу, чем стандартный чат-бот, и способны решать гораздо больше задач, чем человек, применяющий ИИ вручную.
Несмотря на расширение функциональности искусственного интеллекта, это приведёт к «непропорционально высокому» увеличению потребности в токенах. Их расход растёт опережающими темпами по сравнению со снижением цены, что, как ожидается, повысит расходы на выполнение выводов моделями. Акцентируется, что это не означает доступность передовых вычислительных мощностей для всех. Цена на «стандартные» ИИ-решения действительно продолжит снижаться, однако ресурсы, требуемые для сложных ИИ-инициатив, останутся ограниченными. Руководителям ИИ-проектов, которые сейчас скрывают недостатки своих архитектур за счёт удешевления токенов, в будущем предстоит столкнуться с проблемами при масштабировании вычислений для ИИ-агентов.
Согласно прогнозам Gartner, наибольший спрос получат платформы, способные управлять рабочими нагрузками, распределяемыми среди целого набора моделей. Например, рутинные операции следует делегировать компактным, узкоспециализированным ИИ-моделям, которые эффективнее и экономичнее справляются с конкретными рабочими процессами, чем универсальные системы. При этом дорогостоящие мощности передовых моделей необходимо выделять с жёсткими квотами, сохраняя их исключительно для сложных, но высокодоходных задач вывода.
Источник: