NVIDIA ускоряет ИИ: новая платформа избавляет от узкого места в памяти для больших языковых моделей
Параллельно с представлением новой ИИ-платформы Rubin следующего поколения, NVIDIA также анонсировала платформу для хранения контекста вывода — NVIDIA Inference Context Memory Storage Platform (ICMSP). Её задача — справиться с растущими сложностями хранения KV-кэша, объём которого стремительно увеличивается вместе с размером языковых моделей и масштабом решаемых ими задач.
В процессе генерации текста контекст постоянно расширяется, что нередко приводит к превышению доступной памяти на ускорителе. В таких ситуациях более старые данные последовательно перемещаются из памяти ускорителя в оперативную память системы, а затем на диск. Это позволяет избежать их повторного вычисления, когда они снова понадобятся. Особенно остро эти проблемы проявляются при использовании агентного ИИ и обработке задач с объёмным контекстом. Агентные системы могут оперировать контекстом в миллионы токенов, а сами модели — достигать триллионов параметров.
Современные решения задействуют долговременную память для сохранения контекста, что даёт агентам возможность опираться на предыдущие цепочки рассуждений и развивать их на протяжении множества шагов, вместо того чтобы каждый раз начинать работу заново. По мере роста контекстных окон повышаются и требования к объёму KV-кэша, делая эффективное хранение и повторное использование данных, включая их совместное применение разными сервисами вывода, ключевым фактором для общей производительности системы. Поскольку контекст вывода является производным и подлежит пересчёту, архитектура его хранения должна в первую очередь обеспечивать энергоэффективность, экономическую целесообразность, высокую скорость и масштабируемость, а не традиционную надёжность хранения информации.
Источник изображений: NVIDIA
По мнению NVIDIA, для ИИ-фабрик требуется дополнительный, специализированный уровень хранения контекста, который воспринимает KV-кэш как особый класс данных, созданный для задач искусственного интеллекта, вместо того чтобы вынужденно размещать его в ограниченной памяти HBM или в системах хранения общего назначения. Платформа ICMS задействует DPU BlueField-4 для формирования выделенного уровня памяти, чтобы сократить разрыв между высокоскоростной памятью графических ускорителей и масштабируемым сетевым хранилищем. Как отмечает компания, KV-кэш на базе NVMe должен эффективно обслуживать отдельные ускорители, вычислительные узлы, стойки и целые кластеры.
ICMS формирует новый уровень (обозначенный на схеме выше как G3.5) — флеш-память с подключением через Ethernet, оптимизированную специально под KV-кэш. Этот слой функционирует как долговременная память агентов в рамках ИИ-инфраструктуры: он обладает достаточным объёмом для хранения общего, динамически меняющегося контекста множества агентов одновременно, и при этом расположен достаточно близко для активного взаимодействия с памятью ускорителей и хостов.
BlueField-4 отвечает за аппаратное ускорение операций с кэшем, устраняя издержки, связанные с подготовкой и перемещением данных, а также обеспечивая безопасный изолированный доступ к ним со стороны GPU-узлов. Это снижает нагрузку на центральный процессор хоста и минимизирует операции сериализации и обращения к его системной памяти. Программные компоненты, такие как фреймворк DOCA, механизм разгрузки KV-кэша Dynamo и входящая в комплект библиотека NIXL (Nvidia Inference Transfer Library), обеспечивают интеллектуальный и ускоренный обмен данными KV-кэша между узлами ИИ. А сеть Spectrum-X Ethernet предоставляет оптимизированный интерконнект на основе RDMA, который соединяет систему ICMS и GPU-узлы.
KV-кэш фундаментально отличается от корпоративных данных: он носит временный, производный характер и может быть восстановлен в случае утраты. Как контекст для инференса, он не требует высокой надёжности, избыточности или сложных механизмов защиты, разработанных для долгосрочного хранения информации. Выделяя KV-кэш в отдельный, изначально ИИ-ориентированный класс данных, система ICMS исключает избыточные накладные расходы, что, по заявлению NVIDIA, обеспечивает до пятикратного повышения энергоэффективности в сравнении с универсальными подходами к хранению. Своевременная подготовка и подача данных также позволяют полнее загрузить ускорители, что может увеличить скорость генерации токенов до пяти раз.
По данным NVIDIA, первые компании-партнёры, которые внедрят поддержку ICMSP на базе BlueField-4, запланированного к выходу во второй половине 2026 года, — это AIC, Cloudian, DDN, Dell, HPE, Hitachi Vantara, IBM, Nutanix, Pure Storage, Supermicro, VAST Data и WEKA.
Источник информации:
- nvidia.com