NVIDIA запустила Fleet Intelligence: бесплатный мониторинг для кластеров ИИ на Hopper, Blackwell и Vera Rubin

Компания NVIDIA анонсировала новую управляемую платформу Fleet Intelligence, созданную для контроля состояния крупных кластеров ускорителей, задействованных в инфраструктуре искусственного интеллекта. Данный сервис предоставляется бесплатно для заказчиков, которые эксплуатируют продукты NVIDIA на базе ускорителей серий Hopper, Blackwell и Vera Rubin. Разработчик позиционирует решение как независимый слой телеметрии и мониторинга, обеспечивающий отслеживание работы в гетерогенных инфраструктурных средах вне зависимости от используемого стека оркестрации или планировщика задач.

В основе платформы лежит «облегчённый» агент, встраиваемый в хост-систему, который передаёт телеметрические данные с ИИ-ускорителей в облачный сервис Fleet Intelligence, функционирующий в экосистеме платформы NGC (NVIDIA GPU Cloud). Данный агент использует ряд технологий NVIDIA, в том числе службу мониторинга ускорителей GPUd, инструмент управления и диагностики чипов DCGM (NVIDIA Data Center GPU Manager), а также средства проверки целостности оборудования и ПО NVIDIA Attestation SDK.

Кроме того, компания опубликовала исходный код агента Fleet Intelligence на GitHub, что даёт операторам ИИ-инфраструктуры возможность самостоятельно проанализировать механизмы сбора телеметрии. Система Fleet Intelligence собирает информацию о степени загрузки ускорителей, пропускной способности памяти, энергопотреблении системы, состоянии интерконнектов NVLink, температурных показателях, ошибках ECC, а также о параметрах аппаратного состояния. Благодаря этому операторы дата-центров могут своевременно выявлять недоиспользованные ресурсы и ошибки, сокращая время простоев крупных ИИ-кластеров.

Источник изображений: NVIDIA

К числу главных особенностей платформы относятся функции верификации целостности и сертификации, построенные на базе технологий защищённых вычислений NVIDIA Confidential Computing. С помощью корневых сертификатов доверия NVIDIA и сервиса удалённой аттестации NRAS (NVIDIA Remote Attestation Service) Fleet Intelligence выполняет криптографическую проверку прошивок ИИ-ускорителей и контролирует целостность операционной среды. Платформа способна удостовериться, что ускорители функционируют с одобренной прошивкой, и применяет манифесты целостности Reference Integrity Manifests, привязанные к конкретным версиям vBIOS.

Как отмечает NVIDIA, при создании Fleet Intelligence использовался опыт эксплуатации облачных решений NVIDIA DGX Cloud, которые задействовали сотни тысяч ИИ-ускорителей. Среди корпоративных клиентов, получивших предварительный доступ к платформе, — Lambda и Iren, обе компании предоставляли обратную связь на этапе разработки. Запуск Fleet Intelligence демонстрирует, что устремления NVIDIA выходят далеко за рамки простого создания ИИ-ускорителей: компания разрабатывает программное обеспечение и инструменты управления для ИИ-фабрик. Это дополнение к уже существующему стеку решений, включающему системы DGX, интерконнекты NVLink, сетевые продукты Spectrum-X, платформу оркестрации Mission Control и решения для защищённых вычислений.

Внедрение масштабной телеметрии и предиктивной аналитики отражает растущую потребность гиперскейлеров и корпоративных заказчиков в максимально эффективном использовании ресурсов ускорителей. Кроме того, появление платформы связано с усилением конкуренции на рынке систем мониторинга и эксплуатации ИИ-инфраструктуры. Облачные провайдеры и другие компании, такие как AMD, Intel и другие, разрабатывают собственные решения для телеметрии, диагностики и управления крупными ИИ-кластерами. Способность NVIDIA интегрировать аппаратную телеметрию, проверку надёжности прошивок и операционную аналитику напрямую в инфраструктурный стек укрепляет её позиции как вертикально интегрированного поставщика ИИ-инфраструктуры.

Источник:

Понравилась статья?