NVIDIA представила open-source инструмент для мониторинга и оптимизации работы ИИ-ускорителей в дата-центрах
Компания NVIDIA представила новое программное обеспечение с открытым кодом, предназначенное для предоставления администраторам дата-центров расширенной информации о тепловых режимах и других рабочих характеристиках ИИ-ускорителей. Ожидается, что это позволит эффективнее решать вопросы, связанные с перегревом и надёжностью систем, что в итоге продлит срок их службы и повысит общую эффективность. NVIDIA особо отмечает, что сбор телеметрических данных осуществляется исключительно в режиме чтения, без функции отслеживания местоположения оборудования, а в коде отсутствуют какие-либо «аварийные выключатели» или скрытые бэкдоры. Применение этого решения является полностью добровольным.
Данное ПО даёт специалистам ЦОД возможность мониторить энергопотребление, уровень загрузки, пропускную способность памяти и прочие ключевые показатели по всему парку ускорителей. Такой подход помогает на ранних этапах обнаруживать потенциальные риски, проблемные компоненты и нештатные условия эксплуатации, а также контролировать использование ИИ-ускорителей, их настройки и возникающие сбои. Как заявляет компания, детализированная телеметрия приобретает всё большее значение для планирования и администрирования крупномасштабных инфраструктур. Функционал программного обеспечения включает:
- контроль резких изменений в энергопотреблении для соблюдения установленных лимитов и оптимизации производительности на ватт;
- мониторинг загрузки, пропускной способности памяти и состояния межсоединений во всём оборудовании;
- заблаговременное обнаружение локальных перегревов и нарушений воздушного потока для предотвращения снижения производительности (троттлинга) и ускоренного износа деталей;
- проверку единообразия программных конфигураций и настроек для обеспечения воспроизводимости результатов и стабильной работы;
- выявление ошибок и аномалий, а также раннюю диагностику компонентов, близких к выходу из строя.
Источник изображения: NVIDIA
Необходимость такого контроля особенно актуальна в свете недавнего исследования Принстонского университета, показавшего, что экстремальные тепловые и электрические нагрузки могут снизить срок службы процессоров для ИИ всего до одного-двух лет, тогда как традиционно ожидается их стабильная работа в течение трёх лет. Современные ускорители расходуют от 700 Вт, а высокоплотные конфигурации — свыше 6 кВт. Это ведёт к возникновению локальных перегревов, скачкам в энергопотреблении и повышает риск повреждения межсоединений в плотно скомпонованных стойках.
Системы телеметрии, дающие возможность в реальном времени оценивать энергозатраты, состояние соединений, эффективность воздушного охлаждения и другие параметры, открывают путь от реагирования на проблемы к их заблаговременному предупреждению. Это позволяет распределять вычислительные задачи с учётом температурного фона, ускорить внедрение жидкостного или комбинированного охлаждения, а также оптимизировать сетевые операции для снижения тепловой нагрузки.
Кроме того, специализированное программное обеспечение помогает операторам дата-центров обнаруживать скрытые неполадки, вызванные, например, несовместимостью версий прошивок или драйверов. Это способствует повышению общей надёжности всего парка ускорителей. Оперативная передача данных об ошибках и состоянии компонентов также позволяет сократить среднее время на восстановление работоспособности и упрощает диагностику причин отказов. Полученная информация может служить основанием для инвестиционных решений в инфраструктуру и формирования корпоративной стратегии её развития.
Источник изображения: NVIDIA
Как отмечают аналитики Gartner, современный искусственный интеллект превратился в «прожорливого и сильно греющегося монстра», который бросает вызов экономике и устоявшимся принципам функционирования дата-центров. В связи с этим компаниям требуются специальные средства контроля и администрирования, чтобы удерживать ситуацию в управляемом состоянии. В ближайшей перспективе применение подобных инструментов, скорее всего, станет стандартом. Также полная прозрачность работы всего оборудования становится критически важной для обоснования увеличения бюджетов на ИИ-инфраструктуру.
По мнению специалистов, такие программные решения дают возможность оптимизировать капитальные и эксплуатационные расходы на дата-центры и сопутствующую инфраструктуру, запланированные на следующие годы. «Каждый доллар и каждый ватт» должны быть использованы с максимальной эффективностью.
Источники:
- Network World
- Nvidia