NVIDIA разгромила конкурентов в MLPerf Training 6.0: абсолютное лидерство во всех тестах

Консорциум MLCommons обнародовал итоги испытаний разнообразных аппаратных платформ в рамках эталонного теста MLPerf Training 6.0. В этом выпуске добавились два новых теста — DeepSeek V3 и GPT-OSS 20B, что отражает общий отраслевой сдвиг в сторону разреженных вычислений, ярким примером которых служит архитектура MoE (Mixture-of-Experts).

DeepSeek V3 представляет собой масштабную MoE-модель, насчитывающую 671 миллиард параметров, из которых для генерации каждого отдельного токена задействуется 37 миллиардов. Она предлагает унифицированную платформу для оценки эффективности обучения передовой MoE-модели с открытыми весами. GPT-OSS 20B — это MoE-модель с 21 миллиардом параметров, из которых 3,6 миллиарда активируются для генерации одного токена. Она даёт возможность организациям проверять сложную логику маршрутизации и шаблоны разреженных вычислений, свойственные архитектуре MoE, на аппаратных конфигурациях, состоящих всего из одного узла с восемью ускорителями.

Версия MLPerf Training 6.0 установила новые рекорды по разнообразию задействованных систем. Участники предоставили результаты для 95 уникальных платформ, использующих тринадцать различных аппаратных ускорителей, 19 разных хост-процессоров и несколько различных программных фреймворков. 60 % систем были многоузловыми. При этом количество представленных облачных решений более чем вдвое превышает показатели раунда 5.1.

Источник изображения: NVIDIA

В раунде MLPerf Training v6.0 свои заявки представили 24 организации: AMD, ASUSTeK, Azure, Cisco, CoreWeave, Dell, Fujitsu, GigaComputing, Google, HPE, Inventec, Krai, Lambda, MITAC, Nebius, Netweb Technologies India, NVIDIA, Oracle, Quanta Cloud Technologies, SCITIX, Supermicro, tinycorp, TTA и Vultr. «Мы особенно рады приветствовать участников, которые впервые публикуют свои результаты в MLPerf Training: Inventec, Netweb Technologies India, TTA и Vultr», — отметил Дэвид Кантер (David Kanter), руководитель MLPerf в MLCommons.

NVIDIA снова заняла первое место в новом этапе MLPerf Training, причём во всех испытаниях, вновь став единственной платформой, предоставившей данные по каждому тесту. Кроме того, NVIDIA оставалась единственной платформой, показавшей результаты по новым задачам, а система NVIDIA GB300 NVL72 «задала высокую планку производительности благодаря оптимизированным программным стекам NVIDIA и архитектуре, объединяющей 72 GPU Blackwell Ultra и 36 CPU Grace через NVLink и NVLink Switch».

В ряде случаев партнёры NVIDIA расширяли систему до 8192 ускорителей Blackwell, работающих синхронно в разных центрах обработки данных. Эти данные подтвердили практическую надёжность платформы Blackwell в масштабируемых кластерных средах, утверждает NVIDIA.

Источник изображения: NVIDIA

Чтобы добиться максимальной производительности таких моделей, как DeepSeek-V3, NVIDIA в этом раунде MLPerf Training применила ряд программных оптимизаций, включая использование итерационных графов CUDA для MoE без удаления токенов, внедрение CuTe DSL для продвинутых операций слияния ядер, алгоритм внимания MXFP8 для повышения производительности без потери качества модели, оптимизацию маршрутизатора и оптимизацию схемы связи 1F1B all-to-all overlap. Также NVIDIA улучшила компоновку и баланс параллельных этапов конвейера, сводя к минимуму структурные простои.

Для обработки DeepSeek-V3 671B компания NVIDIA задействовала до 8192 GPU в системах GB200 NVL72, что стало самым масштабным результатом на базе Blackwell в MLPerf Training на сегодняшний день. NVIDIA также продемонстрировала результаты на 5120 GPU с системами NVIDIA GB200 NVL72 в Llama 3.1 405B, одной из крупнейших LLM плотной архитектуры в этом бенчмарке.

Результаты данного этапа также отражают тесное сотрудничество NVIDIA с компаниями-партнёрами в области системной архитектуры, сетей и ПО. Например, Microsoft Azure масштабировала обучение Llama 3.1 405B до 8192 GPU, используя системы GB200 NVL72, и достигла целевого эталонного значения за 7,07 мин., что является самым быстрым временем обучения для этого бенчмарка. А CoreWeave продемонстрировала самое быстрое время обучения для DeepSeek-V3 671B, достигнув целевого качества за 2,02 мин. на 8192 GPU в составе GB300 NVL72, объединённых Spectrum-X Ethernet.

Исходные данные:

Понравилась статья?