Консорциум MLCommons представил итоги испытаний разнообразного оборудования в рамках тестирования MLPerf Training v5.1. Данный этап отметился беспрецедентным разнообразием зафиксированных конфигураций. Участники представили 65 индивидуальных систем, использующих 12 типов аппаратных ускорителей и различные программные среды. Около половины решений были многопоточными комплексами — на 86% больше, чем в раунде MLPerf Training 4.1 годичной давности, при этом они демонстрировали вариативность сетевых архитектур.
В раунде MLPerf Training v5.1 участвовали 20 организаций, подавших заявки: AMD, ASUS, Cisco, Dell, Giga Computing, HPE, Krai, Lambda, Lenovo, MangoBoost, MiTAC, Nebius, NVIDIA, Oracle, Quanta Cloud Technology (QCT), Supermicro, Supermicro + MangoBoost, Университет Флориды, Verda (DataCrunch), Wiwynn.
Источник изображений: NVIDIA
Отмечается, что структура представленных работ отражает растущий интерес к тестам для генеративного искусственного интеллекта: количество заявок на проверку Llama 2 70B LoRa выросло на 24%, а на новый тест Llama 3.1 8B — на 15% в сравнении с заменённым тестом BERT.
NVIDIA сообщила, что её чипы архитектуры Blackwell продемонстрировали лидерство во всех семи дисциплинах MLPerf Training v5.1, обеспечив рекордную скорость обучения для крупных языковых моделей, генерации изображений, систем рекомендаций, компьютерного зрения и графовых нейросетей.
Компания акцентировала, что стала единственной платформой, представившей результаты по всем тестовым категориям — это, согласно её заявлению, «демонстрирует гибкость программирования ускорителей NVIDIA, а также отточенность и универсальность программной экосистемы CUDA».
В рамках текущего этапа MLPerf Training компания представила новую стоечную платформу GB300 NVL72, функционирующую на базе ускорителей NVIDIA Blackwell Ultra, которая продемонстрировала наивысшие показатели, подтвердив своё лидерство для ресурсоёмких задач искусственного интеллекта. При обучении модели Llama 3.1 с 40 миллиардами параметров система GB300 показала более чем четырёхкратное превосходство над H100 и почти двукратное — в сравнении с GB200. В свою очередь, при дообучении Llama 2 с 70 миллиардами параметров восемь ускорителей GB300 обеспечили пятикратный рост производительности относительно H100.
Как пояснили в NVIDIA, такие достижения стали возможны благодаря усовершенствованиям архитектуры Blackwell Ultra, включая обновлённые тензорные ядра, обеспечивающие 15 Петафлопс в формате NVFP4, двукратный прирост производительности в вычислениях механизма внимания и использование памяти HBM3e объёмом 279 Гбайт, а также благодаря новым методикам обучения, повысившим эффективность вычислений в архитектуре NVFP4. На этом же этапе MLPerf дебютировала платформа Quantum-X800 InfiniBand с пропускной способностью 800 Гбит/с, объединяющая несколько систем GB300 NVL72 и удвоившая сетевую производительность в сравнении с предшествующим поколением.
Однако, по утверждению представителей компании, «главным фактором исключительных результатов в этом раунде стало применение вычислений в формате NVFP4 — впервые за историю MLPerf Training». NVIDIA реализовала поддержку FP4 для обучения больших языковых моделей на всех уровнях, что позволило удвоить скорость вычислений относительно FP8. Ускоритель NVIDIA Blackwell способен выполнять операции в формате FP4 (включая NVFP4 и другие) с двукратным ускорением по сравнению с FP8, а Blackwell Ultra — с трёхкратным.
На сегодня NVIDIA остаётся единственной платформой, представившей результаты MLPerf Training с применением вычислений в формате FP4 при полном соответствии жёстким требованиям к точности. Эти показатели были достигнуты с использованием 5120 ускорителей Blackwell GB200, которые справились с тестом Llama 3.1 405B всего за 10 минут, установив новый рекорд. Данный результат оказался в 2,7 раза быстрее наилучшего показателя архитектуры Blackwell, продемонстрированного в предыдущем раунде тестирования.
Компания NVIDIA продемонстрировала рекордные показатели эффективности в двух новых тестовых испытаниях: Llama 3.1 8B и FLUX.1. Llama 3.1 8B представляет собой компактную языковую модель с выдающимися возможностями, которая пришла на смену BERT-large, дополнив перечень эталонных моделей современной малоразмерной LLM. NVIDIA провела тестирование с применением до 512 ускорителей Blackwell Ultra, затратив на выполнение теста всего 5,2 минуты. FLUX.1 — это передовая система генерации изображений, заменившая Stable Diffusion v2, причём исключительно платформа NVIDIA представила итоги данного тестирования. С использованием 1152 ускорителей Blackwell был установлен новый рекорд — 12,5 минут обучения.
Источник:
- nvidia.com