NVIDIA представила NVL72: новая платформа Rubin с чипом Vera и пятью ключевыми инновациями

Компания NVIDIA представила новую платформу Rubin, которая станет преемницей Blackwell Ultra. В анонсе подчёркивается, что Rubin включает пять ключевых технологий: новейшие версии интерконнекта NVLink, Transformer Engine, Confidential Computing и RAS Engine, а также процессор Vera. Интересно, что NVIDIA вновь перешла на обозначение по числу суперчипов (NVL72), отказавшись от подсчёта ускорителей (NVL144), как планировалось ранее.

Благодаря глубокой совместной оптимизации аппаратной и программной частей, платформа NVIDIA Vera Rubin позволяет снизить стоимость обработки токенов при инференсе в десять раз, а для обучения моделей MoE — сократить число требуемых ускорителей в четыре раза в сравнении с NVIDIA Blackwell. Коммутационные системы Spectrum-X Ethernet Photonics от NVIDIA повышают энергоэффективность и надёжность в пять раз.

Источник изображений: NVIDIA

В основе платформы Rubin лежат шесть компонентов: Arm-процессор Vera, ускоритель Rubin, коммутатор NVLink 6, адаптер ConnectX-9 SuperNIC, DPU BlueField-4 и Ethernet-коммутатор Spectrum-6. Ускорители Rubin сначала появятся в двух вариантах. Первый — стоечная система DGX Vera Rubin NVL72, содержащая 72 ускорителя Rubin и 36 процессоров Vera, а также NVLink 6, ConnectX-9 SuperNIC и BlueField-4. Второй вариант — платформа DGX/HGX Rubin NVL8 на архитектуре x86. Обе конфигурации будут поддерживаться кластерами NVIDIA DGX SuperPod, как сообщает издание CRN.

По заявлению NVIDIA, процессор Vera, созданный для реализации агентного интеллекта, демонстрирует наивысшую энергоэффективность при развёртывании в масштабных ИИ-центрах. Его архитектура включает 88 специализированных ядер Armv9.2 Olympus с поддержкой 176 потоков благодаря фирменной пространственной многопоточности NVIDIA, оснащается 1,5 ТБ системной памяти SOCAMM LPDDR5x (пропускная способность 1,2 ТБ/с), обеспечивает конфиденциальные вычисления и использует высокоскоростное соединение NVLink-C2C (дуплексная пропускная способность 1,8 ТБ/с).

Благодаря аппаратному адаптивному сжатию данных, NVIDIA Rubin способен достигать производительности до 50 Петафлопс (NVFP4) в задачах инференса, что впятеро превышает показатели Blackwell. В другом режиме он обеспечивает до 35 Петафлопс (NVFP4), опережая предыдущее поколение в 3,5 раза. Память HBM4 объёмом 288 ГБ обладает пропускной способностью 22 ТБ/с, что в 2,8 раза быстрее, а скорость NVLink для одного ускорителя удвоена — до 3,6 ТБ/с (в дуплексе).

В NVIDIA также сообщили, что система Vera Rubin NVL72 располагает 54 ТБ памяти LPDDR5x, что в 2,5 раза больше, чем у Blackwell, и 20,7 ТБ памяти HBM4, что на половину превышает объём у предшествующей платформы. Совокупная пропускная способность HBM4 достигает 1,6 ПБ/с (рост в 2,8 раза), а скорость межсоединений составляет 260 ТБ/с — вдвое выше, чем у Blackwell NVL72, и «превосходит общую пропускную способность интернета». Ожидаемое энергопотребление стойки варьируется от 190 до 230 кВт.

Компания подчеркнула, что Vera Rubin NVL72 представляет собой первую стоечную платформу с поддержкой конфиденциальных вычислений, гарантирующую защиту данных на уровне доменов CPU, GPU и соединений NVLink. Жидкостное охлаждение коммутатора NVLink 6, оснащённого 400G-блоками SerDes, обеспечивает пропускную способность 3,6 ТБ/с для каждого GPU при обмене между всеми графическими процессорами, суммарную пропускную способность 28,8 ТБ/с и вычислительную мощность 14,4 Тфлопс внутри сети в формате FP8.

Несмотря на заявление NVIDIA о том, что Rubin уже выпускается серийно, аналогичные решения от партнёров станут доступны лишь во второй половине текущего года. Компания перечислила ключевых мировых игроков в области ИИ, включая ведущие исследовательские лаборатории, облачных провайдеров, производителей вычислительной техники и стартапы, которые планируют внедрить Rubin. В этот список вошли Amazon Web Services (AWS), Anthropic, Black Forest Labs, Cisco, Cohere, CoreWeave, Cursor, Dell Technologies, Google, Harvey, HPE, Lambda, Lenovo, Meta✴, Microsoft, Mistral AI, Nebius, Nscale, OpenAI, OpenEvidence, Oracle Cloud Infrastructure (OCI), Perplexity, Runway, Supermicro, Thinking Machines Lab и xAI.

Исследовательские центры, такие как Anthropic, Black Forest, Cohere, Cursor, Harvey, Meta✴, Mistral AI, OpenAI, OpenEvidence, Perplexity, Runway, Thinking Machines Lab и xAI, рассматривают платформу NVIDIA Rubin как инструмент для обучения более масштабных и производительных моделей, а также для обслуживания мультимодальных систем с расширенным контекстом, что позволяет снизить задержки и затраты по сравнению с предыдущими поколениями ускорителей. Партнёры в сфере программного обеспечения для инфраструктуры и хранения данных, включая AIC, Canonical, Cloudian, DDN, Dell, HPE, Hitachi Vantara, IBM, NetApp, Nutanix, Pure Storage, Supermicro, SUSE, VAST Data и WEKA, сотрудничают с NVIDIA для создания платформ нового поколения, предназначенных для инфраструктуры Rubin.

Учитывая, что рабочие нагрузки агентного ИИ создают огромные массивы контекстных данных, NVIDIA также представила новую платформу для хранения контекста вывода — NVIDIA Inference Context Memory Storage Platform. Это принципиально новый класс инфраструктуры хранения, разработанный для масштабирования контекста при выполнении логических выводов.

По имеющимся данным, система на основе BlueField-4 позволяет эффективно распределять и повторно использовать данные KV-кеша во всей инфраструктуре искусственного интеллекта, что увеличивает скорость обработки запросов и общую пропускную способность, а также гарантирует предсказуемое и энергосберегающее масштабирование агентных ИИ-решений.

Как отметил Дион Харрис (Dion Harris), старший директор NVIDIA по высокопроизводительным вычислениям и инфраструктурным решениям для ИИ, новая платформа демонстрирует до пятикратного превосходства в количестве обрабатываемых токенов в секунду, пятикратное улучшение производительности на доллар затрат и пятикратный рост энергоэффективности по сравнению с обычными сетевыми хранилищами для данных контекста инференса.

Источник:

Понравилась статья?