Логарифмические вычисления: новый ИИ-ускоритель Napier обещает взрывную производительность при минимальном энергопотреблении

Стартап в сфере ИИ Tensordyne (ранее известный как Recogni) представил систему Tensordyne Napier (TDN), предназначенную для выполнения задач ИИ-инференса. Эта платформа была создана совместно с Broadcom и HPE Juniper Networks. Как утверждается, она «объединяет передовые логарифмические математические алгоритмы для ИИ, плотно интегрированную архитектуру памяти и высокопроизводительный масштабируемый интерконнект, что даёт значительно более высокую пропускную способность, сниженное энергопотребление и улучшенные экономические показатели инфраструктуры при работе с крупномасштабными задачами ИИ-инференса».

В Tensordyne заявляют, что новый чип на основе «логарифмической» архитектуры способен одновременно решить проблемы скорости и стоимости ИИ-инференса. Разработчики заменили масштабные операции умножения на упрощённые вычисления, базирующиеся на сложении, что позволило существенно повысить эффективность на каждый ватт потребляемой мощности. Сумматоры занимают меньше места и обычно расходуют меньше энергии по сравнению с умножителями, поэтому их применение высвобождает больше полезной площади для SRAM и улучшает общий баланс системы.

Источник изображений: Tensordyne

Процессор содержит 138 миллиардов транзисторов и способен обрабатывать данные в форматах NVFP4, FP8 и FP16. В Tensordyne сообщили о производительности в 2,1 Пфлопс при плотных вычислениях в формате FP8 на одном кристалле. Тактовые частоты вычислительного ядра достигают 1,33 ГГц, а поддерживающих ядер RISC-V — 1,5 ГГц. Чип оснащён четырьмя блоками HBM4 (по информации ServeTheHome — HBM3E), каждый объёмом 36 Гбайт (суммарно 144 Гбайт) с пропускной способностью 4,7 Тбайт/с. Кроме того, на кристалле размещено 256 Мбайт SRAM с общей пропускной способностью 40 Тбайт/с. Интеграция большого объёма быстрой SRAM вместе с HBM позволила свести к минимуму простои вычислительных процессов и обеспечить эффективную поддержку работы самых крупных моделей в индустрии.

Сооснователь и директор по продуктам компании Tensordyne Р.К. Ананд (RK Anand) сообщил изданию The Next Platform, что в состав ускорителя входит 48 ядер, соединённых с модулями векторной обработки. Векторный блок также оснащён ALU, однако он способен задействовать таблицу поиска (LUT) и функционировать в полностью параллельном режиме. В целом предусмотрено чередование операций и конвейер с управлением. По словам Ананд, энергопотребление Napier составляет всего 300 Вт против 1200 Вт у NVIDIA B300, что объясняется довольно компактными размерами нового чипа. Ананд не раскрыл, выполнен ли Napier в виде чиплетов или представляет собой единый кристалл.

В 1U-узле можно разместить девять микросхем TDN, а также 40-ядерный процессор Xeon, который управляет хостом и берёт на себя часть задач по декодированию, плюс NVMe SSD объёмом 8 Тбайт. Узел оснащён двумя портами QSFP на 200GbE, а на тыльной стороне находятся шесть разъёмов для фирменного интерконнекта TDNLink, который служит для объединения 72 чипов TDN. Производительность узла достигает 19 Пфлопс в формате FP8, он располагает 1,3 Тбайт HBM и 2,25 Гбайт SRAM, при этом совокупная пропускная способность составляет 42 Тбайт/с и 360 Тбайт/с соответственно. Узлы Napier, аналогично NVIDIA NVLink, объединяются через коммутационную плату с использованием собственного интерконнекта TDNLink. Суперускоритель TDN72 включает 72 чипа TDN (восемь узлов), причём TDNLink обеспечивает задержку между чипами менее микросекунды и пропускную способность 1 Тбайт/с.

TDN72 ориентирован на модели с числом параметров от 10 до 20 трлн, для которых критичны объём памяти и маршрутизация MoE. «В каждом TDN72 установлено 320 ядер Xeon и 4608 ядер RISC-V», — заявил сооснователь и вице-президент Tensordyne Жиль Бакхус (Gilles Backhus). «Мы применяем двухуровневый подход к решению задач, связанных с CPU. Вся работа, выполняемая непосредственно рядом с вычислительными процессами ИИ в рамках цикла обработки токенов и авторегрессионного цикла LLM, в основном ложится на ядра RISC-V. На них же осуществляется маршрутизация MoE, проверка по словарю для отбрасывания определённых токенов и прочее. Остальная обработка данных для инференса происходит на процессорах Intel Xeon».

В стандартную 52U-стойку Tensordyne Napier помещается четыре модуля TDN72, что обеспечивает 608 Пфлопс (FP8), 42 Тбайт HBM, 74 Гбайт SRAM, 256 Тбайт NVMe SSD, соединение TDNLink на 275 Тбайт/с и 64 порта 200GbE. При этом такая стойка потребляет всего 120 кВт и может обходиться воздушным охлаждением. По заявлению компании, стойка Tensordyne Napier по сравнению с полноразмерной стойкой NVIDIA NVL72 демонстрирует:

В 17 раз больше токенов на ватт;
В 13 раз больше токенов в секунду;
Дополнительный доход до $33 млн/год на стойку.

Система поддерживает дезагрегированное обслуживание и выполнение моделей с многотриллионными параметрами со скоростью более 1000 токенов в секунду на пользователя. Для достижения той же пропускной способности потребовалось бы как минимум девять стоек NVIDIA Rubin + Groq LPX, отметила Tensordyne.

Источник изображений: Tensordyne via ServeTheHome

Смотреть все изображения (6)

Посмотреть все
фотографии (6)

Наиболее трудным аспектом запуска платформы может стать программное обеспечение. Компания Tensordyne объявила о размещении на платформе Hugging Face центра моделей с собственным SDK, прямой компиляцией моделей для PyTorch/Triton и кастомным eDSL для Python. Стоит подчеркнуть, что одним из ключевых преимуществ ускорителей NVIDIA является экосистема CUDA — обширная коллекция фреймворков, ядер, инструментов для профилирования, шаблонов развертывания и привычных паттернов работы разработчиков. Любой новый ИИ-ускоритель должен предлагать достаточно простое ПО, чтобы клиенты захотели интегрировать его в свои системы.

Источники:

Понравилась статья?