Компания Tenstorrent анонсировала вычислительную платформу Galaxy Blackhole, построенную на ускорителях Blackhole с архитектурой RISC-V. Данное решение позиционируется как системная ИИ-платформа, способная соперничать с аналогами благодаря стабильной производительности при инференсе, быстрому доступу к памяти и масштабируемой сети — трём ключевым аспектам, которые сегодня всё сильнее влияют на эффективность внедрения ИИ в реальных сценариях, отмечает Forbes.
Сервер Tensorrent Galaxy Blackhole в форм-факторе 6U оснащён воздушным охлаждением и использует 32 ИИ-ускорителя Blackhole, чья совокупная производительность достигает 23 Пфлопс в режиме FP8. В системе предусмотрено 6,2 Гбайт SRAM (с общей пропускной способностью 2,9 Пбайт/с) и 1 Тбайт GDDR6 (суммарно 16 Тбайт/с). Для высокоскоростного соединения между узлами при горизонтальном масштабировании применяются порты 800GbE — до 56 портов на одну систему, что обеспечивает общую пропускную способность 11,2 Тбайт/с в дуплексном режиме.
Цена системы Tensorrent Galaxy Blackhole составляет $110 тыс. Восьмичиповые конфигурации NVIDIA DGX будут превосходить её по производительности, однако их стоимость окажется в три-пять раз выше, сообщает The Register. Базовый суперкластер Galaxy Supercluster, оцениваемый в $440 тыс., включает четыре системы Blackhole. Архитектура Tenstorrent допускает масштабирование до 32 узлов с использованием 1024 ускорителей. Сеть Mesh от Tenstorrent не ограничивается рамками одного узла. Как и в случае с кластерами TPU от Google или Trainium2 от Amazon, её можно расширять для работы с более крупными моделями, повышения пропускной способности или увеличения интерактивности — достаточно добавить новые узлы и настроить параллелизм тензоров и конвейеров.
Источник изображений: Tenstorrent
По информации Tenstorrent, их четырёхузловые суперкластеры Blackhole Galaxy Supercluster способны обрабатывать запрос DeepSeek V3 на 100 тысяч токенов — что равнозначно 166 страницам текста — менее чем за четыре секунды. Компания отметила, что кластеры Galaxy Blackhole могут генерировать видео быстрее реального времени, а также обеспечивать высокую скорость генерации токенов для LLM. Демонстрационные версии систем Tenstorrent работают в двух режимах: стандартном, где текст генерируется с комфортной для чтения скоростью, и режиме Blitz, который обеспечивает максимально быструю обработку данных, подходящую для таких задач, как генерация кода и агентный ИИ.
В режиме Blitz модель DeepSeek-671B с архитектурой MoE достигает «до 350 токенов в секунду на пользователя при времени получения первого токена менее 4 секунд», сообщила компания. Ресурс EE Times протестировал этот режим за несколько дней до официального запуска, получив 255 токенов в секунду на пользователя для коротких запросов в стиле чат-бота. Этот режим поддерживает пакетную обработку от 8 до 64 запросов и длину контекста до 128 тысяч токенов. Он работает на 16 серверах Galaxy (512 чипов) с использованием конвейерного параллелизма на этапе декодирования.
Компания подчеркнула, что её системы не требуют дезагрегации. «Мы можем выполнять и [предварительное заполнение, и декодирование] на одном узле, — заявил генеральный директор Tenstorrent Джим Келлер (Jim Keller) изданию EE Times. — Мы создаём крупный кластер, на котором можно запускать предварительное заполнение и декодирование LLM, генерацию видео, агентный ИИ… мы не ограничиваемся одной задачей. У нас много чипов, большой объём SRAM, но все чипы оснащены DRAM, и они тесно связаны между собой, поэтому наша платформа гораздо более универсальна».
Источник: