Компания AMD анонсировала ускоритель Instinct MI350P с разъёмом PCIe — это двухслотовая плата формата FHFL, предназначенная для стандартных серверов, охлаждаемых воздухом. MI350P создана для локального выполнения задач инференса в уже имеющейся инфраструктуре предприятий, включая системы электропитания, охлаждения и серверные стойки. В AMD отметили, что такие карты, которые можно устанавливать до восьми штук в один корпус, «отлично подходят для инференса как небольших, так и средних и крупных ИИ-моделей, а также для пайплайнов RAG».
Это первая карта Instinct с интерфейсом PCIe, выпущенная AMD за последние четыре года, начиная с модели Instinct MI210. 600-ваттный чип MI350P по сути является половиной MI350X (содержит четыре XCD-кластера). У MI350P PCIe количество вычислительных блоков уменьшено вдвое — до 128, что соответствует 8192 потоковым процессорам и 512 матричным ядрам. Максимальная тактовая частота достигает 2200 МГц. Кроме того, здесь используется только один кристалл IOD вместо двух, и он произведён по 6-нм техпроцессу TSMC. Сам ускоритель выполнен по 3-нм технологии TSMC, как и MI350X. Весь чип включает 73 миллиарда транзисторов.
Источник изображений: AMD
Ускоритель оборудован 128 Мбайт кэш-памяти Infinity Cache и 144 Гбайт памяти HBM3E с 4096-битной шиной, которая обеспечивает пропускную способность до 4 Тбайт/с. Для сравнения, MI350X оснащён 288 Гбайт памяти HBM3E с 8192-битной шиной. На плате присутствует 16-контактный разъём для дополнительного питания. Значение TBP можно снизить до 450 Вт вместо стандартных 600 Вт, что уменьшит производительность, но ещё сильнее сократит энергопотребление. Интерфейс — PCIe 5.0 x16. В будущем будет добавлена поддержка SR-IOV и возможность разделения чипа на два или четыре виртуальных GPU.
Производительность ускорителя Instinct MI350P в режиме MXFP4 достигает 2,3 Пфлопс, а пиковое значение составляет 4,6 Пфлопс. Как подчеркнула компания, это рекордный показатель среди PCIe-ускорителей корпоративного уровня. Поддерживается разрежённость для форматов FP16, BF16, INT8 и OCP-FP8, что даёт возможность ускорить обработку данных. Показатели векторной и матричной производительности FP64 равны 36 Тфлопс. Помимо этого, ускоритель оснащён декодерами HEVC/H.265, AVC/h.264, VP9 и AV1, а также кодеками (M)JPEG.
Главный недостаток новинки заключается в отсутствии прямого соединения между ускорителями через Infinity Fabric. Вся связь внутри одного узла осуществляется по шине PCIe, поэтому установка восьми MI350P в одном сервере позволяет эффективно обслуживать восемь отдельных моделей (до 200–250 млрд параметров), а не одну крупную модель, которая не умещается в памяти одного ускорителя. NVIDIA попыталась частично решить эту проблему, выпустив для своих PCIe-ускорителей плату с адаптерами ConnectX-8 SuperNIC, оснащёнными встроенными коммутаторами PCIe 6.0.
Сообщается, что Instinct MI350P доступны у различных партнёров компании. Они предлагают полностью открытую экосистему и программный стек Enterprise Ready AI с поддержкой ROCm. AMD заявила, что её эталонный open source пакет AMD Enterprise AI предоставляется партнёрам без каких-либо затрат на лицензирование. Это обеспечивает большую прозрачность кода и помогает снизить операционные расходы. В сочетании с картами Instinct MI350P и решениями от партнёров этот стек позволяет компаниям быстро развёртывать локальные системы без постоянных затрат на токены, говорит AMD.
Источники: