Компания Amazon Web Services (AWS) представила новые ускорители Trainium3 для искусственного интеллекта, а также серверные платформы Trainium3 UltraServer (Trn3 UltraServer). По заявлениям разработчика, эти решения демонстрируют превосходство над предыдущим поколением Trainium2 UltraServer: производительность выросла в 4,4 раза, энергоэффективность — в 4 раза, а пропускная способность памяти увеличилась почти вчетверо.
Чипы Trainium3 производятся по 3-нанометровому техпроцессу TSMC. Они оборудованы 144 ГБ памяти HBM3E, обеспечивающей скорость передачи данных до 4,9 ТБ/с. В сравнении с Trainium2, объём памяти стал больше в 1,5 раза, а её пропускная способность повысилась в 1,7 раза. Ранее поступала информация, что энергопотребление новых ускорителей может доходить до 1 кВт.
Ускоритель Trainium3 создан для ресурсоёмких и сложных параллельных вычислений с применением расширенных форматов данных (MXFP8 и MXFP4). Согласно данным AWS, при работе с операциями в формате FP8 производительность достигает 2,52 петафлопс. Для контекста: ускоритель AMD Instinct MI355X демонстрирует 10,1 петафлопс, а чип NVIDIA Blackwell — 9 петафлопс. Как отмечает The Register, Trainium3 использует структурированную разрежённость (structured sparsity) формата 16:4, что фактически увеличивает производительность в четыре раза — до 10 петафлопс — при выполнении таких задач, как обучение моделей ИИ.
Источник изображения: AWS
Системы Trainium3 UltraServer объединяют 144 ускорителя Trainium3, связанных через интерконнект NeuronSwitch-v1: по оценкам AWS, эта технология удваивает пропускную способность в сравнении с серверами UltraServer прошлого поколения. Улучшенная сетевая архитектура Neuron Fabric снижает задержку при обмене данными между чипами до менее 10 микросекунд. Каждая платформа Trainium3 UltraServer использует 20,7 ТБ памяти HBM3E с совокупной пропускной способностью 706 ТБ/с. Заявленная пиковая производительность системы составляет 362 петафлопс в режиме FP8.
По утверждению AWS, технологии, реализованные в Trainium3, позволяют разрабатывать приложения искусственного интеллекта с практически мгновенным временем отклика. Платформа EC2 UltraClusters 3.0 обеспечивает объединение тысяч систем UltraServer, которые могут содержать до 1 миллиона ускорителей Trainium, что в десять раз превышает показатели предыдущего поколения. Кроме того, следующее поколение ускорителей Trainium4 будет оснащено интерконнектом NVLink Fusion шестого поколения.
Источник: