Amazon Web Services (AWS) планирует значительно повысить использование воздушного охлаждения в серверах с ускорителями Trainium3. Хотя выпуск таких серверов собираются нарастить во втором квартале 2026 года, жидкостное охлаждение в них найдет гораздо меньшее применение, чем предполагалось ранее, сообщает DigiTimes.
Если изначально соотношение систем жидкостного и воздушного охлаждения планировалось как 1:1, то теперь на долю первых придется всего 10% от общего объема, что может замедлить распространение СЖО в дата-центрах. Ранее отраслевые аналитики ожидали, что доля жидкостного охлаждения на рынке ИИ-серверов увеличится с менее чем 20% в 2025 году до свыше 50% в 2026-м, главным образом благодаря росту поставок GPU и ASIC. AWS даже удалось в сжатые сроки создать собственную платформу СЖО, что привело к снижению котировок акций Vertiv — одной из компаний, выигравших от бума искусственного интеллекта.
Новая стратегия в отношении Trainium3 ставит под сомнение темпы и перспективы перехода к жидкостному охлаждению. Тем не менее, увеличение производства Trainium3 в любом случае поддержит спрос на продукцию ключевых партнеров AWS: Wiwynn, Accton, Auras, Taiwan Microloops и Nan Juen International (Repon). Вероятно, этот спрос обеспечит загрузку их производственных мощностей до конца 2026 года. По мнению экспертов, решение AWS во многом объясняется тепловыделением (TDP) ускорителей на уровне 800 Вт (хотя ранее фигурировала цифра в 1000 Вт) — для такого уровня, по-видимому, достаточно современных систем воздушного охлаждения, что снижает потребность в переходе на более дорогие и сложные СЖО.
Источник изображений: AWS
Согласно данным AWS, производительность Trainium3 примерно на 40% выше по сравнению с ускорителями предыдущего поколения. Компания также объявила о капитальных инвестициях до $200 млрд на развитие ИИ-инфраструктуры, включая выпуск собственных ускорителей — на 2027 год уже запланированы поставки Trainium4. Таким образом, даже при снижении доли СЖО общий рост производства должен привести к увеличению спроса на компоненты у партнеров.
В последнее время распространение жидкостного охлаждения в дата-центрах для ИИ во многом связано с увеличением тепловыделения ускорителей NVIDIA. Например, если у модели H200 этот параметр составлял приблизительно 700 Вт, то у B200 он достиг около 1000 Вт, а у B300 — уже 1400 Вт. В перспективных архитектурах с двумя чипами ожидаются ещё более высокие значения. Как следствие, операторам ЦОД необходим эффективный способ отвода тепла, который способны предоставить системы жидкостного охлаждения (СЖО). Это также даёт возможность увеличить плотность размещения вычислительных ресурсов.
В сегменте ASIC рост тепловыделения выражен менее значительно. Так, для Trainium2 показатель составлял порядка 500 Вт, а для Trainium3 — лишь 800 Вт, что делает воздушное охлаждение вполне приемлемым решением, за исключением случаев, требующих особо плотной компоновки оборудования. Кроме того, представители цепочек поставок отмечают, что монтаж и обслуживание жидкостных систем обходятся дороже по сравнению с современными воздушными аналогами. При этом экосистема производства и поддержки СЖО часто характеризуется как «менее развитая». Благодаря этому развёртывание серверов с воздушным охлаждением происходит быстрее и отличается большей стабильностью.
Операторов дата-центров также может беспокоить репутация жидкостных систем. К примеру, в конце января компания Wave Power сообщила, что некоторые поставленные компоненты СЖО для ИИ-оборудования привели к его повреждению, в результате чего фирме пришлось выплатить 4,5 млн долларов в рамках мирового соглашения. По оценкам специалистов, утечки в системах жидкостного охлаждения — явление нередкое и не ограничивается одним производителем, однако каждый подобный случай указывает на потенциальные риски, которые заказчикам необходимо учитывать.
Несмотря на то, что системы жидкостного охлаждения технически более предпочтительны для наиболее энергоёмких задач благодаря высокой эффективности отвода тепла, потенциалу снижения коэффициента PUE и возможности экономии пространства, пример с Trainium3 демонстрирует, как совокупность факторов, включая общую стоимость владения (TCO) и операционные риски, влияет на темпы внедрения СЖО. Корректировка планов компанией AWS способна оказать воздействие на всю отрасль ИИ-дата-центров, что может замедлить повсеместный переход на жидкостное охлаждение, по крайней мере, в ближайшем будущем.
При этом даже для современных ИИ-платформ гиперскейлеры создали гибридные решения охлаждения, которые дают возможность применять новейшие системы в устаревших дата-центрах, изначально не предназначенных для масштабных систем жидкостного охлаждения. Например, Meta✴ «распределила» суперускорители NVIDIA GB200 на шесть серверных стоек вместо одной, чтобы разместить в них теплообменники, а Microsoft для аналогичных целей «добавила» к стойке с аппаратурой дополнительный модуль шириной в несколько стоек. Google, в свою очередь, для своих тензорных процессоров TPU выбирает именно жидкостное охлаждение.
Источник:
- Digitimes