По данным издания Business Insider, ссылающегося на внутренние материалы AWS, ряд молодых компаний полагает, что разработанные Amazon ИИ-чипы Trainium и Inferentia проигрывают в конкуренции ускорителям NVIDIA. В закрытом июльском отчёте Amazon говорится, что стартап Cohere выявил, что производительность чипов Trainium 1 и 2 «ниже показателей» NVIDIA H100. Компания также жаловалась на «сильно ограниченную» доступность Trainium2 и регулярные сбои в работе.
Amazon совместно с лабораториями Annapurna продолжает изучать «вопросы производительности», поднятые Cohere, однако прогресс в их устранении оценивается как «незначительный». В том же документе упоминается стартап Stability AI, создавший генератор изображений Stable Diffusion, который выразил аналогичные замечания. В частности, отмечается, что Trainium2 демонстрирует более высокую задержку по сравнению с NVIDIA H100, что снижает их конкурентоспособность в аспектах скорости и экономической эффективности.
Разработка собственных чипов является для Amazon стратегическим шагом в борьбе за лидерство в области искусственного интеллекта. Компания уже добилась экономической выгоды, внедрив процессоры Graviton вместо дорогостоящих решений Intel, и теперь намерена использовать аналогичный подход для обработки ИИ-нагрузок. Business Insider обращает внимание, что если клиенты AWS откажутся от Trainium в пользу более дорогих чипов NVIDIA для облачных ИИ-систем, это может негативно сказаться на прибыльности облачного направления Amazon.
Источник изображений: AWS
Сфера стартапов традиционно играет ключевую роль для AWS, поэтому их мнение крайне значимо для корпорации. Пресс-служба Amazon отметила, что компания «ценит» обратную связь от пользователей, способствующую совершенствованию её чипов и расширению их применения. Представитель также подчеркнул, что ситуация с Cohere «не отражает текущую реальность», указав, что чипы Trainium и Inferentia демонстрируют «впечатляющие результаты» у таких партнёров, как Ricoh, Datadog и Metagenomi. «Мы наблюдаем уверенный рост и распространение Trainium2, который на текущем этапе преимущественно задействован ограниченным кругом крупнейших клиентов, включая Anthropic», — сообщил представитель в письме изданию Business Insider.
По заявлениям AWS, её собственные ИИ-ускорители обеспечивают на 30–40% более выгодное соотношение цены и производительности в сравнении с актуальным поколением графических процессоров. Компания обладает «уникальными компетенциями» в области чип-дизайна и активно разрабатывает следующие поколения ускорителей. «Мы планируем привлечь дополнительных заказчиков, начиная с Trainium 3, анонс которого запланирован на вторую половину текущего года», — добавил представитель Amazon. Гендиректор Энди Джесси в рамках отчёта о финансовых результатах заявил, что чипы Trainium2 «полностью распроданы по подписке» и превратились в «мультимиллиардное» направление бизнеса, стабильно растущее на 150% ежеквартально.
Критика чипов Amazon со стороны клиентов имела место и ранее. Согласно июльскому отчёту, стартап Typhoon выявил, что устаревшие ускорители NVIDIA A100 оказываются втрое экономичнее для отдельных задач, чем чипы Inferentia2 от AWS, предназначенные для инференса. Параллельно исследовательская группа AI Singapore установила, что серверы AWS G6 с ускорителями NVIDIA демонстрируют более низкую стоимость эксплуатации при разнообразных сценариях использования по сравнению с Inferentia2.
В минувшем году пользователи облачной платформы Amazon также фиксировали «сложности внедрения» её специализированных ИИ-чипов, формирующие «зоны риска», что приводило к сокращению их применения. Эти трудности отразились на рыночных позициях Amazon. Согласно исследованию Omdia, NVIDIA удерживает доминирующую долю рынка ИИ-чипов, превышающую 78%. Далее следуют Google и AMD с примерно 4% каждая. AWS занимает лишь шестую строчку с 2% рыночного присутствия.
Наглядным примером сложностей Amazon в этой сфере служит заключённое с OpenAI соглашение AWS на сумму 38 миллиардов долларов. В рамках партнёрства планируется задействовать облачные серверы для ИИ, работающие на ускорителях NVIDIA, без привлечения чипов Trainium. NVIDIA предлагает не только выдающуюся производительность, но и поддержку популярной платформы CUDA. Это преимущество становится особенно значимым при реализации масштабных и рискованных ИИ-проектов, где надёжность и накопленный опыт часто определяют успех.
В июльском отчёте специалисты Amazon указали, что технические ограничения и прочие сложности при сопоставлении собственных ИИ-чипов компании с решениями NVIDIA превратились в «серьёзное препятствие» для клиентов, рассматривающих переход на чипы AWS. До публикации финансовых результатов Amazon на прошлой неделе аналитики Bank of America выражали сдержанность в оценках прогресса Trainium. В октябрьском отчёте они предупредили, что инвесторы относятся к возможностям Trainium со «скептицизмом», и что остаётся «неясным», возникнет ли значительный спрос на эти чипы «за пределами сотрудничества с Anthropic».
Недавно AWS представила проект Project Rainier — ИИ-кластер, объединяющий полмиллиона чипов Trainium2, предназначенных для обучения языковых моделей нового поколения от Anthropic. Ожидается, что до конца года Anthropic получит доступ к более чем 1 миллиону чипов Trainium2, однако окончательное решение по этому вопросу пока не принято. Успешная реализация проекта способна стать весомым достижением для Amazon. При этом в прошлом месяце Anthropic заключила многомиллиардное соглашение на использование TPU от Google, одновременно подтвердив планы по дальнейшему применению Trainium. Хотя Anthropic публично отметила сложности работы с разнородными чиповыми архитектурами, представитель Amazon сообщил Business Insider, что компания продолжает наращивать использование Trainium и подчеркнул стремление AWS предлагать клиентам широкий выбор аппаратных решений в рамках облачных услуг.
На встрече с аналитиками на прошлой неделе Джасси акцентировал, что AWS сосредоточена на создании «разнообразных чиповых предложений». Он пояснил, что задача состоит не в замене решений NVIDIA, а в расширении выбора для заказчиков. По его словам, AWS придерживается аналогичного подхода и в других направлениях облачных вычислений. «За всю историю AWS не было ни одного случая, когда какой-либо игрок мог бы длительное время удерживать монополию на рынке и при этом удовлетворять абсолютно все потребности во всех аспектах», — заявил Джасси.
В перспективе слабые продажи собственных ускорителей негативно отразятся на AWS. Компания осознаёт, что её продукты могут уступать в производительности и удобстве, поэтому устанавливает на них более низкие цены по сравнению с решениями NVIDIA. Однако себестоимость их изготовления сопоставима с производством аналогичных чипов и со временем будет лишь увеличиваться. Иными словами, Amazon получает меньшую прибыль от своих процессоров, а в неблагоприятном сценарии может даже нести убытки.
Источник информации: