По данным издания Business Insider, отдельные технологические компании придерживаются мнения, что специализированные ИИ-чипы Amazon — Trainium и Inferentia — проигрывают в конкуренции процессорам NVIDIA. Внутренние материалы AWS свидетельствуют, что стартап Cohere в ходе тестирования выявил «более низкую эффективность» чипов Trainium 1 и 2 в сравнении с ускорителями NVIDIA H100. Представители компании также жаловались на «серьёзные ограничения» доступа к Trainium2 и регулярные сбои в работе.
Как отмечено в служебной записке, Amazon совместно с лабораториями Annapurna продолжает изучать «вопросы производительности», поднятые Cohere, однако продвижение в их устранении остаётся «незначительным». В документе также приводится пример стартапа Stability AI, создавшего нейросеть для генерации изображений Stable Diffusion, который выразил аналогичные concerns. В частности, подчёркивается, что Trainium2 демонстрирует более высокую задержку относительно H100, что снижает их конкурентоспособность в аспектах скорости и экономической эффективности.
Разработка собственных чипов представляет собой стратегический ход Amazon в борьбе за лидерство в области искусственного интеллекта. Ранее компания уже добилась экономии, внедрив процессоры Graviton вместо дорогостоящих решений Intel. Теперь аналогичный подход применяется для обработки ИИ-нагрузок. Business Insider обращает внимание, что если клиенты AWS откажутся от Trainium в пользу более затратных чипов NVIDIA для облачных ИИ-систем, это может негативно сказаться на доходности облачного направления компании.
Источник изображений: AWS
Для AWS сегмент стартапов всегда имел стратегическое значение, поэтому их мнение крайне важно для корпорации. Пресс-служба Amazon отметила, что компания «ценит» обратную связь пользователей, позволяющую совершенствовать чипы «ещё эффективнее и повышать их востребованность». Представитель также подчеркнул, что ситуация с Cohere «не отражает текущую реальность», указав, что чипы Trainium и Inferentia «демонстрируют выдающиеся результаты» у таких партнёров, как Ricoh, Datadog и Metagenomi. «Мы впечатлены масштабами внедрения Trainium2, который на текущем этапе преимущественно задействован ограниченным кругом крупнейших клиентов, включая Anthropic», — говорилось в письме представителя Amazon изданию Business Insider.
По заявлениям AWS, их собственные ИИ-ускорители обеспечивают на 30–40% более выгодное соотношение цены и производительности в сравнении с актуальным поколением графических процессоров. В компании сосредоточены «уникальные компетенции» в области чипового дизайна, и уже ведутся разработки следующих поколений ускорителей. «Мы планируем расширить клиентскую базу, начиная с Trainium 3, анонс которого запланирован на вторую половину этого года», — прокомментировал представитель Amazon. Гендиректор корпорации Энди Джесси в рамках отчёта о финансовых результатах заявил, что чипы Trainium2 «полностью распроданы по подписке» и превратились в «мультимиллиардное» направление бизнеса, стабильно растущее на 150% ежеквартально.
Критика чипов Amazon со стороны клиентов имела место и ранее. Согласно июльскому отчёту, стартап Typhoon выявил, что устаревшие ускорители NVIDIA A100 оказываются втрое экономичнее для ряда задач по сравнению с чипами Inferentia2 от AWS, предназначенными для инференса. Параллельно исследовательская группа AI Singapore установила, что серверы AWS G6 с ускорителями NVIDIA демонстрируют более низкую стоимость эксплуатации при разнообразных сценариях использования, чем решения на базе Inferentia2.
В прошлом году пользователи облачной платформы Amazon также фиксировали «сложности внедрения» её кастомных ИИ-чипов, создающие «зоны риска», что приводило к сокращению их применения. Эти трудности нашли отражение в рыночных позициях Amazon. Согласно данным аналитической фирмы Omdia, NVIDIA удерживает доминирующую долю рынка ИИ-чипов, превышающую 78%. Далее следуют Google и AMD с примерно 4% каждая. AWS занимает лишь шестую строчку с 2% рыночного присутствия.
Наглядно иллюстрирует проблемы Amazon в этом отношении соглашение AWS и OpenAI стоимостью $38 млрд. Сделка предполагает использование облачных ИИ-серверов на базе ускорителей NVIDIA, без упоминания чипов Trainium. Ускорители NVIDIA не только обеспечивают высокую производительность, но подкрепляются широко распространённой платформой CUDA. Это качество особенно ценно при разработке крупных проектов в области ИИ с высоким уровнем риска, когда надёжность и имеющийся опыт могут сыграть решающую роль.
В июльском документе сотрудники Amazon отметили, что технические ограничения и другие проблемы, связанные со сравнением пользовательских ИИ-чипов компании и ускорителей NVIDIA, стали «критическим препятствием» для клиентов, задумывающихся о переходе на чипы AWS. До публикации отчёта о доходах Amazon на прошлой неделе аналитики Bank of America соблюдали осторожность в оценке прогресса Tranium. В аналитической заметке, опубликованной в конце октября, они предупредили, что инвесторы «скептически» относятся к возможностям Trainium, и что «неясно», проявится ли высокий спрос на них «за пределами Anthropic».
Недавно AWS запустила проект Project Rainier — ИИ-кластер из полумиллиона чипов Trainium2, которые будут использоваться для обучения LLM следующего поколения Anthropic. Ожидается, что к концу года Anthropic получит более 1 млн чипов Trainium2, но решение по этому вопросу ещё не принято. Если реализация проекта будет успешной, это станет огромным подспорьем для Amazon. Вместе с тем в прошлом месяце Anthropic подписала многомиллиардный контракт на использование Google TPU, отметив, что продолжит использовать Trainium. Хотя Anthropic публично признала сложность использования архитектур с разными чипами, представитель Amazon сообщил Business Insider, что Anthropic продолжает расширять использование Trainium и подчеркнул стремление компании предлагать клиентам широкий спектр аппаратных опций в рамках своих облачных сервисов.
В ходе общения с аналитиками на прошлой неделе Джасси подчеркнул, что AWS сосредоточена на предоставлении «нескольких вариантов чипов». Он отметил, что цель состоит не в том, чтобы заменить чипы NVIDIA, а в том, чтобы предоставить клиентам больше выбора. Этой стратегии AWS придерживается и в других областях облачных вычислений, сказал он. «В истории AWS никогда не было случая, чтобы какой-то один игрок в течение длительного периода времени владел всем сегментом рынка, а затем мог удовлетворить потребности всех во всех аспектах», — сказал Джасси.
В перспективе на годы вперёд не самые успешные продажи собственных ускорителей негативно отразятся на AWS. Компания осознаёт, что её продукты могут уступать в производительности и удобстве, из-за чего предлагает их по более низкой цене в сравнении с решениями NVIDIA. Однако себестоимость их выпуска сопоставима с производством аналогичных по классу чипов, и со временем она будет лишь увеличиваться. Иными словами, Amazon получает меньшую прибыль со своих процессоров, а в неблагоприятном сценарии может даже нести убытки.
Источник информации: