Сенсация в HPC: NextSilicon может вытеснить AMD и NVIDIA из нового суперкомпьютера США
Значительная часть самых производительных суперкомпьютеров мира, входящих в рейтинг TOP500, используют ускорители на базе GPU, однако Национальные лаборатории США начали исследовать новые архитектуры микросхем, способные обеспечить высокую производительность в вычислениях FP64, которые необходимы для симуляций Министерства энергетики США (DoE). Это ведомство занимается не только вопросами энергетики, но и управляет одними из самых мощных суперкомпьютеров на планете, включая те, что используются для моделирования физики ядерного оружия, виртуальных экспериментов с биологическим оружием, а также для решения задач в сфере общественного здоровья и безопасности, сообщает The Register.
Начиная с запуска суперкомпьютера Titan в 2012 году, всё больше систем стали применять ускорители от NVIDIA, а позже — чипы AMD. Однако новый суперкомпьютер Spectra, созданный Сандийскими национальными лабораториями (SNL) при участии Penguin Solutions и NextSilicon, использует иные решения. По сравнению с экзафлопсными системами вроде Frontier или El Capitan, он занимает относительно скромное пространство и состоит всего из 64 узлов. Spectra служит тестовой платформой для чипов Maverick-2, которые успешно прошли все приёмочные испытания. Это открывает путь к их применению в более масштабных системах.
Источник изображения: SNL
Maverick-2 используют перенастраиваемую потоковую (dataflow) архитектуру. По сути, внутри чипа располагается сеть взаимосвязанных вычислительных блоков, которые работают не по строго заданной схеме, а как узлы графа. В процессе выполнения задачи каждый блок можно настроить на отдельную операцию — сложение, умножение и т.д., что позволяет адаптироваться к различным типам вычислений и более эффективно обрабатывать потоки данных. Ключевая особенность — возможность одновременного выполнения вычислений и передачи данных. В NextSilicon утверждают, что это значительно повышает производительность и энергоэффективность при решении реальных задач.
Ранее компании Groq, Cerebras и SambaNova уже выпускали чипы на «потоковых» архитектурах, однако все они были нацелены на обучение и выполнение задач ИИ, в то время как NextSilicon фокусируется именно на HPC. Подобные архитектуры крайне сложны в программировании, поэтому разработчики зачастую предлагают готовые решения, а не просто реализуют серверы на их основе. NextSilicon стремится решить эту задачу, создав собственный компилятор, который позволяет запускать существующие программы на C, Python, Fortran и CUDA без значительных изменений. В Сандийских лабораториях уже протестировали технологию на ключевых HPC-нагрузках, таких как HPCG, LAMMPS и Sparta, подтвердив её пригодность для научных вычислений.
Источник изображения: NextSilicon
Ориентация разработчика на HPC резко отличается от направления развития ИИ-ускорителей NVIDIA. В Rubin компания делает акцент на вычислениях для ИИ, снижая «чистую» производительность FP64 и полагаясь на эмуляцию с помощью схемы Озаки. Если в одних HPC-задачах это даёт результат, то в других эффективность таких обходных решений оказывается крайне низкой. AMD, помимо ориентированных на ИИ Instinct MI455X, также готовит MI430X, где сохранены аппаратные HPC-блоки.
Именно на такие нагрузки и рассчитывает NextSilicon со своими разработками. Полных системных тестов Maverick-2 и суперкомпьютера пока не проводилось, но компания заявляет, что один такой ускоритель способен выдавать около 600 Гфлопс в тесте HPCG (FP64). По данным стартапа, это сопоставимо с производительностью ведущих GPU, при этом энергопотребление новинки в два раза ниже. Для США главной проблемой может стать давление со стороны акционеров компаний, поставляющих чипы. Если ИИ превратил NVIDIA в финансового и технологического гиганта, то рынок HPC-решений остаётся важным, но всё ещё нишевым направлением.
Хотя стартапам вроде NextSilicon ещё предстоит доказать, что их продукты заслуживают места на рынке, Китай уже давно показал, что GPU вовсе не обязательны для успешной конкуренции с лучшими западными суперкомпьютерами. OceanLight и Tianhe-3 используют кастомные процессоры и ускорители на базе DSP, такие как Matrix 2000. Последние, по слухам, были разработаны в ответ на запрет поставок Intel Xeon Phi в КНР. Кроме того, недавно появилась информация о новом Arm-суперкомпьютере LineShine.
Источник:
- The Register