Как сообщает издание Blocks & Files, специалисты SK hynix представили идею гибридного модуля памяти, в котором на общем интерпозере совмещаются чипы HBM (High Bandwidth Memory) и высокоскоростной флеш-памяти HBF (High Bandwidth Flash). Ожидается, что подобная система, подключённая к графическому процессору, ускорит процесс логического вывода в системах искусственного интеллекта.
Современные ИИ-ускорители, построенные на GPU, используют высокоскоростную память HBM. Однако её объём ограничен, что замедляет инференс, поскольку данные приходится подгружать с более медленных твердотельных накопителей. SK hynix предлагает решить эту проблему с помощью гибридной архитектуры HBM/HBF, получившей название H3.
Конструкция HBF предполагает вертикальную компоновку кристаллов NAND поверх логического чипа. Вся сборка размещается на интерпозере рядом с контроллером памяти, а также GPU, CPU, TPU или SoC — в зависимости от конечного устройства. В архитектуре H3 на том же интерпозере дополнительно располагается стек HBM. Хотя доступ к HBF происходит медленнее, чем к HBM, он всё же значительно быстрее, чем к обычным SSD. Это позволяет использовать HBF в качестве высокоёмкого и быстрого кэша.
Источник изображения: SK hynix
По данным SK hynix, модули HBF могут обладать ёмкостью в 16 раз большей, чем HBM, при схожей пропускной способности. В то же время, у HBF ниже устойчивость к записи, энергопотребление может быть выше до 4 раз, а задержки доступа — больше. HBF выдерживает примерно 100 тысяч циклов перезаписи, что делает её оптимальной для задач с преимущественно операциями чтения. Как утверждается, такой гибридный подход позволит эффективно выполнять инференс для крупных языковых моделей (LLM) с миллиардами параметров.
В рамках симуляции технологии H3, выполненной инженерами SK hynix, анализировался ускоритель NVIDIA Blackwell B200, оснащённый восемью модулями HBM3E и аналогичным числом модулей HBF. При оценке скорости обработки токенов в секунду система с памятью H3 продемонстрировала прирост производительности в 1,25 раза для 1 миллиона токенов и в 6,14 раза для 10 миллионов токенов относительно решений, использующих исключительно чипы HBM. Кроме того, зафиксировано увеличение энергоэффективности на 2,69 раза на каждый ватт потребляемой мощности в сравнении с конфигурациями без HBF. Также комбинация HBM и HBF способна обслуживать в 18,8 раз больше параллельных запросов, чем система только на HBM.
Источник: