Компания NVIDIA создаёт SCADA (Scaled Accelerated Data Access, масштабируемый ускоренный доступ к данным) — инновационную архитектуру ввода-вывода, в которой графические процессоры сами инициируют и контролируют операции с системами хранения, как сообщает Blocks & Files. SCADA представляет собой развитие существующего протокола NVIDIA GPUDirect, который, говоря упрощённо, ускоряет обмен данными с накопителями за счёт прямого соединения памяти ускорителей и NVMe SSD через технологию RDMA. В текущей схеме центральный процессор не участвует в непосредственной передаче данных, однако задача управления этим процессом всё равно лежит на нём. SCADA же предполагает передачу функций оркестрации также и на GPU.
Обучение моделей искусственного интеллекта, как правило, связано с перемещением огромных массивов информации за короткие временные интервалы. При выполнении AI-инференса происходит передача множества небольших блоков ввода-вывода (менее 4 КБ) в многочисленных потоках, причём время на организацию каждой отдельной операции относительно велико. Исследования NVIDIA продемонстрировали, что запуск таких передач непосредственно графическим процессором сокращает задержки и ускоряет процесс инференса. Это и привело к разработке архитектуры SCADA.
NVIDIA уже ведёт совместную работу с партнёрами в экосистеме хранения данных для внедрения SCADA. Например, компания Marvell указывает: «Спрос на инфраструктуру для ИИ побуждает производителей систем хранения создавать SSD, контроллеры, NAND-накопители и прочие технологии, специально оптимизированные для работы с GPU, с фокусом на достижение более высоких показателей IOPS для задач инференса. Это будет коренным образом отличаться от технологий для накопителей, подключённых к CPU, где основными приоритетами являются низкая задержка и большая ёмкость».
Источник изображения: NVIDIA
Согласно информации от Marvell, в архитектуре SCADA ускорители применяют семантику памяти при взаимодействии с системами хранения. Тем не менее, обычные SSD плохо адаптированы для подобных сценариев, так как не способны гарантировать требуемый уровень операций ввода-вывода в секунду (IOPS) в условиях, когда тысячи параллельных потоков при инференсе запрашивают данные блоками менее 4 КБ. Это ведёт к неэффективной загрузке шины PCIe, недозагруженности графических процессоров и бесполезному расходу вычислительных тактов. В CPU-ориентированной архитектуре, оптимальной для обучения моделей, количество параллельных потоков исчисляется десятками, а не тысячами, а размеры блоков данных велики — здесь от накопителя ожидают высокой ёмкости, пропускной способности и минимальной задержки, поскольку дополнительные задержки вносятся и самой инфраструктурой хранения через PCIe и Ethernet.
Внедрение стандартов PCIe 6.0 и PCIe 7.0, безусловно, повысит скорость передачи данных, однако и контроллеры SSD требуют модернизации. Им необходимо поддерживать возможности SCADA, обладать эффективными механизмами коррекции ошибок для работы с мелкими блоками и быть совместимыми с несколькими протоколами (PCIe, CXL, Ethernet). Компания Micron также принимает участие в развитии технологии SCADA.
Источник изображения: Micron
В рамках конференции SC25 компания Micron продемонстрировала прототип хранилища на базе SCADA, построенный на платформе H3 Platform Falcon 6048 с поддержкой PCIe 6.0 (44 × E1.S NVMe SSD + 6 × GPU/DPU/NIC), укомплектованной 44 накопителями Micron 9650 (ёмкостью 7,68 ТБ, производительностью до 5,4 млн IOPS при случайном чтении 4КБ-блоками с глубиной очереди 512, интерфейс PCIe 6.0), тремя коммутаторами Broadcom PEX90000 (по 144 линии PCIe 6.0 каждый), одним процессором Intel Xeon (PCIe 5.0) и тремя ускорителями NVIDIA H100 (PCIe 5.0). В Micron заявили, что система «демонстрирует линейный рост производительности при увеличении числа SSD с 1 до 44», достигая 230 млн IOPS, что весьма близко к теоретическому пределу в 237,6 млн IOPS.
«В комбинации с PCIe 6.0 и высокопроизводительными твердотельными накопителями архитектура [SCADA] обеспечивает доступ к данным в реальном времени для таких задач, как векторные базы данных, графовые нейронные сети и масштабные конвейеры инференса», — резюмировали в Micron.
Источник:
- Blocks & Files