Поставщик облачных услуг «Турбо облако» (часть бизнес-направления «Ростелекома» в сфере информационных технологий) представил Inference Platform — сервис для запуска и управления моделями искусственного интеллекта, построенный на базе графических процессоров Nvidia H200 SXM.
Платформа совместима с разными форматами ИИ-моделей, в том числе с открытыми разработками. Клиенты имеют возможность загружать свои собственные модели или применять готовые контейнерные образы, запуская их в облаке без необходимости настраивать инфраструктуру. Сервис автоматически регулирует объём выделяемых мощностей (автомасштабирование) в соответствии с текущим спросом. Это даёт возможность рационально использовать графические ускорители (GPU) и сократить издержки при переменной нагрузке. Дополнительный плюс — поминутная система расчётов, которая обеспечивает более детальный учёт затрат в сравнении с почасовой оплатой.
Источник изображения: Omar Lopez-Rincon / unsplash.com
Сервис позволяет выполнять распределённый вывод моделей, поддерживая работу с архитектурами размером до триллиона параметров, размещёнными на нескольких вычислительных узлах. Для связи между узлами задействована высокоскоростная сеть InfiniBand, которая даёт возможность объединять множество серверов и GPU для дообучения масштабных моделей. Также предусмотрена гибкая схема использования ресурсов графических процессоров, в том числе их разделение для решения менее ресурсоёмких задач.
В данный момент новый продукт открыт для пилотного тестирования: организации могут опробовать его функционал на своих моделях.
Источник: