NetApp и NTT испытали распределённое обучение ИИ между дата-центрами

Глобальный отраслевой альянс IOWN (Innovative Optical and Wireless Network Global Forum), как сообщает издание Blocks & Files, представил идею географически распределённой вычислительной платформы. Она подразумевает физическое разделение дата-центров с кластерами GPU-ускорителей и высокоскоростными All-Flash системами хранения. Подобный подход, по прогнозам, должен сделать процесс обучения крупных ИИ-моделей более экономически выгодным.

Альянс IOWN был создан в январе 2020 года компаниями NTT, Intel и Sony. Его деятельность сосредоточена на создании коммуникационной и вычислительной инфраструктуры нового поколения, основанной на фотонных технологиях. На сегодняшний день в консорциум входит свыше 170 компаний и организаций, среди которых Microsoft, NVIDIA, Cisco, Nokia, Samsung, Fujitsu, KDDI, Orange, Red Hat и другие.

Участники IOWN отмечают, что нехватка и высокая цена электроэнергии в городах создают препятствия для развёртывания дата-центров, ориентированных на ИИ. При этом данные, необходимые для обучения искусственного интеллекта, обычно генерируются и хранятся именно в мегаполисах, и их перенос в сельские районы с дешёвой энергией не всегда практичен. В качестве альтернативы IOWN предлагает размещать вычислительные кластеры с GPU в удалённых локациях, соединяя их через полностью фотонную сеть (APN) с системами хранения данных, расположенными в городской черте.

Источник изображения: IOWN

Предложенная концепция предполагает использование одномодового оптоволокна (SMF) с пропускной способностью 100 Гбит/с, а также технологии NFS over RDMA/ТСР. В ходе испытаний были задействованы All-Flash хранилище NetApp и большая языковая модель Tsuzumi, созданная японским телекоммуникационным гигантом NTT. Благодаря прямому подключению GPU-серверов к хранилищу NetApp, время обучения модели Tsuzumi в распределённой системе на базе APN увеличилось менее чем на 1% по сравнению с использованием традиционной инфраструктуры. При этом расстояние между удалёнными узлами может составлять до 3000 км. Детали проекта изложены в отчёте «Green Computing with Remote GPU over APN (tsuzumi-7B)».

Стоит обратить внимание, что крупные облачные провайдеры уже начали обучать модели с использованием ресурсов нескольких распределённых дата-центров, хотя в большинстве случаев создаются локализованные ИИ-кластеры, а не географически разнесённые системы хранения и вычислений. По имеющимся данным, операторы обычно предпочитают размещать дата-центры в пределах 60 км друг от друга, в то время как компании NetApp и NTT заявляют о возможности работы на расстояниях в тысячи километров.

Источник информации:

Понравилась статья?