Компания Aria Networks представила платформу для сетей Deep Networking, цель которой — оптимизировать функционирование систем искусственного интеллекта. Данная разработка интегрирует специализированные коммутаторы, сетевую операционную систему SONiC, прецизионную телеметрию с коммутаторов, трансиверов и сетевых адаптеров, а также алгоритмы ИИ, распределённые по различным уровням вычислительной инфраструктуры.
Стартап Aria Networks был создан в январе 2025 года Мансуром Карамом (Mansour Karam), основателем компании Apstra, купленной в 2019 году американским производителем сетевых решений Juniper Networks. Aria Networks специализируется на создании высокопроизводительных систем, которые объединяют возможности стандартного Ethernet с особым программным обеспечением для управления множеством модульных коммутаторов как единым целым. На текущий момент проект привлек совокупные инвестиции в размере $125 млн от фондов Sutter Hill Ventures, Atreides Management, Valor Equity Partners и Eclipse Ventures.
Концепция Deep Networking состоит в восприятии сети как активного элемента ИИ-кластера, а не пассивной составляющей. Это реализуется за счёт сбора подробных телеметрических данных непосредственно с сетевых ASIC, внедрения интеллектуальных агентов на каждом уровне и регулярной рассылки программных обновлений через облачную среду.
Источник изображений: Aria Networks
В качестве основных метрик производительности Aria Networks выделяет MFU (степень использования оборудования при обучении) и Token Efficiency (эффективность обработки токенов). Первый показатель демонстрирует, какая доля от теоретически максимальной производительности ИИ-ускорителя (пиковых операций с плавающей запятой) фактически расходуется на полезные вычисления в процессе обучения или логического вывода. Эффективность токенов, в свою очередь, отражает либо уровень MFU, либо время, затрачиваемое на обработку одного токена.
Главное технологическое достоинство Deep Networking — это доступ к детализированной телеметрии. Обычные средства мониторинга сети собирают информацию постфактум и с относительно невысокой точностью. Решение от Aria Networks обрабатывает телеметрию в режиме реального времени прямо с ASIC-чипов. Это позволяет осуществлять адаптивную настройку параметров DLB (динамического распределения нагрузки) и DCQCN (механизма контроля перегрузок).
Платформа Deep Networking построена по многоуровневому принципу. На начальных этапах искусственный интеллект за микросекунды обрабатывает инциденты, например, отказы трансиверов, и перенаправляет данные между сетевыми коммутаторами. На верхних уровнях система определяет стратегию распределения нагрузок внутри кластера. Помимо этого, внешние компоненты, такие как планировщики задач и маршрутизаторы, могут напрямую запрашивать сетевую аналитику и учитывать её при формировании собственных решений.
В аппаратной части Deep Networking использует коммутаторы Aria Switch 800G, Aria Switch 1.6T High Radix и Aria Switch 1.6T на чипах Broadcom. Платформа автоматически настраивает все параметры сетевой инфраструктуры под конкретный ИИ-кластер, исключая ручное вмешательство, что снижает задержки и предотвращает ошибки, связанные с человеческим фактором. Администраторам необходимо лишь задать требуемые параметры, после чего система самостоятельно оптимизирует сеть. При этом она непрерывно отслеживает состояние инфраструктуры и в реальном времени вносит коррективы для поддержания максимальной производительности и стабильности.
По заявлению Aria Networks, даже один нерабочий сетевой адаптер в кластере на 10 тысяч XPU может уменьшить показатель MFU на 1,7 %. А неисправность трансивера способна вызвать ошибочную маршрутизацию трафика, что ведёт к значительным финансовым издержкам. Архитектура Deep Networking эффективно устраняет подобные проблемы, параллельно повышая общую эффективность. Например, рост MFU на 3 % в кластере из 10 тысяч XPU, по расчётам компании, может принести дополнительно $49,8 млн годового дохода.
Источник: