AWS тихо внедряет революционную сетевую архитектуру RNG: экономия миллиардов и хаос вместо порядка
AWS обнародовала техническую документацию по сетевой архитектуре своих ЦОД, которую компания тихо внедряет с конца 2024 года. Данная архитектура базируется на трёх десятилетиях развития математической теории, ранее считавшейся непригодной для коммерческого применения. Решение на основе отказоустойчивых сетевых графов (Resilient Network Graphs, RNG) уже стало стандартным для большинства новых дата-центров AWS по всему миру и обещает сэкономить миллиарды долларов.
В Amazon утверждают, что традиционная топология Fat-Tree с многоуровневой структурой, применяемая в ЦОД десятилетиями, неэффективна. Когда данные передаются лишь по ограниченному числу сетевых маршрутов, при перегрузке растёт задержка, даже если общая пропускная способность велика. К тому же эта архитектура уязвима: выход из строя одного маршрутизатора верхнего уровня может нарушить связь для крупных сегментов сети под ним. Кроме того, она требует сложной кабельной инфраструктуры.
Источник изображений: Amazon
Как отметил ресурс SiliconANGLE, существует множество подходов к решению этой проблемы, но большинство из них либо дороги, либо сложны в реализации. В качестве альтернативы Amazon предложила архитектуру RNG. Она расширяет количество маршрутов для передачи данных между узлами, что улучшает пропускную способность, одновременно сокращая число сетевых устройств вдвое и повышая надёжность соединений. Если используемый узлом сетевой путь сталкивается с техническими неполадками, система просто перенаправляет трафик на один из множества других доступных маршрутов.
Но это ещё не всё. Специалисты AWS разработали концепцию, которую они называют квазислучайной топологией. Некоторые участки внутри дата-центра прокладываются и подключаются по заданному шаблону, тогда как остальные соединяются произвольным образом. Именно эта хаотичность делает сети RNG более гибкими по сравнению с Fat-Tree. Для выбора наиболее эффективного маршрута среди огромного числа доступных сетевых путей под конкретную нагрузку применяется фирменный распределённый протокол маршрутизации Spraypoint.
Работа протокола делится на два этапа. На первом этапе исходный маршрутизатор произвольным образом распределяет свой исходящий трафик среди всех своих непосредственных соседей. Далее для каждого пакета применяется стандартный алгоритм поиска кратчайшего пути до промежуточной точки — маршрутизатора, которому заранее поручено направлять трафик к конкретному получателю. Промежуточные узлы передают пакеты через серию «концентрических колец» вокруг цели, где каждое кольцо передаёт трафик внутрь следующему, пока он не достигнет конечного пункта.
По заявлению Amazon, такое сочетание случайного начального распределения и организованной сходимости Spraypoint обеспечивает почти вдвое больше независимых маршрутов между любыми двумя маршрутизаторами по сравнению с традиционными методами поиска кратчайшего пути. При этом сохраняется низкая вычислительная нагрузка и требуется мало памяти — в отличие от по-настоящему «плоской» сети, где все маршрутизаторы попарно соединены друг с другом совершенно хаотично.
Дополнительное разнообразие маршрутов означает, что перегруженные участки в одной части сети могут быть автоматически обойдены без необходимости явного принятия решений о перенаправлении трафика. «По сути, сделав сеть “плоской”, мы устранили узкие места, которые возникают в традиционных сетевых решениях, — сообщил Мэтт Редер (Matt Rehder), вице-президент AWS Network Engineering, в интервью WIRED. — Мы считаем, что мы единственные, кто сделал это в таком масштабе».
При этом случайное расположение оптоволоконных соединений RNG усложняет их эффективную настройку. AWS создала пассивное сетевое устройство ShuffleBox, которое физически объединяет разные оптоволоконные линии. Каждый ShuffleBox оснащён портами, направленными к маршрутизаторам, и соединяется с другими ShuffleBox с противоположной стороны. Внутренние оптические каналы, перемешанные по заданному алгоритму, а также произвольные связи между ShuffleBox формируют общую структуру сети, которая на макроуровне выглядит квазислучайной, без необходимости прокладывать отдельные кабели по всему этажу дата-центра. При добавлении новой стойки её маршрутизатор просто подключается к ближайшему ShuffleBox.
Примечательно, что группа разработчиков RNG не предлагает эту сетевую концепцию для генеративного ИИ. Речь идёт о повышении эффективности повседневной инфраструктуры ЦОД компании. «RNG отлично справляется с нашими основными задачами, однако шаблоны передачи обучающих данных для ИИ гораздо более согласованы и централизованно управляются», — отмечает Редер. По данным Amazon, по сравнению с архитектурами типа Fat-Tree, RNG использует на 69 % меньше маршрутизаторов, обеспечивает до 33 % более высокую пропускную способность, снижает энергопотребление сети на 40 % и уменьшает затраты на инфраструктуру на 9–45 %.
Первая сеть RNG была запущена в конце 2024 года в Ирландии и начала обрабатывать реальный трафик, сообщил ресурс PPC Land. Это развёртывание стало проверкой: инженеры AWS сравнили реальную производительность с математическими расчётами, выявили недостатки в работе и внедрили оптимизации в двух последующих запусках. По данным SiliconANGLE, технология уже применяется в ряде ЦОД в Ирландии, Германии и Испании. Компания заявила, что большинство её новых дата-центров использует RNG.
Источник:
- amazon.com