Согласно свежему исследованию Uptime Institute, за последние пять лет устойчивость центров обработки данных к сбоям заметно повысилась. Однако инциденты в дата-центрах всё ещё случаются, а их устранение становится всё более затратным и занимает в среднем больше времени, сообщает The Register.
Как указано в докладе, половина опрошенных представителей операторов ЦОД за последние три года столкнулись с серьёзными или масштабными сбоями. Это самый низкий показатель с 2020 года, что свидетельствует о повышении надёжности инфраструктуры. В то же время операторам ЦОД становится всё труднее улучшать заявленный в SLA уровень надёжности — хотя отказы происходят реже, дальнейшее повышение показателей требует значительно больших усилий.
Попытки увеличить время безотказной работы частично нивелируются усложнением систем и условий эксплуатации, вызванным повсеместным внедрением ресурсоёмкой инфраструктуры для обучения и инференса ИИ. Увеличенная плотность размещения оборудования в стойках, колебания нагрузок и другие факторы могут повысить риск каскадных отказов. Кроме того, дефицит генераторов, распределительных устройств, трансформаторов, систем охлаждения и другого оборудования вынуждает операторов ЦОД иногда использовать бывшее в употреблении или непроверенное оборудование. Предполагается, что именно это могло стать причиной сбоев в некоторых дата-центрах.
Источник изображения: Uptime Institute
Главной причиной критических неполадок остаются сбои электроснабжения, хотя в этой области наметился определённый прогресс — если в 2024 году на проблемы с электричеством приходилось 54 % самых серьёзных отключений, то в 2025 году этот показатель снизился до 45 %. Однако ситуация может измениться, так как местные электросети испытывают всё большую нагрузку из-за ввода в эксплуатацию новых ЦОД. Хотя сбои энергосетей не станут основной причиной отключений в будущем, они повлияют на доступность локальной генерации — при авариях сети дата-центры не всегда успевают переключиться на дизель-генераторы и другие резервные источники питания.
Источник изображения: Uptime Institute
Специалисты Uptime обращают внимание не только на перегрузки в электрических сетях. Как отмечают эксперты, значительная часть сбоев в центрах обработки данных происходит из-за повреждений оптоволоконных линий и других технических неисправностей. С ростом распределённости инфраструктуры ЦОД инциденты за пределами самих дата-центров приобретают всё большее значение. Даже при исправной работе ЦОД неправильная настройка сети, к примеру, способна вызвать перебои в обслуживании клиентов. Технологии SDN и автоматическое перенаправление трафика помогают минимизировать такие риски, и всё больше компаний вообще не испытывают простоев. Примерно 20 % респондентов за последние три года не фиксировали сбоев в IT-сервисах — это заметное улучшение по сравнению с предыдущим годом.
Источник изображения: Uptime Institute
Устойчивость на программном уровне помогает смягчать последствия локальных инцидентов, включая разрывы оптоволоконных кабелей, за счёт перераспределения рабочих задач между несколькими взаимосвязанными площадками. Однако такие системы сами по себе довольно сложны. Более того, примеры атак беспилотников на ЦОД в ОАЭ и Бахрейне показывают, что распределение нагрузок оказывается малоэффективным, если сбой затрагивает сразу несколько объектов.
Хотя в 2025 году Uptime Institute зафиксировала меньше сбоев, чем годом ранее, в отчёте предполагается, что продолжительность инцидентов в целом может увеличиваться. 55 % публично сообщённых инцидентов устраняются в течение 12 часов, однако доля случаев, длящихся более 48 часов, растёт второй год подряд. При этом многие из них связаны с теми же повреждениями волоконно-оптических линий. По данным Uptime, в отчётный период такие инциденты происходили более чем вдвое чаще, чем раньше.
С увеличением длительности простоев растут и финансовые потери от инцидентов, особенно в сфере ИИ-инфраструктуры. Согласно отчёту Uptime, сейчас 20 % простоев обходятся дороже $1 млн. Ожидается, что в ближайшие годы этот показатель будет только расти.
Источники: