Сбой связи из-за ошибок инженеров: как поломка брандмауэра в Австралии привела к гибели людей
Согласно результатам независимого анализа сентябрьского сбоя, связанного с обновлением межсетевого экрана у оператора связи Optus, который привёл к гибели двух человек (ранее фигурировали данные о трёх погибших), не сумевших связаться со службами спасения, технические сотрудники допустили как минимум десять промахов, пишет The Register.
В Австралии номер 000 предназначен для вызова неотложной помощи, и местные операторы обязаны гарантировать маршрутизацию таких вызовов диспетчерам экстренных служб. 18 сентября 2025 года провайдер Optus на протяжении 14 часов подряд не мог обеспечить эту связь. Более того, компания даже не знала о возникшей проблеме — о ней сообщили абоненты, обратившиеся в службу поддержки. Из-за этого нарушения 455 звонков на номер 000 не были обработаны, и двое позвонивших скончались.
Недавно Optus обнародовала отчёт доктора Керри Шотт (Kerry Schott), детально разбирающий произошедшее. Выяснилось, что инженеры совершили целую серию ошибок и проигнорировали первые предупреждения о потенциальных рисках. Некоторые специалисты пропускали совещания, на которых оценивались возможные последствия запланированных технических работ. Сами работы проводились в неоправданно сжатые сроки, а проверить отдельные их результаты оказалось невозможно.
Источник изображения: Icons8 Team/unsplash.com
Optus намеревалась выполнить 18 обновлений систем защиты, но успешно завершить удалось лишь 15. Для 16-го обновления компания предоставила своему подрядчику, фирме Nokia, неверные инструкции. Сотрудники Optus запросили изменения в настройках, которые привели к изоляции сетевого оборудования и блокировке доступа к шлюзу, сделав невозможным перенаправление трафика. Подобная методика не использовалась компанией в ходе шести предыдущих обновлений межсетевых экранов.
В Nokia, по неясным причинам, была применена устаревшая методика (Method of Procedure) 2022 года, которая не соответствовала требованиям текущих операций. Кроме того, специалисты Nokia ошибочно предположили, что проводимые манипуляции не затронут сетевой трафик. Со своей стороны, Optus присвоила операции статус срочной, что на практике привело к отмене плановых проверок. После внедрения обновления как Nokia, так и Optus зафиксировали признаки неполадок в сети, однако обе компании проигнорировали эти сигналы.
В 02:40 по местному времени обновление было завершено, и команды провели финальную верификацию. Она показала рост уровня неудачных вызовов, хотя ожидалось его снижение, однако сама аномалия так и не была идентифицирована. В довершение всего, Optus ошибочно использовала для анализа колебаний вызовов агрегированные общенациональные данные, что не позволило выявить локальные сбои, спровоцированные неудачным обновлением.
Источник изображения: Can Ahtam/unsplash.com
Как отмечает эксперт, причинами инцидента стали слабое управление и низкое качество работы со стороны Optus и Nokia: процедуры были нарушены, выбраны неверные методы, проверки проводились в недостаточном объёме, контрольные меры игнорировались, а на предупреждения не обращали должного внимания. Сотрудники Optus проявили излишнюю осторожность и не стали вовремя привлекать более опытных коллег, при этом главным приоритетом была скорость выполнения задачи, а не её корректность. Наиболее жёсткой критике подверглись команды, непосредственно участвовавшие в проблемном обновлении. Подчёркивается, что подобный сбой во время рутинного обновления межсетевого экрана недопустим — необходим гораздо более строгий надзор за деятельностью персонала и работой Nokia.
Однако проблемы на этом не заканчиваются. Недавно обнаружилось, что в сетях операторов TPG, Optus и Telstra невозможно дозвониться до экстренной службы 000 с некоторых смартфонов Samsung, работающих на устаревшем программном обеспечении, что уже привело как минимум к одному смертельному случаю. Отмечается, что австралийские телеком-операторы пытаются перенаправлять трафик при сбоях, но это сложная задача, которая усугубляется тем, что разные модели смартфонов ведут себя при возникновении проблем по-разному. Optus рекомендует клиентам проверять возможность соединения с 000, а также ведёт список «проблемных» устройств. Тем не менее, трудности могут возникнуть у владельцев «серых» гаджетов, приобретённых онлайн или за рубежом.
Сбои в работе IT-систем случаются регулярно, и их последствия не ограничиваются лишь финансовыми убытками или техническими неполадками. Например, в июле 2024 года глобальный инцидент, вызванный обновлением CrowdStrike, затронул около 8,5 миллионов компьютеров под управлением Windows. Спустя год стало известно, что он повлиял на работу как минимум 750 больниц в США, несмотря на то, что в CrowdStrike резко оспорили эти данные.
Источник:
- The Register