Экстренные вызовы не выполнялись в течение 13 часов, погибли 4 человека. И я действительно зол.

Австралийская телекоммуникационная компания произвела "обычную" замену брандмауэра. Что могло пойти не так?

Очень много. 600 экстренных вызовов не прошли. Отключение оставалось незамеченным в течение 13 часов.

Объяснение? "Обычные вызовы подключались должным образом, уровень громкости национальных звонков не вызывал подозрений, и не было никаких сигналов о сбоях в экстренных вызовах".
Я слышал эту историю много лет. Первопричины всегда одни и те же:

"Мы уже проводим пассивный мониторинг. Контроль качества? Проверка."
За исключением того, что 0,01% неудачных вызовов теряются в шуме других сбоев.

"Регрессионное тестирование? Оно никогда не было нужно".
Именно так я думал 20 лет назад, когда лично отключил 100 000 пользователей. Урок усвоен. Спросите меня об этой истории.
⠀ "Непрерывное активное тестирование наших самых важных сценариев в режиме 24/7? Слишком дорого".
Стоимость ниже, чем ежемесячные расходы компаний на кофе.
Я не испытываю горечи. Я в ярости. От этих систем зависят люди, иногда даже их жизни. Это не приложение для общения в чате или социальная сеть. Это жизненно важная инфраструктура.