3 сентября с 19:20 до 21:10 (мск) у 85% наблюдалась недоступность сервисов Email и SMS рассылок.
Корневая причина недоступности — преждевременная миграция схемы данных без обратной совместимости.
В период инцидента у 85% клиентов:
Не работали операции с шагом отправки коммуникации
Не работал 2FA при авторизации в административной панели
19:17 — произошла выкладка пакета миграций схем данных
19:18 — обнаружили множественные ошибки в багтрекере
19:19 — автоматизация завела дефект нарушения SLA транзакционных сценариев
19:46 — финализировали стратегию устранения отказа
19:59 — приступили к восстановлению схем данных на проектах
20:24 — схемы данных на проектах с нарушениями SLA восстановлены
21:18 — схемы данных на всех проектах восстановлены
В ходе модернизации инфраструктуры контроля соблюдения SLA скорости массовых рассылок часть прежней инфраструктуры подлежала удалению, в том числе несколько колонок в базе данных.
В процессе удаления была упущена проверка готовности приложения к функционированию в условиях измененной схемы данных, и после миграции схемы произошел отказ.
После локализации проблемы было произведено ручное восстановление схемы данных, и работа системы вернулась к штатному режиму.