Недоступность сервисов Email/SMS рассылок для 85% клиентов в течение 110 минут
Incident Report for Mindbox
Postmortem

3 сентября с 19:20 до 21:10 (мск) у 85% наблюдалась недоступность сервисов Email и SMS рассылок.

Корневая причина недоступности — преждевременная миграция схемы данных без обратной совместимости.

Влияние на клиента

В период инцидента у 85% клиентов:

  • Не отправлялись массовые рассылки
  • Не работала отправка коммуникаций из сценариев
  • Не работали операции с шагом отправки коммуникации

    • Синхронные вызовы возвращали ошибки
    • Асинхронные вызовы выполнялись с задержкой
  • Не работал 2FA при авторизации в административной панели

Как выявляли и устраняли инцидент

19:17 — произошла выкладка пакета миграций схем данных

19:18 — обнаружили множественные ошибки в багтрекере

19:19 — автоматизация завела дефект нарушения SLA транзакционных сценариев

19:46 — финализировали стратегию устранения отказа

19:59 — приступили к восстановлению схем данных на проектах

20:24 — схемы данных на проектах с нарушениями SLA восстановлены

21:18 — схемы данных на всех проектах восстановлены

Отчёт

В ходе модернизации инфраструктуры контроля соблюдения SLA скорости массовых рассылок часть прежней инфраструктуры подлежала удалению, в том числе несколько колонок в базе данных. 

В процессе удаления была упущена проверка готовности приложения к функционированию в условиях измененной схемы данных, и после миграции схемы произошел отказ.

После локализации проблемы было произведено ручное восстановление схемы данных, и работа системы вернулась к штатному режиму.

Что улучшим

  • Автоматизируем контроль консистентности модификаций схем данных с развернутым приложением — H1’25
Posted Sep 24, 2024 - 17:30 UTC

Resolved
03 сентября с 19:20 до 21:10 (мск) наблюдалась недоступность сервисов email/sms рассылок для 85% клиентов.

Недоступность была связана с нарушением обратной совместимости при обновлении версии приложения: старая версия приложения не работала с обновленной версией схемы данных.

Недоступность повлияла на отправку рассылок:
- не отправлялись массовые рассылки
- синхронные операции с шагом отправки коммуникации возвращали ошибку
- не работал 2FA при авторизации в административной панели
- не работала отправка транзакционных коммуникаций из сценариев

C 21:10 03.09 система работает в штатном режиме.

Вернёмся с детальным разбором и следующими шагами с нашей стороны в течение 3 недель.
Posted Sep 04, 2024 - 12:52 UTC
This incident affected: Отправка Email and Отправка SMS.