Некорректная работа административной панели для 91% клиентов в течение 234 минут
Incident Report for Mindbox
Postmortem

25 января с 08:51 до 12:45 (мск) у 91% клиентов наблюдались ошибки в работе административной панели.

Корневая причина недоступности — нарушение алгоритма работы при обновлении справочника часовых поясов

Влияние на клиента

В период инцидента у 91% клиентов не работали: 

  • запуск массовых рассылок
  • страница дерева промоакций 
  • страница редактирования сценариев

Как выявляли и устраняли инцидент

  • 8:51 - обновилась база данных, сработал мониторинг, дежурная команда подключилась к диагностике проблемы
  • 11:20 - дежурная команда закончила тестирование гипотез, не приведших к быстрой починке. Принято решение дождаться окончания обновления кода
  • 12:45 - завершилось обновление кода на всех клиентах

Отчёт

Для повышения надёжности работы платформы мы создали архитектуру, которая гарантирует, что время всегда записывается в базу данных (БД) в формате координированного всемирного времени (UTC). В дальнейшем это время трансформируется в локальное для каждого проекта согласно его часовому поясу на основе данных из универсализированного справочника IANA. 

В случае обнаружения несоответствия между нашим и стандартным IANA справочниками часовых поясов мы инициируем синхронизацию. Для обеспечения бесперебойной работы системы разработан двухэтапный алгоритм: сначала происходит обновление программного кода, затем обновляется БД. 

Нарушение этой последовательности привело к ошибке в обработке временных зон. Наиболее эффективным решением для восстановления функциональности стало завершение обновления кода на всех клиентских проектах.

Что улучшили

  • Изменили механизм конвертации часовых поясов, теперь при обработке неизвестного часового пояса он использует пояс по умолчанию, а также фиксирует ошибку в команду разработки. Таким образом при миграции часовых поясов система будет доступна непрерывно, а разработка будет знать о несоответствиях.
Posted Feb 16, 2024 - 07:07 UTC

Resolved
С 8:51 до 12:45 (мск) наблюдались ошибки в работе административной панели для 91% клиентов.

На данный момент сервис работает в штатном режиме.

Вернемся с детальным разбором ситуации и следующими шагами через 2 недели
Posted Jan 25, 2024 - 10:01 UTC
Monitoring
В настоящий момент обновление выполнено для 90% клиентов. Проблема на этих проектах устранена.

Инженеры продолжают наблюдение за корректной выкладкой кода и починкой раздела административной панели. Вернёмся с обновлением в течение 30 минут
Posted Jan 25, 2024 - 09:43 UTC
Identified
С 8:51 (мск) наблюдаются ошибки в работе административной панели Mindbox для 85% клиентов. Не работает страница промоакций

В настоящий момент проблема локализована, выполняется обновление кода. Вернемся со статусом в течение часа.
Posted Jan 25, 2024 - 08:44 UTC
This incident affected: Административная панель.