Недоступность административной панели Mindbox для 90% клиентов в течение 15 минут
Incident Report for Mindbox
Postmortem

6 декабря с 12:02 до 12:17 (мск) у 90% клиентов наблюдалась недоступность административной панели.

Корневая причина недоступности — проблемный релиз одного из компонентов административной панели

Влияние на клиента

В период инцидента у 90% клиентов не загружались страницы административной панели.

Как выявляли и устраняли инцидент

  • 12:02 — Получили жалобу от одного из клиентов про недоступность административной панели
  • 12:10 — Начали диагностику причин недоступности
  • 12:14 — Запустили откат сервиса, создавшего проблему
  • 12:17 — Инцидент устранен, административная панель доступна всем клиентам

Отчёт

При починке предыдущего инцидента не предусмотрели все ситуации, которые могут приводить к дублированию сервисов административной панели. Поэтому при релизе одного из компонентов административной панели данная проблема снова повторилась. В данном случае проблема была вызвана обновлением библиотеки, управляющей сервисами на странице. Часть сервисов работала со старой версией библиотеки, другая часть — с новой. В некоторых сочетаниях версий сервисов разные версии библиотеки приводили к дублированию сервисов.

Подобные ошибки возникают в определённом сочетании версий разных сервисов административной панели. Большое количество возможных сочетаний таких сервисов делает выявление конфликтов на тестах невозможным. Для исключения проблем такого рода мы изменим архитектуру сервисов административной панели.

Что улучшим

  • Откатываем обновлённую библиотеку по управлению сервисами до предыдущей версии. Делаем обновление всех сервисов синхронно, чтобы не допустить нескольких версий на одной странице — 1-й квартал 2025 года
  • Добавим мониторинг открытия критичных страниц, чтобы быстрее реагировать на аналогичные проблемы — 1-й квартал 2025 года
  • Минимизируем влияние компонентов административной панели друг на друга, чтобы даже при наличии проблем их влияние было локальным и не приводило к полностью нерабочей административной панели —  3-й квартал 2025 года
Posted Dec 23, 2024 - 12:54 UTC

Resolved
С 12:02 до 12:17 (мск) наблюдалась недоступность административной панели для 90% клиентов.

В настоящий момент сервис работает штатно, вернёмся с детальным разбором и следующими шагами в течение двух недель
Posted Dec 06, 2024 - 09:35 UTC
Investigating
Инженеры получили сообщение об нарушениях и подключились к решению. Мы вернёмся с информацией в течение 30 минут.
Posted Dec 06, 2024 - 09:18 UTC
This incident affected: Административная панель.