27 марта с 17:19 до 17:32 (мск) для 88% клиентов наблюдалась недоступность административной панели.
Корневая причина недоступности — неправильная регистрация нового Feature toggle.
В период инцидента у 88% клиентов была недоступна административная панель.
17:19 — система мониторинга зафиксировала недоступность административной панели, инженеры приступили к диагностике
17:32 — проблему полностью устранили у всех пострадавших клиентов
Для изменения доступного функционала на проектах в процессе разработки и при релизе мы используем переключатели (Feature toggles). Обновление списка должно происходить с помощью выкладки кода, во время которой, для обеспечения непрерывной работы, одновременно работают и старые, и новые версии проектов.
В ходе обновления Feature toggle был добавлен некорректно. Ошибочное заведение вызвало преждевременное удаление переключателя и повлекло недоступность административной панели.
Добавим проверки в инструменты разработчиков, больше нельзя будет технически зарегистрировать feature toggle неправильно – апрель 2024