Частичная недоступность сервиса процессинга для 10% клиентов в течение 17 минут

Incident Report for Mindbox

Postmortem

4 апреля с 20:12 до 20:29 (мск) наблюдалась недоступность сервиса api.mindbox.ru и административной панели для 10% клиентов.

Корневая причина недоступности — отказ части клиентских баз данных.

Влияние на клиента

Во время инцидента на пострадавших проектах завершались с ошибкой синхронные вызовы, скапливалась очередь выполнения асинхронных запросов, не работала административная панель.

Как выявляли и устраняли инцидент

20:15 — команда дежурных получила уведомление о нарушении SLA расчёта скидок, приступила к диагностике

20:21 — автоматически восстановилась доступность базы данных у большей части клиентов

20:29 — восстановлена доступность баз данных у всех клиентов

Отчёт

Для хранения баз данных клиентов мы используем кластеры SQL Server, организованные по технологии WSFC. Это оптимальный вариант для повышения надёжности системы через обеспечение автоматического переключения и синхронизации между серверами и ресурсами в случае неполадок. Для каждого клиента предусмотрена собственная группа доступности, состоящая из основной (primary) и резервной (secondary) реплики.

По результатам отказа WSFC 13 ноября мы посчитали, что именно изменения в кластерах приводят к автоматическим переключениям работы на резервные реплики, однако в этот раз никаких изменений в кластере перед отказом не было.

Мы связываем инцидент с перенаселенностью нашего самого большого WSFC кластера. Перед отказом пропадали мониторинговые сигналы об исправности кластера - хартбиты. Это привело к каскадному переключению групп доступности клиентских баз данных. На кластерах меньшего размера такого поведения за всё время наблюдений не было.

После отказа мы проконсультировались с коллегами, которые держат на продакшене сотни WSFC кластеров и получили рекомендации по целевой конфигурации.

Что улучшим

Перекомпонуем SQL Server в WSFC кластеры меньшего фиксированного размера — 2й квартал 2024.

Posted May 03, 2024 - 15:09 UTC

Resolved

С 20:12 до 20:29 (мск) наблюдалась частичная недоступность сервиса api.mindbox.ru и административной панели для 10% клиентов.

В настоящий момент сервис работает в штатном режиме. Мы вернёмся с детальным разбором и следующими шагами в течение трёх недель

Posted Apr 04, 2024 - 17:33 UTC

Investigating

Инженеры получили сообщение об ошибках и начали диагностику. Мы вернёмся с информацией в течение 30 минут.

Posted Apr 04, 2024 - 17:24 UTC