Частичная недоступность функционала сценариев
Incident Report for Mindbox
Postmortem

Саммари

22 сентября с 10:30 до 13:40 наблюдался частичная деградация в работе функционала сценариев.

Причина — деградация работы брокера сообщений (kafka). 

Влияние на клиента

Во время отказа нетранзакционные сценарии обрабатывались с задержкой до трех часов. Работа транзакционных сценариев проходила в штатном режиме.

Таймлайн: как выявляли и устраняли инцидент

10:30 начало инцидента, команда отреагировала в этот же момент — за два часа до этого была другая техническая проблема, команда отслеживала восстановление

11:35 диагностировали проблему — таймауты на отправку сообщений в kafka

12:10 поочередно перезапускаем брокеров в кластере kafka

12:36 отправка сообщений в kafka восстановлена

13:40 скопившаяся очередь обработана, работоспособность сценариев полностью восстановлена

Отчет

К сожалению, достоверно причину отказа кластера выявить не удалось. Во время инцидента приняли решение по плавному перезапуску кластера. Через 25 минут производительность обработки сообщений в стала вновь штатной и начали обрабатываться актуальные события. Через 60 минут все сценарии стали работать на все клиентах. 

Основная гипотеза — слишком объемный с точки зрения хранения данных кластер kafka.

Что улучшили

  • Кластер kafka “поделили” по зонам ответственности на два независимых и меньшего размера

Что улучшим

  • Внедрим регулярный процесс и модель прогнозирования ресурсов в ноябре 2022
Posted Oct 27, 2022 - 09:15 UTC

Resolved
C 13:40 сценарии работают в штатном режиме. События по сценариям, произошедшие с 10:00 до 13:40 были обработаны с задержкой до двух часов. Вернемся с разбором инцидента в течение двух недель.
Posted Sep 22, 2022 - 12:07 UTC
Investigating
С 10:00 наблюдаем частичную недоступность функционала сценариев. Часть сценариев не срабатывает по новым событиям, или срабатывает с большой задержкой.

Инцидент находится в работе у команды разработки, вернемся с обновлением и уточненной информацией по отказу в течение часа.
Posted Sep 22, 2022 - 08:40 UTC