22 сентября с 10:30 до 13:40 наблюдался частичная деградация в работе функционала сценариев.
Причина — деградация работы брокера сообщений (kafka).
Во время отказа нетранзакционные сценарии обрабатывались с задержкой до трех часов. Работа транзакционных сценариев проходила в штатном режиме.
10:30 начало инцидента, команда отреагировала в этот же момент — за два часа до этого была другая техническая проблема, команда отслеживала восстановление
11:35 диагностировали проблему — таймауты на отправку сообщений в kafka
12:10 поочередно перезапускаем брокеров в кластере kafka
12:36 отправка сообщений в kafka восстановлена
13:40 скопившаяся очередь обработана, работоспособность сценариев полностью восстановлена
К сожалению, достоверно причину отказа кластера выявить не удалось. Во время инцидента приняли решение по плавному перезапуску кластера. Через 25 минут производительность обработки сообщений в стала вновь штатной и начали обрабатываться актуальные события. Через 60 минут все сценарии стали работать на все клиентах.
Основная гипотеза — слишком объемный с точки зрения хранения данных кластер kafka.