Отказ был вызван сбоем в работе сетевого балансировщика в одном из датацентров нашего облачного провайдера (Yandex.Cloud).
Мы опишем таймлайн и улучшения со стороны Mindbox. Детали, таймлайн сбоя и следующие шаги со стороны Yandex.Cloud описаны в постмортеме провайдера.
Таймлайн инцидента со стороны Mindbox:
Для того чтобы ситуация больше не воспроизводилась мы перерабатываем архитектуру системы входящего трафика: после этого мы сможем самостоятельно и оперативно убирать клиентские запросы из проблемных датацентров Yandex.Cloud. Обсуждаем изменения с коллегами из Yandex.Cloud, ожидаем обновленный статус в течение месяца.