25 января с 08:51 до 12:45 (мск) у 91% клиентов наблюдались ошибки в работе административной панели.
Корневая причина недоступности — нарушение алгоритма работы при обновлении справочника часовых поясов
В период инцидента у 91% клиентов не работали:
Для повышения надёжности работы платформы мы создали архитектуру, которая гарантирует, что время всегда записывается в базу данных (БД) в формате координированного всемирного времени (UTC). В дальнейшем это время трансформируется в локальное для каждого проекта согласно его часовому поясу на основе данных из универсализированного справочника IANA.
В случае обнаружения несоответствия между нашим и стандартным IANA справочниками часовых поясов мы инициируем синхронизацию. Для обеспечения бесперебойной работы системы разработан двухэтапный алгоритм: сначала происходит обновление программного кода, затем обновляется БД.
Нарушение этой последовательности привело к ошибке в обработке временных зон. Наиболее эффективным решением для восстановления функциональности стало завершение обновления кода на всех клиентских проектах.