Избежать инцидентов нельзя, поэтому важно научиться извлекать из них уроки. Этому помогает специальный процесс под названием Postmortem. В Яндексе этот процесс называется Live Site Review (LSR).
LSR — регулярная встреча для разработчиков, SRE и руководителей. На встрече выясняют причину инцидента и придумывают, как избежать рецидива в будущем. Часто выстраивают иерархическую структуру зависимостей, чтобы точнее подсчитать потери и найти компонент-источник “идеального шторма”.
Цель этих встреч — уменьшить количество инцидентов и сократить время на устранение таких проблем. Ни у кого нет цели устроить публичную расправу над “героями” LSR!
Результат каждого LSR — набор действий по исправлению багов, улучшению процесса, документации и т.п. Такие шаги называются action items (AI). Разработчики сервиса должны исправить недочеты, перечисленные в AI. За этим необходим строгий надзор.
LSR работают. Проверено Яндексом и нашей командой в частности. Я рекомендую внедрять практику LSR даже командам из 5 человек. Это правда повышает надежность сервисов.