Перейти к основному содержимому

Что такое LSR

·147 слов·1 минута
Оригинал опубликован в Telegram

Избежать инцидентов нельзя, поэтому важно научиться извлекать из них уроки. Этому помогает специальный процесс под названием Postmortem. В Яндексе этот процесс называется Live Site Review (LSR).

LSR — регулярная встреча для разработчиков, SRE и руководителей. На встрече выясняют причину инцидента и придумывают, как избежать рецидива в будущем. Часто выстраивают иерархическую структуру зависимостей, чтобы точнее подсчитать потери и найти компонент-источник “идеального шторма”.

Цель этих встреч — уменьшить количество инцидентов и сократить время на устранение таких проблем. Ни у кого нет цели устроить публичную расправу над “героями” LSR!

Результат каждого LSR — набор действий по исправлению багов, улучшению процесса, документации и т.п. Такие шаги называются action items (AI). Разработчики сервиса должны исправить недочеты, перечисленные в AI. За этим необходим строгий надзор.

LSR работают. Проверено Яндексом и нашей командой в частности. Я рекомендую внедрять практику LSR даже командам из 5 человек. Это правда повышает надежность сервисов.