Одна из задач нашей команды — это обеспечивать работоспособность сервисов в режиме 24/7. Но иногда что-то идет не по плану и сервис ломается так, что от этого страдают наши пользователи. Мы называем такие ситуации инцидентами или на более жаргонном языке — факапами.
Вообще #инциденты — это неотъемлемая часть нашей жизни. Если сервис живет и развивается, то рано или поздно случится “идеальный шторм” и сервис “упадет”. У нас есть даже какая-то странная “традиция”, что в конце отчетного периода ревью мы ловим парочку инцидентов. Мы с SRE шутим, что это нужно для того, чтобы было что написать при подведении итогов 🙂
Историй про факапы и факапчики (младший брат факапа) у нас накопилось достаточно. Это много интересных и, я надеюсь, поучительных историй.