Перейти к основному содержимому

Отношение к инцидентам

·154 слов·1 минута
Оригинал опубликован в Telegram

Я уже опубликовал две байки о наших инцидентах. И таких историй будет еще много. Инциденты — часть нашей повседневной работы.

Складывается впечатление, что сервисы моей команды работают с ошибками из-за некачественного кода, поверхностного тестирования или ненадежной инфраструктуры. Но это не так.

“Если бы строители строили здания так же, как программисты пишут программы, первый залетевший дятел разрушил бы цивилизацию” (с)

Я придерживаюсь следующих взглядов:

  • Любое приложение содержит ошибки.
  • Чем объемнее приложение, тем больше в нем ошибок.
  • Частые релизы приложения приводят к новым ошибкам.
  • Вероятность инцидентов повышается с ростом нагрузки.

Внештатные ситуации постоянно возникают. Если разработчик утверждает, что в его сервисе нет факапов, то или это выдуманный сервис, или в этом сервисе нет пользователей :)

Признание инцидентов — уже многое. Если это сделано, то можно сконцентрироваться на уменьшении ущерба. Это значит уметь делать раннюю диагностику и уменьшать время починки инцидента.

Мы много в это вкладываемся. Поэтому большинство наших инцидентов не видны пользователям.