Перейти к основному содержимому

Метрики надежности

·149 слов·1 минута
Оригинал опубликован в Telegram

Помимо вопроса про качество сервиса, также важна его стабильность. Какой толк от качественного и хорошо протестированного сервиса, если он то работает, то нет?

В индустрии принято мерить доступность сервиса с помощью метрики availability. Метрика availability позволяет узнать, какой процент времени сервис работает.

Хочу обратить ваше внимание, насколько дороже получать каждую новую “девятку” в этой метрике. Ниже я перечисляю, сколько времени сервис может “позволить” себе не работать при заявленном уровне доступности:

90% — 36.5 дней 99% — 3.65 дня 99.9% — 8.76 часов 99.99% — 52.6 минуты 99.999% — 5.26 минут

Мы стремимся к 99.99%. Хороший это показатель или нет? Да, вполне. Даже Google не замахивается на 99.999% :)

DORA также советуют смотреть еще на две метрики:

  • процент неудачных релизов, требующих хотфиксов или ролбеков
  • время, затрачиваемое на восстановление сервиса в случае инцидентов

P.S. Кстати, настоятельно рекомендую прочитать SRE Book всем, кто заботится о надежности своего сервиса.