"Das Ziel von SRE ist ein zuverlässiges System." Übersicht über grundlegende SRE-Metriken

Site Reliability Engineering (SRE) ist eine Form der DevOps-Implementierung. Der SRE-Ansatz stammt von Google und wurde bei Lebensmittel-IT-Unternehmen beliebt, nachdem das gleichnamige Buch im Jahr 2016 veröffentlicht wurde.



In diesem Artikel beschreiben wir, wie sich der SRE-Ansatz auf DevOps bezieht, welche Aufgaben ein SRE-Ingenieur löst und für welche Metriken er sich kümmert.





Von DevOps zu SRE



In vielen IT-Unternehmen sind unterschiedliche Teams mit unterschiedlichen Zielen an Entwicklung und Betrieb beteiligt. Das Ziel des Entwicklungsteams ist die Einführung neuer Funktionen. Das Ziel des Betriebsteams ist es, alte und neue Funktionen in der Produktion funktionsfähig zu halten. Entwickler bemühen sich, so viel Code wie möglich bereitzustellen, Systemadministratoren bemühen sich, das System zuverlässig zu halten.



Die Ziele der Teams widersprechen sich. Um diese Widersprüche aufzulösen, wurde die DevOps-Methodik erstellt. Es geht darum, Silos zu reduzieren, Fehler zu akzeptieren, sich auf Automatisierung und andere Prinzipien zu verlassen.



, , DevOps . « DevOps?». , , .



2016 , Google «Site Reliability Engineering». DevOps. SRE-, IT-.



DevOps — . SRE — . DevOps — , SRE — , DevOps.



SRE-



SRE , DevOps .



, , SRE . , - . , SRE .



SRE — . , , — .



, SRE , , . - : « — ». , . SRE . , , . , .



. , , . , .



SRE . , SRE : «OK, , , ». , , , .



  • — , .
  • — , . , .


SRE , -, . SRE ( , ).



SRE , - .



, SRE . , -. — .



: SLA, SLI, SLO



. — , .



SRE , . , (, . .) , .



- — Service-Level Objective (SLO). , .



SRE , . « , . , , SLO», Google. — , , .



, — Service Level Indicator (SLI). , , , — .



SLO SLI — , . Service Level Agreement (SLA). .



SLA: 99,95% ; 99 ; 85% 1,5 .



100%



SRE , . , .



, «»:



  • — 99%,
  • — 99,9%,
  • — 99,99%,
  • — 99,999%.


— 5 , — 3,5 .





, 100%, . - ROI — .



, . ! 47 . . .



. 99,99% 99,999%, 99%. , 10 8 . , .



— MTBF MTTR



, SRE : MTBF MTTR.



MTBF (Mean Time Between Failures) — .



MTBF . SRE «!». , SRE - , , .



MTTR (Mean Time To Recovery)— ( ).



MTTR SLO. SRE . , SLO 99,99% , , 13 3 . 13 , «» , SLO .



13 — , . 7-8 , — . MTTR , .



SRE , MTTR, SLO , , .



, . , , :



, SRE. , SRE , , , , . , , .





, 100% , , , — , - «» .



SLO. SLO (Error budget).





SRE.



43 , 40 , : SLO, . , -.



, . SRE Error budget :



  • , ,
  • ,
  • ,
  • .


, Error budget . .





«» : SRE, . , , . SRE .



— SRE . Netflix Chaos Engineering.



Netflix Chaos Engineering: Chaos Monkey CI/CD ; Chaos Gorilla AWS. , SRE , — , . , .



Chaos Engineering :



  1. , , ( ).
  2. , . — : , .
  3. , , , CI/CD- .


Post mortem



SRE blameless postmortem, , .



, 13 , 15. ? SRE, ; -, ; , , SLA . , , - . .





, , SLO. SRE — . , , .



:



  • — (« !»);
  • — (« - , , »);
  • — , («, , , »).


SRE , , , , . .



(Observability). , , , .



: , , . : , - Kubernetes, , .



Observability MTTR. Observability , , , MTTR.



SRE



SRE , , , . SRE , . , . , .



SRE , , . . — (, ). , , , .



SRE : SLO, SLI, SLA . , SLA SLO. . , , .



, , — , . Error budget, , .





SRE. , .



SRE Google:

Site Reliability Engineering

The Site Reliability Workbook

Building Secure & Reliable Systems



:

SRE

SLA, SLI, SLO

Chaos Engineering Chaos Community Netflix

200 SRE



SRE ():

Keys to SRE

SRE

SRE

SRE





, — . , - SRE . 11–13 2020.



SLO, SLI, SLA, , , .



SLO: , , , DoS-. , Error budget, , .






All Articles