Site Reliability Engineering (SRE) ist eine Form der DevOps-Implementierung. Der SRE-Ansatz stammt von Google und wurde bei Lebensmittel-IT-Unternehmen beliebt, nachdem das gleichnamige Buch im Jahr 2016 veröffentlicht wurde.
In diesem Artikel beschreiben wir, wie sich der SRE-Ansatz auf DevOps bezieht, welche Aufgaben ein SRE-Ingenieur löst und für welche Metriken er sich kümmert.

Von DevOps zu SRE
In vielen IT-Unternehmen sind unterschiedliche Teams mit unterschiedlichen Zielen an Entwicklung und Betrieb beteiligt. Das Ziel des Entwicklungsteams ist die Einführung neuer Funktionen. Das Ziel des Betriebsteams ist es, alte und neue Funktionen in der Produktion funktionsfähig zu halten. Entwickler bemühen sich, so viel Code wie möglich bereitzustellen, Systemadministratoren bemühen sich, das System zuverlässig zu halten.
Die Ziele der Teams widersprechen sich. Um diese Widersprüche aufzulösen, wurde die DevOps-Methodik erstellt. Es geht darum, Silos zu reduzieren, Fehler zu akzeptieren, sich auf Automatisierung und andere Prinzipien zu verlassen.
, , DevOps . « DevOps?». , , .
2016 , Google «Site Reliability Engineering». DevOps. SRE-, IT-.
DevOps — . SRE — . DevOps — , SRE — , DevOps.
SRE-
SRE , DevOps .
, , SRE . , - . , SRE .
SRE — . , , — .
, SRE , , . - : « — ». , . SRE . , , . , .
. , , . , .
SRE . , SRE : «OK, , , ». , , , .
- — , .
- — , . , .
SRE , -, . SRE ( , ).
SRE , - .
, SRE . , -. — .
: SLA, SLI, SLO
. — , .
SRE , . , (, . .) , .
- — Service-Level Objective (SLO). , .
SRE , . « , . , , SLO», Google. — , , .
, — Service Level Indicator (SLI). , , , — .
SLO SLI — , . Service Level Agreement (SLA). .
SLA: 99,95% ; 99 ; 85% 1,5 .
100%
SRE , . , .
, «»:
- — 99%,
- — 99,9%,
- — 99,99%,
- — 99,999%.
— 5 , — 3,5 .

, 100%, . - ROI — .
, . ! 47 . . .
. 99,99% 99,999%, 99%. , 10 8 . , .
— MTBF MTTR
, SRE : MTBF MTTR.
MTBF (Mean Time Between Failures) — .
MTBF . SRE «!». , SRE - , , .
MTTR (Mean Time To Recovery)— ( ).
MTTR SLO. SRE . , SLO 99,99% , , 13 3 . 13 , «» , SLO .
13 — , . 7-8 , — . MTTR , .
SRE , MTTR, SLO , , .
, . , , :

, SRE. , SRE , , , , . , , .
, 100% , , , — , - «» .
SLO. SLO (Error budget).

SRE.
43 , 40 , : SLO, . , -.
, . SRE Error budget :
- , ,
- ,
- ,
- .
, Error budget . .

«» : SRE, . , , . SRE .
— SRE . Netflix Chaos Engineering.
Netflix Chaos Engineering: Chaos Monkey CI/CD ; Chaos Gorilla AWS. , SRE , — , . , .
Chaos Engineering :
- , , ( ).
- , . — : , .
- , , , CI/CD- .
Post mortem
SRE blameless postmortem, , .
, 13 , 15. ? SRE, ; -, ; , , SLA . , , - . .
, , SLO. SRE — . , , .
:
- — (« !»);
- — (« - , , »);
- — , («, , , »).
SRE , , , , . .
(Observability). , , , .
: , , . : , - Kubernetes, , .
Observability MTTR. Observability , , , MTTR.
SRE
SRE , , , . SRE , . , . , .
SRE , , . . — (, ). , , , .
SRE : SLO, SLI, SLA . , SLA SLO. . , , .
, , — , . Error budget, , .
SRE. , .
SRE Google:
Site Reliability Engineering
The Site Reliability Workbook
Building Secure & Reliable Systems
:
SRE
SLA, SLI, SLO
Chaos Engineering Chaos Community Netflix
200 SRE
SRE ():
Keys to SRE
SRE
SRE
SRE
, — . , - SRE . 11–13 2020.
SLO, SLI, SLA, , , .
SLO: , , , DoS-. , Error budget, , .