Hallo. Heute möchten wir über das Erkennen von Anomalien in einer Microservice-Umgebung sprechen. Dieser Beitrag ist eine kurze Zusammenfassung unseres 40-minütigen Berichts, den wir auf der DevOps Live 2020- Onlinekonferenz erstellt haben. Um keinen Longread zu schreiben, haben wir uns entschlossen, uns auf einen Überblick über die Tools zur Erkennung von Anomalien bei der Verteilung von Metrikwerten zur Automatisierung der Überwachung von Mikrodiensten zu konzentrieren, die von jedem Team schnell verwendet werden können ...
Das Thema der Erkennung von Anomalien ist jetzt sehr relevant, da mit dem Übergang zu Microservices für SRE und DevOps die Priorität von Aufgaben im Zusammenhang mit der Umwandlung von Warnungen in ein aussagekräftiges Signal, der Reduzierung von MTTD und der Vereinfachung der Konfiguration von Warnungen bei der Überwachung verteilter Umgebungen erheblich zugenommen hat.

, , , .
"" .
, , .
?
?
, :
- latency ;
- ;
- .
"" , - , .
, :
- ;
- , ;
- «» , .
, , , ?
:
- c ;
- APM ;
- as a Service.
.
Prometheus , time series .
recording rules, , .
, , , ( " ").
, , z- (z-score) — , , .
http_requests_total, :
# - record: job:http_requests:rate5m expr: sum by (app) (rate(http_requests_total[5m]))
:
# average - - record: job:http_requests:rate5m:avg_over_time_1w expr: avg_over_time(job:http_requests:rate5m[1w]) # stddev - - record: job:http_requests:rate5m:stddev_over_time_1w expr: stddev_over_time(job:http_requests:rate5m[1w]) # z- (job:http_requests:rate5m - job:http_requests:rate5m:avg_over_time_1w ) / job:http_requests:rate5m:stddev_over_time_1w

( , latency) — , , .
— .
, .
.
, — z-.

Prometheus — PAD
Prometheus Anomaly Detector (PAD), Red Hat, , .
PAD Prometeheus , PAD recording rules, , , Prophet, .

PAD Grafana .

, proof of concept.
APM
(Application Performance Monitoring) AIOps — , , .
, .
New Relic
New Relic baseline ( ) — , EUM, .
— baseline, ( , , ).
, , , , baseline.
, .

2020 — New Relic Applied Intelligence (AI).
New Relic AI KPI .
/ .

AppDynamics
AppDynamics APM baseline KPI- .
baseline , , (, ) , baseline.

, , health rule .
, baseline health rule.

Dynatrace
Dynatrace " " , .

:
- KPI
.


Instana
Instana " " 230 "" , KPI .
latecy, error rate, traffic ( ).

E-Divisive with Medians (EDM).

, , baseline.
"" "" , .
baseline — .
EUM.

as a Service
APM , Prometheus , , SaaS .
Azure Metric Advisor
Microsoft — Azure Metric Advisor .
, , e-commerce.
(SQL Server, ElasticSearch, InfluxDB, MongoDB, MySQL, PostgreSQL ), Prometheus .

Anodot
— Prometheues -.
-, SRE .
e-commerce, gaming .

AnomalyIO
, , , , InfluxDB.
, InfluxDB, , .

- .
- – , .
- Prometheus — .
- APM AIOps, .
.