Identifizieren von Anomalien in der Microservice-Architektur - Ein Überblick über DevOps- und SRE-Tools

Hallo. Heute möchten wir über das Erkennen von Anomalien in einer Microservice-Umgebung sprechen. Dieser Beitrag ist eine kurze Zusammenfassung unseres 40-minütigen Berichts, den wir auf der DevOps Live 2020- Onlinekonferenz erstellt haben. Um keinen Longread zu schreiben, haben wir uns entschlossen, uns auf einen Überblick über die Tools zur Erkennung von Anomalien bei der Verteilung von Metrikwerten zur Automatisierung der Überwachung von Mikrodiensten zu konzentrieren, die von jedem Team schnell verwendet werden können ...







Das Thema der Erkennung von Anomalien ist jetzt sehr relevant, da mit dem Übergang zu Microservices für SRE und DevOps die Priorität von Aufgaben im Zusammenhang mit der Umwandlung von Warnungen in ein aussagekräftiges Signal, der Reduzierung von MTTD und der Vereinfachung der Konfiguration von Warnungen bei der Überwachung verteilter Umgebungen erheblich zugenommen hat.













, , , .

"" .







, , .







?

?







, :







  • latency ;
  • ;
  • .


"" , - , .







, :







  • ;
  • , ;
  • «» , .


, , , ?







:







  • c ;
  • APM ;
  • as a Service.


.









, Python R.







Prometheus , time series .

recording rules, , .







, , , ( " ").







, , z- (z-score) — , , .







http_requests_total, :







#    
- record: job:http_requests:rate5m
  expr: sum by (app) (rate(http_requests_total[5m]))

      
      





:







# average -   
- record: job:http_requests:rate5m:avg_over_time_1w
expr: avg_over_time(job:http_requests:rate5m[1w])

# stddev -  
- record: job:http_requests:rate5m:stddev_over_time_1w
expr: stddev_over_time(job:http_requests:rate5m[1w])

# z-
(job:http_requests:rate5m - job:http_requests:rate5m:avg_over_time_1w
) /  job:http_requests:rate5m:stddev_over_time_1w
      
      





Einfache Anomalie







( , latency) — , , .







— .







, .







.







, — z-.







Saisonale Vorhersage







recording rules Prometheus .







Prometheus — PAD



Prometheus Anomaly Detector (PAD), Red Hat, , .







PAD Prometeheus , PAD recording rules, , , Prophet, .







PAD-Architektur







PAD Grafana .







PAD-Architektur







, proof of concept.







APM



(Application Performance Monitoring) AIOps — , , .







, .







New Relic



New Relic baseline ( ) — , EUM, .







— baseline, ( , , ).

, , , , baseline.







, .







Neues Relikt - Festlegen der Richtlinie für Warnungen bei Abweichungen von der Grundlinie







2020 — New Relic Applied Intelligence (AI).







New Relic AI KPI .







/ .







New Relic Applied Intelligence - Erkennen von Anomalien in Metriken in mehreren Anwendungen







AppDynamics



AppDynamics APM baseline KPI- .







baseline , , (, ) , baseline.







AppDynamics - Grundeinstellung







, , health rule .







, baseline health rule.







AppDynamics - Festlegen einer Richtlinie für Warnungen bei Abweichungen von der Basislinie







Dynatrace



Dynatrace " " , .







Dynatrace - Signal für Verkehrsabnahme







:







  • KPI


.







Dynatrace - Setup







Dynatrace - Setup







Instana



Instana " " 230 "" , KPI .







latecy, error rate, traffic ( ).







Instana - eine Liste von Regeln, die den EDM-Algorithmus verwenden, um Anomalien zu erkennen







E-Divisive with Medians (EDM).







Instana - Die Regel hat eine Anomalie in der Metrik festgestellt







, , baseline.

"" "" , .







baseline — .







EUM.







Instana - Warnungsrichtlinienkonstruktor basierend auf EUM-Basismetriken







as a Service



APM , Prometheus , , SaaS .







Azure Metric Advisor



Microsoft — Azure Metric Advisor .







, , e-commerce.

(SQL Server, ElasticSearch, InfluxDB, MongoDB, MySQL, PostgreSQL ), Prometheus .







Azure Metric Advisor-Oberfläche







Anodot



— Prometheues -.







-, SRE .







e-commerce, gaming .







Anodot







AnomalyIO



, , , , InfluxDB.







, InfluxDB, , .







Anodot









  • .
  • – , .
  • Prometheus — .
  • APM AIOps, .


.








All Articles