Der Grund für den Fehler war, dass CenturyLink als Level3-Anbieter die BGP- Regel falsch formuliert hatFlowspec im Sicherheitsprotokoll. BGP Flowspec wird zum Umleiten des Datenverkehrs verwendet. Dieser Fehler führte daher zu schwerwiegenden Problemen beim Routing im Netzwerk des Anbieters, die sich auf die Stabilität des globalen Internets auswirkten. Natürlich waren Benutzer in den USA am stärksten betroffen, aber die Probleme waren weltweit zu spüren.
Es ist wichtig anzumerken, dass CenturyLink nach AT & T und Verizon das drittgrößte Telekommunikationsunternehmen Amerikas ist.
BGP Flowspec von IETF ist RFC 5575 und wird als Multiprotokoll -Erweiterung von BGP MP-BGP beschrieben, die Network Layer Reachability Information (NLRI) enthält . BGP FlowSpec ist eine alternative Methode zum Dumping des angreifenden DDoS-Verkehrs von einer Route, die als subtilerer Weg zur Umgehung eines Angriffs angesehen wird als RTBH (Remote Triggered Black Hole Filtering) , wenn der gesamte Verkehr von der Angriffsadresse blockiert ist oder der Verkehr zur Zieladresse. Im Allgemeinen ist RTBH eine „Doomsday-Waffe“ und ein letzter Ausweg, um einen Angriff zu stoppen, da der Angreifer durch seine Verwendung häufig das erreichen kann, was er will, dh eine der Adressen isoliert.
BGP FlowSpec ist subtiler und im Wesentlichen ein Firewall-Filter, der in BGP eingefügt wird, um bestimmte Ports und Protokolle zu filtern und zu bestimmen, welcher Datenverkehr welche Route passieren soll. Somit geht "weißer" Verkehr zur Zieladresse und wird als DDoS definiert - wird von der Route gelöscht. Der Verkehr wird anhand von mindestens 12 NLRI-Parametern analysiert:
- Zielpräfix. Gibt das Zielpräfix für die Übereinstimmung an.
- Quellpräfix. Gibt das ursprüngliche Präfix an.
- IP-Protokoll. Enthält eine Reihe von {Operator, Wert} -Paaren, die zum Zuordnen des IP-Wertbytes in IP-Paketen verwendet werden.
- Hafen. Legt fest, ob Pakete von TCP, UDP oder beiden verarbeitet werden.
- . , FlowSpec.
- . , FlowSpec.
- ICMP.
- ICMP.
- TCP.
- . IP- ( 2, IP-).
- DSCP. Class Of Service flag.
- Fragment Encoding
Es gibt keine vollständigen Absturzberichte von CenturyLink selbst, sie erwähnen nur ihr Rechenzentrum in der Nähe von Ontario. Der Routing-Fehler war jedoch schwerwiegend genug, um nicht nur von normalen Benutzern, sondern auch von CloudFlare-Ingenieuren bemerkt zu werden, die die Dienste von CenturyLink auch als großen Anbieter nutzen.
Laut einem CloudFlare-Bericht begann alles mit einem Anstieg von 522 Fehlern um 10:03 Uhr GMT am 30. August.
Beispielsweise konnte das automatische Fehlerumleitungssystem die Anzahl der Fehler reduzieren und auf 25% des Spitzenwerts reduzieren. Die Probleme mit der Netzwerkkonnektivität und der Ressourcenverfügbarkeit waren jedoch weiterhin bestehen und globaler Natur. All dies wurde an einem Fenster zwischen 10:03 Uhr zu Beginn des Absturzes und bis 10:11 Uhr UTC durchgeführt. Während dieser acht Minuten haben Automatisierung und Ingenieure ihre Infrastruktur in 48 (!) Nordamerikanischen Städten von CenturyLink getrennt und den Datenverkehr auf Sicherungskanäle anderer Anbieter umgeleitet.
Dies wurde natürlich nicht nur bei CloudFlare durchgeführt. Dies löste das Problem jedoch nicht vollständig. Um zu verdeutlichen, welchen Einfluss der problematische Anbieter auf den Telekommunikationsmarkt in den USA und Kanada hat, haben die Ingenieure des Unternehmens eine offizielle Karte der Verfügbarkeit von CenturyLink-Diensten bereitgestellt:
In den USA wird der Anbieter von 49 Millionen Menschen genutzt. Wenn wir also über den CloudFlare-Bericht und sogar über ganze Rechenzentren sprechen, ist CenturyLink für einige Kunden der einzige verfügbare Anbieter.
Aufgrund des fast vollständigen Rückgangs von CenturyLink verzeichneten die CloudFlare-Spezialisten einen Rückgang des weltweiten Internetverkehrs um 3,5%. So sah es in einer Grafik für die sechs Hauptanbieter aus, mit denen das Unternehmen zusammenarbeitet. CenturyLink ist rot drauf.
Die Tatsache, dass der Fehler global war und nicht nur "ein Problem im Rechenzentrum außerhalb von Ontario", wie der Anbieter selbst sagte, wird durch die Größe der Aktualisierungen der Flowspec-Regeln belegt. Normalerweise beträgt die Größe der BGP Flowspec-Konfigurationsaktualisierungen etwa 2 Megabyte, aber CloudFlare-Experten haben BGP-Konfigurationsaktualisierungen mit bis zu 26 MB (!) Aufgezeichnet.
Diese Updates, die alle 15 Minuten verteilt werden, geben Informationen über Änderungen des Routenzustands an die Hosts weiter. Auf diese Weise können Sie flexibel auf einige lokale Probleme reagieren. Aktualisierungen, die 10 bis 15 Mal größer sind als üblich, weisen darauf hin, dass fast das gesamte Netzwerk des Anbieters ausgefallen ist oder dass äußerst schwerwiegende Verbindungsprobleme vorliegen.
CloudFlare ist der Ansicht, dass die Ursache des Fehlers eine falsche globale BGP-Flowspec-Regel war, die von der überwiegenden Mehrheit der Router empfangen wurde und bei Versuchen, die Verbindung wiederherzustellen, einen umgekehrten Neustart durchführte. Dies passt in das Bild eines Absturzes, der über 4 Stunden dauerte. In diesem Fall konnten Ingenieure aufgrund der Speicher- und CPU-Überlastung der Router den Remotezugriff auf eine Reihe von Knoten und Steuerschnittstellen verlieren.
Diese Geschichte ist übrigens alles andere als einzigartig. Vor etwas mehr als einem Jahr "legte" sich das Internet auf der ganzen Welt aufgrund der Schuld von CloudFlare selbst und des Ausfalls ihres DNS "hin" , und dasselbe Unternehmen erwähnte ehrlich gesagt ähnliche Probleme mit Flowspec vor sieben Jahren , wonach sie die Nutzung aufgaben.