⚰️ 🙌🏾 🕸️ Reinforcement Learning und heuristische Analyse von Rechenzentrums-Switches: Voraussetzungen und Vorteile 🥡 🌯 📭

Vor der AI Journey-Konferenz, die Huawei als Titelpartner unterstützt und auf der mehrere unserer Redner sprechen werden, haben wir beschlossen, vorläufige Informationen über unsere Entwicklungen und insbesondere über den Einsatz künstlicher Intelligenz in intelligenten Rechenzentrumsnetzwerken auszutauschen. Erklären Sie gleichzeitig, warum etablierte Technologien nicht ausreichen, um moderne Rechenzentrumsnetzwerke aufzubauen, und wir brauchen „freundliche Hilfe“ von AI.

Was passiert im Bereich der bedingten verlustfreien Netzwerke?

Im Laufe der Jahre, als sich die Datenübertragungsmedien rasant entwickelten, konnten die Ingenieure mit vielen Phänomenen konfrontiert werden, die die erfolgreiche Implementierung von Speichernetzwerken und Hochleistungs-Computing-Clustern im Ethernet behinderten: Verluste, nicht garantierte Informationsbereitstellung, Deadlocks, Mikroburst und andere unangenehme Dinge.

Infolgedessen wurde es als richtig angesehen, ein dediziertes Referenznetzwerk für ein bestimmtes Szenario zu erstellen:

IB für Cluster von High Load Computing;
FC für klassisches Speichernetzwerk;
Ethernet für Serviceaufgaben.

Versuche, Vielseitigkeit zu erreichen, sahen ungefähr so aus wie in der Abbildung.

Bei einigen Aufgaben konnten die Vektoren zusammenfallen (ähnlich wie bei einem Schwan und einem Flusskrebs), und es wurde eine vielseitige Situation erreicht, wenn auch mit geringerer Effizienz als bei der Auswahl eines hochspezialisierten Szenarios.

Heute sieht Huawei die Zukunft in konvergierten Multitasking-Fabriken und bietet seinen Kunden eine AI Fabric- Lösung , die einerseits für Szenarien zur Verbesserung der Netzwerkleistung ohne Verluste (bis zu 200 Gbit / s pro Server-Port im Jahr 2020) und andererseits zur Steigerung der Leistung der entwickelt wurde Anwendungen (Migration zu RoCEv2).

Übrigens hatten wir einen separaten ausführlichen Beitrag über die technische Komponente von AI Fabric .

Was muss optimiert werden?

Bevor wir über Algorithmen sprechen, ist es sinnvoll zu klären, was genau sie verbessern sollen.

Statisches ECN führt dazu, dass mit zunehmender Anzahl von Sendeservern mit einem einzelnen Empfänger ein suboptimales Verkehrsmuster auftritt (gelinde gesagt handelt es sich um das sogenannte Many-to-One-Incast-Modell).

Bei herkömmlichem Ethernet müssen wir die Wahrscheinlichkeit eines Verlusts im Netzwerk und die schlechte Leistung des Netzwerks selbst manuell ausgleichen.

Wir werden die gleichen Voraussetzungen auch bei Verwendung des PFC / ECN- Bundles bei Implementierung ohne ständige Optimierung sehen (siehe Abbildung unten).

Um die beschriebenen Probleme zu lösen, verwenden wir den AI ECN-Algorithmus, dessen Kern darin besteht, die ECN-Schwellenwerte rechtzeitig zu ändern. Wie es aussieht, zeigt das folgende Diagramm.

Zuvor hatten wir bei Verwendung des Broadcom-Chipsatz + Ascend 310 AI-Prozessorpakets nur eine begrenzte Anzahl von Optionen zum Einstellen dieser Parameter.

Wir können diese Option bedingt als Software AI ECN bezeichnen, da die Logik auf einem separaten Chip ausgeführt wird und bereits in einen kommerziellen Chipsatz „gegossen“ wird.

Die mit dem Huawei P5-Chipsatz ausgestatteten Modelle verfügen über viel umfassendere "AI-Funktionen" (insbesondere in der neuesten Version), da sie einen erheblichen Teil der dafür erforderlichen Funktionen implementieren.

Wie wir Algorithmen verwenden

Mit dem Ascend 310 (oder dem integrierten Modul der P-Card) beginnen wir, den Datenverkehr zu analysieren und mit einem Benchmark bekannter Anwendungen zu vergleichen.

Bei bekannten Anwendungen werden die Verkehrsmetriken im laufenden Betrieb optimiert, bei unbekannten Anwendungen erfolgt der Übergang zum nächsten Schritt.

Wichtige Punkte:

Es wird DDQN-Verstärkungslernen, Exploration, Akkumulation vieler Basiskonfigurationen und Exploration der besten ECN-Compliance-Strategie durchgeführt.
Der CNN-Klassifizierer identifiziert Szenarien und bestimmt, ob der empfohlene DDQN-Schwellenwert zuverlässig ist.
Wenn der empfohlene DDQN-Schwellenwert unzuverlässig ist, wird er mit einer heuristischen Methode korrigiert, um sicherzustellen, dass die Lösung verallgemeinert ist.

Mit diesem Ansatz können Sie die Mechanismen für die Arbeit mit unbekannten Anwendungen anpassen. Wenn Sie dies wirklich möchten, können Sie mithilfe der Northbound-API ein Modell für Ihre Anwendung für das Switch-Management-System festlegen.

Wichtige Punkte:

DDQN sammelt eine große Anzahl von Baseline-Konfigurationsspeicherbeispielen und untersucht den Netzwerkstatus und die Basiskonfigurations-Abstimmungslogik eingehend, um Richtlinien zu lernen.
Der CNN Neural Network Classifier identifiziert Szenarien, um Risiken zu vermeiden, die auftreten können, wenn in unbekannten Szenarien unzuverlässige ECN-Konfigurationen empfohlen werden.

Was bekommen wir?

Nach einem solchen Zyklus der Anpassung und Änderung zusätzlicher Netzwerkschwellen und -einstellungen können mehrere Arten von Problemen gleichzeitig behoben werden.

Leistungsprobleme: geringe Bandbreite, lange Latenz, Paketverlust, Jitter.
PFC-Probleme: PFC-Deadlock, HOL, Stürme usw. Die PFC-Technologie verursacht viele Probleme auf Systemebene.
Herausforderungen für RDMA-Anwendungen: AI / High Performance Computing, verteilter Speicher und Kombinationen. RDMA-Anwendungen reagieren empfindlich auf die Netzwerkleistung.

Zusammenfassung

Letztendlich helfen uns zusätzliche Algorithmen für maschinelles Lernen, die klassischen Probleme der "nicht reagierenden" Ethernet-Netzwerkumgebung zu lösen. Damit sind wir einem Ökosystem transparenter und praktischer End-to-End-Netzwerkdienste einen Schritt näher gekommen - im Gegensatz zu einer Reihe unterschiedlicher Technologien und Produkte.

***.

Huawei-Lösungen erscheinen weiterhin in unserer Online-Bibliothek . Einschließlich der in diesem Beitrag behandelten Themen (z. B. vor dem Erstellen von AI-Lösungen in voller Größe für verschiedene Szenarien "intelligenter" Rechenzentren). Eine Liste unserer Webinare für die kommenden Wochen finden Sie hier .

Reinforcement Learning und heuristische Analyse von Rechenzentrums-Switches: Voraussetzungen und Vorteile