KĂŒnstliche Intelligenz im Rechenzentrumsnetzwerk: Huawei Experience

In die Fußstapfen meines Vortrags auf der AI Journey-Konferenz am 4. Dezember möchte ich Ihnen zeigen, wie Sie mit der richtigen Anwendung von AI-Systemen im Netzwerkmanagement moderne Rechenzentren auf Basis von Huawei-Lösungen ohne EngpĂ€sse und ohne Paketverlust aufbauen können. Die Vorteile solcher Lösungen werden besonders deutlich, wenn All-Flash-Speicher im Rechenzentrum verwendet, neuronale Netze trainiert oder Hochleistungs-GPU-Computing durchgefĂŒhrt werden.











Transformation des Rechenzentrums



Rechenzentren Ă€ndern sich konzeptionell und dramatisch. Der Trend hat sich vor etwa zehn Jahren relativ verbreitet, aber beispielsweise im Bankensektor hat er viel frĂŒher begonnen. UnabhĂ€ngig vom gewĂ€hlten Weg sind die Ziele der Transformationen mehr oder weniger Ă€hnlich - die Vereinheitlichung und Konsolidierung von Ressourcen.



Dies ist der erste Schritt, gefolgt von einer weiteren Verbesserung der Effizienz von Rechenzentren durch Automatisierung, Orchestrierung und Übergang zum Hybrid-Cloud-Modus. Und die am weitesten erreichbare Grenze der Transformation ist die EinfĂŒhrung kĂŒnstlicher Intelligenzsysteme.







Huawei-Lösungen fĂŒr jede Transformationsphase



In jeder Phase bietet Huawei abhĂ€ngig von der "IT-Reife" des Kunden eigene Lösungen an, mit denen das beste Upgrade-Ergebnis ohne unnötige Kosten erzielt werden kann. Heute möchte ich ausfĂŒhrlicher auf das „i-TĂŒpfelchen“ eingehen - KI-Systeme in modernen Rechenzentren.







Um eine Analogie zum menschlichen Körper zu ziehen, fungieren Netzwerkschalter fĂŒr Rechenzentren als Kreislaufsystem und stellen die KonnektivitĂ€t zwischen verschiedenen Komponenten bereit: Rechenknoten, Datenspeichersysteme usw.



Noch vor wenigen Jahren war die SSD-Speichertechnologie weit verbreitet, und die CPU-Leistung wĂ€chst weiter. Damit sind Speicher- und Rechenknoten nicht mehr die Hauptursachen fĂŒr Latenz. Das Rechenzentrumsnetzwerk ist jedoch seit langem als eine Art "kleiner Bruder" in der Struktur von Rechenzentren geblieben.



Die Hersteller haben versucht, das Problem auf verschiedene Weise zu lösen. Jemand entschied sich fĂŒr lizenzierte InfiniBand (IB) -Technologien, um ein Netzwerk aufzubauen . Das Netzwerk erwies sich als spezialisiert und in der Lage, nur Aufgaben mit engem Profil zu lösen. Jemand zog es vor, Netzwerkfabriken mit Fibre Channel- Protokollen aufzubauen(FC). Beide AnsĂ€tze hatten ihre Grenzen: Entweder erwies sich die Netzwerkbandbreite als relativ gering, oder die Gesamtkosten der Lösung waren begrenzt, was durch die AbhĂ€ngigkeit von einem Anbieter weiter verschĂ€rft wurde.



Unser Unternehmen setzte offene Technologien ein. Die Lösungen von Huawei basieren auf der zweiten Version von RoCE , deren Funktionen durch die Verwendung zusÀtzlicher lizenzierter Algorithmen in unseren Switches erweitert wurden. Dadurch konnten wir die FÀhigkeiten der Netzwerke ernsthaft optimieren.







Warum sehen wir nicht die Zukunft hinter klassischen FC-Lösungen? Der Punkt ist, dass sie nach dem Prinzip der statischen Kreditvergabe arbeiten, bei dem die Netzwerkstruktur fĂŒr einen begrenzten Zeitraum entsprechend den Anforderungen Ihrer Anwendungen konfiguriert werden muss.



Vor kurzem hat FC einen Schritt in Richtung eigenstĂ€ndiger Speichernetzwerke gemacht, weist jedoch weiterhin LeistungsbeschrĂ€nkungen auf. Jetzt beginnt der Mainstream - die sechste Generation der Technologie, die einen Durchsatz von 32 Gbit / s und 64 Gbit / s ermöglicht, mit der Implementierung. Gleichzeitig können wir heute mithilfe von Ethernet mithilfe von PrioritĂ€tstabellen 100, 200 und sogar 400 Gbit / s auf den Server ĂŒbertragen.







Der Mehrwert des Rechenzentrumsnetzwerks ist von besonderer Bedeutung in einer Welt, in der Solid-State-Laufwerke mit Hochgeschwindigkeitsschnittstellen mehr Marktanteile gewinnen und klassische Spindelantriebe verdrĂ€ngen. Huawei setzt sich dafĂŒr ein, dass der SSD-Speicher sein volles Potenzial entfalten kann.







Rechenzentrumsnetzwerk der nÀchsten Generation



Ein kleines Beispiel dafĂŒr, wie wir es machen. Das Diagramm zeigt eines unserer Speichersysteme, das als das schnellste der Welt anerkannt ist. Hier sehen Sie unsere x86- oder ARM-basierten Server, die eine Leistung bieten, die die Erwartungen anspruchsvoller Kunden erfĂŒllt. In Rechenzentren, die auf diesen Lösungen basieren, erreichen wir eine End- to- End-Latenz von nicht mehr als 0,1 ms. Der Einsatz neuer Anwendungstechnologien hilft uns, ein solches Ergebnis zu erzielen.



Die im Speicher verwendeten klassischen Technologien waren insbesondere durch die relativ hohen Latenzen begrenzt, die durch den SAS-Bus verursacht wurden. Durch die Umstellung auf neue Protokolle wie NVMe wurde dieser Parameter erheblich verbessert, und gleichzeitig wurde das Netzwerk selbst zu einem einschrÀnkenden Leistungsfaktor.







Betrachten Sie im selben Beispiel die Verwendung von Netzwerken mit zusĂ€tzlichen lizenzierten Algorithmen. Sie optimieren die End-to-End-Latenz, erhöhen den Netzwerkdurchsatz erheblich und erhöhen den E / A-Betrieb pro Zeiteinheit. Dieser Ansatz hilft, den "doppelten Kauf" zu vermeiden, der manchmal erforderlich ist, um die erforderlichen Leistungsparameter zu erreichen, und die Gesamteinsparungen (in Bezug auf die Gesamtbetriebskosten) bei der EinfĂŒhrung eines neuen Netzwerks erreichen 18-40%, abhĂ€ngig von den verwendeten GerĂ€temodellen.







Was sind diese Wow-Algorithmen?



Herkömmliche Technologien brachten die ĂŒblichen Probleme mit sich, da sie mit statischen Schwellenwerten der Warteschlange arbeiteten. Dieser Schwellenwert bedeutete, dass fĂŒr alle Anwendungen eine grundlegende Beziehung zwischen Geschwindigkeit und Latenz bestand. Der manuelle Steuermodus ermöglichte keine dynamische Anpassung der Netzwerkparameter.



Mithilfe zusĂ€tzlicher ChipsĂ€tze fĂŒr maschinelles Lernen in den Switches haben wir dem Netzwerk beigebracht, in einem Modus zu arbeiten, der den Aufbau intelligenter Rechenzentrumsnetzwerke ohne Paketverlust ermöglicht (wir haben es iDCN genannt ).







Wie wird eine intelligente Optimierung erreicht? Diejenigen, die sich mit neuronalen Netzen beschÀftigen, finden im Diagramm leicht vertraute Elemente und Trainings- / Inferenzmechanismen. Unsere Lösungen kombinieren eingebettete Modelle mit der FÀhigkeit, in einem bestimmten Netzwerk zu lernen.







Das KI-System sammelt eine bestimmte Menge an Wissen ĂŒber das Netzwerk, das dann angenĂ€hert und in der dynamischen Konfiguration des Netzwerks verwendet wird. GerĂ€te, die auf unseren eigenen Hardwarelösungen basieren, verwenden einen speziellen AI-Chip. Modelle, die auf lizenzierten ChipsĂ€tzen amerikanischer Hersteller basieren, verwenden ein Zusatzmodul und einen Softwarebus.







Über die angewandten Modelle. Wir verwenden einen Ansatz, der auf einem Modell des verstĂ€rkenden Lernens beruht. Das System analysiert 100% der Daten, die durch das NetzwerkgerĂ€t ĂŒbertragen werden, und wĂ€hlt die Basislinie aus. Wenn Sie beispielsweise die Bandbreite und die Verzögerungen kennen, die fĂŒr eine bestimmte Anwendung kritisch sind, ist es nicht schwierig, die Basislinie zu bestimmen. Mit einer großen Anzahl von Anwendungen ist es möglich, „Median“ -Berechnungen durchzufĂŒhren und Anpassungen im automatischen Modus vorzunehmen, wodurch die Leistung erheblich gesteigert wird.







Das Diagramm zeigt den Vorgang detaillierter. Zu Beginn der Netzwerkoptimierung berechnen wir die minimalen und maximalen Schwellenwerte. Als nĂ€chstes kommt das Faltungsnetzwerk(CNN). Somit ist es möglich, die Bandbreiten- und Latenzraten fĂŒr jede Anwendung auszugleichen und ihr Gesamtgewicht innerhalb der Netzwerkdienste zu bestimmen. Mit diesem geschichteten Ansatz erhalten wir einige wirklich interessante Einblicke.







Wenn die Anwendung unbekannt ist, wird ein heuristischer Suchalgorithmus in Verbindung mit einer " Zustandsmaschine " verwendet. Mit seiner Hilfe beginnen wir, uns entlang des oben gezeigten Blockdiagramms gegen den Uhrzeigersinn zu bewegen, Schwellenwerte zu identifizieren und ein Modell zu erstellen. Es ist ein automatischer Prozess, der nach Bedarf bearbeitet werden kann. Wenn dies nicht erforderlich ist, ist es einfacher, sich auf den Switch und seine Dienste zu verlassen.







Von der Theorie zur Praxis



Indem wir solche Algorithmen anwenden und auf der Ebene des gesamten Netzwerks und nicht seiner einzelnen Schichten arbeiten, lösen wir alle Hauptleistungsprobleme. Es gibt bereits interessante FĂ€lle fĂŒr die Implementierung und den Einsatz solcher Technologien im Bankensektor. Diese Mechanismen sind auch in anderen Branchen gefragt, beispielsweise bei Telekommunikationsbetreibern.







Schauen wir uns die Ergebnisse offener Tests an. Das unabhÀngige Labor der Tolly Group hat unsere Lösung getestet und mit Ethernet- und IB-Lösungen anderer Hersteller verglichen. Tests haben gezeigt, dass die Produktleistung von Huawei der von IB entspricht und 27% besser ist als bei anderen wichtigen Ethernet-Produkten.







Das verlustfreie Rechenzentrumsnetzwerk zeigt maximale Effizienz in verschiedenen Szenarien, z. B.:



  • KI-Training;
  • zentraler Speicher;
  • verteilter Speicher;
  • Hochleistungs-GPU-Computing.








Abschließend betrachten wir eines der Szenarien fĂŒr die Verwendung eines intelligenten Rechenzentrumsnetzwerks. Viele Kunden verwenden verteilte Speichersysteme (SDB). Durch die Integration von Softwarespeichersystemen verschiedener Hersteller in unsere Lösung können Sie eine um 40% höhere Leistung erzielen als ohne diese. Dies bedeutet, dass wenn Sie das erforderliche Leistungsniveau Ihres Sicherheitsdatenblatts kennen, es mit 40% weniger Servern erreicht werden kann.



***.



Vergessen Sie ĂŒbrigens nicht unsere zahlreichen Webinare, die nicht nur im russischsprachigen, sondern auch auf globaler Ebene stattfinden. Die Liste der Webinare fĂŒr Dezember finden Sie hier .



All Articles