🏌️ 😟 🎛️ Aufbau einer gemeinsamen Architektur für Hochleistungsrechnen, künstliche Intelligenz und Datenanalyse 💇 ✍🏾 🔛

Heutzutage überschneiden sich High Performance Computing ( HPC ), künstliche Intelligenz ( AI ) und Datenanalyse ( DA ) immer mehr. Der Punkt ist, dass das Lösen komplexer Probleme eine Kombination verschiedener Techniken erfordert. Die Kombination von AI, HPC und DA in traditionellen Herstellungsprozessen kann die wissenschaftliche Entdeckung und Innovation beschleunigen.

Datenwissenschaftler und -forscher entwickeln neue rechenintensive Problemlösungsprozesse wie HPC-Systeme in großem Maßstab. KI- und Datenanalyse-Workloads profitieren von einer HPC-Infrastruktur, die skaliert werden kann, um die Leistung zu verbessern. Heute werden wir über die Trends in diesem Markt und Ansätze zur Erstellung von Architekturen für DA, AI und HPC sprechen.

Der Trend zur Konvergenz moderner Workloads erfordert eine einheitlichere Architektur. Herkömmliche HPC-Workloads (z. B. Simulationen) erfordern viel Rechenleistung sowie schnelle Netzwerkverbindungen und leistungsstarke Dateisysteme. Beispielsweise kann die Erstellung eines Reservoirmodells für eine Minerallagerstätte mehrere Stunden bis mehrere Tage dauern.

Arbeitslasten für künstliche Intelligenz und Datenanalyse sind ressourcenintensiv und erfordern Datenerfassungstools und spezielle Arbeitsbereiche, damit Bediener Daten verarbeiten können. Künstliche Intelligenz und Datenanalyse sind Prozesse, die interaktive Interaktion und sich wiederholende Aktionen erfordern.

Der Unterschied bei den HPC-, AI- und DA-Workloads könnte den Eindruck erwecken, dass drei separate Infrastrukturen erforderlich wären. Dies ist jedoch nicht der Fall. Die einheitliche Architektur eignet sich sowohl für Datenanalysten als auch für Wissenschaftler, die mit künstlicher Intelligenz arbeiten, ohne sich umzuschulen und an das neue Betriebsmodell anzupassen.

Die Integration aller drei Workloads in eine einzige Architektur ist jedoch mit folgenden Herausforderungen verbunden:

Die Fähigkeiten der HPC-, AI- oder DA-Benutzer variieren.
Ressourcenmanagementsysteme und Lastplaner sind nicht austauschbar.
Nicht alle Software und nicht alle Frameworks sind in einer einzigen Plattform integriert.
Ökosysteme erfordern unterschiedliche Werkzeuge und Funktionen.
Die Lasten und ihre Leistungsanforderungen sind unterschiedlich.

Die Grundlage für schlüsselfertige Lösungen von Dell Technologies

Die sofort einsatzbereiten KI- und Datenanalyselösungen von Dell Technologies bieten eine einzige Umgebung für alle drei Workloads. Sie werden unter Berücksichtigung von vier Grundprinzipien aufgebaut:

Datenverfügbarkeit.
Einfache Auftragsplanung und Ressourcenverwaltung.
Workloads optimieren.
Integrierte Orchestrierung und Containerisierung.

Datenverfügbarkeit

Benutzer benötigen unabhängig von der Arbeitslast einen schnellen Zugriff auf ihre Daten. Die Datenverschiebung sollte zwischen unterschiedlichen Speicherumgebungen begrenzt werden. Datensätze für HPC, AI und DA sollten in einer einzigen Umgebung kombiniert werden, um die betriebliche Effizienz zu verbessern, insbesondere wenn der Workflow mehrere Techniken kombiniert.

Zum Beispiel verwenden fortschrittliche Fahrerassistenzsysteme Extremwettermodelle, um Unfälle beim realen Fahren bei schlechtem Wetter zu verhindern. Die neuen Daten werden dann zum Trainieren des tiefen neuronalen Netzwerks verwendet: Die Ausgabe wird zur Eingabe für das Training des Modells. Die Ergebnisse werden dann in Spark geladen, das verwendet wird, um eine Verbindung zum aktuellen Datensatz des Kunden herzustellen und die besten Daten für das anschließende Training des Modells auszuwählen. Für eine optimale Leistung sollten die vom Workflow empfangenen Daten so nahe wie möglich an den bereits verfügbaren Daten liegen.

Auftragsplanung und Ressourcenverwaltung

HPC-Kunden verlassen sich auf herkömmliche Job Scheduler wie SLURM. Für die Stapelplanung weist SLURM Hardwareressourcen basierend auf Zeitintervallen zu und bietet ein Framework zum Initiieren, Ausführen und Steuern laufender Jobs. SLURM bietet auch eine Warteschlangenverwaltung für übermittelte Tickets, um Konflikte zwischen Aufgaben im Cluster zu vermeiden.

Bei der Datenanalyse werden Taskplaner wie Spark Standalone und Mesos verwendet. Eine vorgefertigte Architektur für Hochleistungsrechnen und künstliche Intelligenz verwendet Kubernetes, um Spark zu orchestrieren und Ressourcen für die ausgeführten Aufgaben zu verwalten. Da kein Job Scheduler beide Umgebungen adressiert, muss die Architektur beide unterstützen. Dell Technologies hat eine Architektur entwickelt, die beide Anforderungen erfüllt.

Die schlüsselfertige Architektur von Dell EMC für HPC, Datenanalyse und KI erstellt einen einzigen Ressourcenpool. Ressourcen können dynamisch jeder HPC-Aufgabe zugewiesen werden, die über den HPC Resource Manager oder für containerisierte KI- oder Datenanalyse-Workloads verwaltet wird, die wiederum über das Kubernetes-Containersystem verwaltet werden.

Workloads optimieren

Die Architektur muss für eine Art von Workload skalierbar sein, ohne Kompromisse bei einer anderen einzugehen. Programmiersprachen, Skalierungsanforderungen und die Verwaltung des Software-Stacks und der Dateisysteme sind wichtig, um die Workload-Anforderungen zu verstehen. Die folgende Tabelle zeigt Beispiele für Technologien, die beim Erstellen einer skalierbaren Architektur verwendet werden:

Die letzte Designkomponente ist die Integration von Kubernetes und Docker in die Kubernetes-Architektur, ein Open-Source-Containerisierungssystem zur Automatisierung von Bereitstellung, Skalierung und Verwaltung. Mit Kubernetes können Sie einen Cluster von Servern organisieren und Container basierend auf den verfügbaren Ressourcen und den Ressourcenanforderungen jedes Containers planen. Die Container sind in Gruppen organisiert, die grundlegende Bedieneinheit von Kubernetes, die auf die gewünschte Größe skaliert werden können.

Kubernetes unterstützt Sie bei der Verwaltung des Erkennungsdienstes, der Lastausgleich, Nachverfolgung der Ressourcenzuweisung, Auslastung und Überprüfung des Zustands einzelner Ressourcen umfasst. Auf diese Weise können Anwendungen sich selbst heilen, indem Container automatisch neu gestartet oder kopiert werden.

Docker ist eine Softwareplattform, mit der Sie schnell Softwareprodukte erstellen, testen und bereitstellen können. Es packt Programme in Standardmodule, sogenannte Container, die alles enthalten, was Sie zum Ausführen eines Programms benötigen, einschließlich Bibliotheken, Systemtools, Code und Bedingungen für dessen Ausführung. Mit Docker können Sie Anwendungen in jeder Umgebung schnell bereitstellen und skalieren und sicherstellen, dass Ihr Code ausgeführt wird.

Hardware-Architekturblöcke

Auswahl des richtigen Servers

Der Dell EMC PowerEdge DSS 8440 ist ein 4U-Server (4U), der für HPC optimiert ist. Ein DSS 8440 kann 4, 8 oder 10 NVIDIA V100-Grafikbeschleuniger für die Bilderkennung oder NVIDIA T4 für die Verarbeitung natürlicher Sprache (NLP) aufnehmen. Zehn NVMe-Laufwerke bieten schnellen Zugriff auf Trainingsdaten. Dieser Server verfügt sowohl über die Leistung als auch über die Flexibilität, ideal für maschinelles Lernen und andere ressourcenintensive Workloads zu sein. Zum Beispiel Modellierung und prädiktive Analyse in technischen und wissenschaftlichen Umgebungen.

Dell EMC PowerEdge C4140erfüllt die Anforderungen an skalierbare Serverlösungen, die für das Training neuronaler Netze erforderlich sind. Deep Learning ist ein rechenintensiver Prozess, einschließlich schneller GPUs, insbesondere während der Lernphase. Jeder C4140-Server unterstützt bis zu vier NVIDIA Tesla V100 (Volta) -GPUs. Über die NVIDIA NVLINK 20-Fabrik verbunden, können acht oder mehr C4140 für größere Modelle geclustert werden und bieten eine Leistung von bis zu 500 Pflops.

Dell EMC PowerEdge R740xdIst ein klassischer 2-Socket-Server, der für die meisten maschinellen Lernprojekte geeignet ist. Dieser universelle 2U-Server hat die Aussicht auf eine weitere Verwendung für Deep-Learning-Aufgaben, da er die Installation von Grafikbeschleunigern und einer großen Anzahl von Speichergeräten unterstützt.

Auswahl des richtigen Netzwerks

Dell EMC PowerSwitch S5232F-ON: Hochleistungs-Ethernet Dell EMC S5235F-ON Der S5235F-ON verfügt über 32 QSFP28-Ports, die jeweils 100 GbE oder 10/25/40/50 GbE mit geteilten Kabeln unterstützen. Der Switch-Bus hat eine Bandbreite von 64 Tbit / s und bietet hohe Leistung bei geringer Latenz.

Der Mellanox SB7800 ist die richtige Lösung für viele gleichzeitige Workloads. Ein leistungsstarker, nicht blockierender 72-Tbit / s-Bus mit einer Latenz von 90 ns zwischen zwei beliebigen Schaltpunkten bietet eine leistungsstarke Lösung.

Dienste und Speichersysteme

Auswahl des richtigen Speicherservices

Die Auswahl der Hardwarekomponenten hängt vom zu lösenden Problem und der verwendeten Software ab. Datenspeicher-Subsysteme können eher bedingt in drei Typen unterteilt werden:

Der Speicherdienst ist in die Software integriert und ein wesentlicher Bestandteil davon. Ein Beispiel ist Apache Hadoop mit HDFS-Dateisystem oder No SQL Apache Cassandra-Datenbank.
Der Speicherservice wird entweder von speziellen Lösungen (z. B. Dell EMC PowerScale) oder von Unternehmensspeichersystemen bereitgestellt.
Zugriff auf Cloud-Ressourcen: sowohl privates Dell EMC ECS, Cloudian, Ceph als auch öffentliches - Amazon, Google, MS Azure. Der Datenzugriff erfolgt in der Regel auf Basis von REST-Protokollen - Amazon S3, Openstack Swift usw. Dies ist eines der sich am aktivsten entwickelnden Segmente des Speichermarktes für Big Data.

Kombinierte Ansätze können unterschieden werden, wenn entweder integrierte Speicherdienste oder spezialisierte Systeme als betriebliche Speicherschicht verwendet werden und Cloud-Systeme als archivierter Langzeitspeicher fungieren. Die Verwendung eines bestimmten Speicherdienstes hängt von der zu lösenden Aufgabe und den gesetzlichen Anforderungen ab (Schutz vor Katastrophen, Integration mit Autorisierungs- und Prüfanbietern, Benutzerfreundlichkeit).

Einerseits werden integrierte Speicherdienste, sofern sie in der Software verfügbar sind, schnell bereitgestellt und natürlich so weit wie möglich in andere Anwendungsdienste integriert. Zum anderen erfüllen sie nicht immer alle notwendigen Anforderungen. Beispielsweise gibt es keine vollständige Replikation oder keine Integration in Sicherungssysteme. Darüber hinaus erstellen wir ein weiteres dediziertes "Datensegment / Insel" exklusiv für eine Distribution oder eine Reihe von Anwendungen.

Funktionsanforderungen

Die folgenden Anforderungen können an den Speicherdienst gestellt werden:

Lineare Skalierbarkeit in Kapazität und Leistung.
Die Fähigkeit, effektiv in einer Umgebung mit mehreren Threads zu arbeiten.
Toleranz gegenüber massiven Ausfällen von Systemkomponenten.
Einfach zu aktualisieren und das System zu erweitern.
Möglichkeit zum Erstellen von Online- und Archivierungsspeicherebenen.
Erweiterte Funktionen für die Arbeit mit Daten (Audit, DR-Tools, Schutz vor nicht autorisierten Änderungen, Deduplizierung, Metadatensuche usw.).

Die Speicherleistung ist entscheidend für Projekte im Bereich Hochleistungsrechnen, maschinelles Lernen und künstliche Intelligenz. Aus diesem Grund bietet Dell Technologies eine breite Palette von All-Flash- und Hybrid-Speichersystemen an, um die anspruchsvollsten Kundenanforderungen zu erfüllen.

Das Speicherportfolio von Dell EMC umfasst leistungsstarke PowerScale- (HDFS, NFS / SMB) und ECS-Speichersysteme (S3, Opensatck Swift, HDFS) sowie verteilte NFS- und Lustre-Speichersysteme.

Ein Beispiel für ein spezialisiertes System

Dell EMC PowerScale ist ein Beispiel für ein spezielles System, mit dem Sie effektiv in Projekten im Zusammenhang mit Big Data arbeiten können. Sie können damit einen Unternehmensdatensee erstellen. Das Speichersystem enthält keine Controller und Festplattenregale, sondern besteht aus einer Reihe gleichwertiger Knoten, die über ein dediziertes dupliziertes Netzwerk verbunden sind. Jeder Knoten enthält Festplatten, Prozessoren, Speicher und Netzwerkschnittstellen für den Clientzugriff. Die gesamte Festplattenkapazität des Clusters bildet einen einzelnen Speicherpool und ein einzelnes Dateisystem, auf die über einen beliebigen Knoten zugegriffen werden kann.

Dell EMC PowerScaleIst ein Speichersystem mit gleichzeitigem Zugriff über verschiedene Dateiprotokolle. Alle Knoten bilden einen einzelnen Ressourcenpool und ein einzelnes Dateisystem. Alle Knoten sind gleich, jeder Knoten kann jede Anforderung ohne zusätzlichen Aufwand verarbeiten. Das System wird auf 252 Knoten erweitert. Innerhalb eines Clusters können wir Pools von Knoten mit unterschiedlicher Leistung verwenden. Verwenden Sie für die betriebliche Verarbeitung produktive Knoten mit SSD / NVMe und effizientem Netzwerkzugriff von 40 oder 25 GbE und für Archivdaten Knoten mit geräumigen SATA-Festplatten von 8-12 Terabyte. Darüber hinaus können die am wenigsten genutzten Daten in die Cloud verschoben werden: sowohl private als auch öffentliche.

Projekte und Anwendungen

Die Verwendung von Dell EMC PowerScale hat zu einer Reihe spannender Big-Data- Projekte geführt . Zum Beispiel ein System zur Identifizierung verdächtiger Aktivitäten für Mastercard. Es löst auch erfolgreich Probleme im Zusammenhang mit der automatischen Fahrzeugsteuerung (ADAS) von Zenuity. Einer der wichtigen Punkte ist die Möglichkeit, den Speicherdienst in eine separate Ebene mit der Möglichkeit seiner separaten Skalierung zu unterteilen.

Somit können mehrere Analyseplattformen mit einem einzigen Datensatz mit einer einzigen Speicherplattform verbunden werden. Zum Beispiel ein Hauptanalysecluster mit einer bestimmten Hadoop-Distribution, die direkt auf Servern ausgeführt wird, und einer virtualisierten Entwicklungs- / Testschleife. Gleichzeitig kann nicht der gesamte Cluster für die Aufgaben der Analyse zugewiesen werden, sondern nur ein bestimmter Teil davon.

Der zweite wichtige Punkt ist, dass PowerScale den Zugriff auf das Dateisystem ermöglicht. Das heißt, im Vergleich zu herkömmlichen Lösungen gibt es keine strikte Beschränkung der Menge der analysierten Informationen. Die Cluster-Architektur bietet eine hervorragende Leistung für maschinelle Lernaufgaben, selbst wenn große SATA-Laufwerke verwendet werden. Ein hervorragendes Beispiel sind die ML / DL-Probleme, bei denen die Genauigkeit des resultierenden Modells vom Volumen und der Qualität der Daten abhängen kann.

Traditionelle Systeme

Dell EMC PowerVault ME4084 (DAS) kann als grundlegendes Speichersystem verwendet werden. Es ist auf 3 Petabyte erweiterbar und bietet einen Durchsatz von 5.500 MB / s und 320.000 IOPS.

Typisches Diagramm einer schlüsselfertigen Lösung für HPC-, AI- und Datenanalyse

Typische AI-Anwendungsfälle nach Branchen

Zusammenfassung

Die schlüsselfertigen Lösungen von Dell Technologies für HPC , AI und Datenanalyse bieten eine einheitliche Architektur, die mehrere Workloads unterstützt. Die Architektur basiert auf vier Schlüsselkomponenten: Datenverfügbarkeit, einfache Auftragsplanung und Ressourcenverwaltung, Workload-Optimierung sowie integrierte Orchestrierung und Containerisierung. Die Architektur unterstützt mehrere Server-, Netzwerk- und Speicheroptionen, um die HPC-Anforderungen optimal zu erfüllen.

Sie können zur Lösung sehr unterschiedlicher Probleme verwendet werden, und wir sind immer bereit, Kunden bei der Auswahl, Bereitstellung, Konfiguration und Wartung von Geräten zu unterstützen.

Der Autor des Materials ist Alexander Koryakovsky, beratender Ingenieur der Abteilung für Computer- und Netzwerklösungen von Dell Technologies in Russland

Aufbau einer gemeinsamen Architektur für Hochleistungsrechnen, künstliche Intelligenz und Datenanalyse