Mario Miskullo ist Assistenzprofessor am Institut für Elektrotechnik und Informationstechnik der George Washington University. Mario ist Untergruppenleiter des OPEN Lab Neuromorphic Computing Teams unter der Leitung von Prof. Dr. Volcker J. Sorger. Mario erwarb seinen MA in Elektrotechnik und Informationstechnik am Turin Polytechnic als Forscher am Harvard / MIT. Er verteidigte seine Doktorarbeit in Optoelektronik an der Universität von Genua am italienischen Institut für Technologie und arbeitete als wissenschaftlicher Mitarbeiter an der Molecular Foundry im National Laboratory. Lawrence in Berkeley. Seine Interessen erstrecken sich auf Wissenschaft und Technik, einschließlich Nanooptik und Wechselwirkungen zwischen Licht und Materie, Metaoberflächen, Fourier-Optik und photonisches neuromorphes Computing.
Die Autoren schlagen vor, dass aufgrund dieses Ansatzes die Verarbeitungsleistung von optischen Datenströmen 2-3 Größenordnungen höher sein kann als die einer GPU. Die Autoren glauben auch, dass photonische Prozessoren an Peripheriegeräten in 5G-Netzwerken außergewöhnlich gut funktionieren können.
— , (OPEN) . , .
, , - . — , , PMAC/s . , (PECASE), AFOSR , . - , OSA , OSA , SPIE . - IEEE, OSA SPIE.
Bei dem untersuchten Ansatz führt der Photonentensorkern parallel Matrixmultiplikationen durch, wodurch die Geschwindigkeit und Effizienz des Tiefenlernens verbessert werden. Neuronale Netze lernen, wie man unkontrollierte Entscheidungen ausführt und eine Klassifizierung unsichtbarer Daten erstellt. Sobald ein neuronales Netzwerk für die Arbeit mit Daten trainiert ist, kann es darauf schließen, Objekte und Muster zu erkennen und zu klassifizieren und eine Signatur in den Daten zu finden.
Der photonische TPU-Prozessor speichert und verarbeitet Daten parallel über eine elektrooptische Verbindung, die den optischen Speicher effizient lesen und schreiben kann, während der photonische TPU mit anderen Architekturen interagiert.
„Wir haben festgestellt, dass photonische Plattformen mit integriertem optischen Speicher dieselben Operationen wie Tensorprozessoren ausführen können. Gleichzeitig verbrauchen sie weniger Energie und sind viel produktiver. Sie können verwendet werden, um Berechnungen mit Lichtgeschwindigkeit durchzuführen “, sagte Mario Miskullo, einer der Entwickler.
Die meisten neuronalen Netze entwirren mehrere Schichten miteinander verbundener Neuronen, um die Funktionsweise des menschlichen Gehirns nachzuahmen. Ein effizienter Weg, diese Netzwerke darzustellen, ist eine zusammengesetzte Funktion, die Matrizen und Vektoren miteinander multipliziert. Diese Ansicht ermöglicht die Ausführung paralleler Operationen über Architekturen, die auf vektorisierte Operationen wie die Matrixmultiplikation spezialisiert sind.
Quelle: Artikel von Mario Miskullo und Volker Sorger.
(a) Der photonische Tensorkern (PTC) besteht aus 16 Fasern, die ihrer Natur nach unabhängig voneinander eine zeilenweise Multiplikation und eine Punkt-für-Punkt-Akkumulation durchführen.
(b) . WDM, (, -) . J- . , , (MRR), ( ), , , MAC.
Je schwieriger die Aufgabe und je höher die Anforderungen an die Prognosegenauigkeit sind, desto komplexer wird das Netzwerk. Solche Netzwerke erfordern große Datenmengen zum Berechnen und mehr Leistung zum Verarbeiten dieser Daten. Moderne digitale Prozessoren, die für tiefes Lernen geeignet sind, wie Grafikprozessoren (GPUs) oder Tensorprozessoren (TPUs), können aufgrund der dafür erforderlichen Leistung nur begrenzt komplexe, hochpräzise Operationen ausführen. Und auch wegen der langsamen Übertragung elektronischer Daten zwischen Prozessor und Speicher.
Die Entwickler und Autoren des Artikels haben gezeigt, dass die Leistung eines TPU 2-3 Größenordnungen höher sein kann als die eines elektrischen TPU. Photonen sind ideal für Computernetzwerke und Knoten-zu-Knoten-Operationen, die intelligente Aufgaben mit hoher Bandbreite am Rande von Netzwerken wie 5G ausführen. Datensignale von Überwachungskameras, optischen Sensoren und anderen Quellen können bereits in Form von Photonen vorliegen.
„Photonic-Prozessoren können enorme Energieeinsparungen erzielen, indem sie die Reaktions- und Verarbeitungszeiten verkürzen“, fügte Miskullo hinzu. Für den Endbenutzer bedeutet dies, dass die Daten in diesem Fall viel schneller verarbeitet werden, da der größte Teil vorverarbeitet ist, was bedeutet, dass nur ein Teil der Daten an die Cloud oder das Rechenzentrum gesendet werden kann.
Ein neuer Ansatz für die optische und elektrische Datenübertragung
Dieser Artikel enthält ein Beispiel für die Auswahl einer optischen Route für maschinelle Lernaufgaben. In den meisten neuronalen Netzen (NNs), die mehrere Schichten miteinander verbundener Neuronen / Knoten freilegen, sind jedes Neuron und jede Schicht sowie die Verbindungen des Netzwerks selbst für die Aufgabe wichtig, in der das Netzwerk trainiert wurde. In der betrachteten verbundenen Schicht sind neuronale Netze stark von mathematischen Operationen der Vektormatrix abhängig, bei denen große Matrizen von Eingabedaten und Gewichten gemäß dem Lernprozess multipliziert werden. Komplexe tiefe neuronale Mehrschichtnetzwerke erfordern eine erhebliche Bandbreite und eine geringe Latenz, um die Operationen zu erfüllen, die zur Durchführung einer Multiplikation mit großer Matrix erforderlich sind, ohne die Effizienz und Geschwindigkeit zu beeinträchtigen.
Wie multiplizieren Sie diese Matrizen effizient? In Allzweckprozessoren werden Matrixoperationen nacheinander ausgeführt, was einen ständigen Zugriff auf den Cache-Speicher erfordert, was zu einem Engpass in der von Neumann-Architektur führt. Spezielle Architekturen wie GPUs und TPUs tragen dazu bei, diese Engpässe zu verringern, indem sie einige leistungsstarke Modelle für maschinelles Lernen ermöglichen.
GPUs und TPUs sind besonders nützlich gegenüber CPUs. Wenn sie jedoch zum Trainieren tiefer neuronaler Netze verwendet werden und Inferenzen für große zweidimensionale Datensätze wie Bilder durchführen, können sie viel Energie verbrauchen und erfordern eine längere Rechenzeit (mehr als zehn Millisekunden). Die Matrixmultiplikation für weniger komplexe Inferenzaufgaben leidet immer noch unter Latenzproblemen, hauptsächlich aufgrund von Zugriffsbeschränkungen auf verschiedene Speicherhierarchien und Latenz für jeden Befehl in der GPU.
Die Autoren schlagen vor, dass es in diesem Kontext notwendig ist, die Betriebsparadigmen moderner logischer Computerplattformen zu untersuchen und neu zu erfinden, bei denen die Matrixalgebra auf einem dauerhaften Speicherzugriff beruht. In dieser Hinsicht können die Wellennatur des Lichts und die damit verbundenen inhärenten Operationen wie Interferenz und Beugung eine wichtige Rolle bei der Erhöhung des Rechendurchsatzes spielen und gleichzeitig den Stromverbrauch neuromorpher Plattformen verringern.
Entwickler gehen davon aus, dass zukünftige Technologien Rechenaufgaben im Bereich ihrer zeitlich variierenden Eingaben unter Verwendung ihrer eigenen physischen Operationen ausführen müssen. Unter diesem Gesichtspunkt sind Photonen ideal für die Berechnung verteilter Netzwerke, die intelligente Aufgaben für Big Data am Netzwerkrand ausführen (z. B. 5G), wobei Datensignale bereits in Form von Photonen vorliegen können (z. B. eine Überwachungskamera, ein optischer Sensor usw.). .), wodurch die Menge des Datenverkehrs, der in Rechenzentren und Cloud-Systeme geleitet werden darf, vorgefiltert und intelligent angepasst wird.
Hier brechen sie einen neuen Ansatz unter Verwendung eines Photonic Tensor Kernel (PTC) auf, der in einem Schritt (d. H. Nicht iterativ) die Multiplikation und Akkumulation von 4x4-Matrizen mit einem trainierten Kernel durchführen kann; Mit anderen Worten, nach dem Training werden die neuronalen Netzwerkgewichte in einem 4-Bit-Photonenspeicher mit mehreren Ebenen gespeichert, der direkt auf dem Chip implementiert ist, ohne dass zusätzliche elektrooptische Schaltungen oder ein dynamischer Direktzugriffsspeicher (DRAM) erforderlich sind. Photonische Speicher haben verlustarme, nanophotonische Phasenänderungsschaltungen auf der Basis von G2Sb2Se5-Leitern, die auf einem planarisierten Wellenleiter abgeschieden sind und durch elektrothermisches Schalten aufgerüstet werden können, wodurch sie vollständig optisch gelesen werden können.Das elektrothermische Schalten erfolgt mit Wolframheizelektroden, die mit einem PCM-Sensor (Phase Change Memory) kommunizieren.
Tabelle. Vergleich der Leistung von Tensorkernen.
Quelle: Artikel von Mario Miskullo und Volker Sorger.
Der elektronisch gespeiste Photonic Tensor Core (PTC) (linke Spalte) erhöht den Durchsatz im Vergleich zu T4 und A100 von Nvidia um das 2-8-fache. Bei optischen Daten (z. B. einer Kamera) beträgt die Vergrößerung etwa das 60-fache (Fläche) Die Mikroschaltung ist auf einen Kristall (~ 800 mm2) begrenzt.
Tests haben gezeigt, dass die Leistung von photonischen Chips zwei- bis dreimal höher ist als die auf dem heutigen Markt. Die Datenverarbeitungsgeschwindigkeit in ihnen kann zwei Petaflops pro Sekunde erreichen, während sie etwa 80 Watt Energie verbrauchen, von denen 95% für die Wartung des Chips und nur 5% für Berechnungen aufgewendet werden.
Die Autoren des Artikels betonen, dass diese Arbeit den ersten Ansatz zur Implementierung eines Photonentensorprozessors darstellt, der Daten speichert und parallel verarbeitet. Ein solcher Prozessor kann die Anzahl der MAC-Vorgänge (Multiply-Accumulate) um mehrere Größenordnungen skalieren und gleichzeitig den Stromverbrauch und die Latenz im Vergleich zu vorhandenen Hardwarebeschleunigern erheblich reduzieren sowie Echtzeitanalysen bereitstellen.
Im Gegensatz zur digitalen Elektronik, die auf Logikgattern beruht, können in der integrierten Photonik Multiplikationsakkumulationen und viele andere lineare algebraische Operationen nicht iterativ ausgeführt werden, wobei die inhärente Parallelität ausgenutzt wird, die durch die elektromagnetische Natur von Lichtsubstanzsignalen bereitgestellt wird. In dieser Hinsicht ist die integrierte Photonik eine ideale Plattform für die Anzeige spezifischer komplexer Operationen in Hardware.