Temporäre Faltungsnetzwerke - revolutionieren die Welt der Zeitreihen

Die Übersetzung des Artikels wurde am Vorabend des Kursbeginns „Deep Learning. Basic " .










In diesem Artikel werden wir über die neuesten innovativen TCN-Lösungen sprechen. Zunächst werden wir am Beispiel eines Bewegungsmelders die Architektur zeitlicher Faltungsnetzwerke und ihre Vorteile gegenüber herkömmlichen Ansätzen wie Faltungs-Neuronalen Netzen (CNN) und Wiederkehrenden Neuronalen Netzen (RNN) betrachten. Wir sprechen dann über aktuelle Beispiele für TCN-Anwendungen, einschließlich verbesserter Verkehrsvorhersage, Schalllokalisierer und -detektor sowie probabilistischer Vorhersage.



Ein kurzer Überblick über TCN



Die grundlegende Arbeit von Lea et al. (2016) war Vorreiter bei der Verwendung zeitlicher Faltungsnetzwerke zur Segmentierung videobasierter Aktionen. Normalerweise ist der Prozess in zwei Stufen unterteilt: erstens die Berechnung von Merkmalen auf niedriger Ebene unter Verwendung von (am häufigsten) CNN, das räumlich-zeitliche Informationen codiert, und zweitens die Eingabe von Merkmalen auf niedriger Ebene in den Klassifizierer, der zeitweise Informationen auf hoher Ebene unter Verwendung von (am häufigsten) empfängt ) RNN. Der Hauptnachteil dieses Ansatzes ist die Notwendigkeit von zwei getrennten Modellen. TCN bietet einen einheitlichen Ansatz, um beide Informationsebenen hierarchisch abzudecken.



Die folgende Abbildung zeigt den Aufbau des Encoder-Decoders. Informationen zur Architektur finden Sie in den ersten beiden Links am Ende des Artikels. Die kritischsten Fragen werden wie folgt gelöst: TCN kann eine Reihe beliebiger Länge annehmen und die gleiche Länge in der Ausgabe erhalten. Eine zufällige Faltung wird verwendet, wenn eine vollständig gefaltete eindimensionale Netzwerkarchitektur vorliegt. Das Hauptmerkmal ist, dass der Ausgabewert zum Zeitpunkt t nur mit den Elementen reduziert wird, die in der Zeit davor aufgetreten sind.







Mit einer kürzlich erschienenen Veröffentlichung von Jan et al. (2020) über die Verwendung von TCN in der Wettervorhersage ging die Begeisterung für TCN sogar bis in die Natur. In ihrer Arbeit führten die Autoren ein Experiment durch, in dem TCN und LSTM verglichen wurden. Eines der Ergebnisse war die Schlussfolgerung, dass TCN Zeitreihen gut prognostiziert.







In den folgenden Abschnitten wird die Implementierung und Erweiterung des klassischen TCN vorgestellt.



Bessere Verkehrsvorhersage



Mitfahrgelegenheiten und Online-Navigationsdienste können die Verkehrsprognose verbessern und das Straßenerlebnis verbessern. Die Reduzierung von Verkehrsstaus, die Reduzierung der Umweltverschmutzung, das sichere und schnelle Fahren sind nur einige der Ziele, die durch eine Verbesserung der Verkehrsprognose erreicht werden können. Da dieses Problem auf Echtzeitdaten basiert, müssen die akkumulierten Verkehrsdaten verwendet werden. Aus diesem Grund haben Dai et al. (2020) kürzlich ein Hybrid Spatio-Temporal Graph Convolutional Network (H-STGCN) eingeführt. Die Grundidee besteht darin, das stückweise lineare Gleitströmungsdichteverhältnis zu nutzen und das bevorstehende Verkehrsvolumen in sein Verkehrszeitäquivalent umzuwandeln.Einer der interessantesten Ansätze, die sie in ihrer Arbeit verwendet haben, ist die Graphfaltung, um Zeitabhängigkeit zu erhalten. Die zusammengesetzte Adjazenzmatrix spiegelt die inhärenten Merkmale der Verkehrsnäherung wider (weitere Informationen finden Sie in Lees Artikel 2017). Die folgende Architektur bietet vier Module zur Beschreibung des gesamten Prognoseprozesses.







Lokalisierung und Erkennung von Schallereignissen



Der Bereich der Audio-Lokalisierung und -Erkennung (SELBST) wächst weiter. Bei der autonomen Navigation spielt das Verständnis der Umgebung eine große Rolle. Girjis et al. (2020) haben kürzlich eine neue SELF-TCN-Audioereignisarchitektur vorgeschlagen. Eine Gruppe von Forschern behauptet, dass ihr Framework die aktuellen Lösungen in diesem Bereich übertrifft und die Schulungszeit verkürzt. In ihrem SELDnet (die Architektur ist unten gezeigt) extrahiert bei 44,1 kHz abgetastetes Mehrkanal-Audio die Phasen- und Spektrumgröße unter Verwendung einer Kurzzeit-Fourier-Transformation und extrahiert sie als separate Eingangsmerkmale. Dann werden Faltungsblöcke und wiederkehrende Blöcke (bidirektionale GRUs) verbunden, und dann folgt ein vollständig verbundener Block. Beim Beenden von SELDnet können Sie Audioereignisse und die Richtung, aus der das Audio stammt, erkennen.







Und um die bestehende Lösung zu übertreffen, haben die Autoren SELD-TCN eingeführt:







Da erweiterte Faltungen es dem Netzwerk ermöglichen, unterschiedliche Eingaben zu verarbeiten, ist möglicherweise ein tieferes Netzwerk erforderlich (das durch instabile Gradienten während der Fehlerrückübertragung beeinflusst wird). Die Autoren der Studie konnten dieses Problem durch Anpassung der WaveNet-Architektur lösen (Dario et al., 2017). Sie zeigten, dass für SELD-Aufgaben keine wiederkehrenden Ebenen erforderlich sind, und sie konnten die Start- und Endzeiten aktiver Klangereignisse bestimmen.



Probabilistische Prognose



Ein neues Framework, das von Chen et al. (2020) entwickelt wurde, kann angewendet werden, um die Wahrscheinlichkeitsdichte abzuschätzen. Die Vorhersage von Zeitreihen verbessert viele Geschäftsentscheidungsszenarien (z. B. Ressourcenmanagement). Mit probabilistischen Prognosen können Sie Informationen aus historischen Daten extrahieren und die Unsicherheit zukünftiger Ereignisse minimieren. Wenn die Prognoseaufgabe darin besteht, Millionen verwandter Zeitreihen vorherzusagen (wie im Einzelhandelsgeschäft), sind für die Schätzung der Parameter unerschwingliche Arbeits- und Rechenressourcen erforderlich. Um diese Schwierigkeiten zu lösen, schlugen die Autoren ein CNN-basiertes Dichteschätzungs- und Prognosesystem vor. Ihre Struktur kann die versteckte Korrelation zwischen den Reihen lernen. Die wissenschaftliche Neuheit in ihrer Arbeit liegt in ihrem vorgeschlagenen tiefen TCN, das in ihrer Architektur vertreten ist:







Die Implementierung von Encoder-Decoder-Modulen kann bei der Entwicklung von Großanwendungen hilfreich sein.



Fazit



In diesem Artikel haben wir die neuesten Arbeiten zu zeitlichen Faltungsnetzwerken besprochen, die auf die eine oder andere Weise den klassischen CNN- und RNN-Ansätzen zur Lösung von Zeitreihenproblemen überlegen sind.



Quellen



  • Lea, Colin et al. "Zeitliche Faltungsnetzwerke: Ein einheitlicher Ansatz für die Aktionssegmentierung." Europäische Konferenz über Computer Vision. Springer, Cham, 2016.
  • Lea, Colin et al. "Zeitliche Faltungsnetzwerke zur Segmentierung und Erkennung von Aktionen." Tagungsband der IEEE-Konferenz zu Computer Vision und Mustererkennung. 2017.
  • Yan, Jining et al. "Zeitliche Faltungsnetzwerke für die Voraussage von enSo." Wissenschaftliche Berichte 10.1 (2020): 1-15.
  • Li, Yaguang, et al. “Diffusion convolutional recurrent neural network: Data-driven traffic forecasting.” arXiv preprint arXiv:1707.01926 (2017).
  • Rethage, Dario, Jordi Pons, and Xavier Serra. “A wavenet for speech denoising.” 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.
  • Chen, Yitian, et al. “Probabilistic forecasting with temporal convolutional neural network.” Neurocomputing (2020).
  • Guirguis, Karim, et al. “SELD-TCN: Sound Event Localization & Detection via Temporal Convolutional Networks.” arXiv preprint arXiv:2003.01609 (2020).








:






All Articles