👦 👁‍🗨 🦁 Eine Auswahl von Artikeln zum maschinellen Lernen: Fälle, Leitfäden und Forschungsergebnisse für Dezember 2020 🎧 🏟️ 👰🏿

Der letzte Monat des Jahres kann nicht als guter Moment für groß angelegte Ankündigungen bezeichnet werden, da die meisten in den Modus „Lass uns nach den Ferien gehen“ wechseln, aber nach dieser umfangreichen Sammlung im Bereich des maschinellen Lernens war die Arbeit im Dezember in vollem Gange. Bitte beachten Sie daher mit einer leichten Verzögerung die zwölfte Ausgabe der Übersicht, in der wir Sie über das Wichtigste informieren, was Ende 2020 in ML passiert ist.

MuZero

DeepMind veröffentlichte unerwartet einen Artikel über MuZero , einen Algorithmus, der sowohl beliebte Logikbrettspiele wie Schach, Shogi und Go als auch Atari-Videospiele wie Pac-Man spielen kann.

MuZero versucht, nicht die gesamte Umgebung zu modellieren, sondern nur bestimmte Aspekte, die für den strategischen Entscheidungsprozess des Agenten wichtig sind. Der Algorithmus sammelt ständig Informationen über den aktuellen und vorherigen Status des Spiels und untersucht so Verbote und Belohnungen. So versteht das Modell beispielsweise, dass das Ziel des Spiels im Schach darin besteht, Schachmatt zu setzen, und im Pakman darin, den gelben Punkt zu essen.

Es gibt noch einen weiteren wichtigen Vorteil: MuZero verwendet das erlernte Modell erneut, um die Planung zu verbessern, anstatt neue Daten über die Umgebung zu sammeln. Beispielsweise verwendete der Algorithmus in Atari-Spielen mit einer sich komplex ändernden Umgebung in 90% der Fälle das erlernte Modell, um neu zu planen, was in früheren Spielsitzungen hätte getan werden sollen.

Warum ist es wichtig? Im Wesentlichen ist MuZero ein Allzweckmodell, mit dem komplexe Probleme der realen Welt gelöst werden können, die sich nur schwer auf einfache Regeln reduzieren lassen. DeepMind bietet eine solche Analogie: Der neue Ansatz ähnelt der Entscheidung einer Person bei bewölktem Wetter, einen Regenschirm zu nehmen, um trocken zu bleiben, während frühere Ansätze versuchen würden, die Reihenfolge zu modellieren, in der die Regentropfen fallen würden.

Unendliche Natur

Jeder hat mindestens einmal ein spektakuläres Drohnenmaterial gesehen, das entlang der malerischen Küste flog. Ein Algorithmus, der auf ähnlichen Videos von YouTube trainiert wurde, synthetisiert Videos aus einem statischen Bild.

Die Aufgabe ist sehr schwierig, da neue Bilder generiert werden müssen, die sich stark von den Eingabedaten unterscheiden können. Das Foto enthält häufig Bäume und Felsen, die die dahinter liegenden Landschaftsfragmente verdecken.

Die Neuheit des Ansatzes besteht darin, dass Bilder unter Berücksichtigung der Geometrie der Szene synthetisiert werden können, die große Entfernungen über Hunderte von Bildern zurücklegt. Der Datensatz ist bereits verfügbar , aber der Quellcode muss warten.

Zeitreise-Rephotographie

Ein neuronales Netzwerk zur Wiederherstellung und Färbung alter Fotos, das an DeOldify erinnert. Im Gegensatz zu herkömmlichen Bildwiederherstellungsfiltern, die unabhängige Vorgänge wie Rauschunterdrückung, Malen und Hochskalieren anwenden, wird StyleGAN2 hier verwendet, um ein Gesicht nahe am Original zu synthetisieren. Die Ausgabe sind Porträtfotos in Farbe und hoher Auflösung. Der Code wird auch versprochen werden später ausgerollt.

pi-GAN

Ein weiteres GAN-Modell , das aus mehreren nicht zugewiesenen 2D-Bildern eine 3D-Darstellung eines Objekts generiert. Die Demo zeigt, wie das Modell zum Drehen des Kopfes verwendet werden kann, ähnlich wie es Nvidia zuvor in Maxine demonstriert hat.

Strömungsfelder für neuronale Szenen

Eine neue NeRf-Methode , die aus einem mit einer herkömmlichen Kamera aufgenommenen Video eine dynamische Szenendarstellung erstellt . Dies ermöglicht es beispielsweise, den Rahmen einzufrieren und die Kamera zu bewegen oder umgekehrt, um die Kamera zu reparieren, aber als würde die Zeit zurückgespult. Der Algorithmus zeichnet eine Umgebung mit einer komplexen Struktur, beispielsweise mit dünnen Objekten wie Gittern und sich bewegenden Objekten wie Seifenblasen.

YolactEdge

Die erste sofortige Bildsegmentierungsmethode, die auf schwachen Geräten in Echtzeit funktioniert. Der Quellcode ist bereits verfügbar .

ModNet

Eine Technologie, mit der Sie nicht nur den Hintergrund qualitativ von Porträts entfernen, sondern auch den Hintergrund durch Video ersetzen können. In der Tat kann dies ein guter Ersatz für einen Chroma-Key sein. Im Gegensatz zur kostenpflichtigen remove.bg gibt es auch einen Quellcode , eine Zusammenarbeit und sogar eine Webanwendung mit einer einfachen Oberfläche, in der Sie nur die Arbeit mit Fotos testen können.

Svoice

Facebook hat endlich den Quellcode eines Algorithmus veröffentlicht, der die Stimmen mehrerer sprechender Personen auf Audioaufnahmen erkennt.

Hypersim

Apple hat einen Datensatz mit Segmentierungsmasken für gefälschte Szenen veröffentlicht. Fast zwei Terabyte hochauflösender Raumrender. Die Kennzeichnung der Daten erfolgt hier auf der Ebene einzelner Pixel.

Kunstrichtung

Ein offenes Modell , das ein fotografisches Porträt in eine Bleistiftskizze verwandelt. Bisher kommt es mit Texturen von Kleidung und Schatten nicht gut zurecht, aber insgesamt liefert es anständige Ergebnisse. Es basiert auf der DeOldify-Architektur, die eine gute Gesichtserkennung ermöglicht.

Das war alles, der Dezember war so überraschend intensiv. Auch der Jahresbeginn verspricht interessant zu werden. Wir können es kaum erwarten zu sehen, was im Januar auf der Basis von Dall-E von OpenAI kommt. Wie sie sagen, bleiben Sie dran!

Eine Auswahl von Artikeln zum maschinellen Lernen: Fälle, Leitfäden und Forschungsergebnisse für Dezember 2020