Neurodigest: Highlights des maschinellen Lernens Februar 2021



Wie Sie wissen, nehmen wir immer die interessantesten Veröffentlichungen zum Thema maschinelles Lernen in die Sammlung auf, und Projekte mit nicht leeren Repositories haben Vorrang. Der Februar hat mich mit einer Reihe von Dienstleistungen in dieser Hinsicht zufrieden gestellt. Beginnen wir also mit ihnen. Gehen:





Papiere mit Datensätzen und Bibliotheken



Es gibt eine solche Ressource Papers with Code, deren Aufgabe direkt dem Namen entspricht - Veröffentlichungen aus dem Bereich des maschinellen Lernens, die Code enthalten, zusammenzufassen und die Möglichkeit zu geben, ihre eigene Implementierung anzubieten.



Diesen Monat haben sie den Abschnitt Verfügbare Datensätze gestartet , in dem bereits über 3.000 Forschungsdatensätze indiziert wurden. Im Katalog können Sie nach Datensätzen nach Häufigkeit der Erwähnungen, Umfang, Datentyp und unterstützter Sprache suchen.



Sie haben auch die Möglichkeit hinzugefügt , nach vorab trainierten Bildklassifizierungsmodellen zu suchen, die an Ihren eigenen Datensätzen angepasst werden können. Im Moment gibt es bereits mehr als 300 davon, und der Katalog wird weiter wachsen.



Google-Modellsuche



Zugänglichkeit: Projektseite , Repository



Der Erfolg eines neuronalen Netzwerks hängt häufig davon ab, wie weit es auf verschiedene Aufgaben angewendet werden kann. Beim Erstellen eines Modells müssen Sie eine Reihe komplexer Architekturentscheidungen treffen - wie tief das neuronale Netzwerk sein sollte, welche Arten von Ebenen darin verwendet werden sollen usw.



Google hat eine Plattform vorgestellt, mit der Sie die richtige Architektur für Ihr Dataset und Ihre Aufgabe finden können. Dies reduziert die Konfigurations- und Codierungszeit und erfordert weniger Rechenressourcen.



Mit der Bibliothek können Sie sofort einsatzbereite Algorithmen für Ihre Daten ausführen - unabhängig vom Themenbereich automatisch die optimale Architektur auswählen, Modellensembles oder destillierte Modelle korrigieren.



ZenML



Barrierefreiheit: MLOps-Framework für Projektstandorte / Repository



, das die Übertragung von Pipelines von Laptops in Produktionsumgebungen vereinfacht. Garantierte Reproduzierbarkeit von Trainingsexperimenten durch Versionierung von Daten, Code und Modellen. Die Plattform ermöglicht Ihnen auch den schnellen Wechsel zwischen lokalen und Cloud-Umgebungen, bietet vorgefertigte Hilfsprogramme zum Vergleichen und Visualisieren von Parametern und Ergebnissen, das Zwischenspeichern von Pipeline-Zuständen für schnelle Iterationen und vieles mehr.



TensorFlow 3D



Zugänglichkeit: Artikel / Repository



Mit der zunehmenden Verbreitung von Geräten, die 3D-Daten erfassen, wie z. B. Lidars und Tiefenkameras, hat der Bedarf an Technologie zur Verarbeitung dieser Daten und zum Verständnis der 3D-Szene zugenommen. Dies ist notwendig, um in der realen Welt selbstfahrender Autos und Roboter zu navigieren und zu arbeiten sowie um AR-Technologien zu verbessern.



Google hat eine modulare Bibliothek für die Anwendung von Deep Learning auf 3D-Daten in TensorFlow vorgestellt. Es enthält Trainings- und Bewertungs-Pipelines für die semantische 3D-Segmentierung, Szenenklassifizierung, 3D-Objekterkennung und mehr.



MeInGame





Verfügbarkeit: Artikel / Repository



In Computerspielen gibt es häufig einen Charaktereditor, mit dem Sie das Erscheinungsbild des Players mithilfe der Einstellungen verschiedener Parameter ändern können. Mit dem MeInGame-Algorithmus können Sie mit nur einem Foto ein benutzerdefiniertes Zeichen erstellen. Das neuronale Netzwerk sagt die Form des Gesichts und seine Textur voraus. Obwohl Methoden, die auf dem 3D Morphable Face Model (3DMM) basieren, aus einzelnen Bildern ein 3D-Porträt erzeugen können, unterscheidet sich die Maschentopologie normalerweise von der in den meisten Spielen verwendeten. Die Autoren dieses Algorithmus behaupten, dieses Problem gelöst zu haben.



SAM





Zugänglichkeit: Artikel / Aufbewahrungsort Die



Simulation des Alterns anhand eines einzelnen Fotos eines Gesichts ist äußerst schwierig, da Änderungen bestimmter Gesichtsmerkmale und sogar der Kopfform simuliert werden müssen, während die Identität der Person erhalten bleibt.



Intern wird ein StyleGAN verwendet, aber hier verwenden die Forscher auch ein vorab trainiertes Altersregressionsnetzwerk, mit dem der Encoder versteckte Codes generiert, die dem Zielalter entsprechen. Das Verfahren behandelt den kontinuierlichen Alterungsprozess als ein Regressionsproblem zwischen dem Eingabealter und dem Zielalter und bietet eine präzise Kontrolle über das erzeugte Bild. Mit dem Modell können Sie die generierten Bilder bearbeiten.



MODE





Verfügbarkeit: Projektseite / interaktive Demo



Neuer StyleGAN-Anwendungsfall für die virtuelle Anpassung von Kleidung. Der Algorithmus überträgt Kleidung von einem Foto einer Person auf ein Foto einer Person, das dem Eingang vorgelegt wird. Die Methode basiert auf der Interpolation des verborgenen Raums unter Berücksichtigung der Pose von StyleGAN2, die mit der Körperform, den Haaren und der Hautfarbe der Zielperson zusammenarbeitet. Der Algorithmus ermöglicht es dem Kleidungsstück, sich entsprechend einer bestimmten Körperform zu verformen, während das Muster und die Details des Materials beibehalten werden. Die Ausgabe sind fotorealistische Bilder mit einer anständigen Auflösung von 512 x 512.



NeRViS





Barrierefreiheit: Projektseite / Repository



Bestehende Videostabilisierungstechniken schneiden entweder die Rahmengrenzen stark aus oder verursachen Artefakte und Verzerrungen. Dieser Algorithmus

schätzt vorläufig dichte Verformungsfelder und verwendet benachbarte Rahmen, um einen vollständigen stabilisierten Rahmen zu synthetisieren. Die Neuheit des Ansatzes ist die lernbasierte hybride räumliche Synthese, die Artefakte entfernt, die durch ungenauen optischen Fluss und sich schnell bewegende Objekte verursacht werden.



Stabile Ansichtssynthese



Verfügbarkeit: Artikel / Repository



Basierend auf einer Reihe von Fotos, die eine Szene aus frei verteilten Blickwinkeln darstellen, synthetisiert der Algorithmus neue Ansichten der Szene. Die Methode arbeitet mit geometrischen Gerüsten, die auf der Grundlage der SfM-Photogrammetrie berechnet werden. Die Zielansicht wird durch ein Faltungsnetzwerk aus dem Tensor von Eigenschaften gerendert, die für alle Pixel synthetisiert wurden.



Der Artikel wurde bereits im November letzten Jahres veröffentlicht, aber der Code wurde erst jetzt verfügbar.



JigsawGan



Zugänglichkeit: Artikel



Generatives selbstüberwachtes neuronales Netzwerk, das zum Lösen von Rätseln ausgebildet wurde. Als Eingabe akzeptiert das Modell zufällig angeordnete Teile des Bildes und stellt ohne Eingabeaufforderung das Originalbild wieder her, dh das Modell weiß nicht, was das Bild ursprünglich war.



CharacterGAN





Verfügbarkeit: Artikel / Repository Ein



generatives neuronales Netzwerk, das auf nur wenigen Bildern eines Charakters in verschiedenen Posen trainiert werden kann, um basierend auf der Position der Schlüsselpunkte neue Posen zu generieren. Auf diese Weise können Sie statische Bilder animieren. Die Neuheit des Ansatzes besteht darin, dass das Bild in Ebenen unterteilt ist, von denen jede separat verarbeitet wird. Dies löst das Problem von Hindernissen, wenn ein Fremdkörper in den Vordergrund tritt. Der Einfachheit halber wurde eine grafische Benutzeroberfläche hinzugefügt, mit der Sie Posen manuell nach wichtigen Punkten anpassen können.



Diskrete VAE



Barrierefreiheit: Das Repository



In der letzten Ausgabe haben wir über das erstaunliche DALL-E gesprochen. Ende Februar erstellte OpenAI ein Repository mit dem Namen des Modells, das Modell selbst wurde jedoch noch nicht veröffentlicht - nur in einem Teil des Modells, nämlich dem PyTorch-Paket für diskrete VAE. Dies ist ein Variations-Autoencoder, der in unserem Fall Bilder aus Textbeschreibungen generiert.



Tiefe Nostalgie



Verfügbarkeit: Online-Service



Und schließlich ist es immer schön, wenn ein einfaches und verständliches Produkt anhand von Modellen hergestellt wird. Das Unternehmen MyHeritage, das sich mit Fragen der Genealogie und der Stammbäume befasst, hat offenbar den Algorithmus des Modells erster Ordnung übernommen, eine praktische Benutzeroberfläche aufgeschraubt und auf seiner Grundlage einen Dienst zum „Animieren“ von Fotos bereitgestellt.



Das Ergebnis sind Tonnen von generierten benutzerdefinierten Inhalten und eine enorme Reichweite für Viren. Sie sagen auch, dass das KI-Geschäft nutzlos ist.



Das ist alles, danke für Ihre Aufmerksamkeit und wir sehen uns in einem Monat!



All Articles