Wir werden unsere Auswahl im September mit einer Fallstudie beginnen. Diesmal ist er nur einer, aber was für ein!
Wir werden die Möglichkeiten von GPT-3 immer wieder bewundern und über die Anwendungsbereiche sprechen, aber viele sehen gleichzeitig im Algorithmus eine Bedrohung für ihren Beruf.
Und VMO, das sich mit A / B-Tests beschäftigt, hat beschlossen, einen Wettbewerb abzuhalten - professionelle Texter gegen GPT-3 .
Sie haben den Algorithmus in ihren visuellen Editor integriert, sodass Benutzer zwischen generierten und verfassten Texten wählen können. Bisher können Sie mit dem Service nur Titel, Produkt- und Servicebeschreibungen sowie Handlungsaufforderungen generieren.
Warum ist das so interessant?Tatsache ist, dass im Produktmanagement und Marketing viele Ressourcen für das Testen von Hypothesen aufgewendet werden. Welche Überschrift das Engagement am besten erhöht oder welche Farbe und Form die Schaltfläche haben sollte, damit der Kunde die gezielte Aktion ausführen kann. Die Antworten auf diese Fragen ermöglichen den Erfolg von Produkten.
Das Ergebnis dieser speziellen Konfrontation wird noch nichts lösen, aber stellen Sie sich vor, der Algorithmus könnte nicht nur Texte generieren, sondern auch das Benutzerverhalten verfolgen und die Benutzeroberfläche ändern. Denken Sie jetzt daran, dass GPT-3 Satzkomponenten setzen und erstellen kann. Deshalb ist es sehr interessant, diesem Experiment zu folgen. Zum Zeitpunkt dieses Schreibens liegt GPT-3 mit einem kleinen Vorsprung an der Spitze. Mal sehen, wie alles endet.
Und nun zu den restlichen Funden des letzten Monats:
Wav2Lip
Das Modell generiert Lippenbewegungen für Sprache und synchronisiert so die Audio- und Videostreams. Es kann für Online-Sendungen, Pressekonferenzen und das Überspielen von Filmen verwendet werden. Auf der Demo können Sie sehen, wie sich Tony Starks Lippen an das Überspielen in verschiedenen Sprachen anpassen. Wenn sich die Verbindung während Skype-Anrufen verschlechtert, kann das Modell Frames generieren, die aufgrund eines Signalfehlers verloren gegangen sind, und diese basierend auf dem Audiostream zeichnen. Die Ersteller schlagen außerdem vor, die Lippen von Meme-Charakteren zu animieren, um den Inhalt persönlicher zu gestalten. Wie digitale Lautsprecher kann dieses Modell die Bewegung der Lippen an die aus dem Text erzeugte Sprache anpassen.
Es ist bemerkenswert, dass die Autoren im Mai das Lip2Wav- Modell veröffentlicht habenwas im Gegenteil "Lippen liest" und Text und Ton erzeugt. Ein Faltungs-Neuronales Netzwerk extrahiert visuelle Eigenschaften, wonach ein Sprachdecoder ein darauf basierendes Kreidespektrogramm erzeugt und eine Stimme unter Verwendung eines Vocoders synthetisiert wird.
Flow-Edge Guided Video Completion
Neuer Video-Erweiterungsalgorithmus, der Wasserzeichen und ganze sich bewegende Objekte entfernt und das Sichtfeld des Videos unter Berücksichtigung der Bildbewegung erweitert. Wie bei anderen ähnlichen Algorithmen werden zuerst die Kanten von sich bewegenden Objekten erkannt und wiederhergestellt. In diesem Fall sehen gezeichnete Ränder in der Szene nicht natürlich aus. Die Besonderheit des Verfahrens besteht darin, dass es fünf Arten von nicht lokal benachbarten Pixeln verfolgt, dh sich auf verschiedenen Frames befindet, dann bestimmt, welchen von ihnen vertraut werden kann, und diese Daten verwendet, um die fehlenden Bereiche wiederherzustellen. Das Ergebnis ist ein flüssigeres Video. Der Quellcode ist bereits verfügbar und die Zusammenarbeit wird in Kürze hinzugefügt.
X-Felder
Das neuronale Netzwerk wurde auf einer Reihe von Bildern einer Szene mit markierten Koordinaten des Betrachtungswinkels, der Zeitstempel und der Beleuchtungsparameter trainiert. So lernte sie, diese Parameter zu interpolieren und Zwischenbilder anzuzeigen. Das heißt, nachdem das Modell mehrere Bilder mit einem allmählich schmelzenden Eiswürfel oder einem leeren Glas am Eingang erhalten hat, kann es in Echtzeit Bilder erzeugen, die alle möglichen Kombinationen von Parametern berücksichtigen. Um es einfacher zu verstehen , worum es geht, empfehlen wir Ihnen, nur die sehen Demo - Video . Der Quellcode wird voraussichtlich bald veröffentlicht.
Generative Bildinpainting
Ein weiteres Tool zum Entfernen von Objekten aus Fotos basierend auf einem generativen neuronalen Netzwerk. Diesmal ist es ein vollwertiges Open Source Framework undöffentliche API . Es funktioniert sehr einfach - laden Sie das Bild und zeichnen Sie die Maske des Objekts, das Sie entfernen möchten, und - fertig, keine zusätzliche Nachbearbeitung. Das Projekt wird auf einem Webserver bereitgestellt , sodass Sie es problemlos direkt im Browser testen können. Es gibt natürlich Artefakte, aber es kommt gut mit einfachen Bildern zurecht.
Manipulation von
Porträtschatten Porträtfotos leiden häufig unter unsachgemäßer Beleuchtung. Die Position und Weichheit von Schatten und die Verteilung von Licht sind Umgebungsbedingungen, die die ästhetische Qualität des Bildes beeinflussen. Fotoeditor nicht mehr erforderlich, um unerwünschte Schattierungen zu entfernen - Berkeley-Forscher enthüllen Open-Source- AlgorithmusDadurch werden Schattierungen auf dem Foto realistisch entfernt und Sie können die Beleuchtung steuern.
PSFR-GAN
Eine ebenso häufige Aufgabe bei der Arbeit mit Fotos ist deren Wiederherstellung und Qualitätsverbesserung. Dieses Open-Source-Tool kann Porträtaufnahmen ziemlich gut hochskalieren.
FrankMocap In
diesem Monat wurden mehrere interessante 3D-Modellierungswerkzeuge veröffentlicht. Jeder, der mit 3D gearbeitet hat, weiß, dass Sie zur Erstellung hochwertiger Modelle verschiedene teure Fotoausrüstung und die Fähigkeit benötigen, komplexe Software zu verwenden. Algorithmen für maschinelles Lernen werden jedoch aktiv eingesetzt, um es Künstlern auf diesem Gebiet zu erleichtern.
Facebook AI führte ein System zur Erstellung von 3D-Modellen von Händen und Körper ein, das auf der Analyse von monokularen Videos basiert. Die Bewegungserfassung funktioniert nahezu in Echtzeit (9,5 Bilder pro Sekunde) und erstellt 3D-Bilder von Körper und Händen in Form eines einheitlichen parametrischen Modells. Im Gegensatz zu anderen bestehenden Ansätzen können Sie hier gleichzeitig sowohl Handgesten als auch Bewegungen des gesamten Körpers erfassen. Der Quellcode ist bereits verfügbar.
3DDFA
Ein weiteres Tool, das ebenfalls in diesem Monat veröffentlicht wurde, kann das Gesicht einer Person aus dem Video markieren, um eine 3D-Maske zu erstellen.
PSOHA
Eine weitere Technologie von Facebook AI, die ebenfalls den Prozess der 3D-Modellierung vereinfachen soll: Das neuronale Netzwerk extrahiert viele Verbindungen zwischen der Person im Bild und anderen Objekten und generiert dreidimensionale Modelle. Auf der Grundlage von nur einem Foto, das eine Person mit einem Alltagsgegenstand darstellt, wird ein 3D-Modell erstellt. Der Algorithmus bestimmt die Formen von Personen und Objekten sowie deren räumliche Lage unter natürlichen Bedingungen in einer unkontrollierten Umgebung. Die Entwickler versprechen, den Quellcode bald zu veröffentlichen, daher bleibt es vorerst zu glauben, dass die Beispiele aus der Demo, die, seien wir nicht gerissen, beeindruckend sind.
Monster Brei
Mit dem neuen Framework können Sie 3D-Objekte mit nur einer Skizze erstellen und animieren. Dies vereinfacht das Animieren von Objekten erheblich, da Sie nicht mit Keyframes, Multi-Angle-Mesh- und Skelettanimationen arbeiten müssen. Das Modell erstellt ein dreidimensionales Modell, das sofort bereit ist, Animationen ohne lange vorläufige Einstellung verschiedener Parameter zu erstellen, die beispielsweise nicht zulassen, dass Objekte sich gegenseitig passieren.
ShapeAssembly
Der Algorithmus erstellt dreidimensionale Möbelmodelle aus rechteckigen Parallelepipeds. Der ShapeAssembly-Ansatz nutzt die Stärken prozeduraler und tief generativer Modelle: Ersteres erfasst eine Teilmenge der Formvariabilität, die interpretiert und bearbeitet werden kann, und letzteres erfasst Variabilität und Korrelationen zwischen Formen, die prozedural schwer auszudrücken sind. Das Netzwerk scherzt bereits, dass der nächste Schritt darin besteht, den Embedder anhand von IKEA-Anweisungen zu trainieren.
Damit ist das Thema mit der 3D-Modellierung abgeschlossen - für diesen Bereich erwies sich der Monat als besonders intensiv. Vielen Dank für Ihre Aufmerksamkeit!