👨🏿‍🤝‍👨🏼 🦁 ☝️ Wie KI-Systeme die Tontechnik vereinfachen sollen 🚃 👩🏻‍🍳 🕜

Dieses Wochenende haben wir beschlossen, über die Entwicklungen zweier amerikanischer Universitäten zu sprechen, die dazu beitragen, eine hinreichend glaubwürdige Tonskala für stille Videos zu erstellen.

^{Foto frei zu verwenden Sounds / Unsplash}

Die schwierige Aufgabe des Krachmachers

Töne für Filme und Fernsehsendungen - zum Beispiel das Rascheln des Regens - sind zum Zeitpunkt der Aufnahme eines bestimmten Fragments nur sehr schwer direkt am Set richtig aufzunehmen. Es wird viel Fremdgeräusch geben, Konflikte mit den Stimmen der Schauspieler und anderer Geräte sind möglich. Aus diesem Grund werden fast alle Sounds separat aufgenommen und während der Bearbeitung gemischt. Die Geräuschemacher machen das .

Wenn ein Film den Ton eines zerbrochenen Fensters reproduzieren muss, gehen die Sounddesigner ins Studio und beginnen unter kontrollierten akustischen Bedingungen mit dem Zerbrechen von Glas. Die Aufnahme wird durchgeführt, bis der Ton mit dem übereinstimmt, was auf dem Bildschirm geschieht. In besonders schwierigen Fällen kann dies Dutzende von Iterationen erfordern, was die Kosten für das Filmemachen kompliziert und erhöht.

Ingenieure der University of Texas schlugen vorAlternative Möglichkeit. Sie entwickelten ein KI-System, das erkennt, was im Rahmen passiert, und automatisch eine Skala vorschlägt.

Wie es funktioniert

Die Ingenieure beschrieben, wie das System bei ihrer Arbeit für das IEEE ( PDF ) funktioniert . Sie entwarfen zwei Modelle für maschinelles Lernen. Der erste extrahiert Merkmale von Bildern aus dem Filmmaterial - zum Beispiel Farbe. Das zweite Modell analysiert die Bewegung eines Objekts in verschiedenen Frames und bestimmt seine Art, um den geeigneten Klang auszuwählen.

Für die Bildung der akustischen Serie haben die Ingenieure entwickelt das AutoFoley Programm. Es erzeugt einen neuen Klang, der auf Tausenden von kurzen Audio-Samples basiert - mit dem Klang von Regen, dem Ticken einer Uhr, einem galoppierenden Pferd. Das Ergebnis der Arbeit ist ziemlich überzeugend:

Leider weist das System bislang eine Reihe schwerwiegender Einschränkungen auf. Es eignet sich für die Verarbeitung von Aufnahmen, bei denen der Ton nicht perfekt zum Video passen muss. Andernfalls macht sich die Desynchronisation bemerkbar - wie in diesem Video . Außerdem muss das Objekt ständig im Rahmen vorhanden sein, damit das MO-Modell es erkennen kann. Jetzt sind die Entwickler mit der Patentregistrierung beschäftigt, aber dann planen sie, die Fehler zu beheben.

Wer ist noch an solchen Projekten beteiligt?

Im Jahr 2016 Experten aus MIT und Stanford eingeführt Maschinenmodell Lernen fähig ist stille Video äußern. Es sagt Schall basierend auf einer Eigenschaft eines Objekts im Rahmen voraus - zum Beispiel seinem Material. Als Experiment haben Ingenieure ein Video in das System hochgeladen, in dem eine Person einen Trommelstock auf verschiedenen Oberflächen schlägt: Metall, Erde, Gras und andere.

Die Entwickler bewerteten die Wirksamkeit des Algorithmus anhand einer Online-Umfrage. Am realistischsten waren die Geräusche von Blättern und Schmutz (sie wurden von 62% der Befragten als echt bezeichnet) und am wenigsten Holz und Metall. Metal klang nur 18% der Zeit natürlich.

Dieses System muss ebenfalls verbessert werden. Es erzeugt Geräusche, die auftreten, wenn Objekte kollidieren, aber das akustische Array für Windgeräusche nicht neu erstellen können. Außerdem schlägt der Algorithmus fehl, wenn sich Objekte zu schnell bewegen. Trotz dieser Tatsache haben solche Lösungen das Potenzial - sie können die Arbeit der Geräuschemacher vereinfachen und die Filmindustrie verändern.

« Hi-Fi»:

«, , »: ,

, :

«»:

Wie KI-Systeme die Tontechnik vereinfachen sollen

Die schwierige Aufgabe des Krachmachers

Wie es funktioniert

Wer ist noch an solchen Projekten beteiligt?

More articles: