👩🏿‍💼 🆑 🤣 Synthetische Daten: Verbesserung der Wahrnehmungsalgorithmen und Optimierung der Suche nach Grenzen 🧕🏿 👃🏽 💆🏽

Um alle in der realen Welt auftretenden Randfälle abzudecken, benötigen kritische Erfassungssysteme große Datenmengen. Einer der gängigen Ansätze zum Trainieren von Algorithmen für selbstfahrende Autos ist die Auswahl und Kennzeichnung realer Fahrdaten. Auf der CVPR 2020 sagte Andrey Karpaty, dass Tesla auch diesen Ansatz verwendet - ihre Autos passen Objekt-Tags online an. „Variation und Kontrolle“ ist sehr wichtig, da die Ingenieure die Ontologie und Methodik für die Kennzeichnung von Daten ständig anpassen, da selbstfahrende Autos ständig mit neuen Szenarien konfrontiert sind, die analysiert werden müssen.

Dieser datengesteuerte Ansatz weist jedoch aufgrund der Skalierbarkeit, der Datenerfassungskosten und des Aufwands für die genaue Kennzeichnung von Datensätzen verschiedene Einschränkungen auf. In diesem Text wird das Applied-Team einen Ansatz für synthetische markierte Daten diskutieren. Dieser Ansatz macht das Lernen und Entwickeln kritischer Algorithmen für unbemannte Fahrzeuge schneller und kostengünstiger.

Bild

Ein Beispiel für synthetische Daten für Bilder von Kameras mit Referenzmarkierungen. Original-RGB-Bild (oben links), 2D-Frames (oben rechts), semantisches Markup (unten links) und 3D-Frames (unten rechts).

Moderner Ansatz für Datenmarkierungen und damit verbundene Probleme

Abbildung 2 zeigt einen typischen Ansatz zum Erstellen von mit Tags versehenen Datasets. Dies ist ein sehr zeitaufwändiger Prozess. Testfahrer fahren Fahrzeuge mit mehreren Sensoren im manuellen oder unbemannten Modus. Während dieser Fahrten zeichnet eine im Auto eingebettete spezielle Software rohe Sensordaten und Programmausgaben von Erfassungs-, Steuerungs- und Planungsmodulen auf. Im Entwicklungsprozess kann es erforderlich sein, spezielle Fahrzeuge zu erstellen, da Serienfahrzeugen möglicherweise die genauen Sensoren fehlen, die für die Datenerfassung erforderlich sind. Nach dem Sammeln der Daten entsteht die komplexe Aufgabe, eine Stichprobe der zu markierenden Daten zu bilden. Dies erfordert eine sorgfältige Auswahl spezifischer und interessanter Ereignisse, wonach Datensätze an Unternehmen gesendet werden.Markup (es ist ratsam, die Größe des Datensatzes zu minimieren, um das Markup zu speichern). Manchmal umfasst dies auch die Suche nach bestimmten Randfällen in den Protokollen (wie ein Paket, das auf der Autobahn fliegt). Außerdem kann eine erneute Erfassung und Kennzeichnung erforderlich sein, wenn die Konfiguration eines der Sensoren aktualisiert wird.

Bild

2:

Während Markup die einzige Möglichkeit ist, die Rohdaten vorzubereiten, die zum Trainieren autonomer Fahralgorithmen erforderlich sind, besteht der Hauptnachteil dieses Ansatzes in der Investition, die erforderlich ist, um eine ausreichende Skalierung vorzunehmen. Testfahrer müssen möglicherweise Hunderte oder Tausende von Kilometern zurücklegen, um einen Randfall zu erkennen. Tesla verfügt beispielsweise über eine Flotte von mehr als einer Million Serienautos, die riesige Datenmengen sammeln: Stoppschilder in verschiedenen Sprachen, an verschiedenen Standorten, Datenvalidierung und mehr - alles im Auftrag des Unternehmens. Die meisten OEMs verfügen nicht über genügend Fahrzeuge, um solche Datensätze zu erfassen. Selbst wenn große Mengen an Fahrdaten verfügbar waren, gibt es keine Garantie.dass diese Daten in Datensätzen verfügbar wären. In diesem Fall müssen zum Sammeln solcher Daten spezielle Kampagnen durchgeführt werden, die die Entwicklungskosten und den Zeitrahmen erhöhen.

Ein weiterer Aspekt ist die Verfügbarkeit und Verfügbarkeit spezifischer Bedingungen. Zum Zeitpunkt dieses Schreibens herrschen in den USA extreme Wetterbedingungen - der Himmel wird orange (manchmal sogar rot) (Abb. 3). Wenn sich in einem Gebiet mit solchen Bedingungen keine Fahrzeuge befinden, wird es Jahre dauern, solche Daten zu sammeln - bis sich die extremen Bedingungen wiederholen. Andernfalls kommt es zu Verzerrungen im Datensatz, da keine Beispiele für solche Bedingungen bereitgestellt werden.

Bild

Abbildung 3: Extreme Bedingungen sind in selbstfahrenden Fahrzeugdatensätzen schwer vorherzusagen und zu erfassen. Quelle: CBS News.

Darüber hinaus suchen selbstfahrende Fahrzeugentwickler immer nach neuen Designs, und für eine effiziente Datenverarbeitung ist eine erhebliche Infrastruktur erforderlich. Bei vielen Abfragen zu diesen Daten wird davon ausgegangen, dass die Daten bereits Tags oder Markups enthalten. Das Problem ist, dass diese Methode möglicherweise nicht vorhanden ist, wenn sie zuvor noch nicht verwendet wurde. Schließlich sind die Kosten für die Datenkennzeichnung recht hoch und Daten werden häufig manuell gekennzeichnet. Es besteht eine hohe Wahrscheinlichkeit von Fehlern und Ungenauigkeiten (z. B. wenn ein Auto ein anderes im Bild überlappt).

Verwendung synthetischer Daten und ihrer Vorteile

Synthetische Daten bieten einen alternativen Ansatz, der skalierbarer und genauer ist. Obwohl synthetische Daten aus der Simulation generiert werden, werden zuverlässige Informationen (semantische Fahrzeugetiketten oder Text auf Verkehrszeichen) genau bereitgestellt. Simulationen können auch genaue Daten zu Albedo, Tiefe, Sprungkraft und Rauheit für jedes Objekt in der Szene liefern (Abbildung 4). Darüber hinaus verfügen Objekte über Pixelmasken und semantische Beschriftungen. Auf diese Weise können Sie automatisch Anmerkungen erstellen, ohne die Daten von Sensoren manuell kennzeichnen zu müssen. Möglicherweise ist eine dedizierte reale Extraktionssoftware erforderlich, um einzelne Anmerkungen zu erstellen. Es handelt sich jedoch um eine einmalige Investition, mit der Sie neue Etikettenklassen erstellen und verwenden können.

Bild

4: . : , , , , .

Ein weiterer bemerkenswerter Vorteil des synthetischen Datenmarkups besteht darin, dass Sie viele Variationen derselben Szene erstellen können, ohne um die Welt reisen und sich auf das Glück verlassen zu müssen. Mit synthetischen Daten können Sie sich auch auf bestimmte Objekte konzentrieren, die für Entwickler von Interesse sind. Mit den richtigen Algorithmen können innerhalb weniger Stunden Millionen von Verkehrszeichenvarianten simuliert werden. Diese Optionen können unterschiedliche Lichtverhältnisse, Objektplatzierung, verschiedene Hindernisse und Schäden (Rost, Ölflecken, Graffiti) umfassen. Somit können synthetische Daten Daten aus der realen Welt ergänzen. Zusammengesetzte reale Ereignisse können als Ausgangspunkt verwendet werden, von dem aus Tausende von Variationen der ursprünglichen Szene erstellt werden.

Vielfalt ist auch aus geografischer Sicht wichtig. Um ausländische Verkehrszeichen mit spezifischen Modifikationen zu erfüllen, die in einzelnen Ländern verwendet werden, müssen Testfahrzeuge in diese Länder fahren. Ein Testwagen kann auch Hunderte von Kilometern zurücklegen, um ein bestimmtes Verkehrszeichen zu finden, aber am Ende stellt sich heraus, dass es zur Hälfte von einem Schulbus blockiert wurde. All diese Schwierigkeiten können umgangen werden, indem die erforderlichen Szenen sofort mithilfe synthetischer Datensätze erstellt werden (Abbildung 5). Aufgrund der Tatsache, dass auf der Basis synthetischer Daten eine Vielzahl von Szenarien erstellt werden kann, können Algorithmen an vielen Randfällen getestet werden (Abb. 6).In diesem Beitrag wird beschrieben, wie Kodiak Robotics (das sich mit selbstfahrenden Lastwagen befasst) synthetische Simulationen verwendet, um Algorithmen und Tests zu trainieren. Sie überprüfen, ob ihr Kodiak Driver-System verschiedene Randtestfälle angemessen handhabt.

Bild

Abbildung 5: Beispiele für verschiedene Verkehrszeichen in Europa und den USA

Bild

Abbildung 6: Änderung der Straßenzustände und Markierungen in synthetischen Daten

Ein weiterer wichtiger Anwendungsfall besteht darin, Referenzdatenmuster zu erhalten, die nicht von Sensoren erfasst oder manuell hinzugefügt werden können. Ein typisches Beispiel ist die genaue Tiefenextraktion aus einer Kamera mit einem oder mehreren Objektiven. Daten aus der realen Welt geben nicht Auskunft über die Tiefe jedes einzelnen Pixels, und es ist unmöglich, sie genau zu berechnen oder von Hand zu markieren.

Anforderungen an synthetische Daten

Sensordaten

Damit synthetische Datenmarkierungen beim Testen und Trainieren von Algorithmen für autonome Fahrzeuge nützlich sind, müssen die Daten der simulierten Sensoren und Anmerkungen bestimmte Kriterien erfüllen. Wie wir bereits in dem Beitrag zur Sensormodellierung geschrieben haben, sollten große Datensätze von künstlichen Sensoren, die zur Entwicklung unbemannter Fahrzeuge verwendet werden, kostengünstig und schnell (in wenigen Tagen) generiert werden. Außerdem sollten künstliche Sensoren unter Berücksichtigung der physikalischen Grundprinzipien modelliert werden, die bestimmten Sensortypen innewohnen. Der wichtigste Faktor ist die Genauigkeit der erstellten Modelle. Es gibt einen Kompromiss zwischen der Wahrscheinlichkeitslücke (wie unterschiedlich Algorithmen reale und synthetische Daten wahrnehmen) und der Geschwindigkeit der Datenerfassung.Diese Lücke kann je nach simuliertem Sensortyp, umgebenden Objekten und Umgebungsbedingungen variieren. Es ist auch sehr wichtig, diese Lücke quantifizieren zu können und die resultierende Schätzung zu verwenden, um eine Strategie für die Verwendung synthetischer Daten zu entwickeln. Schauen Sie sich als Beispiel Abbildung 7 an, die zeigt, wie das Lidar-Modell auf eine nasse Straße reagiert. Auf dem Bild sehen Sie, wie der Lidar auf Rückmeldungen vom Boden und Sprühnebel von Fahrzeugen in der Nähe reagiert.Auf dem Bild sehen Sie, wie der Lidar reagiert, um Signale in Bodennähe zurückzugeben und von Fahrzeugen in der Nähe zu sprühen.Auf dem Bild sehen Sie, wie der Lidar auf Rückmeldungen vom Boden und Sprühnebel von Fahrzeugen in der Nähe reagiert.

Bild

7:

Ein weiterer wichtiger Aspekt bei der Arbeit mit synthetischen Daten ist die Vielfalt der Medien und Materialien in diesen Medien. Umgebungen sollten schnell aus realen Karten und Daten generiert werden - wie in Abbildung 8 dargestellt. Die Fähigkeit, solche Umgebungen schnell zu erstellen, hängt von prozeduralen Generierungstechniken ab. Die Möglichkeit, jede geografische Region aus der ganzen Welt zu modellieren, ist ein weiterer unglaublicher Vorteil synthetischer Daten gegenüber realen Daten. Während verschiedene Speicherorte einfach zu erstellen sind, können Bereiche und Daten dupliziert werden, wenn die Methoden falsch konfiguriert sind. Derzeit ist es ein sehr wichtiger Aspekt in diesem Bereich, die Beziehung zwischen der Wiederholung von Daten und der Reflexion der Vielfalt der realen Welt zu finden. Die Vielfalt muss sowohl auf Makroebene berücksichtigt werden (wie stark sich die Straßenoberfläche auf einem Kilometerabschnitt der Route ändern kann),und auf Mikroebene (zum Beispiel, wie unterschiedliche Materialien der Umgebung unterschiedlich sein können).

Die Bedeutung von Materialien für die Darstellung physikalisch glaubwürdiger Umgebungen wurde im vorherigen Beitrag erörtert, obwohl die Texturen, aus denen diese Materialien bestehen, normalerweise Scans von realen Oberflächen sind. Das Erstellen von Kombinationen und Variationen dieser Materialien, um den generierten Daten Abwechslung zu verleihen, kann sowohl beim Training als auch beim Testen von entscheidender Bedeutung sein.

Bild

Abbildung 8: Verfahrensmäßig erzeugte hochwertige städtische Umgebung.

Anmerkungen

Die Anforderungen für Datenanmerkungen hängen sowohl von Anwendungsfällen als auch von Algorithmen ab. Die Arten von Datenanmerkungen aus der realen Welt sind in Tabelle 1 dargestellt.

Eine Art	Einzelheiten
Semantik	Semantische Segmentierung (Pixel oder Punkt)
Quader	Für Bilder, Lidarpunkte oder Radarreflexionen
Rahmen	Pixelanmerkung für 2D-Markup

Tabelle 1: Arten von Anmerkungen für reale Daten

Bei synthetischen Daten stehen viel zuverlässigere Informationen zur Verfügung, um ähnliche Anmerkungen zu generieren, die in den gesammelten Daten erfasst werden können. Die Referenzdaten werden auch mit Punkt- / Pixelgenauigkeit wiedergegeben. Schließlich können sowohl Sensordaten als auch Anmerkungen in jedem Referenzrahmen (der Welt, dem System selbst, einem separaten Sensor usw.) verarbeitet werden.

Tabelle 2 zeigt die Standardanmerkungstypen für Daten, die durch Modellierung generiert wurden. Darüber hinaus können viele Formate und Datentypen weiter angepasst werden.

Eine Art	Einzelheiten
Semantik	Semantische Segmentierung (Pixel oder Punkt)
Quader	, ( )

	,
	, , , ,
	,
	,
	( BBox – )

	Albedo, Oberflächennormalen, Tiefe, Oberflächenrauheit, Reflexionen, Metallizität, reflektierende Oberflächen, optische Eigenschaften

Tabelle 2: Annotationstypen für synthetische Daten Die

Verwendung all dieser zusätzlichen Referenzdatentypen beschleunigt die Algorithmusentwicklung erheblich. Die schiere Größe der Daten, ihre Qualität und ihr Volumen ermöglichen es den Ingenieuren, Entscheidungen schneller zu treffen.

Bild

Abbildung 9: Kommentierte synthetische Daten mit pixelgenauen 2D-Boxen

Stellenangebote

, , , - .

, , , .

, , . , , , , , .

, , .

Über ITELMA

- automotive . 2500 , 650 .

, , . ( 30, ), -, -, - (DSP-) .

, . , , , . , automotive. , , .

Synthetische Daten: Verbesserung der Wahrnehmungsalgorithmen und Optimierung der Suche nach Grenzen

Moderner Ansatz für Datenmarkierungen und damit verbundene Probleme

Verwendung synthetischer Daten und ihrer Vorteile

Anforderungen an synthetische Daten

More articles: