Im AI-Labor hat Uber AI Labs eine neue Familie von Go-Explore-Algorithmen erstellt. Der Algorithmus basiert auf Verstärkungslernen. Go-Explore übertrifft die meisten vorhandenen Designs, wenn es mit klassischen Atari-Spielen der 1980er Jahre getestet wird.
Ubers KI hat insgesamt 11 der härtesten Spiele durchgespielt, darunter Montezumas Revenge und Pitfall . In Bezug auf die Anzahl der erzielten Punkte ging er um die Leute herum. Der Algorithmus wird nicht für Spiele entwickelt: In naher Zukunft kann der Algorithmus zum Unterrichten in Robotik, zum Verarbeiten natürlicher Sprachen, zum Erstellen neuer Medikamente usw. verwendet werden. Was ist die Basis des Algorithmus?
Verstärkungslernen
Lassen Sie uns zunächst daran erinnern, was Bestärkungslernen ist und warum es ein hohes Potenzial hat.
Dies ist eine bekannte Form des neuronalen Netzwerktrainings. Der Vorteil dieser Technologie liegt in einem Element, das als Agent bezeichnet wird . Er arbeitet nicht isoliert, sondern lernt mit der Umwelt umzugehen. Die Umgebung reagiert auf die Aktionen des Agenten und erzeugt einen lohnenden Effekt.
Die KI versucht, eine virtuelle Karotte zu bekommen, und handelt daher auf der Grundlage der Möglichkeit, eine Belohnung zu erhalten. Wenn dies nicht bringt, wird die Operation das nächste Mal als weniger wünschenswert angesehen.
Im Kontext einer bestimmten Nützlichkeit maximiert das Belohnungstraining das Ergebnis.
Welchen Algorithmus hat Uber erstellt?
Das Hauptunterscheidungsmerkmal des Uber-Algorithmus ist das Erinnern an frühere perspektivische Zustände. Darüber hinaus kann der Algorithmus sie nicht nur reproduzieren, sondern auch aufklären . Als würde man immer wieder die Frage stellen: "Was wäre wenn?" Und auf der Suche nach einer neuen besseren Antwort. Dank einer solchen Kette ist es möglich, die Effizienz des Lernalgorithmus zu steigern.
Die Familie der Algorithmen von AI Uber Labs hat eine wichtige Fähigkeit, sich an frühere potenzielle Zustände zu erinnern . In kleinen Iterationen erstellt der Algorithmus ein Archiv von Zuständen. Und sie wiederum sind in Zellen gruppiert.
Go-Explore lösen zwei wichtige Probleme des Belohnungslernens.
Erstes Problem. Der Algorithmus verliert das Interesse an zuvor durchquerten Zuständen. Darüber hinaus mögen einige dieser Bedingungen vielversprechend sein, aber der Algorithmus beginnt, sie zu ignorieren.
Zweites Problem. Der Forschungsprozess verhindert ein Zurücksetzen auf frühe Zustände des Algorithmus. Anstatt rückwärts zu gehen, geht die KI zu weit vom Startpunkt entfernt und skaliert willkürlich zufällige Aktionen.
Testen des Algorithmus an Spielen
Uber wandte sich den klassischen Altari-Spielen zu, um sicherzustellen, dass die Entwicklung effektiv war. Sie nahmen das schwierigste Spiel, das für einen Computer am schwierigsten zu handhaben war. Schwierigkeiten ergeben sich aus einer zu seltenen Belohnung. In solchen Fällen vergehen Hunderte von Operationen zwischen der Aktion des Algorithmus und dem erfolgreichen Ergebnis. Es wird schwierig, genau zu bestimmen, welche Aktionen dazu beigetragen haben, eine virtuelle Belohnung zu erhalten.
Wie geht Ubers Algorithmus damit um? Es sendet ähnliche Zustände an eine Zelle. Der Zyklus beginnt mit der Auswahl von Zuständen aus einer Zelle, in der sie nach Gewicht geordnet sind. In diesem Fall werden kürzlich gefundene Staaten bevorzugt, aus denen neue Gebiete erkundet werden. Dann wird das Archiv aktualisiert. Somit verarbeitet Go-Explore die maximal verfügbare Anzahl von Optionen und übersieht vor allem nicht die interessantesten Zustände.
Ferner hat der Algorithmus die Option, eine Robustheit vorzunehmenLösungen gefunden und externe oder Interferenzen ausgeschlossen. Diese Option reduziert den Geräuschpegel in den gefundenen Trajektorien. Warum wird das benötigt? In Atari sind die Umgebung und die Aktionen genau definiert: Bestimmte Schritte führen zu erwarteten Ergebnissen. Um den Determinismus zu reduzieren, wurden künstliche Verzögerungen in das Spiel eingeführt. Damit führt der Algorithmus nicht nur zuvor verifizierte Aktionen aus, sondern lernt auch unter Bedingungen, die den realen nahe kommen.
Infolgedessen zeigte Go-Explore in zwei Situationen gute Ergebnisse im Spiel:
- Im Falle von Unbekanntem, wenn dem Algorithmus Primärinformationen fehlen.
- Wenn es Informationen gibt: Der Algorithmus kennt die Eingabe (Koordinaten, Schlüssel usw.).
Im zweiten Fall sind die Ergebnisse erwartungsgemäß höher. So schlug Go-Explore in Montezumas Rache das Ergebnis eines menschlichen Spielers um 42,5% und gewann 1,73 Millionen Punkte.
Go-Explore für Roboter
Zusätzlich zu Atari-Spielen wurde die Familie der Algorithmen an einem Roboterarm getestet. Go-Explore führte erfolgreich Roboterarmbewegungen im Simulator durch, wo es erforderlich war, Gegenstände in den Regalen neu anzuordnen. Darüber hinaus konnte der Roboterarm sie nicht nur neu anordnen, sondern auch mit Schlössern hinter Türen herausholen.