VerstĂ€rkung Lernen ist schlecht oder funktioniert mit hohen Dimensionen ĂŒberhaupt nicht. Und steht auch vor dem Problem, dass Physiksimulatoren ziemlich langsam sind. Daher ist in letzter Zeit ein Weg, diese EinschrĂ€nkungen zu umgehen, populĂ€r geworden, indem ein separates neuronales Netzwerk trainiert wird, das eine Physik-Engine nachahmt. Es stellt sich so etwas wie ein Analogon der Vorstellungskraft heraus, in dem weiteres grundlegendes Lernen stattfindet.
Lassen Sie uns sehen, wie viel Fortschritt in diesem Bereich erzielt wurde, und die Hauptarchitekturen betrachten.
Die Idee, ein neuronales Netzwerk anstelle eines physischen Simulators zu verwenden, ist nicht neu, da einfache Simulatoren wie MuJoCo oder Bullet auf modernen CPUs mindestens 100-200 FPS (und hĂ€ufiger bei 60) liefern können und der Betrieb eines neuronalen Netzwerksimulators in parallelen Stapeln problemlos 2000-10000 FPS bei erzeugt vergleichbare QualitĂ€t. Zwar auf kleinen Horizonten von 10-100 Schritten, aber fĂŒr das verstĂ€rkte Lernen ist dies oft genug.
Noch wichtiger ist jedoch, dass der Prozess des Trainings eines neuronalen Netzwerks zur Nachahmung einer Physik-Engine normalerweise eine Verringerung der DimensionalitÀt beinhaltet. Da der einfachste Weg, ein solches neuronales Netzwerk zu trainieren, die Verwendung eines Autoencoders ist, geschieht dies automatisch.

, , . , . - , , , , Z.
Z Reinforcement Learning. , , ( , , ). , .
, â , , . . , Z , model-based , , .
, Reinforcement Learning. "" : , , , .
World Models
( ), 2018 World Models.
: - "" , Z. ( ).
VAE:

, VAE ( MDN-RNN), . VAE , . , RNN Z . .
:

, : VAE(V) Z MDN-RNN(M) . Z, . MDN-RNN , Z , .
, "" ( - MDN-RNN), . ( ), .
, "" (. ) MDN-RNN (Controller â "", ). , , environment. , C , . VAE(V).
Controller ©, ? ! , -"", Controller. , . , CMA-ES. , Z , . . , , , .
, , .
PlaNet
PlaNet. (, , Controller reinforcement learning), PlaNet Model-Based .
, Model-Based RL â . . , . , , RL , .
Model-Based , , , . (CEM PDDM).
- , ! , .
, . , . .
, . . . (.. state, Reinforcement Learning) , , . Model-Based .
PlaNet, World Models , , Z ( S â state).

Z (, S) , , . , - .
S (, Z) . , , . , .
S , . Model-Based ( ""). .
, , .. -"", A. Model-Based â . , state S . R , state S , ( ). , , ! ( ). Model-Based , .. , , , S R. , World Models, .
Model-Based , PlaNet . 50 . , , , , Model-Free .

Model-Based , (-), . , . . , Model-Based, PlaNet . ( ), .
Dreamer
PlaNet Dreamer. .
PlaNet, Dreamer S, , . Dreamer Value , . Reinforcement Learning. . , . Model-Based ( PlaNet) .

, , Dreamer Actor , . Model-Free , actor-critic.
actor-critic Model-Free , actor , critic ( value, advantage), Dreamer actor . Model-Free .
Dreamer' , . Actor , (. ). Value , , value reward .

, Dreamer Model-Based . Model-Free. model-based ( , ) Actor . Dreamer . , PlaNet Model-Based .
, Dreamer 20 , , Model-Free . , Dreamer 20 , ( ) .

Dreamer Reinforcement Learning . MuJoCo, , .
Plan2Explore
. Reinforcement Learning , .
, - , . , - , , . , , ! Plan2Explore .
Reinforcement Learning , , . , .
, . . , -, . -, , - , .
, . , , Plan2Explore , . , .
Plan2Explore : , . , - , . . . zero-shot . ( , . World Models ), few-shot .

Plan2Explore , Dreamer Model-Free , , . , .
Interessanterweise verwendet Plan2Explore eine ungewöhnliche Methode, um die Neuheit neuer Orte zu bewerten und gleichzeitig die Welt zu erkunden. Zu diesem Zweck wird ein Ensemble von Modellen trainiert, die nur an einem Modell der Welt trainiert sind und nur einen Schritt vorwĂ€rts vorhersagen. Es wird argumentiert, dass sich ihre Vorhersagen fĂŒr ZustĂ€nde mit hoher Neuheit unterscheiden, aber als DatensĂ€tze (hĂ€ufige Besuche auf der Website) stimmen ihre Vorhersagen auch in zufĂ€lligen stochastischen Umgebungen ĂŒberein. Da einstufige Vorhersagen in dieser stochastischen Umgebung schlieĂlich zu einigen Durchschnittswerten konvergieren. Wenn Sie nichts verstanden haben, sind Sie nicht allein. Dort im Artikel ist es nicht sehr klar, dass es beschrieben wird. Aber irgendwie scheint es zu funktionieren.
