Wie ich einem Agenten beigebracht habe, 2048 einen 2048-Käfig zu bauen

Hallo! Mein Name ist Rinat Maksutov, ich arbeite in der Abteilung Intelligent Engineering Services der Technologieabteilung des russischen Accenture-Büros und leite kundenspezifische Entwicklungsprojekte. Während meiner langen Karriere bei Axencher habe ich viele verschiedene Bereiche ausprobiert: Mobile Entwicklung, Front-End, Back-End und sogar Data Science mit Mashlern. In meiner Geschichte geht es jedoch nicht um Arbeit, sondern um ein Hobby. Ich genieße es wirklich, neue Bereiche in meinen eigenen Haustierprojekten zu lernen und zu erkunden. Heute werde ich Ihnen von einem erzählen - wie ich dem Reinforcement Learning (RL) -Agenten beigebracht habe, das berühmte Puzzle "2048" zu spielen. Der Artikel enthält bewusst keinen Code, keine Mathematik, keine modernen Ansätze und keine neuesten Entdeckungen auf diesem Gebiet, sodass Personen, die mit RL gut vertraut sind, nichts Neues für sich entdecken. Dieser Artikel ist eine Geschichte für die breite Öffentlichkeit überwie ich mir ein ungewöhnliches Ziel gesetzt und es erreicht habe.
. , , Nanodegree Udacity (Nanodegree - ). Deep Learning Nanodegree , .
RL, : , , - , , , - . , .
, RL , . , , , - , ( , ).
, - , ( , RL), . - 2048 ( : https://play2048.co/). , (, , , ), , . , ( 0.9) ( 0.1). , , .
, 2048 . , 4096, 8192, . - 131 072, 2^17:
. , , . , . , , , (, ), , - . , “” , , .
?
- , “” , , , .
( , ) . , “” , .
, , , .
Reinforcement learning
, RL, - . - , . (, ), , . , , , , . , .
, , , . , , , , . “”. , , . - “” - , . - “”, , , - ( discourage) . ( , ) .
Udacity . , , . : , , , . , , . , , . - - - , .
: AlphaGo, StarCraft . , , - , . , , . , , , .
, . , , . , .
, , : 1) , 2) , 3) . , , , - , . , , : , , .
. - ( , ) , . - -, , , , StarCraft . , , , . , , , . , . , , - . , . , . , .
2048 ( - , 2048 - ) - , , , , .
: , Deep Q-network Udacity, , . .
, 3 ( , ):
| ||
|
|
|
|
| |
|
| |
|
|
|
() |
| |
|
| |
|
|
|
- , , - , - . .
, - . , .
, . - . “” , . , , 44, . fully-connected , , 116:
. , 512. , . , : 0 . , : , .
- . , . , , - . , , , , , . , , , .
. : , log2 . , , :
, . 512, 1024. . , .
- , , . , . :
, a+a = b, b+b=c .., , a, b . (“+” - , “”). ? , , . , one-hot encoded . , 18, , , , . - . , , , , .
. , , , , . , . - .
, , Space Invaders. Google .
, , “ ”. (“”), (“”) .
2048 . . , 2 , . , … . . , , . , , , 2 4. , , [ + 2 4]. , , , . - .
-. , . , : , , - . , , : , . , , .
, . , , . , , , . , . , , - . , , .
, “” - . , , , . , , . . - . 1.0 0.1. , , , . , , , . - “” , .
RL , , . , - , - , . , ( ) . , . , , . , , , , . , , - , “” - .
, : , “” - .
, . , . , , , , , . , . - - , - , , , . , - , . , , . , , . , “” ( - - , , , ). , “” , .

. - - 2048.
, 2048 60 . , , . , , 1024. , 1024 , - 30 1024. , “” 2048, , , , , , - 4096.
, , . 20- , 2048 ( 16:40).
( !), . , 2048 - . , - GitHub ! , . !
PS: , back-end Python Java, front-end React. , --. , , proof-of-concept . , , !