KI-Puzzle

Wie ich einem Agenten beigebracht habe, 2048 einen 2048-Käfig zu bauen

AI setzt Zelle 2048 zusammen
AI setzt Zelle 2048 zusammen

Hallo! Mein Name ist Rinat Maksutov, ich arbeite in der Abteilung Intelligent Engineering Services der Technologieabteilung des russischen Accenture-Büros und leite kundenspezifische Entwicklungsprojekte. Während meiner langen Karriere bei Axencher habe ich viele verschiedene Bereiche ausprobiert: Mobile Entwicklung, Front-End, Back-End und sogar Data Science mit Mashlern. In meiner Geschichte geht es jedoch nicht um Arbeit, sondern um ein Hobby. Ich genieße es wirklich, neue Bereiche in meinen eigenen Haustierprojekten zu lernen und zu erkunden. Heute werde ich Ihnen von einem erzählen - wie ich dem Reinforcement Learning (RL) -Agenten beigebracht habe, das berühmte Puzzle "2048" zu spielen. Der Artikel enthält bewusst keinen Code, keine Mathematik, keine modernen Ansätze und keine neuesten Entdeckungen auf diesem Gebiet, sodass Personen, die mit RL gut vertraut sind, nichts Neues für sich entdecken. Dieser Artikel ist eine Geschichte für die breite Öffentlichkeit überwie ich mir ein ungewöhnliches Ziel gesetzt und es erreicht habe.

. , , Nanodegree Udacity (Nanodegree - ). Deep Learning Nanodegree , . 

RL, : , , - , , , - . , .

, RL , . , , , - , ( , ). 

, - , ( , RL), . - 2048 ( : https://play2048.co/). , (, , , ), , . , ( 0.9) ( 0.1). , , .

, 2048 . , 4096, 8192, . - 131 072, 2^17: 

Quelle: Wikipedia
: Wikipedia

. , , . , . , , , (, ), , - . , “” , , .

  1. - , “” , , , .

  2. ( , ) . , “” , . 

, , , . 

Reinforcement learning

, RL, - . - , . (, ), , . , , , , . , .

Quelle: https://medium.com/@dgquintero02/how-to-explain-machine-learning-to-your-family-77a3bac3593a
: https://medium.com/@dgquintero02/how-to-explain-machine-learning-to-your-family-77a3bac3593a

, , , .  , , , , . “”. , , . - “” - , . - “”, , , - ( discourage) . ( , ) .

Udacity . , , . : , , , . , , . , , . - - - , .

: AlphaGo, StarCraft . , , - , . , , . , , , . 

, . , , . , . 

, , : 1) , 2) , 3) . , , , - , . , , : , , . 

. - ( , ) , . - -, , , , StarCraft . , , , . , , , . , . , , - . , . , . , .

Ein weiteres Mem mit Boromir

2048 ( - , 2048 - ) - , , , , . 

: , Deep Q-network Udacity, , . . 

, 3 ( , ):

  • One-hot encoded (16 * 18 )

  • “ ”

  • Log2

  • 4 4

  • log2

  • log2

  • 10 , 1024, ε: 0.05, ε: 0.9999, 

  • 1, 3, 5, 20

  • ε ( ) 1.0 0.01

  • 100 000

  • ( )

  • 50 000 200 000

  • , , , , ..

()

  • “ ”: N , ,

  • “ ”: 3 ,

  • 2

  • 5-: 288-31024-4, ReLU Adam optimizer

  • 2, 4

  • 256, 512

  • learning rate

- , , - , - . .

, - . , .

, . - . “” , . , , 44, . fully-connected , , 116:

. , 512. , . , : 0 . , : , . 

- . , . , , - . , , , , , . , , , . 

. : , log2 . , , :

, . 512, 1024. . , . 

- , , . , . :

, a+a = b, b+b=c .., , a, b . (“+” - , “”). ? , , . , one-hot encoded . , 18, , , , . - . , , , , .

. , , , , . , . - . 

, , Space Invaders. Google .

Space Invaders.
Space Invaders.

, , “ ”. (“”), (“”) .

2048 . . , 2 , . , … . . , , . , , , 2 4. , , [ +  2 4]. , , , . - . 

-. , . , : , , - . , , : , . , , . 

, . , , . , , , . , . , , - . , , . 

, “” - . , , , . , , . . - . 1.0 0.1. , , , . , , , . - “” , . 

RL , , . , - , - , . , ( ) . , . , , . , , , , . , , - , “” - .

Verteilung der Anteile der ausgewählten Bewegungsrichtungen in jedem der Spiele.
.

, : , “” - .

, . , . , , , , , . , . - - , - , , , . , - , . , , . , , . , “” ( - - , , , ). , “” , .

Das WOW-Signal
The WOW signal

. - - 2048.

, 2048 60 . , , . , , 1024. , 1024 , - 30 1024. , “” 2048, , , , , , - 4096.

, , . 20- , 2048 ( 16:40).

( !), . , 2048 - . , - GitHub ! , . !

PS: , back-end Python Java, front-end React. , --. , , proof-of-concept . , , !




All Articles