Persönlich oder sozial? So erreichen Sie eine Zusammenarbeit in einer Umgebung mit mehreren Agenten

Hallo! Mein Name ist Dmitry, und ich möchte Ihnen ĂŒber unseren Artikel „Ausgleich zwischen rationalen und anderen PrĂ€ferenzen in kooperativ-wettbewerbsorientierten Umgebungen“ berichten, der kĂŒrzlich zur AAMAS (A *) -Konferenz zugelassen wurde. 





In diesem Artikel untersuchen wir, wie eine Gruppe von Agenten geschult werden kann, um ihre eigenen Ziele in gemischten Umgebungen zu erreichen, ohne sich gegenseitig zu stören oder zu helfen. Wir haben mehrere bestehende Lösungen analysiert und unsere eigenen angeboten. Der Beitrag erwies sich als hochrangig, die technischen Details finden Sie im Artikel .





Wer sind wir

Mein Name ist Dmitry Ivanov , ich bin ein Doktorand der Wirtschaftswissenschaften im dritten Jahr an der HSE in St. Petersburg. Ich arbeite in der Gruppe Agentensysteme und VerstĂ€rkung bei JetBrains Research sowie im Internationalen Labor fĂŒr Spieltheorie und Entscheidungsfindung bei HSE.





  , 1 “ ” — -, , . JetBrains Research, -- .





, : , . , . — (. 1).





Feige.  1. Das Gefangenendilemma.
. 1.  .

. , : , . , 3 . , 2 . , , , 4 . : , , .. . .





— , (Peysakhovich and Lerer, 2017). , . . , — ‘Cooperate’ ‘Defect’. , . Sequential Social Dilemma (Leibo et al., 2017), , , .





, , — ( , ?) , . , ? : ?





: , (Rashid et al., 2018). : , . . (SW = Social Welfare): 





SW (r) = \ sum_i r_i

SW , , , (). — , . , . “” ? (. 1). , , Defect-Cooperate Cooperate-Cooperate: 4 , , ! , , SW , — , . , ,





, : , VDN, QMIX, COMA . , credit assignment reward disentanglement — , . — . SW , SW — . — , , .





Cooperative Reward Shaping

— , , . , , , λ:





( ) (Peysakhovich and Lerer, 2017; Lerer and Peysakhovich, 2019; Durugkar et al., 2020), , Cooperative Reward Shaping (CRS). . , “ ”. , , credit assignment. , .





, : , credit assignment . : , , — . , . , — — . — QMIX COMA!





? , . , . , SW -, . . , , BAROCCO — ?





. , — Eldorado (. 2). . — 1000 , +1. , -1. , . , . , .





Feige.  2. Mittwoch Eldorado
. 2. Eldorado

:





  1. BAROCCO : selfish ( ), CRS ( ), COMA ( + credit assignment, ). , . , .





  2. BAROCCO , .. λ. , , .





Lebenserwartung (insgesamt fĂŒr 2 Agenten) Gini-Index (weniger = gerechter)
( 2 ) ( = )

. 3. Eldorado. — . CRS BAROCCO λ=1 , . Selfish - , λ=0, BAROCCO CRS . — λ BAROCCO. — , — , . — .





:





  1. BAROCCO ( ), 1000 2000 . , ( ) , : , . , , . , .





  2. BAROCCO , , . , , - .





  3. CRS COMA . Eldorado , . - , ( 1000 ), , , . , , .





  4. , λ ( ) . 0.5. .





Quelle - Tiefen von Reddit.
— Reddit.

λ. , , -, ( ), -,  — . , . , reciprocity (), (Eccles et al., 2019; Lerer and Peysakhovich, 2019). , , . , .





: . , , . , , , , .








All Articles