Hallo! Mein Name ist Dmitry, und ich möchte Ihnen ĂŒber unseren Artikel âAusgleich zwischen rationalen und anderen PrĂ€ferenzen in kooperativ-wettbewerbsorientierten Umgebungenâ berichten, der kĂŒrzlich zur AAMAS (A *) -Konferenz zugelassen wurde.
In diesem Artikel untersuchen wir, wie eine Gruppe von Agenten geschult werden kann, um ihre eigenen Ziele in gemischten Umgebungen zu erreichen, ohne sich gegenseitig zu stören oder zu helfen. Wir haben mehrere bestehende Lösungen analysiert und unsere eigenen angeboten. Der Beitrag erwies sich als hochrangig, die technischen Details finden Sie im Artikel .
Wer sind wir
Mein Name ist Dmitry Ivanov , ich bin ein Doktorand der Wirtschaftswissenschaften im dritten Jahr an der HSE in St. Petersburg. Ich arbeite in der Gruppe Agentensysteme und VerstĂ€rkung bei JetBrains Research sowie im Internationalen Labor fĂŒr Spieltheorie und Entscheidungsfindung bei HSE.
, 1 â â â -, , . JetBrains Research, -- .
, : , . , . â (. 1).
. , : , . , 3 . , 2 . , , , 4 . : , , .. . .
â , (Peysakhovich and Lerer, 2017). , . . , â âCooperateâ âDefectâ. , . Sequential Social Dilemma (Leibo et al., 2017), , , .
, , â ( , ?) , . , ? : ?
: , (Rashid et al., 2018). : , . . (SW = Social Welfare):
SW , , , (). â , . , . ââ ? (. 1). , , Defect-Cooperate Cooperate-Cooperate: 4 , , ! , , SW , â , . , ,
, : , VDN, QMIX, COMA . , credit assignment reward disentanglement â , . â . SW , SW â . â , , .
Cooperative Reward Shaping
â , , . , , , λ:
( ) (Peysakhovich and Lerer, 2017; Lerer and Peysakhovich, 2019; Durugkar et al., 2020), , Cooperative Reward Shaping (CRS). . , â â. , , credit assignment. , .
, : , credit assignment . : , , â . , . , â â . â QMIX COMA!
? , . , . , SW -, . . , , BAROCCO â ?
. , â Eldorado (. 2). . â 1000 , +1. , -1. , . , . , .
:
BAROCCO : selfish ( ), CRS ( ), COMA ( + credit assignment, ). , . , .
BAROCCO , .. λ. , , .
. 3. Eldorado. â . CRS BAROCCO λ=1 , . Selfish - , λ=0, BAROCCO CRS . â λ BAROCCO. â , â , . â .
:
BAROCCO ( ), 1000 2000 . , ( ) , : , . , , . , .
BAROCCO , , . , , - .
CRS COMA . Eldorado , . - , ( 1000 ), , , . , , .
, λ ( ) . 0.5. .
λ. , , -, ( ), -, â . , . , reciprocity (), (Eccles et al., 2019; Lerer and Peysakhovich, 2019). , , . , .
: . , , . , , , , .