본문 바로가기
반응형

논문 리뷰/MARL algorithm16

[ACCNet] Actor-Coordinator-Critic Net for“Learning-to-Communicate”with Deep Multi-agent Reinforcement Learning [Submitted on 10 Jun 2017 (v1), last revised 29 Oct 2017 (this version, v3)] Abstract : Mulit-agent의 'learning to communicate' problem을 해결하기 위한 ACCNet(Actor-Coordinator-Critic Net) framework를 제안한다. 해당 논문은 paritally observable env에서도 처음부터 communication protocol을 학습 가능하다. 결과적으로, continuous와 discrete actino space env 모두에서 좋은 결과를 얻을 수 있었다. Introduction : 우리는 partially observable env에서 shared discoun.. 2022. 9. 1.
[BiCNet] Multi-agent Bidirectionally-Coordinated Nets Emergence of Human-level Coordination in Learning to Play StarCraft Combat Games University College London, Alibaba Group. 14 Sep 2017 Abstract : Scalable 하면서도 effective communication protocol를 유지하기 위해 actor critic의 vectorised extension과 함께 multi-agent BiCNet(Bidirectionally Coordinated Network)을 도입한다. QMIX 때와 비슷하게 StarCraft combat game에서 실험을 진행하며 임의의 수의 agent를 사용하여 다양한 유형의 combat을 처리할 수 있음을 보인다. Introduction : 해당 논문에서는 multiple agents 간 collaborative behavior를 학습하기 위해 expor.. 2022. 8. 31.
[QMIX] Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning Proceedings of the 35th International Conference on Machine Learning, PMLR 80, 2018 Abstract : centralized end-to-end method로 decentralized policy를 훈련하는 value-based approach인 QMIX를 제안한다. 이 network는 local observation에만 의존하는 agent 별 value의 complex non-lonear combination으로 joint action value를 추정한다. 구조적으로 joint cation value가 agent 당 value에서 monotonic하게 적용되도록 하여 off-policy 학습에서 policy 간 일관성을 보장한다. In.. 2022. 8. 23.
[COMA] Counterfactual Multi-Agent Policy Gradients [Submitted on 24 May 2017 (v1), last revised 14 Dec 2017 (this version, v2)] Abstract : Decentralized actor's policy와 centralized critic's Q-function을 최적화하기 위한 COMA를 제안한다. multi-agent의 credit assignment를 해결하기 위해 다른 agent's action은 고정된 상태로 유지하면서 single agent's action을 marginalises하는 counterfactual baseline을 사용한다. 추가로 single forward pass에서 counterfactual baseline이 효율적으로 계산될 수 있도록 하는 critic represe.. 2022. 8. 20.
반응형