본문 바로가기
반응형

논문 리뷰51

[BiCNet] Multi-agent Bidirectionally-Coordinated Nets Emergence of Human-level Coordination in Learning to Play StarCraft Combat Games University College London, Alibaba Group. 14 Sep 2017 Abstract : Scalable 하면서도 effective communication protocol를 유지하기 위해 actor critic의 vectorised extension과 함께 multi-agent BiCNet(Bidirectionally Coordinated Network)을 도입한다. QMIX 때와 비슷하게 StarCraft combat game에서 실험을 진행하며 임의의 수의 agent를 사용하여 다양한 유형의 combat을 처리할 수 있음을 보인다. Introduction : 해당 논문에서는 multiple agents 간 collaborative behavior를 학습하기 위해 expor.. 2022. 8. 31.
Collaborative Multi-Agent Reinforcement Learning Aided Resource Allocation for UAV Anti-Jamming Communication IEEE INTERNET OF THINGS JOURNAL: DOI 10.1109/JIOT.2022.3188833 Abstract : UAV network에 대한 joint channel 및 power allocation에 대한 anti-jamming problem을 연구한다. 특히, UAV 간의 mutual interference와 external malicious jamming을 모두 방지하여 전력 소비와 관련된 시스템 경험 품질(QoE)를 극대화하는데 중점을 둔다. 해당 논문에서는 collaborate MALQL(multi-agent layered Q-learning) 기반 anti-jamming communication algorithm을 제안한다. Introduction : 해당 논문에서는 UAV.. 2022. 8. 26.
[QMIX] Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning Proceedings of the 35th International Conference on Machine Learning, PMLR 80, 2018 Abstract : centralized end-to-end method로 decentralized policy를 훈련하는 value-based approach인 QMIX를 제안한다. 이 network는 local observation에만 의존하는 agent 별 value의 complex non-lonear combination으로 joint action value를 추정한다. 구조적으로 joint cation value가 agent 당 value에서 monotonic하게 적용되도록 하여 off-policy 학습에서 policy 간 일관성을 보장한다. In.. 2022. 8. 23.
[COMA] Counterfactual Multi-Agent Policy Gradients [Submitted on 24 May 2017 (v1), last revised 14 Dec 2017 (this version, v2)] Abstract : Decentralized actor's policy와 centralized critic's Q-function을 최적화하기 위한 COMA를 제안한다. multi-agent의 credit assignment를 해결하기 위해 다른 agent's action은 고정된 상태로 유지하면서 single agent's action을 marginalises하는 counterfactual baseline을 사용한다. 추가로 single forward pass에서 counterfactual baseline이 효율적으로 계산될 수 있도록 하는 critic represe.. 2022. 8. 20.
반응형