반응형 논문 리뷰/MARL algorithm16 [VDN] Value-Decomposition Networks For Cooperative Multi-Agent Learning [Submitted on 16 Jun 2017] Abstract : single joint reward signal을 사용하여 cooperative multi-agent RL problem을 연구한다. fully centralized and decentralized approach에서 가짜 reward problem과 partial observability로 인해 발생하는 'lazy agent' 현상을 찾는다. team value function을 개별 agent value function으로 분해하는 network architecture로 개별 agent를 학습시키는 method를 제안한다. Introduction : 원칙적으로 cooperative MARL problem은 centralized app.. 2022. 8. 20. [SAC] Multi-Agent Reinforcement Learning in Stochastic Networked Systems 35th Conference on Neural Information Processing Systems (NeurIPS 2021) Abstract : multi-agent의 scalability problem을 풀기위한 algorithm은 dependency가 static, fixed, local인 경우에만 가능하다고 알려져 있다. 해당 논문에서는 dependency가 non-local, stochastic한 setting에 적용되는 scalable actor critic framework를 제안하고, convergence rate가 network에서 정보 확산 속도에 어떻게 depend하는지 보여주는 finite-time error bound를 제공한다. Introdunction : 다양한 MARL pr.. 2022. 8. 17. [MADRL trend 2022] Multi‐agent deep reinforcement learning: a survey Artificial Intelligence Review (2022) 55:895–943 Training scheme : centralized training은 policy가 학습 도중 mutual 정보 교환을 통해 update가 되고, 이 추가 정보는 execution시 제거된다. 그에 반해, decentralized training은 각 agent가 자체적으로 update를 수행하고 외부 정보를 활용하지 않고 개별 policy를 처리한다. execution 단계에서 centralised method는 모든 agent에 대한 joint action을 계산하는 centralized unit에 의해 동작한다. 반대로 decentralized method에서는 decentralized execution에 대한.. 2022. 8. 11. [MADDPG] Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments Abstract : Q-learning은 env의 non-stationary로 인한 어려움과 multi-agent domain에서 agent 수에 비례하는 variance 증가로 인한 어려움을 겪는다. 이를 해결하기 위해, 다른 agent의 action policy를 고려하고 multi-agent coordination이 필요한 policy를 학습할 수 있는 actor-critic method를 제시한다. 또한 보다 각 agent에 대한 policy ensemble을 활용하는 method 또한 도입한다. Introduction : Q-learning에서의 non-stationary env는 학습 안정성 문제와 replay buffer 사용을 불가능하게 만든다. 반면에 policy gradient에서의 m.. 2022. 8. 6. 이전 1 2 3 4 다음 반응형