반응형 MADDPG1 [MADDPG] Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments Abstract : Q-learning은 env의 non-stationary로 인한 어려움과 multi-agent domain에서 agent 수에 비례하는 variance 증가로 인한 어려움을 겪는다. 이를 해결하기 위해, 다른 agent의 action policy를 고려하고 multi-agent coordination이 필요한 policy를 학습할 수 있는 actor-critic method를 제시한다. 또한 보다 각 agent에 대한 policy ensemble을 활용하는 method 또한 도입한다. Introduction : Q-learning에서의 non-stationary env는 학습 안정성 문제와 replay buffer 사용을 불가능하게 만든다. 반면에 policy gradient에서의 m.. 2022. 8. 6. 이전 1 다음 반응형