본문 바로가기
반응형

논문 리뷰/MARL algorithm16

[DRON] Opponent Modeling in Deep Reinforcement Learning International Conference on Machine Learning, New York, NY, USA, 2016. JMLR Abstract : multi-agent setting에서 policy와 opponent action을 공동으로 학습하는 model을 제시한다.해당 논문에서는 opponent action을 DQN encoding을 통해 예측하고, 원하는 경우 multi-tasking을 사용하여 emplict modeling을 유지한다. Mixture-of-Experts architecture을 사용하여 추가 supervision 없이 opponent strategy pattern을 자동으로 발견한다. Introduction : colaborative or competitive task에.. 2022. 7. 29.
[CommNet] Learning Multi-agent Communication with Backpropagation 29th Conference on Neural Information Processing Systems (NIPS 2016), Barcelona, Spain Abstract : env에 영향을 주는 action과 agent간의 action을 고려한 두개의 network를 각각 최대화하는 RIAL & DIAL의 communication method와 다르게, CommNet에서는 communication은 policy와 동시에 학습된다. 해당 논문에서는 fully cooperative tasks에 대해서 continuous communication을 사용하는 simple neural model를 탐구한다. 방법의 적용으로, non-communicative agents & baseline보다 agent가 서로 .. 2022. 7. 29.
[RIAL & DIAL] Learning to Communicate with Deep Multi-Agent Reinforcement Learning University of Oxford, United Kingdom Canadian Institute, Google DeepMind, May 2016 Abstract : MDRL에서는 효용을 극대화하기 위해, env를 감지하고 행동하는 multiple agents의 문제를 고려해야만 하므로 정보 공유를 위한 communication protocol이 필요하다. 복잡한 multi-agent env에서의 patial observability를 DNN을 수용하여 end-to-end agent 간의 학습을 해결한다. 해당 논문에서는 DQN 학습을 사용하는 RIAL(Reinforced Inter-Agent Learning)과 학습 도중 별도의 communication channel을 통해 backpropagatio.. 2022. 7. 26.
[Distributed W-Learning] Multi-Policy Optimization in Self-Organizing Systems 2009 Third IEEE International Conference on Self-Adaptive and Self-Organizing Systems Abstract : 여러 policies의 최적화를 위해서는 large scale agent-based system에서의 multi-agent approach가 필요하다. agent가 operating env를 공유함에 따라, agent 간, policy 구현 간 상당한 종속성이 발생할 수 있다. 해당 논문에서는 agent heterogeneity, policy dependency, global 지식 부족이 발생하는 경우, 자체 최적화를 해결하기 위해 distributed W-learning(DWL)을 제안한다. DWL는 multiple policies.. 2022. 7. 20.
반응형