반응형 전체 글72 [DRON] Opponent Modeling in Deep Reinforcement Learning International Conference on Machine Learning, New York, NY, USA, 2016. JMLR Abstract : multi-agent setting에서 policy와 opponent action을 공동으로 학습하는 model을 제시한다.해당 논문에서는 opponent action을 DQN encoding을 통해 예측하고, 원하는 경우 multi-tasking을 사용하여 emplict modeling을 유지한다. Mixture-of-Experts architecture을 사용하여 추가 supervision 없이 opponent strategy pattern을 자동으로 발견한다. Introduction : colaborative or competitive task에.. 2022. 7. 29. [CommNet] Learning Multi-agent Communication with Backpropagation 29th Conference on Neural Information Processing Systems (NIPS 2016), Barcelona, Spain Abstract : env에 영향을 주는 action과 agent간의 action을 고려한 두개의 network를 각각 최대화하는 RIAL & DIAL의 communication method와 다르게, CommNet에서는 communication은 policy와 동시에 학습된다. 해당 논문에서는 fully cooperative tasks에 대해서 continuous communication을 사용하는 simple neural model를 탐구한다. 방법의 적용으로, non-communicative agents & baseline보다 agent가 서로 .. 2022. 7. 29. [RIAL & DIAL] Learning to Communicate with Deep Multi-Agent Reinforcement Learning University of Oxford, United Kingdom Canadian Institute, Google DeepMind, May 2016 Abstract : MDRL에서는 효용을 극대화하기 위해, env를 감지하고 행동하는 multiple agents의 문제를 고려해야만 하므로 정보 공유를 위한 communication protocol이 필요하다. 복잡한 multi-agent env에서의 patial observability를 DNN을 수용하여 end-to-end agent 간의 학습을 해결한다. 해당 논문에서는 DQN 학습을 사용하는 RIAL(Reinforced Inter-Agent Learning)과 학습 도중 별도의 communication channel을 통해 backpropagatio.. 2022. 7. 26. [Distributed W-Learning] Multi-Policy Optimization in Self-Organizing Systems 2009 Third IEEE International Conference on Self-Adaptive and Self-Organizing Systems Abstract : 여러 policies의 최적화를 위해서는 large scale agent-based system에서의 multi-agent approach가 필요하다. agent가 operating env를 공유함에 따라, agent 간, policy 구현 간 상당한 종속성이 발생할 수 있다. 해당 논문에서는 agent heterogeneity, policy dependency, global 지식 부족이 발생하는 경우, 자체 최적화를 해결하기 위해 distributed W-learning(DWL)을 제안한다. DWL는 multiple policies.. 2022. 7. 20. [W-learning] Action Selection methods using RL A dissertation submitted for the degree of Doctor of Philosophy in the University of Cambridge, August 1996 Abstract : 일반적으로 다른 agents' action이 agent에게 영향을 준다고 가정하지 않는다. agent는 학습 도중, 다른 state에서 unrecognised action이 있을 수 있는데, 이 때 이것들을 모두 action set에 추가하고 모든 state에 대한 모든 action에 대해 huge Q-value를 배우지 않는다. 대신, W-Learning은 각 state에서 W-value를 통해 승리할 가능성이 가장 큰 agent가 승리하지 않을 경우, 가장 큰 고통을 겪을 가능성이 있는 ag.. 2022. 7. 18. [MASCO] Coordination of EV Charging Through MARL IEEE TRANSACTIONS ON SMART GRID, VOL. 11, NO. 3, MAY 2020 Abstract : EV charging 수요가 급증하는 피크 시간에 배전망의 변압기에 과부하가 걸리는 문제를 해결하고자 부하를 줄이고 가능한 공평하게 EV를 충전하기 위해 여러 방법이 제안되었지만, 일반적으로 single type 요금제 또는 배전망에 대한 강력한 가정을 두는 전제를 사용하였다. 해당 논문에서는 EV recharging 도중, 동시에 변압기 과부화를 피하고 에너지 비용을 최소화하는 MultiAgent Selfish COllaborative architecture(MASCO)을 제안한다. Nomenclature Introduction 1. MASCO는 distributed Multiag.. 2022. 7. 13. 이전 1 2 3 4 5 6 7 ··· 12 다음 반응형