반응형 전체 글75 Collaborative Multi-Agent Reinforcement Learning Aided Resource Allocation for UAV Anti-Jamming Communication IEEE INTERNET OF THINGS JOURNAL: DOI 10.1109/JIOT.2022.3188833 Abstract : UAV network에 대한 joint channel 및 power allocation에 대한 anti-jamming problem을 연구한다. 특히, UAV 간의 mutual interference와 external malicious jamming을 모두 방지하여 전력 소비와 관련된 시스템 경험 품질(QoE)를 극대화하는데 중점을 둔다. 해당 논문에서는 collaborate MALQL(multi-agent layered Q-learning) 기반 anti-jamming communication algorithm을 제안한다. Introduction : 해당 논문에서는 UAV.. 2022. 8. 26. [QMIX] Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning Proceedings of the 35th International Conference on Machine Learning, PMLR 80, 2018 Abstract : centralized end-to-end method로 decentralized policy를 훈련하는 value-based approach인 QMIX를 제안한다. 이 network는 local observation에만 의존하는 agent 별 value의 complex non-lonear combination으로 joint action value를 추정한다. 구조적으로 joint cation value가 agent 당 value에서 monotonic하게 적용되도록 하여 off-policy 학습에서 policy 간 일관성을 보장한다. In.. 2022. 8. 23. [COMA] Counterfactual Multi-Agent Policy Gradients [Submitted on 24 May 2017 (v1), last revised 14 Dec 2017 (this version, v2)] Abstract : Decentralized actor's policy와 centralized critic's Q-function을 최적화하기 위한 COMA를 제안한다. multi-agent의 credit assignment를 해결하기 위해 다른 agent's action은 고정된 상태로 유지하면서 single agent's action을 marginalises하는 counterfactual baseline을 사용한다. 추가로 single forward pass에서 counterfactual baseline이 효율적으로 계산될 수 있도록 하는 critic represe.. 2022. 8. 20. [VDN] Value-Decomposition Networks For Cooperative Multi-Agent Learning [Submitted on 16 Jun 2017] Abstract : single joint reward signal을 사용하여 cooperative multi-agent RL problem을 연구한다. fully centralized and decentralized approach에서 가짜 reward problem과 partial observability로 인해 발생하는 'lazy agent' 현상을 찾는다. team value function을 개별 agent value function으로 분해하는 network architecture로 개별 agent를 학습시키는 method를 제안한다. Introduction : 원칙적으로 cooperative MARL problem은 centralized app.. 2022. 8. 20. [SAC] Multi-Agent Reinforcement Learning in Stochastic Networked Systems 35th Conference on Neural Information Processing Systems (NeurIPS 2021) Abstract : multi-agent의 scalability problem을 풀기위한 algorithm은 dependency가 static, fixed, local인 경우에만 가능하다고 알려져 있다. 해당 논문에서는 dependency가 non-local, stochastic한 setting에 적용되는 scalable actor critic framework를 제안하고, convergence rate가 network에서 정보 확산 속도에 어떻게 depend하는지 보여주는 finite-time error bound를 제공한다. Introdunction : 다양한 MARL pr.. 2022. 8. 17. [3M-RL] Multi-Resolution, Multi-Agent, Mean-Field Reinforcement Learning for Autonomous UAV Routing IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS, VOL. 23, NO. 7, JULY 2022 Abstract : UAV(unmanned aerial vehicle) 함대를 관리하는데 collision-free path planning은 중요한 challenge이다. 해당 논문에서는 UAV routing policy 설계를 고려하고, 3M-RL이라는 multi-solution, multi-agent, mean-field 학습 algorithm을 제안한다. 각 UAV는 local obseration을 기반으로 결정을 내리고 다른 UAV와 통신하지 않는 decentralized execution으로 동작한다. Introduction : UAS(unmann.. 2022. 8. 13. 이전 1 2 3 4 5 6 ··· 13 다음 반응형