본문 바로가기
반응형

분류 전체보기75

Collaborative Multi-Agent Reinforcement Learning Aided Resource Allocation for UAV Anti-Jamming Communication IEEE INTERNET OF THINGS JOURNAL: DOI 10.1109/JIOT.2022.3188833 Abstract : UAV network에 대한 joint channel 및 power allocation에 대한 anti-jamming problem을 연구한다. 특히, UAV 간의 mutual interference와 external malicious jamming을 모두 방지하여 전력 소비와 관련된 시스템 경험 품질(QoE)를 극대화하는데 중점을 둔다. 해당 논문에서는 collaborate MALQL(multi-agent layered Q-learning) 기반 anti-jamming communication algorithm을 제안한다. Introduction : 해당 논문에서는 UAV.. 2022. 8. 26.
[QMIX] Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning Proceedings of the 35th International Conference on Machine Learning, PMLR 80, 2018 Abstract : centralized end-to-end method로 decentralized policy를 훈련하는 value-based approach인 QMIX를 제안한다. 이 network는 local observation에만 의존하는 agent 별 value의 complex non-lonear combination으로 joint action value를 추정한다. 구조적으로 joint cation value가 agent 당 value에서 monotonic하게 적용되도록 하여 off-policy 학습에서 policy 간 일관성을 보장한다. In.. 2022. 8. 23.
[COMA] Counterfactual Multi-Agent Policy Gradients [Submitted on 24 May 2017 (v1), last revised 14 Dec 2017 (this version, v2)] Abstract : Decentralized actor's policy와 centralized critic's Q-function을 최적화하기 위한 COMA를 제안한다. multi-agent의 credit assignment를 해결하기 위해 다른 agent's action은 고정된 상태로 유지하면서 single agent's action을 marginalises하는 counterfactual baseline을 사용한다. 추가로 single forward pass에서 counterfactual baseline이 효율적으로 계산될 수 있도록 하는 critic represe.. 2022. 8. 20.
[VDN] Value-Decomposition Networks For Cooperative Multi-Agent Learning [Submitted on 16 Jun 2017] Abstract : single joint reward signal을 사용하여 cooperative multi-agent RL problem을 연구한다. fully centralized and decentralized approach에서 가짜 reward problem과 partial observability로 인해 발생하는 'lazy agent' 현상을 찾는다. team value function을 개별 agent value function으로 분해하는 network architecture로 개별 agent를 학습시키는 method를 제안한다. Introduction : 원칙적으로 cooperative MARL problem은 centralized app.. 2022. 8. 20.
반응형