본문 바로가기
반응형

전체 글72

TCP Abstract : 결합된 wireless link가 있는 network를 통해 TCP application progarm에 대한 congestion control을 재설계한다. congestion measure로 queueing delay를 사용하여, network utility maximization problem에 대한 window-control oriented implicit primal-dual solver를 개발하여 optimal TCP congestion control를 달성한다. 이를 QUIC-TCP congestion control algorithm이라 부른다. Introduction : 인터넷을 통한 대부분의 트래픽은 network configuration information이 필요하.. 2022. 10. 9.
Markov Models & Hidden Markov Models Speech and Language Processing. Daniel Jurafsky & James H. Martin. Copyright © 2021. All rights reserved. Draft of December 29, 2021. Markov Chains : Markov chain이란 sequences of random variables, states, values에 대한 probabilities를 말해주는 model이다. 이러한 set은 words, tages, symbols 등의 표현이 될 수 있다. 이는 current state에서 야기된 우리가 sequence에서 예측을 원하는 미래에 대한 강한 가정을 제공한다. → 과거 states(current state 이전)는 current sta.. 2022. 9. 20.
[ACCNet] Actor-Coordinator-Critic Net for“Learning-to-Communicate”with Deep Multi-agent Reinforcement Learning [Submitted on 10 Jun 2017 (v1), last revised 29 Oct 2017 (this version, v3)] Abstract : Mulit-agent의 'learning to communicate' problem을 해결하기 위한 ACCNet(Actor-Coordinator-Critic Net) framework를 제안한다. 해당 논문은 paritally observable env에서도 처음부터 communication protocol을 학습 가능하다. 결과적으로, continuous와 discrete actino space env 모두에서 좋은 결과를 얻을 수 있었다. Introduction : 우리는 partially observable env에서 shared discoun.. 2022. 9. 1.
[BiCNet] Multi-agent Bidirectionally-Coordinated Nets Emergence of Human-level Coordination in Learning to Play StarCraft Combat Games University College London, Alibaba Group. 14 Sep 2017 Abstract : Scalable 하면서도 effective communication protocol를 유지하기 위해 actor critic의 vectorised extension과 함께 multi-agent BiCNet(Bidirectionally Coordinated Network)을 도입한다. QMIX 때와 비슷하게 StarCraft combat game에서 실험을 진행하며 임의의 수의 agent를 사용하여 다양한 유형의 combat을 처리할 수 있음을 보인다. Introduction : 해당 논문에서는 multiple agents 간 collaborative behavior를 학습하기 위해 expor.. 2022. 8. 31.
Collaborative Multi-Agent Reinforcement Learning Aided Resource Allocation for UAV Anti-Jamming Communication IEEE INTERNET OF THINGS JOURNAL: DOI 10.1109/JIOT.2022.3188833 Abstract : UAV network에 대한 joint channel 및 power allocation에 대한 anti-jamming problem을 연구한다. 특히, UAV 간의 mutual interference와 external malicious jamming을 모두 방지하여 전력 소비와 관련된 시스템 경험 품질(QoE)를 극대화하는데 중점을 둔다. 해당 논문에서는 collaborate MALQL(multi-agent layered Q-learning) 기반 anti-jamming communication algorithm을 제안한다. Introduction : 해당 논문에서는 UAV.. 2022. 8. 26.
[QMIX] Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning Proceedings of the 35th International Conference on Machine Learning, PMLR 80, 2018 Abstract : centralized end-to-end method로 decentralized policy를 훈련하는 value-based approach인 QMIX를 제안한다. 이 network는 local observation에만 의존하는 agent 별 value의 complex non-lonear combination으로 joint action value를 추정한다. 구조적으로 joint cation value가 agent 당 value에서 monotonic하게 적용되도록 하여 off-policy 학습에서 policy 간 일관성을 보장한다. In.. 2022. 8. 23.
반응형