본문 바로가기
반응형

논문 리뷰51

DQN(Deep Q-learning) Playing Atari with Deep Reinforcement Learning 0. Abstract ▶ 강화학습(Reinforcement Learning)을 사용하는 high-dimensinosal sensory input(ex. vision, speech)에서 policy control를 직접 학습하는 DL(Deep Learning) model ▶ Q-learning의 일종으로 훈련된 CNN(Convolutional Neural Network) - model input: raw pixel - model output: value function(future reward를 estimate하는 함수) 1. Introduction (1) Past RL challenges ▶ vision, speech와 .. 2021. 12. 11.
DRL for MultiagentSystems: A Review of Challenges,Solutions, and Applications Main Paper https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9043893 Deep Reinforcement Learning for MultiagentSystems: A Review of Challenges,Solutions, and Applications Abstract RL algorithm은 sequential decision-making problem을 해결하는데 사용되어 왔지만, high-dimensional env를 다룰 때 어려움에 직면했다. 최근 deep-learning의 발전으로 RL은 challenging env에서 효과적으로 수행가능한 정교하고 유능한 agent의 optimal policy를 제공하게 해준다. 이 논문은 co.. 2021. 8. 18.
A survey on MADRL: from the perspective of challenges and applications Main Paper https://ieeexplore.ieee.org/abstract/document/9164559 A survey on multi‐agent deep reinforcement learning: from the perspective of challenges and applications abstract 세상에는 다양한 multi-agent system이 존재하고, 이러한 system은 task를 수행하기 위해 cooperate or competitive하다. single RL과 비교하여, multi-agent RL은 larger search space, perception of other agents, system robustness를 지닌다. 이 논문은 current multi-agen.. 2021. 8. 17.
PPO(Proximal Policy Optimization Algorithms) Main Paper https://arxiv.org/pdf/1707.06347.pdf Proximal Policy Optimization Algorithms Abstract env와의 interaction을 통한 data sampling과 policy gradient ascent 사용한 surrogate objective function optimization를 교대하는 Policy Gradient 방식을 제안한다. 기존의 PG가 data sample당 하나의 gradient update를 수행하는 반면, 우리는 mini batch update의 여러 epoch를 가능하게 하는 새로운 objective function을 제안한다. 제안하는 PPO는 TRPO의 일부 이점이 있지만 구현이 훨씬 간단하고 sa.. 2021. 8. 6.
반응형