반응형 전체 글72 DDQN(Double DQN) Deep Reinforcement Learning with Double Q-learning 0. Abstract ▶ Q-learning algorithm(ex. DQN)은 특정 조건에서 action-value를 overestimate하는 것으로 알려짐 → 그러나 실제로 그러한 overestimate가 일반적인지, performance에 해를 끼치지는 않는지, 예방은 가능한지는 이전에 알려지지 않은 상태 ▶ DQN algorithm이 일부 game에서 상당한 overestimate를 겪고 있음 ▶ 해당 논문은 tabular setting으로 도입된 Double Q-learning에 대한 아이디어가 large-scale fucntion approximation과 함께 작동하도록 일반화될 수 있음을 보여줌 →.. 2021. 12. 12. DQN(Deep Q-learning) Playing Atari with Deep Reinforcement Learning 0. Abstract ▶ 강화학습(Reinforcement Learning)을 사용하는 high-dimensinosal sensory input(ex. vision, speech)에서 policy control를 직접 학습하는 DL(Deep Learning) model ▶ Q-learning의 일종으로 훈련된 CNN(Convolutional Neural Network) - model input: raw pixel - model output: value function(future reward를 estimate하는 함수) 1. Introduction (1) Past RL challenges ▶ vision, speech와 .. 2021. 12. 11. A survey on MADRL: from the perspective of challenges and applications Main Paper https://ieeexplore.ieee.org/abstract/document/9164559 A survey on multi‐agent deep reinforcement learning: from the perspective of challenges and applications abstract 세상에는 다양한 multi-agent system이 존재하고, 이러한 system은 task를 수행하기 위해 cooperate or competitive하다. single RL과 비교하여, multi-agent RL은 larger search space, perception of other agents, system robustness를 지닌다. 이 논문은 current multi-agen.. 2021. 8. 17. DDPG(CONTINUOUS CONTROL WITH DEEP RL) Main Paper https://arxiv.org/pdf/1509.02971.pdf CONTINUOUS CONTROL WITH DEEP REINFORCEMENTLEARNING Abstract 성공적 결과를 보였던 DQN을 continuous action domain에 적용한다. 본 논문에서는 continuous action space에서 동작하는 deterministic policy gradient에 기반한 actor-critic, model-free algorithm을 제안한다. 이 algorithm은 domain과 derivatives에 대해 full access가 가능한 planning algorithm으로 찾은 policy의 성능과 경쟁적인 policy를 찾을 수 있다. Introduction .. 2021. 8. 10. PPO(Proximal Policy Optimization Algorithms) Main Paper https://arxiv.org/pdf/1707.06347.pdf Proximal Policy Optimization Algorithms Abstract env와의 interaction을 통한 data sampling과 policy gradient ascent 사용한 surrogate objective function optimization를 교대하는 Policy Gradient 방식을 제안한다. 기존의 PG가 data sample당 하나의 gradient update를 수행하는 반면, 우리는 mini batch update의 여러 epoch를 가능하게 하는 새로운 objective function을 제안한다. 제안하는 PPO는 TRPO의 일부 이점이 있지만 구현이 훨씬 간단하고 sa.. 2021. 8. 6. TRPO(Trust Region Policy Optimization) Main Paper https://arxiv.org/pdf/1502.05477.pdf Trust Region Policy Optimization Abstract 더보기 We describe an iterative procedure for optimizing policies, with guaranteed monotonic improvement. By making several approximations to the theoretically-justified procedure, we develop a practical algorithm, called Trust Region Policy Optimization (TRPO). This algorithm is similar to natural policy grad.. 2021. 8. 2. 이전 1 ··· 4 5 6 7 8 9 10 ··· 12 다음 반응형