본문 바로가기
반응형

전체 글72

DQN, DDQN, D3QN 비교 Abstract. 대표적 DRL algorithm인 DQN, DDQN(Double DQN), D3QN(Dueling DQN)을 등장 배경, 특징, 성능의 관점에서 비교해본다. DQN DQN background 1. Past RL challenges to high-dimensional input : hand-crafted feature representation에 의존하던 이전 RL은 high-dimensional input로부터 agent를 control하는 것에 취약했다. 2. DL advances & challenges to apply DL methods to RL : DL의 발전으로 raw sensory data에서 high-level feature를 추출 가능하게 되었지만 다음의 이유로 RL에 적.. 2022. 7. 4.
Multi-Objective RL using Sets of Pareto Dominating Policies Abstract Introduction Background Abstract MORL(Multi-Objective RL)이란? : 현실 세계의 문제들은 multiple, possibly conflicting objective들의 optimization을 포함한다. MORL은 scalar reward signal가 각 objective에 대해 하나씩, multiple feedback signals로 확장되는 generalization of standard RL generalization이다. MORL는 multiple criteria를 simultaneously optimize하는 learning policy의 진행 방식이다. Pareto Q-learning 요약 : 해당 논문에서는 Pareto Q-lear.. 2022. 4. 4.
Attention Is All You Need NLP Methods - Traditional RNN - Attention Mechanism Transformer Concept - Encoder - Decoder Model Architecture - Encoder & Decoder Stacks - Attention - Position-wise Feed-Forward Networks - Embeddings and Softmax - Positional Training NLP Methods Traditional RNN : RNN은 문장에서 sequential하게 state-value를 계산하고 최종적으로 state-value를 context vector로 사용하게 된다. decoder는 이 context vector를 기반으로 에 도달할 때까지 입력된 문장.. 2022. 3. 11.
Deep RL Policy-based Method Policy-based Method - Steppest Ascent - Adaptive Noise - Cross Entropy Method - Evoluation Strategies Policy gradient Method - REINFORCE - PPO Actor-Critic Variants - A3C - A2C - GAE - DDPG On-policy vs. Off-policy Policy-based Method : value-based method는 value function을 구해 이를 기반으로 optimal policy를 구하지만, policy-based method는 neural network에서 optimal policy를 바로 estimate한다. 즉, value function을 구하는 .. 2022. 3. 4.
Deep RL Value-based Methods From RL to Deep RL DQN variants - DQN - DDQN - PER - D3QN - Rainbow From RL to Deep RL TRL에서 discrete space에서 목적하던 Q-table은 state, action space의 증가로 인한 computation 증가로 neural network를 사용하여 continuous space를 처리하는 방식이 등장한다. DQN variants DQN : 가장 중요한 value-based RL method이다. Experience Replay, Fixed Q-targets가 사용되었다. neural network에 state를 input으로 넣으면 max action-value function인 action을 output으로 출력한.. 2022. 3. 3.
Traditional RL RL Framework - Problem & Solution Dynamic Programming - System of Euqation Method - Iterative Method - Policy Evaluation - Policy Improvement - Policy Iteration - Value Iteration Monte Carlo Methods Temporal Difference Methods RL in Continuous Space RL Framework - Problem Reinforcement Learning이란? : agent가 env와의 interaction을 통해서 학습하는 방식이다. initial state S_0에서 action A_0을 하면 env는 new state S_1, n.. 2022. 3. 2.
반응형