From RL to Deep RL
DQN variants
- DQN
- DDQN
- PER
- D3QN
- Rainbow
From RL to Deep RL
TRL에서 discrete space에서 목적하던 Q-table은 state, action space의 증가로 인한 computation 증가로 neural network를 사용하여 continuous space를 처리하는 방식이 등장한다.
DQN variants
DQN
: 가장 중요한 value-based RL method이다. Experience Replay, Fixed Q-targets가 사용되었다.
neural network에 state를 input으로 넣으면 max action-value function인 action을 output으로 출력한다.
Experience Replay
: Q-learning은 S, A, R, S_(t+1)만을 사용하여 학습이 가능하다. episode를 replay buffer에 저장하여 exploration된 episode를 바로 버리던 이전과는 다르게 모아서 random sampling 하게 된다. 추후에 저장된 메모리에 우선순위를 부여하는 PER(Prioritized Experience Replay) 방식도 존재한다.
Fixed Q-Targets
: Q-learning update는 TD target과 current value의 loss인 TD error에 영향을 받는다.
: 이 때, weight를 조금씩 변화시키는 것이 목적인데, TD target weight w와 current value weight w가 같아 target update와 동시에 움직여 버리는 현상이 발생하여 학습 도중 편향이 심해진다.
: 따라 학습 도중에는 TD target weight w-를 고정시키고 policy update 후에 updated current value weight w를 TD target weight w-로 복사해주는 방식을 사용한다.
Double DQN(DDQN)
: action-value function Q의 overestimation을 감소시키기 위해, policy network에서의 best action을 선택하여 target network에 사용하는 방식이다. 즉, value evaluate는 policy network를, value estimate는 target network를 사용한다.
PER(Prioritized Experience Replay)
: replay buffer에 저장할 때, priority p 값을 추가로 같이 저장하는 방식이다.
Dueling DQN(D3QN)
: advantage value를 출력하는 network를 추가로 사용하여 state-value function + advatage-value = action-value function을 재구성하는 방식이다.
Rainbow
: DDQN, PER, D3QN, multi-step bootstrap targets, Distributional DQN, Noisy DQN의 총 7개의 논문을 모두 인용하여 합친 방식으로 기존의 DQN based 방식의 성능을 크게 끌어올린 방식이다.
다른 DQN variants들이 존재하지만 현재로써는 Rainbow가 가장 널리 쓰이고, 성능이 우수하다고 한다.
Reference
https://www.youtube.com/watch?v=srgNJWVgs9w&list=PLMhvUUCFLfI4K_d9lCXtY0e3iAEV_HbnK&index=1&t=67s
https://ropiens.tistory.com/134
'개인 정리 > 개념 정리' 카테고리의 다른 글
Multi-Objective RL using Sets of Pareto Dominating Policies (0) | 2022.04.04 |
---|---|
Attention Is All You Need (0) | 2022.03.11 |
Deep RL Policy-based Method (0) | 2022.03.04 |
Traditional RL (0) | 2022.03.02 |
Combinatorial Optimization by POMO (0) | 2022.03.01 |
Model-free RL, Model-based RL (0) | 2022.02.07 |
댓글