본문 바로가기
개인 정리/개념 정리

Deep RL Value-based Methods

by xi2d 2022. 3. 3.
반응형

From RL to Deep RL

DQN variants

- DQN

- DDQN

- PER

- D3QN

- Rainbow


From RL to Deep RL

TRL에서 discrete space에서 목적하던 Q-table은 state, action space의 증가로 인한 computation 증가로 neural network를 사용하여 continuous space를 처리하는 방식이 등장한다. 

 


DQN variants

DQN

 

: 가장 중요한 value-based RL method이다. Experience Replay, Fixed Q-targets가 사용되었다. 

neural network에 state를 input으로 넣으면 max action-value function인 action을 output으로 출력한다. 

 

Experience Replay

: Q-learning은 S, A, R, S_(t+1)만을 사용하여 학습이 가능하다. episode를 replay buffer에 저장하여 exploration된 episode를 바로 버리던 이전과는 다르게 모아서 random sampling 하게 된다. 추후에 저장된 메모리에 우선순위를 부여하는 PER(Prioritized Experience Replay) 방식도 존재한다. 

 

Fixed Q-Targets

: Q-learning update는 TD target과 current value의 loss인 TD error에 영향을 받는다. 

 

: 이 때, weight를 조금씩 변화시키는 것이 목적인데, TD target weight w와 current value weight w가 같아 target update와 동시에 움직여 버리는 현상이 발생하여 학습 도중 편향이 심해진다. 

 

: 따라 학습 도중에는 TD target weight w-를 고정시키고 policy update 후에 updated current value weight w를 TD target weight w-로 복사해주는 방식을 사용한다.  

 

Double DQN(DDQN)

: action-value function Q의 overestimation을 감소시키기 위해, policy network에서의 best action을 선택하여 target network에 사용하는 방식이다. 즉, value evaluate는 policy network를, value estimate는 target network를 사용한다. 

 

PER(Prioritized Experience Replay)

: replay buffer에 저장할 때, priority p 값을 추가로 같이 저장하는 방식이다. 

 

Dueling DQN(D3QN)

: advantage value를 출력하는 network를 추가로 사용하여 state-value function + advatage-value = action-value function을 재구성하는 방식이다. 

 

Rainbow

: DDQN, PER, D3QN, multi-step bootstrap targets, Distributional DQN, Noisy DQN의 총 7개의 논문을 모두 인용하여 합친 방식으로 기존의 DQN based 방식의 성능을 크게 끌어올린 방식이다. 

 

다른 DQN variants들이 존재하지만 현재로써는 Rainbow가 가장 널리 쓰이고, 성능이 우수하다고 한다. 

 


Reference

https://www.youtube.com/watch?v=srgNJWVgs9w&list=PLMhvUUCFLfI4K_d9lCXtY0e3iAEV_HbnK&index=1&t=67s 

 

https://ropiens.tistory.com/134

 

강화학습 논문 정리 3편 : DDQN 논문 리뷰 (Deep Reinforcement Learning with Double Q-learning)

작성자 1 : 한양대학원 융합로봇시스템학과 유승환 석사과정 (CAI LAB) 작성자 2 : 한양대학교 로봇공학과 홍윤기 학부연구생 정말 오랜만에 팀블로그에 글을 작성해보네요ㅎㅎ 오늘은 value iter 기

ropiens.tistory.com

 

 

반응형

'개인 정리 > 개념 정리' 카테고리의 다른 글

Multi-Objective RL using Sets of Pareto Dominating Policies  (0) 2022.04.04
Attention Is All You Need  (0) 2022.03.11
Deep RL Policy-based Method  (0) 2022.03.04
Traditional RL  (0) 2022.03.02
Combinatorial Optimization by POMO  (0) 2022.03.01
Model-free RL, Model-based RL  (0) 2022.02.07

댓글