POMDP
RL은 기본적으로 MDP로 문제가 정의된 상태(fully observered env)에서 maximize return를 달성하는 agent를 학습하는 것을 목표로 한다. 그러나 실제로 RL를 적용하려하는 많은 문제들은 문제해결에 필요한 모든 정보(MDP)를 관측할 수 없는 상태(partially obeservered env)이다. 이에 대한 정의로써 POMDP가 제시되었다.
기존에 우리가 알던 MDP는 S(state), A(action), P(transition), R(reward)로 나타낼 수 있다. 여기에 확장하여 POMDP는 Ω(observation)과 O(observation이 특정 state에서 관측될 확률)이 추가 된다.
일반적인 POMDP 상황에서는 Q value-function을 추정하기가 매우 힘들다.
따라 DQN에서도 state가 screen image이고 game의 dynamics를 고려하기 위해 4개의 frame을 사용했었다. 만약 현재의 state의 정보로 agent의 적절한 action을 결정하기 위헤 정보량이 부족한 환경이라면 추가로 정보를 얻을 수 있는 방식이 필요하다.
여기서 RNN의 장점을 활용하여 DQN이 POMDP상황을 좀 더 잘 다룰 수 있을 것이라는 아이디어가 등장한다. 이러한 관점에서 DQN + LSTM을 조합한 Deep Recurrent Q-Network(DRQN) 방법이 있다.
DQN에 recurrency를 도입하기 위해 사용한 방법
- DQN 구조를 그대로 유지한 채 첫번째 fully connected layer만 LSTM layer로 변경한다.
: convolution layer의 output은 fully connected LSTM layer로 전달된 후, 마지막으로 fully connected output layer를 거쳐 각 action에 대한 Q-value값을 구하게 된다.
Recurrent convolutional network를 update하게 위해서는 여러 time step의 게임 스크린의 backward pass 및 target value를 구하는것이 필요하다. Update를 위해 고려한 방법은 다음과 같이 두개의 타입으로 생각해볼 수 있다.
Bootstrapped Sequential Updates: Episodes는 replay memory에서 무작위로 선택되고, updates는 episode 시작시점에서 episode가 끝나는 시점까지 진행시킨다. 각 time step에서의 targets은 target Q-network, Q,로부터 구하고, RNN의 hidden는 episode가 끝나는 시점까지 계산 및 전파된다.
Bootstrapped Random Updates:Episodes는 replay memory에서 무작위로 선택되고, updates는 episode의 임의의 시점에서 시작하여 unroll iterations time step까지만 진행시킨다. 각 time step에서의 targets은 target Q-network,
,로부터 구하고, RNN의 initial state는 제로로 초기화 시킨다.
'논문 리뷰 > RL' 카테고리의 다른 글
TRPO(Trust Region Policy Optimization) (0) | 2021.08.02 |
---|---|
code (0) | 2021.07.26 |
DRQN1 (0) | 2021.05.12 |
04. Dynamic Programming (0) | 2021.03.22 |
03. Finite Markov Decision Process (0) | 2021.03.20 |
Vanila Actor-Critic (0) | 2021.03.09 |
댓글