main Paper
1. Introduction
DQN은 다양한 Atari games에서 인간 수준의 policy control를 학습할 수 있다. 이름 그대로 DQN은 현재 game state에서 가능한 action을 선택하는 Q-value or long-term discounted returns를 학습한다. network의 Q-value estimate가 충분히 정확하다면, 각 단계에서 max Q-value로 action을 선택하여 게임을 진행할 수 있다. raw screen pixel에서 action으로 매핑되는 policy를 학습하면서 이러한 network는 다양한 atari games에서 뛰어난 성능을 달성하였다.
그러나 Deep Q-Networks는 제한된 수의 과거 상태 또는 atari game의 경우 게임 화면에서 매핑을 학습한다는 점에서 제한적이다. 실제로 DQN은 agent가 마지막으로 접한 4개의 state로 구성된 input을 사용하여 train 한다. 따라 DQN은 layer가 과거의 4개의 screen보다 더 먼 event를 기억하도록 요구하는 문제를 해결할 수 없다. 다르게 말하면, 4 frame 이상의 메모리가 필요한 문제는 game state와 reward가 현재 input보다 더 의존하기 때문에 Markov하지 않다고 볼 수 있다. 이러한 문제는 MDP(Markov Decision Process) 대신, game을 부분적으로 관찰 가능한 POMDP(Partially Observable Markov Decision Process)가 된다.
real-world task는 주로 partial observability로 인해, incomplete하고 noisy한 state 정보를 특징으로 한다. Figure 1에서 볼 수 있듯이, 하나의 game screen만 볼 때, 많은 Atari games은 POMDP이다. 대표적으로 Pong game은 공의 이동 방향을 아는 것은 최상의 패들 위치를 결정하는데 중요한 구성 요소인데도 불구하고, 현재 screen에 패들과 공의 위치만 드러낼 뿐 공의 속도는 드러내지 않는 POMDP 문제이다.
incomplete state observations가 주어지면 DQN의 성능이 저하된다는 것을 관찰하고, RNN의 발전을 활용하여 DQN을 POMDP에 적용시킬 수 있는 방식으로 개선시켰다. 따라서 LSTM과 DQN을 결합한 DRQN(Deep Recurrent Q-Network)를 소개한다. 결정적으로, DRQN이 partial observability를 처리할 수 있으며, full observation으로 train되고 partial observation으로 evaluate될 때, DQN보다 DRQN이 loss를 더 잘 처리한다는 것을 보여준다. 따라서 recurrency는 observation의 품질이 저하될 때 효과적임을 나타낸다.
Deep Q-Learning
RL은 unknown environment와 상호작용하는 agent에 대한 learning policy control과 연관되어 있다. 이러한 환경은 종종 4-tuple(S, A, P, R)에 의해 설명되는 MDP로 공식화된다. 각 timestep에서 state와 상호작용하는 agent는 state St를 관찰하고, reward Rt와 next state St+1~P(St, At)를 선택하는 At를 선택한다. Q-learning은 주어진 state에서 action을 실행하는 long-term expected return를 추정하기 위한 model-free off-policy algorithm이다. 이러한 estimated return를 Q-value라고 부른다. Q-값이 높을수록 a가 상태에서 더 나은 장기적 결과를 산출한다고 판단된다는 것을 나타낸다. Q-value은 관찰된 보상에 대한 현재 Q-value 추정치와 결과 state의 모든 a에 대한 최대 Q-value을 업데이트하여 반복적으로 학습한다.
Partial Observability
real world environment에서는 system의 full state를 agent에 제공하는 경우가 거의 없다. 다시 말해 Markov Property는 실제 environment에서 거의 유지되지 않는다. POMDP는 agent에서 수신한 정보가 original system state의 부분적인 것이라는 것을 명시적으로 인지함으로써 많은 real world environment의 dynamic를 더 잘 예측한다.
공식적으로 POMDP는 6개의 튜플로 설명된다(S, A, P, R, Ω, O). S, A, P, R은 이전과 같은 state, action, transition, reward를 의미하지만, 더이상 agent가 true system state에 대해 모두 아는 것이 아니므로 그 대신 observation o ∈ Ω를 받는다. (observation이 특정 state에서 관측될 확률 o, observation Ω). observation은 probability distribution o~O(s)에 따라 기본 system state에서 생성된다. Vanila DQN은 POMDP의 기본 state를 해독하는 명시적 메커니즘이 없으며, observation이 기본 system state를 반영하는 경우에만 효과적이다. 일반적인 경우, Q(o, a|θ) ≠ Q(s, a|θ)이기 때문에 observation으로 부터 Q-value를 추정하는 것은 임의로 나쁠 수 있다.
DRQN에서는 DQN에 Recurrency를 추가하면 Q-network가 기본 system state를 더 잘 추정하여 Q(o, a|θ)와 Q(s, a|θ)의 격차를 줄일 수 있다는 것을 보여준다. 다르게 표현하면, recurrent DQN은 observation sequence에서 true Q-value에 더 잘 근사할 수 있으며, 이는 부분적으로 PO environment에서 더 나은 policy로 이어진다.
DRQN Architecture
Recurrency의 효과를 고립시키기 위해, DQN의 구조를 최소로 수정하고, 첫 번째 FC layer만 동일한 크기의 recurrent LSTM layer로 교체한다. Figure 2에 표현된 구조는 single 84 x 84 preprocessed image를 처리한다. image는 3개의 Convolutional Layer에 의해 처리되며 그 출력은 Fully connected LSTM layer의 입력으로 들어간다. 마지막으로 Linear layer는 각 action에 대한 Q-value를 출력한다. train 중, Convolution와 Recurrent 부분에 대한 매개변수는 처음부터 동시에 학습된다.
Stable Recurrent Updates
Recurrent, Convolutional network를 update하기 위해서는, 각 backward pass가 game screens와 target value를 많은 time-step만큼 포함되어야 한다. 또한 LSTM의 initial hidden state는 zero-initialize되거나 previous value에서 전달될 수 있다. 다음은 두가지의 update 유형이다.
'논문 리뷰 > RL' 카테고리의 다른 글
PPO(Proximal Policy Optimization Algorithms) (0) | 2021.08.06 |
---|---|
TRPO(Trust Region Policy Optimization) (0) | 2021.08.02 |
code (0) | 2021.07.26 |
DRQN (0) | 2021.03.25 |
04. Dynamic Programming (0) | 2021.03.22 |
03. Finite Markov Decision Process (0) | 2021.03.20 |
댓글