Main Paper https://arxiv.org/pdf/1509.02971.pdf
CONTINUOUS CONTROL WITH DEEP REINFORCEMENTLEARNING
Abstract
성공적 결과를 보였던 DQN을 continuous action domain에 적용한다. 본 논문에서는 continuous action space에서 동작하는 deterministic policy gradient에 기반한 actor-critic, model-free algorithm을 제안한다. 이 algorithm은 domain과 derivatives에 대해 full access가 가능한 planning algorithm으로 찾은 policy의 성능과 경쟁적인 policy를 찾을 수 있다.
Introduction
AI의 주요 목표는 unprocessed, high-dimensional, sensory input으로부터 complex task를 해결하는 것이다.
Success of DQN
sensory processing를 위해, unprocessed input을 사용해도 좋은 성능을 보이는 DQN algorithm이 개발되었다. 이를 위해 action-value function을 추정하기 위한 deep neural network approximators가 사용되었다.
=> sensor로부터 나오는 processed input 대신, unprocessed raw input을 사용하여 high-dimensional observation space를 해결한다.
Limitation of DQN
그러나 DQN으로는 high-dimensional observation spaces problem을 풀 때, discrete & low dimensional action spaces만 해결할 수 있었다. 실제 관심있는 tasks들은 continuous, high-dimensional action spaces를 가지고 있다. DQN은 continuous domain의 경우, every step에서 iterative optimization이 필요하므로 straight-forwardly하게 적용이 불가능하다.
=> DQN는 discrete & low-dimensional action spaces에서만 사용 가능하고, continuous action spaces에서는 적용이 불가능하다.
curse of Dimensionality
DQN을 continuous domains에 적용하기 위한 명백한 접근방식은 action space를 discretize하는 것이다. 그러나 이에 따른 문제점이 발생한다.
: number of actions가 exponentially하게 증가한다. 게다가 action을 미세하게 제어해야 하는 task의 경우, 이는 더 악화되어 number of discrete action는 폭발적으로 증가한다. large action spaces는 효과적으로 explore하기 어려우므로, DQN과 같은 network를 성공적으로 학습시키기 어렵다. 또한 action spaces에 대한 discretization은 task를 해결하는데 필수적일 수 있는 action domain structure에 대한 정보를 불필요하게 버린다.
=> discretization로 생성된 large action spaces는 continuous domain이 아니기 때문에, 정보의 손실이 있을 뿐더러 proper action을 취하지 못할 수 있다.
DDPG Approach
따라서 본 논문에서는 DPG(Deep Policy Gradient) 기반의 model-free, off-policy actor-critic using deep function approximators를 통해 high-dimensional, continuous action spaces에서 policy를 학습할 수 있다. 그러나 actor-critic 방식을 그대로 적용하기에는 어려운 task들에 대해 불안정하다. 따라서 actor-critic + DQN의 특성을 융합한다.
DQN innovation
1. network는 sample correlation을 최소화하기 위해, replay buffer의 sample를 사용하여 off-policy 훈련된다.
2. network는 TD backups 동안 일관된 target를 제공하기 위해, target Q-network로 훈련된다.
+ 추가로 batch normalization를 사용한다.
same hyperparameter & network structure을 사용하여 low-dimensional observation를 사용하는 tasks들에서도 좋은 policy를 학습할 수 있다. 또한 raw pixel로부터 직접적으로 좋은 policy를 학습할 수 있다.
주요 특징은 "simplicity"이다.
actor-critic architecture와 learning algorithm만 있으면 되기 때문에, 구현이 쉽고 더 어려운 task와 더 큰 network로 확장이 가능하다. physical control problem의 경우, planner가 계산한 baseline과 결과를 비교한다. DDPG는 때때로 기본적으로 low-dimensional state space에 대해 계획하는 planner의 성능을 초과하는 policy를 찾기도 했다.
Background
standard reinforcement learning setup
agent가 environment E와 discrete timesteps마다 interacting하는 standard reinforcement learning setup
: descrete timestep
: observation if env is fully-observed
: action, real-valued
: reward, scalar
: state describtion if env is partially-observed.
: policy, probability distribution over actions
: environment, stochastic
: initial state distribution
: transition dynamics
: reward function
: sum of discounted future reward, return
: discounted state visitation distribution for a policy π
(1) policy π를 따라 s_t에서 a_t를 취했을 때의 Expected return, action-value function
(2) Bellman equation을 사용하여 recursive하게 식 변형
: a_t+1을 골랐던 순간의 policy로 Expectation을 구해야하기 때문에 on-policy.
(3) if target policy가 Deterministic하게 변형
: Deterministic policy를 가정하면, update할 당시의 policy로 a_t+1를 구하기 때문에 off-policy. expectation은 env에 dependent하다. 이는 stochastic behavior policy β로 생성된 trainsition을 가지고 Q^u off-policy 학습이 가능하다는 뜻이다. 위 equation에서 내부의 expectation이 사라져 표현된다.
off-policy algorithm을 사용하는 Q-learning은 greedy policy를 사용한다.
우리는 θ^Q로 parameterized된 function approximators를 고려하고, 다음의 loss를 줄이는 방향으로 optimize한다.
이 때, y_t는 θ^Q에 dependent하고 일반적으로 무시된다.
Algorithm
댓글