DRQN

POMDP

RL은 기본적으로 MDP로 문제가 정의된 상태(fully observered env)에서 maximize return를 달성하는 agent를 학습하는 것을 목표로 한다. 그러나 실제로 RL를 적용하려하는 많은 문제들은 문제해결에 필요한 모든 정보(MDP)를 관측할 수 없는 상태(partially obeservered env)이다. 이에 대한 정의로써 POMDP가 제시되었다.

기존에 우리가 알던 MDP는 S(state), A(action), P(transition), R(reward)로 나타낼 수 있다. 여기에 확장하여 POMDP는 $Ω$ 과 $O$

$O$

$O$ $O$

Bootstrapped Random Updates:Episodes는 replay memory에서 무작위로 선택되고, updates는 episode의 임의의 시점에서 시작하여 unroll iterations time step까지만 진행시킨다. 각 time step에서의 targets은 target Q-network,

,로부터 구하고, RNN의 initial state는 제로로 초기화 시킨다.

저작자표시 비영리 (새창열림)

'논문 리뷰 > RL' 카테고리의 다른 글

TRPO(Trust Region Policy Optimization) (0)	2021.08.02
code (0)	2021.07.26
DRQN1 (0)	2021.05.12
04. Dynamic Programming (0)	2021.03.22
03. Finite Markov Decision Process (0)	2021.03.20
Vanila Actor-Critic (0)	2021.03.09

Don't hesitate

DRQN

'논문 리뷰 > RL' 카테고리의 다른 글

댓글

티스토리툴바

DRQN

'논문 리뷰 > RL' 카테고리의 다른 글

관련글

댓글

티스토리툴바