본문 바로가기
반응형

논문 리뷰/RL17

DRQN POMDP RL은 기본적으로 MDP로 문제가 정의된 상태(fully observered env)에서 maximize return를 달성하는 agent를 학습하는 것을 목표로 한다. 그러나 실제로 RL를 적용하려하는 많은 문제들은 문제해결에 필요한 모든 정보(MDP)를 관측할 수 없는 상태(partially obeservered env)이다. 이에 대한 정의로써 POMDP가 제시되었다. 기존에 우리가 알던 MDP는 S(state), A(action), P(transition), R(reward)로 나타낼 수 있다. 여기에 확장하여 POMDP는 Ω(observation)과 O(observation이 특정 state에서 관측될 확률)이 추가 된다. 일반적인 POMDP 상황에서는 Q value-function을.. 2021. 3. 25.
04. Dynamic Programming Dynamic Programming(DP): MDP 상태의 env에 대한 perfect model이 주어진 optimal policy를 계산하는 알고리즘의 집합이다. DP는 너무 큰 computational cost 때문에 RL에서 limited utility로 쓰이지만, 추후에 다룰 method의 중요한 기초를 제공하므로 짚고 넘어간다. 다른 모든 methods들은 perfect env model에 대한 가정과 less computation만 제외하면 DP와 비슷한 효과를 내기위한 시도로 보일 수 있다. 우리는 env가 finite MDP라고 가정하였다. DP가 continuous state, action spaces에 대한 문제에 활용되기는 하지만, 완벽한 solution은 특정 cases에서만 존재.. 2021. 3. 22.
03. Finite Markov Decision Process 3.1 The Agent-Environment Interface RL Problem: 목표를 달성하기 위한 상호작용을 통해, 학습하는 문제에 대한 간단한 틀 - agent: learner or decision-maker - environment: interact with outside the agent. provide reward - reward: numerical value that the agent tries to maximize - policy: 각 time-step에서 agent가 해당 state에서 possible action를 선택하는 기준. πt(a|s): St = s에서 At = a인 확률 agent between env, continually interact : agent가 action를.. 2021. 3. 20.
Vanila Actor-Critic Deep Reinforcement Learning Hands-On - Maxim Lapan 교재 Chapter 10를 참고하였습니다. Variance reduction Policy Gradient method에서 안정성을 향상시키는 방법 중 하나가 gradient variance를 줄이는 것이라고 언급했었다. variance는 값이 평균으로부터 얼마나 멀리 분산되어 있는지를 보여준다. 만약 분산이 높다면 랜덤 변수가 평균에서 크게 벗어난 값을 취할 수 있다. 통계에서 분산은 다음과 같이 표현된다. PG는 수학적으로 다음과 같이 정의되었었다. vanila PG에서 Q(s, a)는 특정 상태에서 수행되는 action의 probability를 얼마나 증가 또는 감소시키는지 지정한다. REINFORCE에서는 d.. 2021. 3. 9.
반응형