반응형 Policy Gradient2 PPO(Proximal Policy Optimization Algorithms) Main Paper https://arxiv.org/pdf/1707.06347.pdf Proximal Policy Optimization Algorithms Abstract env와의 interaction을 통한 data sampling과 policy gradient ascent 사용한 surrogate objective function optimization를 교대하는 Policy Gradient 방식을 제안한다. 기존의 PG가 data sample당 하나의 gradient update를 수행하는 반면, 우리는 mini batch update의 여러 epoch를 가능하게 하는 새로운 objective function을 제안한다. 제안하는 PPO는 TRPO의 일부 이점이 있지만 구현이 훨씬 간단하고 sa.. 2021. 8. 6. REINFORCE(MC-PG) + vanila Policy Gradient Deep Reinforcement Learning Hands-On - Maxim Lapan 교재 Chapter 09를 참고하였습니다. remind action Value func definition Q(s,a). Q-learning(DQN)에서의 중심 토픽은 action value func:Q(St, At)었다. 이 때, Q(s,a)는 bellman equation에 따라 다음과 같이 정의된다. - Bellman Equation: Q(s,a)는 (current reward)Rt+1 + (discounted vector)r * Q(St+1, At+1) 로 분해된다. - Q(s,a): s에서 a한 current reward+r*{Σ (s'이 될 확률) * (s'에서의 value)} difference wit.. 2021. 3. 4. 이전 1 다음 반응형