반응형 Mocte-Carlo1 REINFORCE(MC-PG) + vanila Policy Gradient Deep Reinforcement Learning Hands-On - Maxim Lapan 교재 Chapter 09를 참고하였습니다. remind action Value func definition Q(s,a). Q-learning(DQN)에서의 중심 토픽은 action value func:Q(St, At)었다. 이 때, Q(s,a)는 bellman equation에 따라 다음과 같이 정의된다. - Bellman Equation: Q(s,a)는 (current reward)Rt+1 + (discounted vector)r * Q(St+1, At+1) 로 분해된다. - Q(s,a): s에서 a한 current reward+r*{Σ (s'이 될 확률) * (s'에서의 value)} difference wit.. 2021. 3. 4. 이전 1 다음 반응형