반응형 DQN2 DQN, DDQN, D3QN 비교 Abstract. 대표적 DRL algorithm인 DQN, DDQN(Double DQN), D3QN(Dueling DQN)을 등장 배경, 특징, 성능의 관점에서 비교해본다. DQN DQN background 1. Past RL challenges to high-dimensional input : hand-crafted feature representation에 의존하던 이전 RL은 high-dimensional input로부터 agent를 control하는 것에 취약했다. 2. DL advances & challenges to apply DL methods to RL : DL의 발전으로 raw sensory data에서 high-level feature를 추출 가능하게 되었지만 다음의 이유로 RL에 적.. 2022. 7. 4. REINFORCE(MC-PG) + vanila Policy Gradient Deep Reinforcement Learning Hands-On - Maxim Lapan 교재 Chapter 09를 참고하였습니다. remind action Value func definition Q(s,a). Q-learning(DQN)에서의 중심 토픽은 action value func:Q(St, At)었다. 이 때, Q(s,a)는 bellman equation에 따라 다음과 같이 정의된다. - Bellman Equation: Q(s,a)는 (current reward)Rt+1 + (discounted vector)r * Q(St+1, At+1) 로 분해된다. - Q(s,a): s에서 a한 current reward+r*{Σ (s'이 될 확률) * (s'에서의 value)} difference wit.. 2021. 3. 4. 이전 1 다음 반응형