본문 바로가기
반응형

rl10

Chapter 1. The Reinforcement Learning Problem 강화학습의 바이블이라고 불리는 Richard S. Sutton의 Reinforcement Learning: An Introduction을 공부하고 필자가 이해한 내용과 추가 정보들을 예제와 함께 간략하고 쉽게(?) 설명하는 방식으로 정리해봅니다. 용어 같은 경우, 원문 그대로 사용하겠지만 혹시 모를 번역 오류 및 잘못된 설명에 대한 지적과 보충 환영합니다. 1. The Reinforcement Learning Problem 1.1 Reinforcement Learning 머신러닝은 지도학습(Supervised), 비지도학습(Unsupervised), 강화학습(Reinforced) 크게 세 가지로 분류된다. 이들의 궁극적인 목적으로는 지도학습은 결과를 예측(Regression, Classification).. 2023. 3. 6.
REINFORCE(MC-PG) + vanila Policy Gradient Deep Reinforcement Learning Hands-On - Maxim Lapan 교재 Chapter 09를 참고하였습니다. remind action Value func definition Q(s,a). Q-learning(DQN)에서의 중심 토픽은 action value func:Q(St, At)었다. 이 때, Q(s,a)는 bellman equation에 따라 다음과 같이 정의된다. - Bellman Equation: Q(s,a)는 (current reward)Rt+1 + (discounted vector)r * Q(St+1, At+1) 로 분해된다. - Q(s,a): s에서 a한 current reward+r*{Σ (s'이 될 확률) * (s'에서의 value)} difference wit.. 2021. 3. 4.
Lecture 7: Policy Gradient 현실에 있는 큰 문제를 풀기 위해 table lookup 방식이 아닌 Lecture 6에서 FA를 통해 value fn를 학습하였고, 이번 단원에서는 동일한 조건인 big scale model-free 상황에서의 policy를 찾는 방법을 배울 것이다. Policy Gradient의 개요 + 장단점과 세가지 심화되는 접근 방법 - 지난 시간엔 state value fn인 V(s)와 action value fn인 Q(s,a)를 파라미터들을 Gradient discent로 update하는 방식으로 학습했다. - value fn를 이용해서 e-greedy 방식으로 만들어진 policy였다. == value fn만 존재하고 policy는 없었다. - 이번 시간에는 직접적으로 policy를 parametrise한.. 2021. 1. 23.
Lecture 6: Value Function Approximation 현실의 big scale의 문제들에서는 Q table lookup같은 개념이 불가능할 수 있고, 그에 따른 방법들을 배운다. model-free big scale 문제에 대해 해결하는 Incremental(점진적), Batch(한번에 해결)하는 방식 다음과 같은 large problems에 RL이 사용되고, 모든 states 마다 table lookup이 불가능하기 때문에 이를 대체하기 위한 방법이 필요하다. - Backgammon 보드게임: 10^20 states - 바둑: 10^170 states - 헬리콥터: continuous states lookup table기반 - state-value fn V(s) s개수만큼 빈칸이 존재한다. - action-value fn Q(s,a) s-a pair개수만.. 2021. 1. 19.
반응형