반응형 reinforcement learning9 Chapter 1. The Reinforcement Learning Problem 강화학습의 바이블이라고 불리는 Richard S. Sutton의 Reinforcement Learning: An Introduction을 공부하고 필자가 이해한 내용과 추가 정보들을 예제와 함께 간략하고 쉽게(?) 설명하는 방식으로 정리해봅니다. 용어 같은 경우, 원문 그대로 사용하겠지만 혹시 모를 번역 오류 및 잘못된 설명에 대한 지적과 보충 환영합니다. 1. The Reinforcement Learning Problem 1.1 Reinforcement Learning 머신러닝은 지도학습(Supervised), 비지도학습(Unsupervised), 강화학습(Reinforced) 크게 세 가지로 분류된다. 이들의 궁극적인 목적으로는 지도학습은 결과를 예측(Regression, Classification).. 2023. 3. 6. Lecture 7: Policy Gradient 현실에 있는 큰 문제를 풀기 위해 table lookup 방식이 아닌 Lecture 6에서 FA를 통해 value fn를 학습하였고, 이번 단원에서는 동일한 조건인 big scale model-free 상황에서의 policy를 찾는 방법을 배울 것이다. Policy Gradient의 개요 + 장단점과 세가지 심화되는 접근 방법 - 지난 시간엔 state value fn인 V(s)와 action value fn인 Q(s,a)를 파라미터들을 Gradient discent로 update하는 방식으로 학습했다. - value fn를 이용해서 e-greedy 방식으로 만들어진 policy였다. == value fn만 존재하고 policy는 없었다. - 이번 시간에는 직접적으로 policy를 parametrise한.. 2021. 1. 23. Lecture 6: Value Function Approximation 현실의 big scale의 문제들에서는 Q table lookup같은 개념이 불가능할 수 있고, 그에 따른 방법들을 배운다. model-free big scale 문제에 대해 해결하는 Incremental(점진적), Batch(한번에 해결)하는 방식 다음과 같은 large problems에 RL이 사용되고, 모든 states 마다 table lookup이 불가능하기 때문에 이를 대체하기 위한 방법이 필요하다. - Backgammon 보드게임: 10^20 states - 바둑: 10^170 states - 헬리콥터: continuous states lookup table기반 - state-value fn V(s) s개수만큼 빈칸이 존재한다. - action-value fn Q(s,a) s-a pair개수만.. 2021. 1. 19. Lecture 5: Model-Free Control 지난 강의에서 Prediction인 model-free env에서 policy가 주어졌을 때 value fn를 구하는 방법을 알아보았다면, 이제 최적의 policy를 구하는 Control를 공부한다. On-policy MC/TD: 학습하고자 하는 policy와 실제 env 경험에서의 policy가 같을 때 Off-policy 학습하고자 하는 policy와 실제 env 경험에서의 policy가 다를 때 위 problems들은 다음의 문제를 가지고 있다. - MDP가 알려지지 않고, 경험이 sampling 가능하다. - MDP가 알려져있지만, 너무 사용하기에 크기 때문에 sampling이 힘들다. Model-Free Control이 문제를 해결해준다. - On-Policy Learning: Optimal P.. 2021. 1. 18. 이전 1 2 3 다음 반응형