반응형 강화학습8 Lecture 7: Policy Gradient 현실에 있는 큰 문제를 풀기 위해 table lookup 방식이 아닌 Lecture 6에서 FA를 통해 value fn를 학습하였고, 이번 단원에서는 동일한 조건인 big scale model-free 상황에서의 policy를 찾는 방법을 배울 것이다. Policy Gradient의 개요 + 장단점과 세가지 심화되는 접근 방법 - 지난 시간엔 state value fn인 V(s)와 action value fn인 Q(s,a)를 파라미터들을 Gradient discent로 update하는 방식으로 학습했다. - value fn를 이용해서 e-greedy 방식으로 만들어진 policy였다. == value fn만 존재하고 policy는 없었다. - 이번 시간에는 직접적으로 policy를 parametrise한.. 2021. 1. 23. Lecture 6: Value Function Approximation 현실의 big scale의 문제들에서는 Q table lookup같은 개념이 불가능할 수 있고, 그에 따른 방법들을 배운다. model-free big scale 문제에 대해 해결하는 Incremental(점진적), Batch(한번에 해결)하는 방식 다음과 같은 large problems에 RL이 사용되고, 모든 states 마다 table lookup이 불가능하기 때문에 이를 대체하기 위한 방법이 필요하다. - Backgammon 보드게임: 10^20 states - 바둑: 10^170 states - 헬리콥터: continuous states lookup table기반 - state-value fn V(s) s개수만큼 빈칸이 존재한다. - action-value fn Q(s,a) s-a pair개수만.. 2021. 1. 19. Lecture 5: Model-Free Control 지난 강의에서 Prediction인 model-free env에서 policy가 주어졌을 때 value fn를 구하는 방법을 알아보았다면, 이제 최적의 policy를 구하는 Control를 공부한다. On-policy MC/TD: 학습하고자 하는 policy와 실제 env 경험에서의 policy가 같을 때 Off-policy 학습하고자 하는 policy와 실제 env 경험에서의 policy가 다를 때 위 problems들은 다음의 문제를 가지고 있다. - MDP가 알려지지 않고, 경험이 sampling 가능하다. - MDP가 알려져있지만, 너무 사용하기에 크기 때문에 sampling이 힘들다. Model-Free Control이 문제를 해결해준다. - On-Policy Learning: Optimal P.. 2021. 1. 18. Lecture 4: Model-Free Prediction 이전 강의의 model-based(MDP, env를 모두 다 알 경우의) DP와는 다르게 model-free prediction 방식을 공부한다. Monte-Carlo방식: 계속된 실행으로 도출한 실제 값들을 통해서 추정하는 방식 의미 policy는 정해져있고, n번 시행한 뒤 나온 모든 값들을 평균함 - 경험으로 부터 직접 배운다. - model-free: MDP transitions/ rewards를 몰라도 가능하다. - episode가 끝나야 return이 정해지고, 그 값들을 평균낸 것이 value - 계속 loop한 episode의 경우는 return이 나오지 않으므로, episode는 종료되어야만 한다. - Goal: Vpi를 episode로 부터 배우는 것 - return은 discounte.. 2021. 1. 15. 이전 1 2 다음 반응형