반응형 reinforcement learning9 Lecture 4: Model-Free Prediction 이전 강의의 model-based(MDP, env를 모두 다 알 경우의) DP와는 다르게 model-free prediction 방식을 공부한다. Monte-Carlo방식: 계속된 실행으로 도출한 실제 값들을 통해서 추정하는 방식 의미 policy는 정해져있고, n번 시행한 뒤 나온 모든 값들을 평균함 - 경험으로 부터 직접 배운다. - model-free: MDP transitions/ rewards를 몰라도 가능하다. - episode가 끝나야 return이 정해지고, 그 값들을 평균낸 것이 value - 계속 loop한 episode의 경우는 return이 나오지 않으므로, episode는 종료되어야만 한다. - Goal: Vpi를 episode로 부터 배우는 것 - return은 discounte.. 2021. 1. 15. Lecture 3: Planning by Dynamic Programming Planning: env에 대한 model이 있을 때(model-based), 더 나은 policy를 찾아나가는 과정 Dynamic Programming: Planning 기법 중 한 가지 이번 목차에서 배울 용어 정리 Policy Evaluation(평가): policy가 정해졌을 때, MDP에서 policy를 따라가면서 value fn를 찾는 것 Policy Iteration, Value Iteration: policy/value 기반의 최적 방식을 찾는 것 강화학습에 국한된 것이 아닌 일반적인 DP의 특성 - 복잡한 문제를 푸는 방법론: 큰 문제를 sub 문제로 분할하고, 분할한 문제들의 솔루션을 찾고 모으는 방식으로 해결 model-free: env가 어떤지 모르는 상황, 완전한 정보가 없을 때 .. 2021. 1. 13. Lecture 2: Markov Decision Processes (2) MRP + action = MDP, 모든 state는 Markov함 state가 아닌 action마다 reward가 주어짐 action을 한다고 해서 무조건 transition하는게 아니라, 확률적으로 state로 이동함 ex) Pub action의 경우 확률적 다음 state로 이동 MDP는 env꺼고, policy는 agent에 속하므로 위 topology에서는 policy없이 MDP 상태만 표시한 것 MRP에서는 action을 안하기 때문에 policy가 없었음 MDP를 풀이한다는 것 == 어떤 policy를 통해 reward를 최대로 만들 것인가 policy는 St에 있을 때 At을 할 확률 - policy는 agent의 행동을 결정해 준다. - MDP policy는 현재 state만을 의지한다... 2021. 1. 5. Lecture 2: Markov Decision Processes (1) 2장은 Markov Process(MP), Markov Reward Process(MRP)에 대해 살펴보도록 하겠습니다. Markov Decision Process의 경우는 다음 게시물인 Lecture2 (2)로 분리하여 정리하였습니다. - MDP는 learning을 위한 env를 묘사한다. - env가 fully observable한 상황에서 - 현재 state가 현재의 프로세스를 완벽하게 표현하는 경우 == Markov한 상황 - 대부분의 RL 문제들를 MDP로 formalised 할 수 있다. Optimal control, Bandit와 같은 문제들을 MDP로 전환가능 - "현재가 주어져 있다면, 미래는 과거와는 독립적이다. " - state가 모든 history와 관련된 모든 정보들을 가지고 있기.. 2021. 1. 5. 이전 1 2 3 다음 반응형