본문 바로가기
반응형

강화학습8

Lecture 3: Planning by Dynamic Programming Planning: env에 대한 model이 있을 때(model-based), 더 나은 policy를 찾아나가는 과정 Dynamic Programming: Planning 기법 중 한 가지 이번 목차에서 배울 용어 정리 Policy Evaluation(평가): policy가 정해졌을 때, MDP에서 policy를 따라가면서 value fn를 찾는 것 Policy Iteration, Value Iteration: policy/value 기반의 최적 방식을 찾는 것 강화학습에 국한된 것이 아닌 일반적인 DP의 특성 - 복잡한 문제를 푸는 방법론: 큰 문제를 sub 문제로 분할하고, 분할한 문제들의 솔루션을 찾고 모으는 방식으로 해결 model-free: env가 어떤지 모르는 상황, 완전한 정보가 없을 때 .. 2021. 1. 13.
Lecture 2: Markov Decision Processes (2) MRP + action = MDP, 모든 state는 Markov함 state가 아닌 action마다 reward가 주어짐 action을 한다고 해서 무조건 transition하는게 아니라, 확률적으로 state로 이동함 ex) Pub action의 경우 확률적 다음 state로 이동 MDP는 env꺼고, policy는 agent에 속하므로 위 topology에서는 policy없이 MDP 상태만 표시한 것 MRP에서는 action을 안하기 때문에 policy가 없었음 MDP를 풀이한다는 것 == 어떤 policy를 통해 reward를 최대로 만들 것인가 policy는 St에 있을 때 At을 할 확률 - policy는 agent의 행동을 결정해 준다. - MDP policy는 현재 state만을 의지한다... 2021. 1. 5.
Lecture 2: Markov Decision Processes (1) 2장은 Markov Process(MP), Markov Reward Process(MRP)에 대해 살펴보도록 하겠습니다. Markov Decision Process의 경우는 다음 게시물인 Lecture2 (2)로 분리하여 정리하였습니다. - MDP는 learning을 위한 env를 묘사한다. - env가 fully observable한 상황에서 - 현재 state가 현재의 프로세스를 완벽하게 표현하는 경우 == Markov한 상황 - 대부분의 RL 문제들를 MDP로 formalised 할 수 있다. Optimal control, Bandit와 같은 문제들을 MDP로 전환가능 - "현재가 주어져 있다면, 미래는 과거와는 독립적이다. " - state가 모든 history와 관련된 모든 정보들을 가지고 있기.. 2021. 1. 5.
Lecture 1: Introduction to Reinforcement Learning Deepmind의 David Silver 교수님의 RL(강화학습) 관련 lecture, slides, 추가 자료들을 참고하여 이해에 도움이 되도록 정리해보았습니다. 처음 접하는 영역이라 필자도 잘 모르니, 틀린 부분 지적 혹은 정보 공유 해주시면 감사하겠습니다. 1장은 Reinforcement가 무엇인지 알아보고, 어떤 방식이 존재하는지 기본 개념과 원리의 키워드 위주로 나와있습니다. Machine Learning = Supervised + Unsupervised + Reinforcement Learning으로 구성 Reinforcement Learning(이하 RL)은 기존의 Supervised, Unsupervised Learning과는 다른 방법론 - RL에는 Supervisor이 없고, 오직 re.. 2021. 1. 4.
반응형