반응형 논문 리뷰51 Lecture 2: Markov Decision Processes (2) MRP + action = MDP, 모든 state는 Markov함 state가 아닌 action마다 reward가 주어짐 action을 한다고 해서 무조건 transition하는게 아니라, 확률적으로 state로 이동함 ex) Pub action의 경우 확률적 다음 state로 이동 MDP는 env꺼고, policy는 agent에 속하므로 위 topology에서는 policy없이 MDP 상태만 표시한 것 MRP에서는 action을 안하기 때문에 policy가 없었음 MDP를 풀이한다는 것 == 어떤 policy를 통해 reward를 최대로 만들 것인가 policy는 St에 있을 때 At을 할 확률 - policy는 agent의 행동을 결정해 준다. - MDP policy는 현재 state만을 의지한다... 2021. 1. 5. Lecture 2: Markov Decision Processes (1) 2장은 Markov Process(MP), Markov Reward Process(MRP)에 대해 살펴보도록 하겠습니다. Markov Decision Process의 경우는 다음 게시물인 Lecture2 (2)로 분리하여 정리하였습니다. - MDP는 learning을 위한 env를 묘사한다. - env가 fully observable한 상황에서 - 현재 state가 현재의 프로세스를 완벽하게 표현하는 경우 == Markov한 상황 - 대부분의 RL 문제들를 MDP로 formalised 할 수 있다. Optimal control, Bandit와 같은 문제들을 MDP로 전환가능 - "현재가 주어져 있다면, 미래는 과거와는 독립적이다. " - state가 모든 history와 관련된 모든 정보들을 가지고 있기.. 2021. 1. 5. Lecture 1: Introduction to Reinforcement Learning Deepmind의 David Silver 교수님의 RL(강화학습) 관련 lecture, slides, 추가 자료들을 참고하여 이해에 도움이 되도록 정리해보았습니다. 처음 접하는 영역이라 필자도 잘 모르니, 틀린 부분 지적 혹은 정보 공유 해주시면 감사하겠습니다. 1장은 Reinforcement가 무엇인지 알아보고, 어떤 방식이 존재하는지 기본 개념과 원리의 키워드 위주로 나와있습니다. Machine Learning = Supervised + Unsupervised + Reinforcement Learning으로 구성 Reinforcement Learning(이하 RL)은 기존의 Supervised, Unsupervised Learning과는 다른 방법론 - RL에는 Supervisor이 없고, 오직 re.. 2021. 1. 4. 이전 1 ··· 10 11 12 13 다음 반응형