본문 바로가기
개인 정리/개념 정리

Model-free RL, Model-based RL

by xi2d 2022. 2. 7.
반응형

Model

Model-free RL vs Model-based RL

Model-based RL

Q-Planning


Model

Model이란?

RL objective function & Model expression

: env의 next state와 reward가 어떨지에 대한 agent의 예상이다. 쉽게 말해, env의 행동을 흉내내는 것으로 env가 어떻게 행동할지에 대한 추론을 허용한다. 위 수식에서처럼 reward는 policy와 model에 의존한다. State modelReward model로 구분된다. 

 

 

State model

state transition probability matrix

 

Reward model

reward function

 

Known models

modeling

: GO와 같은 많은 게임에서 게임의 규칙은 model이라고 할 수 있다. 현실에서의 물리 법칙 또한 model이다. 우리는 이를 modeling하고 그에 해당하는 simulator를 만들 수 있다. 

 

수학적으로 model은 next state를 예측한다. 

 


Model-free RL vs Model-based RL

1) Model-free RL

policy
maximize reward

: model을 무시하며, reward를 평가하기 위해 sampling과 simulation에 의존한다. 따라 우리는 시스템의 내부적인 작업을 알 필요가 없다. reward를 최대화하는 policy를 찾는 것을 목적으로 한다. 

 

2) Model-based RL

model
minimize cost

: agent가 있는 고유한 representation of env를 구축한다. 만약 스스로 cost function 정의가 가능하다면, 직접적으로 model을 사용하여 최적의 action 계산이 가능하다. cost function과 함께 최소의 cost를 가지는 최적화된 trajectory를 찾는 것을 목적으로 한다. 

 

 

model-based RL은 실제 env와의 interaction을 줄인다. 

: pure env와의 interaction를 줄일 수 있어 high sample efficiency를 가지며 learning speed가 향상된다. 

 

model-based RL은 Planning을 가능하게 한다. 

: 자신의 action에 따라서 env가 어떻게 바뀔지 예측 가능하기 때문에, 변화를 미리 예상해보고 최적의 action을 planning하여 실행할 수 있다. 따라 agent는 많은 sampling을 동반하지 않아도 효과적으로 학습이 가능하다. 따라서 model과 cost function을 안다고 했을 때, 우리는 sampling 없이 최적의 control를 구상할 수 있다. 

 

model-based RL은 env의 정확한 model을 알아내기가 어렵다. 

: model이 env를 제대로 반영하지 않는다면, error는 그대로 agent의 error로 이어지게 된다. 정확한 model을 만드는 것은 좋은 agent를 만드는 것만큼 어려울 수 있다. 

 

model-based RL은 model-free RL에 비해 final score가 떨어진다. 

: simulator에서 controller's new policy를 따를 때 cumulative error가 발생한다. 

 

결과적으로 실제 physical simulation이 있는 env에서는 model-based RL이 더 좋지만, 이를 computer simulation으로 하게되면, 많은 가정과 근사치를 사용하기 때문에 좋지 않은 성능을 가지고 있고, 훈련을 하더라도 기존 task 범위보다 더 작은 범위에서 밖에 사용할 수 없다. 

 


Model-based RL

: model-free RL과의 가장 큰 차이점은 pure env를 흉내낸 비슷한 simulator라고도 불리는 model이 있다는 점이다. 이를 통해서 실제 experience가 아닌 simulator에 의해 생성된 simulated experience를 얻어낼 수 있다. 

 

Planning이란?

a) experience가 있다는 것은 state, action으로 이루어진 trajectory가 있다.

b) 위 trajectory를 활용해서 value function을 update한다.

c) updated value function을 가지고 현재의 policy를 improve한다. 

Planning은 pure env와의 interaction은 적게 일어나면서 experience를 쌓을 수 있기 떄문에, sample efficiency가 model-free RL에 비해 좋다. 

 

sample model

 

sample model

: 주어진 확률을 가진 data를 sampling 하며 결과를 도출하는 model이다. 결과만 sampling 하는 것이므로 확률을 계산해야하는 distribution model에 비해서 연산량이 일반적으로 적다. 

 

distribution model

 

: 주어진 확률을 가지고 조건부 확률 계산 등을 통해서 data distribution을 수치적으로 계산하는 model이다. sample model의 data에 비해서 더 많은 정보를 가지고 있겠지만 주어진 action or state에 따라 model의 크기가 상대적으로 커질 수 있다. 

 

sample model은 확률 정보만 활용해서 data를 sampling하므로 모든 state에 대한 정보를 가지고 있을 필요가 없고, 이에 따라 필요한 memory도 적다. 반면 distribution model은 가지고 있는 방대한 정보를 가지고 정확한(실제에 근사한) expectation이나 variance를 구할 수 있다. 

 


Q-Planning

: Q-value update 과정은 Q-learning과 비슷하지만, sample model를 사용한다는 차이가 있다. model에 random sampling된 state와 action만 전해주면, 이에 따른 next_state와 reward는 model이 내보내주므로 이를 활용해서 update가 가능하다. 

 

random-sample one-step tabular Q-planning
Q-learning

: 이렇게 planning을 하면서 얻을 수 있는 이점은 env와의 interaction 없이도 policy를 improve 가능하다. 이 말은 즉, 실제 env 상에서 action을 취하고 얻은 결과로 policy를 선택하지 않더라도, action이 발생할 주기 내에 기존의 experience를 가지고 Q-value를 update할 수 있다는 뜻이다. 

 

advantage of Planning

: 위와 같이 pure env에서 action과 learning update 주기가 어느정도 trem이 존재한다면, 그 term 사이에는 기존의 sample model에서 얻을 수 있는 data를 바탕으로 update가 가능하다. 물론 model이 부정확할 수는 있지만, 어차피 Q-learning 특성상 Q-value를 update할 때, next_state에서 뽑을 수 있는 Q-value의 maximum을 사용하므로 궁극적으로는 improve된 policy로 수렴하게 되는 것을 알 수 있다. 

 


Reference

https://talkingaboutme.tistory.com/entry/RL-Model-Planning

 

[RL] Model & Planning

(해당 포스트는 Coursera의 Sample-based Learning Methods의 강의 요약본입니다)  강화학습을 공부하다보면 state나 action같은 기본 notation만큼이나 자주 나오는 단어가 Model이 아닐까 생각된다. 이전 포스..

talkingaboutme.tistory.com

 

https://dreamgonfly.github.io/blog/rl-taxonomy/

 

강화학습 알고리즘 분류 | Dreamgonfly's blog

이 글에서는 강화학습의 여러 알고리즘들을 카테고리로 묶는 분류 체계에 대해서 알아보겠습니다. 분류 체계를 이해하면 새로운 알고리즘이 등장하더라도 기존 알고리즘과 어떤 관계에 있는지

dreamgonfly.github.io

 

https://data-newbie.tistory.com/601

 

Model-based RL 알아보기

강화 학습은 우리의 행동에 대한 보상을 극대화합니다. 아래 수식처럼, 보상들은 정책(Policy)과 시스템 역학(model)에 의존한다. model-free RL에서는, 모델을 무시한다. 보상을 평가하기 위해서 샘플

data-newbie.tistory.com

 

https://wonseokjung.github.io/page7/

 

Wonseo Jay Jung – All about A.I

All about A.I

wonseokjung.github.io

 

반응형

'개인 정리 > 개념 정리' 카테고리의 다른 글

Attention Is All You Need  (0) 2022.03.11
Deep RL Policy-based Method  (0) 2022.03.04
Deep RL Value-based Methods  (0) 2022.03.03
Traditional RL  (0) 2022.03.02
Combinatorial Optimization by POMO  (0) 2022.03.01
GNN, GCN  (1) 2022.01.21

댓글