본문 바로가기
반응형

전체 글75

04. Dynamic Programming Dynamic Programming(DP): MDP 상태의 env에 대한 perfect model이 주어진 optimal policy를 계산하는 알고리즘의 집합이다. DP는 너무 큰 computational cost 때문에 RL에서 limited utility로 쓰이지만, 추후에 다룰 method의 중요한 기초를 제공하므로 짚고 넘어간다. 다른 모든 methods들은 perfect env model에 대한 가정과 less computation만 제외하면 DP와 비슷한 효과를 내기위한 시도로 보일 수 있다. 우리는 env가 finite MDP라고 가정하였다. DP가 continuous state, action spaces에 대한 문제에 활용되기는 하지만, 완벽한 solution은 특정 cases에서만 존재.. 2021. 3. 22.
03. Finite Markov Decision Process 3.1 The Agent-Environment Interface RL Problem: 목표를 달성하기 위한 상호작용을 통해, 학습하는 문제에 대한 간단한 틀 - agent: learner or decision-maker - environment: interact with outside the agent. provide reward - reward: numerical value that the agent tries to maximize - policy: 각 time-step에서 agent가 해당 state에서 possible action를 선택하는 기준. πt(a|s): St = s에서 At = a인 확률 agent between env, continually interact : agent가 action를.. 2021. 3. 20.
Vanila Actor-Critic Deep Reinforcement Learning Hands-On - Maxim Lapan 교재 Chapter 10를 참고하였습니다. Variance reduction Policy Gradient method에서 안정성을 향상시키는 방법 중 하나가 gradient variance를 줄이는 것이라고 언급했었다. variance는 값이 평균으로부터 얼마나 멀리 분산되어 있는지를 보여준다. 만약 분산이 높다면 랜덤 변수가 평균에서 크게 벗어난 값을 취할 수 있다. 통계에서 분산은 다음과 같이 표현된다. PG는 수학적으로 다음과 같이 정의되었었다. vanila PG에서 Q(s, a)는 특정 상태에서 수행되는 action의 probability를 얼마나 증가 또는 감소시키는지 지정한다. REINFORCE에서는 d.. 2021. 3. 9.
REINFORCE(MC-PG) + vanila Policy Gradient Deep Reinforcement Learning Hands-On - Maxim Lapan 교재 Chapter 09를 참고하였습니다. remind action Value func definition Q(s,a). Q-learning(DQN)에서의 중심 토픽은 action value func:Q(St, At)었다. 이 때, Q(s,a)는 bellman equation에 따라 다음과 같이 정의된다. - Bellman Equation: Q(s,a)는 (current reward)Rt+1 + (discounted vector)r * Q(St+1, At+1) 로 분해된다. - Q(s,a): s에서 a한 current reward+r*{Σ (s'이 될 확률) * (s'에서의 value)} difference wit.. 2021. 3. 4.
Multivariable Linear Regression + nn.Module 이전 글에서 x가 1개일 때 H(x)=Wx+b에서의 선형 회귀가 아닌 x가 여러개일때의 선형회귀, H(x)=W1x1+W2x2+...+Wnxn+b를 살펴본다. 샘플(sample) : 전체 훈련 데이터의 개수를 셀 수 있는 1개의 단위, 현재 샘플의 수는 총 5개 특성(feature) : 각 샘플에서 yy를 결정하게 하는 각각의 독립 변수 x, 현재 특성은 3개 import torch import torch.nn as nn import torch.nn.functional as F import torch.optim as optim # 훈련 데이터 x1_train = torch.FloatTensor([[73], [93], [89], [96], [73]]) x2_train = torch.FloatTensor([[.. 2021. 3. 2.
Simple Linear Regression + Cost func / GD 사람이 1시간 동안 공부했을 때 2점, 2시간 공부했을 때 4점, 3시간했을 때 6점을 받는다는 training dataset이 존재한다고 가정한다. 그렇다면 test dataset으로 4시간 공부했을 때 몇점을 얻을 수 있겠는가에 대한 질문에 답해보자. : 우리는 4시간 공부했을 때 8점을 받을 수 있다고 쉽게 예측할 수 있다. Simple Linear Regression(선형 회귀)란? : 학습 데이터와 가장 잘 맞는 하나의 직선을 찾는 것으로 보통 H(x)=Wx+b의 형태를 가진다. 이때 x와 곱해지는 W를 weight(가중치), b를 bias(편향)이라고 표현하고 simple linear이기 때문에 x는 1개이다. Cost function(비용 함수)란? : 실제 training dataset과 .. 2021. 3. 2.
반응형