본문 바로가기
반응형

개인 정리16

Multi-Objective RL using Sets of Pareto Dominating Policies Abstract Introduction Background Abstract MORL(Multi-Objective RL)이란? : 현실 세계의 문제들은 multiple, possibly conflicting objective들의 optimization을 포함한다. MORL은 scalar reward signal가 각 objective에 대해 하나씩, multiple feedback signals로 확장되는 generalization of standard RL generalization이다. MORL는 multiple criteria를 simultaneously optimize하는 learning policy의 진행 방식이다. Pareto Q-learning 요약 : 해당 논문에서는 Pareto Q-lear.. 2022. 4. 4.
Attention Is All You Need NLP Methods - Traditional RNN - Attention Mechanism Transformer Concept - Encoder - Decoder Model Architecture - Encoder & Decoder Stacks - Attention - Position-wise Feed-Forward Networks - Embeddings and Softmax - Positional Training NLP Methods Traditional RNN : RNN은 문장에서 sequential하게 state-value를 계산하고 최종적으로 state-value를 context vector로 사용하게 된다. decoder는 이 context vector를 기반으로 에 도달할 때까지 입력된 문장.. 2022. 3. 11.
Deep RL Policy-based Method Policy-based Method - Steppest Ascent - Adaptive Noise - Cross Entropy Method - Evoluation Strategies Policy gradient Method - REINFORCE - PPO Actor-Critic Variants - A3C - A2C - GAE - DDPG On-policy vs. Off-policy Policy-based Method : value-based method는 value function을 구해 이를 기반으로 optimal policy를 구하지만, policy-based method는 neural network에서 optimal policy를 바로 estimate한다. 즉, value function을 구하는 .. 2022. 3. 4.
Deep RL Value-based Methods From RL to Deep RL DQN variants - DQN - DDQN - PER - D3QN - Rainbow From RL to Deep RL TRL에서 discrete space에서 목적하던 Q-table은 state, action space의 증가로 인한 computation 증가로 neural network를 사용하여 continuous space를 처리하는 방식이 등장한다. DQN variants DQN : 가장 중요한 value-based RL method이다. Experience Replay, Fixed Q-targets가 사용되었다. neural network에 state를 input으로 넣으면 max action-value function인 action을 output으로 출력한.. 2022. 3. 3.
반응형