본문 바로가기
반응형

전체 글75

[W-learning] Action Selection methods using RL A dissertation submitted for the degree of Doctor of Philosophy in the University of Cambridge, August 1996 Abstract : 일반적으로 다른 agents' action이 agent에게 영향을 준다고 가정하지 않는다. agent는 학습 도중, 다른 state에서 unrecognised action이 있을 수 있는데, 이 때 이것들을 모두 action set에 추가하고 모든 state에 대한 모든 action에 대해 huge Q-value를 배우지 않는다. 대신, W-Learning은 각 state에서 W-value를 통해 승리할 가능성이 가장 큰 agent가 승리하지 않을 경우, 가장 큰 고통을 겪을 가능성이 있는 ag.. 2022. 7. 18.
[MASCO] Coordination of EV Charging Through MARL IEEE TRANSACTIONS ON SMART GRID, VOL. 11, NO. 3, MAY 2020 Abstract : EV charging 수요가 급증하는 피크 시간에 배전망의 변압기에 과부하가 걸리는 문제를 해결하고자 부하를 줄이고 가능한 공평하게 EV를 충전하기 위해 여러 방법이 제안되었지만, 일반적으로 single type 요금제 또는 배전망에 대한 강력한 가정을 두는 전제를 사용하였다. 해당 논문에서는 EV recharging 도중, 동시에 변압기 과부화를 피하고 에너지 비용을 최소화하는 MultiAgent Selfish COllaborative architecture(MASCO)을 제안한다. Nomenclature Introduction 1. MASCO는 distributed Multiag.. 2022. 7. 13.
DQN, DDQN, D3QN 비교 Abstract. 대표적 DRL algorithm인 DQN, DDQN(Double DQN), D3QN(Dueling DQN)을 등장 배경, 특징, 성능의 관점에서 비교해본다. DQN DQN background 1. Past RL challenges to high-dimensional input : hand-crafted feature representation에 의존하던 이전 RL은 high-dimensional input로부터 agent를 control하는 것에 취약했다. 2. DL advances & challenges to apply DL methods to RL : DL의 발전으로 raw sensory data에서 high-level feature를 추출 가능하게 되었지만 다음의 이유로 RL에 적.. 2022. 7. 4.
Multi-Objective RL using Sets of Pareto Dominating Policies Abstract Introduction Background Abstract MORL(Multi-Objective RL)이란? : 현실 세계의 문제들은 multiple, possibly conflicting objective들의 optimization을 포함한다. MORL은 scalar reward signal가 각 objective에 대해 하나씩, multiple feedback signals로 확장되는 generalization of standard RL generalization이다. MORL는 multiple criteria를 simultaneously optimize하는 learning policy의 진행 방식이다. Pareto Q-learning 요약 : 해당 논문에서는 Pareto Q-lear.. 2022. 4. 4.
Attention Is All You Need NLP Methods - Traditional RNN - Attention Mechanism Transformer Concept - Encoder - Decoder Model Architecture - Encoder & Decoder Stacks - Attention - Position-wise Feed-Forward Networks - Embeddings and Softmax - Positional Training NLP Methods Traditional RNN : RNN은 문장에서 sequential하게 state-value를 계산하고 최종적으로 state-value를 context vector로 사용하게 된다. decoder는 이 context vector를 기반으로 에 도달할 때까지 입력된 문장.. 2022. 3. 11.
Deep RL Policy-based Method Policy-based Method - Steppest Ascent - Adaptive Noise - Cross Entropy Method - Evoluation Strategies Policy gradient Method - REINFORCE - PPO Actor-Critic Variants - A3C - A2C - GAE - DDPG On-policy vs. Off-policy Policy-based Method : value-based method는 value function을 구해 이를 기반으로 optimal policy를 구하지만, policy-based method는 neural network에서 optimal policy를 바로 estimate한다. 즉, value function을 구하는 .. 2022. 3. 4.
반응형