반응형 논문 리뷰/RL algorithm1 [W-learning] Action Selection methods using RL A dissertation submitted for the degree of Doctor of Philosophy in the University of Cambridge, August 1996 Abstract : 일반적으로 다른 agents' action이 agent에게 영향을 준다고 가정하지 않는다. agent는 학습 도중, 다른 state에서 unrecognised action이 있을 수 있는데, 이 때 이것들을 모두 action set에 추가하고 모든 state에 대한 모든 action에 대해 huge Q-value를 배우지 않는다. 대신, W-Learning은 각 state에서 W-value를 통해 승리할 가능성이 가장 큰 agent가 승리하지 않을 경우, 가장 큰 고통을 겪을 가능성이 있는 ag.. 2022. 7. 18. 이전 1 다음 반응형