반응형 논문 리뷰/RL17 PPO(Proximal Policy Optimization Algorithms) Main Paper https://arxiv.org/pdf/1707.06347.pdf Proximal Policy Optimization Algorithms Abstract env와의 interaction을 통한 data sampling과 policy gradient ascent 사용한 surrogate objective function optimization를 교대하는 Policy Gradient 방식을 제안한다. 기존의 PG가 data sample당 하나의 gradient update를 수행하는 반면, 우리는 mini batch update의 여러 epoch를 가능하게 하는 새로운 objective function을 제안한다. 제안하는 PPO는 TRPO의 일부 이점이 있지만 구현이 훨씬 간단하고 sa.. 2021. 8. 6. TRPO(Trust Region Policy Optimization) Main Paper https://arxiv.org/pdf/1502.05477.pdf Trust Region Policy Optimization Abstract 더보기 We describe an iterative procedure for optimizing policies, with guaranteed monotonic improvement. By making several approximations to the theoretically-justified procedure, we develop a practical algorithm, called Trust Region Policy Optimization (TRPO). This algorithm is similar to natural policy grad.. 2021. 8. 2. code # main.py if __name__ == '__main__': args = parse_args() if args.option == 'train': train(args) else: evaluate(args) # set env def init_env(config, port=0): # get scenario scenario = config.get('scenario') if scenario.startswith('atsc'): # atsc env: set port parameter if scenario.endswith('large_grid'): # atsc-large_grid env return LargeGridEnv(config, port=port) else: # atsc-real_net env return.. 2021. 7. 26. DRQN1 main Paper arxiv.org/pdf/1507.06527.pdf 1. Introduction DQN은 다양한 Atari games에서 인간 수준의 policy control를 학습할 수 있다. 이름 그대로 DQN은 현재 game state에서 가능한 action을 선택하는 Q-value or long-term discounted returns를 학습한다. network의 Q-value estimate가 충분히 정확하다면, 각 단계에서 max Q-value로 action을 선택하여 게임을 진행할 수 있다. raw screen pixel에서 action으로 매핑되는 policy를 학습하면서 이러한 network는 다양한 atari games에서 뛰어난 성능을 달성하였다. 그러나 Deep Q-Netwo.. 2021. 5. 12. 이전 1 2 3 4 5 다음 반응형