반응형 PPO1 PPO(Proximal Policy Optimization Algorithms) Main Paper https://arxiv.org/pdf/1707.06347.pdf Proximal Policy Optimization Algorithms Abstract env와의 interaction을 통한 data sampling과 policy gradient ascent 사용한 surrogate objective function optimization를 교대하는 Policy Gradient 방식을 제안한다. 기존의 PG가 data sample당 하나의 gradient update를 수행하는 반면, 우리는 mini batch update의 여러 epoch를 가능하게 하는 새로운 objective function을 제안한다. 제안하는 PPO는 TRPO의 일부 이점이 있지만 구현이 훨씬 간단하고 sa.. 2021. 8. 6. 이전 1 다음 반응형