반응형 전체 글72 Combinatorial Optimization by POMO Combinatorial Optimization RL method POMO(Policy Optimization with Multiple Optima) Optimization in the field Combinatorial Optimization Combonatorial Optimization(조합최적화)란? : 주어진 item들의 최적 순서 또는 매핑(Mapping)을 찾는 문제(ex. 생산 설비 운영 최적화, 자원 할당 최적화, 운송 경로 최적화, ...)이다. TSP(Traveling Salesman Problem) : 모든 도시들의 좌표가 주어졌을 때, 가장 최소의 경로로 모든 도시를 이동하는 경로를 찾는 대표적인 조합최적화 예시이다. 모든 경우의 수를 다 해보고 최소 경로를 찾는 것이 최고지만, .. 2022. 3. 1. Model-free RL, Model-based RL Model Model-free RL vs Model-based RL Model-based RL Q-Planning Model Model이란? : env의 next state와 reward가 어떨지에 대한 agent의 예상이다. 쉽게 말해, env의 행동을 흉내내는 것으로 env가 어떻게 행동할지에 대한 추론을 허용한다. 위 수식에서처럼 reward는 policy와 model에 의존한다. State model과 Reward model로 구분된다. State model Reward model Known models : GO와 같은 많은 게임에서 게임의 규칙은 model이라고 할 수 있다. 현실에서의 물리 법칙 또한 model이다. 우리는 이를 modeling하고 그에 해당하는 simulator를 만들 수 있.. 2022. 2. 7. GNN, GCN GNN(Graph Neural Network) Graph representation GCN(Graph Convolutional Network) GNN(Graph Neural Network) GNN이란? : 기존 neural network의 input으로 사용되던 data(ex. image, sequential vector, ...)와 다르게 input data의 구조가 graph(ex. social graph, analysis graph, 3D graph, ...)의 형태일 경우에 직접 사용되는 neural network를 의미한다. vertex, edge, graph level에서의 prediction에 사용 가능하다. 발표된 논문으로는 Recurrent GNN, Spatial Convolutional.. 2022. 1. 21. Semi-supervised classification with GCN Semi-Supervised Classification with Graph Convolutional Networks 0. Abstract ▶ graph에서 직접 작동하는 convolution neural network의 효율적인 변형을 기반으로한, graph-structed data에 대한 semi-supervised 학습을 위한 접근 방식 제시 ▶ spectal graph convolution의 localized first-order approximation를 통해 convolution architecture를 선택하도록 동기를 부여 ▶ 해당 model은 graph의 edge' number에서 linear하게 확장되고 local graph structure와 node' feature을 모두 encodi.. 2022. 1. 21. Prioritized Experience Replay Prioritized Experience Relpay 0. Abstract ▶ experience replay를 통해 online RL는 과거의 experiences를 기억하고 재사용 가능했으며, 이전 작업에서 replay transition은 replay memory에서 uniformly sampling → 그러나 이런 접근 방식은 중요성에 관계없이 원래 경험했던 것과 동일한 빈도로 transition을 단순히 replay ▶ 해당 논문에서는 중요한 transition을 더 자주 replay하여 더 효과적으로 학습할 수 있도록 prioritizing experience framework를 개발 → prioritized experience replay DQN은 Atari game에서 uniform rep.. 2021. 12. 29. Dueling DQN Dueling Network Architectures for Deep Reinforcement Learning 0. Abstract ▶ 최근 몇년 동안 RL에서 deep representation를 사용하는데 많은 성공을 거두었으나 이러한 application 중 상당수는 CNN, LSTM, auto-encoders와 같은 기존 architecture 사용 ▶ 해당 논문에서는 Dueling network라는 두개의 개별 estimators인 RL을 위한 새로운 neural network architecture를 제시 → 하나는 state-value function, 또 다른 하나는 state-dependent action-advantage function으로 사용 → 이러한 factoring은 기본 RL.. 2021. 12. 14. 이전 1 ··· 3 4 5 6 7 8 9 ··· 12 다음 반응형