본문 바로가기
논문 리뷰/MARL algorithm

[DRON] Opponent Modeling in Deep Reinforcement Learning

by xi2d 2022. 7. 29.
반응형

International Conference on Machine Learning, New York, NY, USA, 2016. JMLR

Abstract

: multi-agent setting에서 policy와 opponent action을 공동으로 학습하는 model을 제시한다.해당 논문에서는 opponent action을 DQN encoding을 통해 예측하고, 원하는 경우 multi-tasking을 사용하여 emplict modeling을 유지한다. Mixture-of-Experts architecture을 사용하여 추가 supervision 없이 opponent strategy pattern을 자동으로 발견한다. 

 

 


Introduction

: colaborative or competitive task에서 agent는 다른 agent의 action을 예측하고 의도에 대해 추론해야 한다.

agent가 다양한 상대의 특성을 활용할 수 있도록, general opponent modeling framework를 구축하는 것을 목표로 한다.

 

1) action 변화를 설명하기 위해, stereotypes set으로의 분류 대신, opponent strategy의 uncertainty을 모델링한다. 

 

2) opponent에 대한 예측이 env dynamics 학습과 분리될 때 domain 지식이 필요하다. 

: 따라서 jointly policy를 학습하고, 상대를 probabilistically modeling한다. 

 

- DRON에는 Q-value를 예측하는 policy learning module과 opponent strategy를 예측하는 opponent learning module이 있다.

 

opponent strategy를 emplicitly 예측하는 대신 과거 observation을 기반으로 상대의 hidden representation을 학습하고 이를 사용하여 adaptive response를 계산한다. 

 

 


Deep reinforcement opponent network

: multi-agent setting에서 env는 모든 agents의 joint action에 영향을 받는다. 한 agent의 관점에서 보면 given state에서 action의 결과는 안정적이지 않고 다른 agent action에 의존한다. 여러 agent가 Q-learning framework에 미치는 영향을 분석해본다. 

 

 

Q-learning with opponents

: joint action space는 A^M = A_1 x A_2 x ... x A_n으로 정의되며, n은 agent의 수이다. a는 우리가 control하는 primary agent이고, o는 다른 모든 secondary agents의 action이다. 따라 (a,o) ∈ A^M이다. 이에 따른 transition probability와 reward function는 아래와 같이 재정의된다. 

 

π^o가 stationary 하다면, multi-agent MDP는 singel agent MDP로 축소되고, opponent는 env의 일부로 간주된다. 

 

transition probability / reward function

 

- 그러나 다른 agent 영향을 고려하면, policy는 secondary agents의 policy에 따라 달라지고 optimal Q-function은 opponent policy와 관련하여 다음과 같이 재정의된다. 

 

optimal Q-function

 

→ primary agent의 optimal policy 학습을 위해, 다른 agents들의 영향까지 고려한다. 

 

 

DQN with opponent modeling

: equation (1)으로 Q-learning을 계속 적용하고 stochastic update를 통해 transition function과 opponent policy를 모두 추정 가능하다. 그러나 opponent를 env로 취급하면 dynamic에 대한 반응이 느려지므로, opponent action을 명시적으로 encoding하기 위해 Q^π_o와 π_o를 공동으로 modeling하는 DRON을 제안한다. 

 

- DRON에는 state에 대한 action을 평가하는 Q-network(N_Q)와 π_o의 representation을 학습하는 opponent-network(N_o)가 존재한다. 

 

1. 두 network를 결합하기 위해 DRON-concat이 필요하다. 

: state φ_s와 φ_o로부터 feature를 추출한 다음, 각각 hidden state를 통과시키는 linear layer에 사용한다. π_o에 대한 지식을 Q-network에 통합하기 위해 state와 opponent representation을 concatenate 한다. 그 다음 Q-value를 jointly predict한다. 따라서 neural network의 마지막 layer는 opponent feature와 Q-value의 interaction을 이해하는 역할을 한다.

 

DRON-concat

 

- Q-network가 하나만 있기 때문에 model은 adaptive policy를 배우기 위해, opponent를 차별적으로 표현해야 한다. 이를 해결하기 위해, 두 번째 model은 equation 1을 기반으로하는 opponent action과 Q-value 간의 관계의 더 강한 prior를 encoding한다. 

 

→ action을 출력하기 위해, other agents' feature를 N_Q가 학습할 수 있도록 concatenate한다. 

 

2. Mixture-of-Experts network를 사용하여 opponent action을 숨겨진 변수로 명시적으로 modeling한다. 

: expected Q-value는 여러 experts network predict를 결합하여 얻는다. 각 expert network는 current state에서 가능한 reward를 예측한다. opponent representation에 기반한 gating network는 combination weights를 계산한다. 

 

DRON-MOE

 

expert networks

 

- 여기서 f()는 ReLU와 같은 non-linear activation function이고, W는 linear transformation matrix, b는 bias를 의미한다. 

 

gating network

 

- env와 opponent action 사이의 interaction을 무시하는 DRON-concat과 달리 DRON-MOE는 Q-value가 state에 따라 다른 distribution을 갖는다는 것을 인지한다. 각 expert network는 한 가지 유형의 opponent strategy를 포착한다. 


gating network의 hidden state를 통과한 feature은 env와 opponent action 사이의 interaction, 즉 Q-value를 내포하게 되고 이를 experts network에서 나온 Q-value와 combination하여 최종 Q-value를 계산한다. 

 

 

Multitasking with DRON

: 앞의 두 model은 Q-value만 predict하므로 Q-value의 feedback을 통해 간접적으로 opponent representation을 학습한다. opponent에 대한 추가 정보는 N_o에 대한 직접적인 supervision을 제공할 수 있고, 이러한 정보는 opponent characteristic을 반영하여 policy 학습에 더 유용하다. 아래 그림은 multitask DRON의 architecture를 보여준다. 

 

 

- multitasking 학습을 적용하고 observation을 추가 supervision으로 사용하여 shared opponent representation h_o를 학습한다. 

 

multitasking은 game과 opponent에 대한 높은 수준의 지식을 사용하는 동시에, Q-value에서 불충분한 opponent data 및 modeling 오류에 대해 견고함을 가진다. 

 

 


DRON results

- Soccer game에서 DRON은 DQN baseline을 능가하며, variance 또한 작았다. 추가로 supervision signal을 사용할 시, DRON-concat은 향상되지만 DRON-MOE에서는 차이가 없었다. 

 

 

- 학습된 policy가 다른 opponent에 대해 어떻게 적응하는지 알기 위해, agent를 방어적인 상대와 공격적인 상대에 대해 별도로 테스트를 진행한한 결과, DQN은 방어적인 action에 적응하지 못하고 공격적인 opponent에 대한 성능을 크게 희생한다. 그러나 DRON은 다양한 opponent에 대해 두 upperbound에 가까운 성능을 보여준다. 

 

 

- DRON-MOE의 experts 수에 대한 비교 결과, 수의 변화에 큰 차이가 없고 모든 K에서 DQN보다 더 나은 성능을 보인다. 

 

 

DRON은 모든 실험에서 DQN보다 뛰어난 성능을 보였으며, DRON-MOE에는 향상이 미미 했지만 supervision을 사용한 multi-tasking extension 또한 적용 가능했다. 

 

 


DRON conclusion

: opponent action에 대한 예측을 domain 없이 policy 학습에 통합하는 DRON model은 opponent action과 Q-value 간의 interaction을 capture하는 새로운 method를 사용한다. handcrafting opponent feature이 필요 없이,  raw opponent action과 RNN을 사용하여 opponent representation을 학습할 수 있다. 또한 dynamic action에 적응하고 opponent의 exploration과 exploitation의 균형을 맞출 수 있는 online algorithm을 설계 가능하다. 

 

 

반응형

댓글