반응형 전체 글72 code # main.py if __name__ == '__main__': args = parse_args() if args.option == 'train': train(args) else: evaluate(args) # set env def init_env(config, port=0): # get scenario scenario = config.get('scenario') if scenario.startswith('atsc'): # atsc env: set port parameter if scenario.endswith('large_grid'): # atsc-large_grid env return LargeGridEnv(config, port=port) else: # atsc-real_net env return.. 2021. 7. 26. CommNet (learning communication, PG) Main Paper https://arxiv.org/pdf/1605.07736.pdf Learning Multiagent Communication with Backpropagation Abstract 더보기 Typically, the communication protocol between agents is manually specified and not altered during training. In this paper we explore a simple neural model, called CommNet, that uses continuous communication for fully cooperative tasks. The model consists of multiple agents and the .. 2021. 7. 12. RIAL & DIAL (learning communication, VB) Main Paper https://arxiv.org/pdf/1605.06676.pdf Learning to Communicate with Deep Multi-Agent Reinforcement Learning Abstract 더보기 We consider the problem of multiple agents sensing and acting in environments with the goal of maximising their shared utility. In these environments, agents must learn communication protocols in order to share information that is needed to solve the tasks. By embraci.. 2021. 7. 7. Multi-agent Intro Main Paper https://link.springer.com/content/pdf/10.1007/s10462-020-09938-y.pdf A survey on multi‐agent deep reinforcement learning: from the perspective of challenges and applications Introduction large number of real-world multi-agent systems are cooperative multi-agent systems. else, multi-agent systems contatin subgroups that can be usefully modeled as cooperative multi-agent system. /* 일반적으.. 2021. 7. 6. DRQN1 main Paper arxiv.org/pdf/1507.06527.pdf 1. Introduction DQN은 다양한 Atari games에서 인간 수준의 policy control를 학습할 수 있다. 이름 그대로 DQN은 현재 game state에서 가능한 action을 선택하는 Q-value or long-term discounted returns를 학습한다. network의 Q-value estimate가 충분히 정확하다면, 각 단계에서 max Q-value로 action을 선택하여 게임을 진행할 수 있다. raw screen pixel에서 action으로 매핑되는 policy를 학습하면서 이러한 network는 다양한 atari games에서 뛰어난 성능을 달성하였다. 그러나 Deep Q-Netwo.. 2021. 5. 12. RNN, LSTM Sequence Problem 기존의 NN는 이전에 일어난 사건을 바탕으로 나중에 일어나는 사건에 대해 예측하지 못한다. 은닉층(hidden layer)에서 활성화 함수를 지난 값은 무조건적으로 출력층(output layer) 방향으로 향하는 Feed-Forward의 특징을 지닌다. 이와 다르게 RNN은 은닉층의 노드에서 활성화 함수를 통해 나온 결과값을 출력층 방향으로 보내면서, 다시 은닉층 노드의 다음 계산의 입력으로 보내는 특징을 가진다. 스스로를 반복하면서 이전 단계에서 얻은 정보가 지속되도록 하는 구조의 체인처럼 이어지는 성질은 Sequence나 list로 이어지는 것을 알려준다. 즉, RNN은 Sequence data Problem를 다루기에 최적화된 구조의 NN이라고 생각할 수 있다. 그리고.. 2021. 5. 6. 이전 1 ··· 5 6 7 8 9 10 11 12 다음 반응형