Доклады Российской академии наук. Математика, информатика, процессы управления, 2023, T. 514, № 2, стр. 250-261

ИЕРАРХИЧЕСКИЙ МЕТОД КООПЕРАТИВНОГО МУЛЬТИАГЕНТНОГО ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ В МАРКОВСКИХ ПРОЦЕССАХ ПРИНЯТИЯ РЕШЕНИЙ

В. Э. Большаков 1*, А. Н. Алфимцев 1**

1 Московский государственный технический университет им. Н.Э. Баумана
Москва, Россия

* E-mail: bolshakovv@bmstu.ru
** E-mail: alfim@bmstu.ru

Поступила в редакцию 01.09.2023
После доработки 29.09.2023
Принята к публикации 18.10.2023

Аннотация

В быстро развивающейся области обучения с подкреплением слияние иерархических и мульти-агентных методов обучения преподносит уникальные трудности и открывает новые возможности. В данной статье рассматривается сочетание многоуровневого иерархического обучения с обнаружением промежуточных целей и мультиагентного обучения с подкреплением с воспроизведением ретроспективного опыта. Объединение таких подходов приводит к созданию единого метода иерархического мультиагентного обучения с подкреплением, который позволяет множеству агентов эффективно обучаться в сложных средах, в том числе в средах с редкими вознаграждениями. В работе демонстрируются результаты предлагаемого метода в одной из таких сред внутри стратегической игры StarCraft II, и проводится сравнение с другими существующими подходами. Предлагаемый метод разработан в парадигме централизованного обучения с децентрализованным исполнением, что позволяет достичь баланса между координацией и автономностью агентов.

Ключевые слова: мультиагентное обучение с подкреплением, иерархическое обучение, обнаружение промежуточных целей, воспроизведение ретроспективного опыта, централизованное обучение с децентрализованным исполнением, редкие вознаграждения

Список литературы

  1. Singh S., Lewis R., Barto A., Sorg J. Intrinsically motivated reinforcement learning: An evolutionary perspective // IEEE Transactions on Autonomous Mental Development. 2010. V. 2(2). P. 70–82.

  2. Mnih V., Kavukcuoglu K., Silver D. et al. Human-level control through deep reinforcement learning // Nature. 2015. V. 518. № 7540. P. 529–533.

  3. Silver D., Huang A., Maddison C. et al. Mastering the game of Go with deep neural networks and tree search // Nature. 2016. V. 529. P. 484–489.

  4. Vinyals O., Babuschkin I., Czarnecki W.M. et al. Grandmaster level in StarCraft II using multi-agent reinforcement learning // Nature. 2019. 575. P. 350–354.

  5. Sallab A., Abdou M., Perot E., Yogamani S. Deep reinforcement learning framework for autonomous driving // Electronic Imaging. 2017. V. 19. P. 70–76.

  6. Yang Y. Many-Agent Reinforcement Learning // PhD thesis, Department of Computer Science University College London. 2021. 327 p.

  7. Wiering M. Multi-agent reinforcement learning for traffic light control // In International Conference on Machine Learning (ICML). 2000. P. 1151–1158.

  8. Zheng L. et al. Episodic multi-agent reinforcement learning with curiosity-driven exploration // Advances in Neural Information Processing Systems. 2021. P. 3757–3769.

  9. Bellemare M., Naddaf Y., Veness J., Bowling M. The arcade learning environment: An evaluation platform for general agents // In IJCAI, AAAI Press. 2015. P. 4148–4152.

  10. Barto A., Mahadevan S. Recent advances in hierarchical reinforcement learning // Discr. Event Dyn. Syst. 2003. V. 13. P. 41–77.

  11. Dietterich T. Hierarchical reinforcement learning with the MAXQ value function decomposition // J. Artif. Int. Res. 2000. V. 13. № 1. P. 227–303.

  12. Sutton R., Precup D., Singh S. Between MDPs and semi-MDPs: A framework for temporal abstraction in reinforcement learning // Artif. Intell. 1999. V. 112. P. 181–211.

  13. Samvelyan M. et al. The starcraft multi-agent challenge // arXiv preprint arXiv:1902.04043, 2019.

  14. Dayan P., Hinton G. Feudal reinforcement learning // In Advances in Neural Information Processing Systems. 1993. P. 271–278.

  15. Nachum O., Gu S., Lee H., Levine S. Data-efficient hierarchical reinforcement learning // In Proceedings of Neural Information Processing Systems. 2018. P. 3307– 3317.

  16. Levy A., Konidaris G., Platt R., Saenko K. Learning multi-level hierarchies with hindsight // In Proceedings of the 7th International Conference on Learning Representations. 2019. P. 1–15.

  17. Andrychowicz M. et al. Hindsight experience replay // Advances in neural information processing systems. 2017. P. 1–11.

  18. Bacon P.-L., Harb J., Precup D. The option-critic architecture // In Proceedings of the 31st AAAI Conference on Artificial Intelligence. 2017. P. 1726–1734.

  19. Yang J., Borovikov I., Zha H. Hierarchical cooperative multi-agent reinforcement learning with skill discovery // In Proceedings of the 19th International Conference on Autonomous Agents and Multiagent Systems. 2020. P. 1566–1574.

  20. Rashid T. et al. QMIX: Monotonic value function factorisation for deep multi-agent reinforcement learning // arxiv:1803.11485, 2018.

  21. Ryan L. et al. Multi-agent actor-critic for mixed cooperative-competitive environments // Advances in neural information processing systems. 2017. P. 1–12.

  22. Yali D. et al. Liir: Learning individual intrinsic reward in multi-agent reinforcement learning // Advances in Neural Information Processing Systems. 2019. P. 1–12.

  23. Amato C. et al. Planning for decentralized control of multiple robots under uncertainty // In IEEE International Conference on Robotics and Automation (ICRA). 2015. P. 1241–1248.

  24. Sutton R.S., Barto A.G. Reinforcement learning: An introduction // MIT press. 2018. 552 p.

  25. Lillicrap T. et al. Continuous control with deep reinforcement learning // arXiv preprint arXiv:1509.02971, 2015.

  26. Kingma D.P., Adam B.J. A method for stochastic optimization // arXiv preprint arXiv:1412.6980, 2014.

Дополнительные материалы отсутствуют.

Инструменты

Доклады Российской академии наук. Математика, информатика, процессы управления