Известия РАН. Теория и системы управления, 2023, № 3, стр. 76-89

ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ ДЛЯ МОДЕЛЬНЫХ ЗАДАЧ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ

С. С. Семенов a*, В. И. Цурков b**

a МФТИ
МО, Долгопрудный, Россия

b ФИЦ ИУ РАН
Москва, Россия

* E-mail: semenov.ss@phystech.edu
** E-mail: tsur@ccas.ru

Поступила в редакцию 10.11.2022
После доработки 08.01.2023
Принята к публикации 06.02.2023

Аннотация

Оптимизируются функционалы динамических систем различного вида с помощью современных методов обучения с подкреплением. Рассматриваются линейная задача распределения ресурсов, задача оптимального потребления и ее стохастические модификации. В обучении с подкреплением использовались методы градиента стратегии.

Список литературы

  1. Sewak M. Deterministic Policy Gradient and the DDPG: Deterministic-Policy-Gradient-Based Approaches. 2019.

  2. Schulman J. Trust Region Policy Optimization. 2015. https://arxiv.org/abs/1502.05477.

  3. Haarnoja T. Soft Actor-Critic: Off-Policy Maximum Entropy Deep Rein-forcement Learning with a Stochastic Actor. 2018. https://arxiv.org/abs/1801.01290.

  4. Huang S. A2C is a special case of PPO. 2022. https://arxiv.org/abs/2205.09123.

  5. Schulman J. Proximal Policy Optimization Algorithms. 2017. https://arxiv.org/abs/1707.06347.

  6. Zhang L. Penalized Proximal Policy Optimization for Safe Reinforcement Learning. 2022. https://arxiv.org/abs/2205.11814.

  7. Chen X. The Sufficiency of Off-policyness: PPO is insufficient according to an Off-policy Measure. 2022. https://arxiv.org/abs/2205.10047.

  8. Ghosh A. Provably Efficient Model-Free Constrained RL with Linear Function Approximation. 2022. https://arxiv.org/abs/2206.11889.

  9. Song Z. Safe-FinRL: A Low Bias and Variance Deep Reinforcement Learning Implementation for High-Freq Stock Trading. 2022. https://arxiv.org/abs/2206.05910.

  10. Kaledin M. Variance Reduction for Policy-Gradient Methods via Empirical Variance Minimization. 2022. https://arxiv.org/abs/2206.06827.

  11. Luo Q. Finite-Time Analysis of Fully Decentralized Single-Timescale Actor- Critic. 2022. https://arxiv.org/abs/2206.05733.

  12. Deka A. ARC – Actor Residual Critic for Adversarial Imitation Learning. 2022. https://arxiv.org/abs/2206.02095.

  13. Цурков В.И. Динамические задачи большой размерности. М.: Наука, 1988. 287 с.

  14. Бекларян Л.А., Флёрова А.Ю., Жукова А.А. Методы оптимального управления: учеб. пособие. М.: Наука, 2018.

  15. Оксендаль Б. Стохастические дифференциальные уравнения. Введение в теорию и приложеия. М.: Мир, 2003.

  16. Понтрягин Л.С. Принцип максимума в оптимальном управлении. М.: Наука, 2004.

Дополнительные материалы отсутствуют.