Доклады Российской академии наук. Математика, информатика, процессы управления, 2020, T. 490, № 1, стр. 91-94
Неравенства для субградиентов функционала цены в дифференциальных играх для систем с запаздыванием
Член-корреспондент РАН Н. Ю. Лукоянов 1, 2, *, А. Р. Плаксин 1, 2, **
1 Институт математики и механики
им. Н.Н. Красовского Уральского отделения
Российской академии наук
Екатеринбург, Россия
2 Уральский федеральный университет им. Б.Н. Ельцина
Екатеринбург, Россия
* E-mail: nyul@imm.uran.ru
** E-mail: a.r.plaksin@gmail.com
Поступила в редакцию 14.06.2019
После доработки 14.06.2019
Принята к публикации 09.12.2019
Аннотация
Рассмотрена позиционная антагонистическая дифференциальная игра, в которой движение динамической системы описывается нелинейным уравнением с запаздыванием, а начальная история движения определяется кусочно-непрерывной функцией. Получены неравенства для производных функционала цены игры по направлениям и неравенства для суб- и суперградиентов этого функционала.
В теории оптимального управления и теории дифференциальных игр для обыкновенных дифференциальных систем известны [1–6] различные по форме, но эквивалентные по сути характеризации функции оптимального результата (функции цены), которые взаимно дополняют друг друга. Условно среди них можно выделить два основных подхода. Первый базируется на исследовании производных функции цены по подходящим направлениям. Этот подход приводит к определению функции цены как минимаксного [5] решения соответствующего уравнения Гамильтона–Якоби–Айзекса–Белмана (Г–Я–А–Б). Во втором подходе рассматриваются субградиенты функции цены. В рамках этого подхода функция цены определяется как вязкостное [7] решение уравнения Г–Я–А–Б. Связывает эти два подхода известный результат [8], который можно рассматривать [9] как обобщение на негладкий случай классической теоремы Лагранжа о среднем значении.
В задачах управления и дифференциальных играх для систем с запаздыванием наиболее полным и естественным образом получил развитие первый подход [10–14]. Ниже даны согласованные с конструкциями из [13, 14] результаты, касающиеся развития для систем с запаздыванием второго подхода. При этом, чтобы преодолеть возникающие здесь трудности, приходится рассматривать дифференциальную игру в пространстве кусочно-непрерывных историй движения.
Всюду далее угловые скобки $\langle \cdot , \cdot \rangle $ используем для обозначения скалярного произведения векторов, а двойные скобки $\parallel \cdot \parallel $ – для евклидовой нормы. Функцию $x( \cdot ):[a,b] \mapsto {{\mathbb{R}}^{n}}$ называем кусочно-непрерывной, если она имеет конечное число точек разрыва, все разрывы первого рода, в точках разрыва функция непрерывна справа. Через ${\text{PC}}([a,b]$, ${{\mathbb{R}}^{n}}$) и ${\text{Lip}}([a,b],{{\mathbb{R}}^{n}})$ обозначаем соответственно пространства кусочно-непрерывных и липшицевых функций, действующих из [a, b] в ${{\mathbb{R}}^{n}}$.
Пусть зафиксированы ${{t}_{0}} < \vartheta $ и h > 0. Обозначим ${\text{PC}} = {\text{PC}}([ - h,0],{{\mathbb{R}}^{n}})$, $\mathbb{G} = [{{t}_{0}},\vartheta ] \times {{\mathbb{R}}^{n}}$ × PC . На пространстве ${\text{PC}}$ рассмотрим нормы
Пусть $(\tau ,z,w( \cdot )) \in \mathbb{G}$. Рассмотрим антагонистическую дифференциальную игру для системы с запаздыванием
(1)
$\begin{array}{*{20}{c}} {\dot {x}(t) = f(t,x(t),x(t - h),u(t),v(t)),\quad t \in [\tau ,\vartheta ],} \\ {x(t) \in {{\mathbb{R}}^{n}},\quad u(t) \in \mathbb{U} \subset {{\mathbb{R}}^{l}},\quad v(t) \in \mathbb{V} \subset {{\mathbb{R}}^{m}},} \end{array}$(3)
$\gamma \, = \,\sigma (x(\vartheta ),{{x}_{\vartheta }}( \cdot )) + \int\limits_\tau ^\vartheta {{f}^{0}}(t,x(t),x(t - h),u(t),v(t)){\text{d}}t,$Функции $f = f(t,x,y,u,v) \in {{\mathbb{R}}^{n}}$, f 0 = f 0(t, x, y, u, $v) \in \mathbb{R}$, $t \in [{{t}_{0}},\vartheta ]$, $x,y \in {{\mathbb{R}}^{n}}$, $u \in \mathbb{U}$, $v \in \mathbb{V}$, и функционал $\sigma = \sigma (x,r( \cdot )) \in \mathbb{R}$, $x \in {{\mathbb{R}}^{n}}$, $r( \cdot ) \in {\text{PC}}$ удовлетворяют следующим условиям:
(f1) функции f и ${{f}^{0}}$ непрерывны;
(f2) для любого $\alpha > 0$ существует такое λf = = ${{\lambda }_{f}}(\alpha )$ > 0, что для любых x, y, x', y' ∈ B(α) = = $\{ x \in {{\mathbb{R}}^{n}}{\kern 1pt} :\;\left\| x \right\| \leqslant \alpha \} $ справедливо неравенство
(f3) существует такая константа ${{c}_{f}} > 0$, что
(f4) для любых $s \in {{\mathbb{R}}^{n}}$ и $\eta \in \mathbb{R}$ имеет место равенство
Пусть $\Lambda (\tau ,z,w( \cdot ))$ – множество функций x(·) ∈ ∈ ${\text{PC}}([\tau - h,\vartheta ],{{\mathbb{R}}^{n}})$, удовлетворяющих условию (2) и липшицевых на отрезке $[\tau ,\vartheta ]$. Допустимыми реализациями управляющих воздействий $u(t)$ и $v(t)$ называем измеримые функции $u( \cdot ){\text{:}}\,\,[\tau ,\vartheta ) \mapsto \mathbb{U}$ и $v( \cdot ){\text{:}}\,\,[\tau ,\vartheta ) \mapsto \mathbb{V}$. Пользуясь условиями (f1)–(f3), можно показать, что всякая пара таких реализаций $u( \cdot )$ и $v( \cdot )$ порождает единственное движение системы (1), (2) – функцию $x( \cdot ) \in \Lambda (\tau ,z,w( \cdot ))$, почти всюду удовлетворяющую равенству (1).
Следуя подходу [1, 2, 10], стратегиями управления игроков называем отображения U = U(t, x, $r( \cdot ),\varepsilon ) \in \mathbb{U}$ и $V = V(t,x,r( \cdot ),\varepsilon ) \in \mathbb{V},$ $(t,x,r( \cdot )) \in \mathbb{G}$, где ε > 0 – параметр точности [2, с. 68]. Стратегия U, значение ε > 0 и разбиение Δδ = {tj: 0 < ${{t}_{{j + 1}}} - {{t}_{j}} \leqslant \delta ,$ $j = 1,2,...,k,$ ${{t}_{1}} = \tau ,$ ${{t}_{{k + 1}}} = \vartheta \} $ отрезка $[\tau ,\vartheta ]$ образуют закон управления первого игрока $\{ U,\varepsilon ,{{\Delta }_{\delta }}\} $:
В паре с допустимой реализацией управления второго игрока $v( \cdot )$ закон $\{ U,\varepsilon ,{{\Delta }_{\delta }}\} $ однозначно определяет движение системы (1), (2), а значит, и значение $\gamma $ показателя (3). Гарантированный результат стратегии U определяется равенством
(4)
${{\varphi }_{u}}(\tau ,z,w( \cdot ),U) = \mathop {\lim \,sup}\limits_{\varepsilon \downarrow 0} \,\mathop {\lim }\limits_{\delta \downarrow 0} \,\mathop {\sup }\limits_{{{\Delta }_{\delta }}} \,\mathop {\sup }\limits_{v( \cdot )} \,\gamma .$Оптимальным гарантированным результатом первого игрока будет
(5)
$\varphi _{u}^{{^{ \circ }}}(\tau ,z,w( \cdot )) = \mathop {\inf }\limits_U \,{{\varphi }_{u}}(\tau ,z,w( \cdot ),U).$По аналогии определяем гарантированный результат стратегии V
(6)
${{\varphi }_{v}}(\tau ,z,w( \cdot ),V) = \mathop {\lim \,inf}\limits_{\varepsilon \downarrow 0} \,\mathop {\lim }\limits_{\delta \downarrow 0} \,\mathop {\inf }\limits_{{{\Delta }_{\delta }}} \,\mathop {\inf }\limits_{u( \cdot )} \,\gamma $(7)
$\varphi _{v}^{{^{ \circ }}}(\tau ,z,w( \cdot )) = \mathop {\sup }\limits_V \,{{\varphi }_{v}}(\tau ,z,w( \cdot ),V).$Из (4)–(7) следует неравенство $\varphi _{u}^{{^{ \circ }}}(\tau ,z,w( \cdot ))\, \geqslant \,$ $ \geqslant \,\varphi _{v}^{{^{ \circ }}}(\tau $, z, w(·)). В случае равенства говорят, что игра (1)–(3) имеет цену
(8)
$\varphi (\tau ,z,w( \cdot )) = \varphi _{u}^{{^{ \circ }}}(\tau ,z,w( \cdot )) = \varphi _{v}^{{^{ \circ }}}(\tau ,z,w( \cdot )).$Следуя схемам рассуждений из [2], можно показать, что при условиях (f1)–(f4) и $(\sigma )$ равенство (8) действительно достигается.
Рассмотрим функционал $\mathbb{G} \ni (\tau ,z,w( \cdot )) \mapsto \varphi $ = = $\varphi (\tau ,z,w( \cdot )) \in \mathbb{R}$. По аналогии с [13, 14] определим нижнюю и верхнюю правые производные функционала $\varphi $ в точке $(\tau ,z,w( \cdot )) \in \mathbb{G}$, $\tau < \vartheta $, по направлению $l \in {{\mathbb{R}}^{n}}$:
Соответственно рассмотрим следующие суб- и супердифференциалы функционала φ:
Обозначим через $\Phi $ множество функционалов $\varphi = \varphi (\tau ,z,w( \cdot )) \in \mathbb{R}$, $(\tau ,z,w( \cdot ))$ ∈ $\mathbb{G}$, которые непрерывны по $\tau $ и удовлетворяют следующему условию Липшица по $(z,w( \cdot ))$: для любого α > 0 найдется такое ${{\lambda }_{\varphi }} = {{\lambda }_{\varphi }}(\alpha ) > 0$, что для всех $\tau \in [{{t}_{0}},\vartheta ]$ и $(z,w( \cdot )),(z{\kern 1pt} ',w{\kern 1pt} '( \cdot )) \in P(\alpha )$ справедливо неравенство
Следующее утверждение является соответствующим аналогом известных результатов [8, 9] для случая функционалов над пространством кусочно-непрерывных функций.
Теорема 1. Пусть $\varphi \in \Phi $, $(\tau ,z,w( \cdot )) \in \mathbb{G}$, $\tau < \vartheta $ и $L \subset {{\mathbb{R}}^{n}}$ – непустой выпуклый компакт. Пусть выполняется неравенство
Тогда для любого $\delta \in (0,\vartheta - \tau )$ найдутся
Обозначим
Теорема 1 позволяет получить следующий результат.
Теорема 2. Перечисленные ниже условия эквивалентны:
(а) функционал φ является ценой игры (1)–(3), т.е. для любых $(\tau ,z,w( \cdot )) \in \mathbb{G}$ справедливо соотношение (8);
(б) функционал φ удовлетворяет включению $\varphi \, \in \,\Phi $, дифференциальным неравенствам
(9)
$\begin{gathered} \mathop {\inf }\limits_{l \in F(z,w( - h))} (\partial _{l}^{ - }\varphi (\tau ,z,w( \cdot ))\, + \,H(\tau ,z,w( - h),s)\, - \,\langle l,s\rangle )\, \leqslant \,0, \\ \mathop {\sup }\limits_{l \in F(z,w( - h))} (\partial _{l}^{ + }\varphi (\tau ,z,w( \cdot ))\, + \,H(\tau ,z,w( - h),s)\, - \,\langle l,s\rangle )\, \geqslant \,0, \\ (\tau ,z,w( \cdot )) \in \mathbb{G},\quad \tau < \vartheta ,\quad s \in {{\mathbb{R}}^{n}} \\ \end{gathered} $(10)
$\varphi (\vartheta ,z,w( \cdot )) = \sigma (z,w( \cdot )),\quad (z,w( \cdot )) \in {{\mathbb{R}}^{n}} \times {\text{PC;}}$(в) функционал φ удовлетворяет условию (10), включению $\varphi \in \Phi $ и неравенствам
(11)
$\begin{gathered} {{p}_{0}} + H(\tau ,z,w( - h),p)\, \leqslant \,0,\quad ({{p}_{0}},p)\, \in \,{{D}^{ - }}\varphi (\tau ,z,w( \cdot )), \\ {{q}_{0}} + H(\tau ,z,w( - h),q)\, \geqslant \,0,\quad ({{q}_{0}},q)\, \in \,{{D}^{ + }}\varphi (\tau ,z,w( \cdot )), \\ (\tau ,z,w( \cdot )) \in \mathbb{G},\quad \tau < \vartheta . \\ \end{gathered} $Рассмотренные выше производные по направлениям и суб- и супердифференциалы естественным образом связаны с понятием коинвариантной (ci-) дифференцируемостью [13–15] функцио-налов φ: $\mathbb{G} \mapsto \mathbb{R}$. Функционал $\varphi {\kern 1pt} :\;\mathbb{G} \mapsto \mathbb{R}$ является ci-дифференцируемым в точке (τ, z, $w( \cdot )) \in \mathbb{G}$, τ < ϑ, если существуют такие число $\partial _{{\tau ,w}}^{{{\text{ci}}}}\varphi (\tau ,z,w( \cdot )) \in \mathbb{R}$ и вектор ${{\nabla }_{z}}\varphi (\tau ,z,w( \cdot )) \in {{\mathbb{R}}^{n}}$, что для любых $y \in {{\mathbb{R}}^{n}}$, $x( \cdot ) \in \Lambda (\tau ,z,w( \cdot ))$ и $t \in [\tau ,\vartheta ]$ выполняется следующее соотношение:
(12)
$\begin{array}{*{20}{c}} {\varphi (t,y,{{x}_{t}}( \cdot )) - \varphi (\tau ,z,w( \cdot )) = \partial _{{\tau ,w}}^{{{\text{ci}}}}\varphi (\tau ,z,w( \cdot ))(t - \tau ) + } \\ {\, + \langle y - z,{{\nabla }_{z}}\varphi (\tau ,z,w( \cdot ))\rangle + o\left( {\left| {t - \tau } \right| + \left\| {y - z} \right\|} \right),} \end{array}$Для ci-дифференцируемых функционалов $\varphi $ имеют место равенства
Поэтому в случае, когда функционал цены игры (1)–(3) оказывается ci-дифференцируемым, неравенства (9) для его производных по направлениям, как и неравенства (11) для его суб- и суперградиентов, обращаются в следующее уравнение типа Г–Я–А–Б:
(13)
$\begin{gathered} \partial _{{\tau ,w}}^{{{\text{ci}}}}\varphi (\tau ,z,w( \cdot )) + H(\tau ,z,w( - h),{{\nabla }_{z}}\varphi (\tau ,z,w( \cdot ))) = 0, \\ (\tau ,z,w( \cdot )) \in \mathbb{G},\quad t < \vartheta . \\ \end{gathered} $При этом в общем случае неравенства (9) описывают функционал цены как минимаксное [5] решение этого уравнения, а неравенства (11) – как его вязкостное [7] решение.
Список литературы
Красовский Н.Н., Субботин А.И. Позиционные дифференциальные игры. М.: Наука, 1974.
Красовский Н.Н. Управление динамической системой. М.: Наука, 1985.
Субботин А.И., Тарасьев А.М. Сопряженные производные функции цены дифференциальной игры // ДАН СССР. 1985. Т. 283. № 3. С. 559–564.
Гусейнов Х.Г., Субботин А.И., Ушаков В.Н. Производные многозначных отображений и их применение в игровых задачах управления // Проблемы управления и теории информации, 1985. Т. 14. № 3. С. 1–14.
Subbotin A.I. Generalized Solutions of First–Order PDEs: The Dynamical Optimization Perspective. Boston: Birkhäuser, 1995.
Souganidis P.E. Max-Min Representations and Product Formulas for Viscosity Solutions of Hamilton–Jacobi Equations with Applications to Differential Games // Nonlinear Analysis. Theory, Meth., Appl. 1985. V. 9. № 3. P. 217–257. https://doi.org/10.1016/0362-546X(85)90062-8
Crandall M.G., Lions P.-L. Viscosity Solutions of Hamilton–Jacobi Equations // Trans. Amer. Math. Society. 1983. V. 277. № 1. P. 1–42. https://doi.org/10.1090/S0002-9947-1983-0690039-8
Субботин А.И. Об одном свойстве субдифференциала // Матем. сб. 1991. Т. 182. № 9. С. 1315–1330.
Clarke F.H., Ledyaev Yu.S. Mean Value Inequalities in Hilbert Space // Trans. Amer. Math. Society. 1994. V. 344. № 1. P. 307–324. https://doi.org/10.2307/2154718
Осипов Ю.С. Дифференциальные игры систем с последействием // ДАН СССР. 1971. Т. 196. № 4. С. 779–782.
Wolenski P.R. Hamilton-Jacobi Theory for Hereditary Control Problems // Nonlinear Analysis, Theory, Methods and Applications, 1994. V. 22. № 7. P. 875–894. https://doi.org/10.1016/0362-546X(94)90056-6
Aubin J.P., Haddad G. History Path Dependent Optimal Control and Portfolio Valuation and Management // Positivity. 2002. V. 6. P. 331–358. https://doi.org/10.1023/A:1020244921138
Лукоянов Н.Ю. Дифференциальные неравенства для негладкого функционала цены в задачах управления системами с последействием // Тр. ИММ УрО РАН. 2006. Т. 12. № 2. С. 108–118.
Лукоянов Н.Ю. Функциональные уравнения Гамильтона–Якоби и задачи управления с наследственной информацией. Екатеринбург: УрФУ, 2011.
Kim A.V. Functional Differential Equations. Application of $i$-Smooth Calculus. Dordrecht: Kluwer, 1999.
Дополнительные материалы отсутствуют.
Инструменты
Доклады Российской академии наук. Математика, информатика, процессы управления