ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ, 2022, том 58, № 11, с. 1515-1524
ТЕОРИЯ УПРАВЛЕНИЯ
УДК 517.977
СТРАТЕГИИ ПРИЦЕЛИВАНИЯ В НАПРАВЛЕНИИ
КВАЗИГРАДИЕНТОВ В ЗАДАЧАХ ОПТИМАЛЬНОГО
УПРАВЛЕНИЯ СИСТЕМАМИ С ЗАПАЗДЫВАНИЕМ
© 2022 г. Н. Ю. Лукоянов, А. Р. Плаксин
Рассматривается задача оптимального управления, в которой движение динамической сис-
темы описывается дифференциальными уравнениями с запаздыванием, начальные усло-
вия определяются кусочно-непрерывной функций, оптимизируется показатель качества ти-
па Больца. Предлагается конструкция позиционных стратегий управления, позволяющих
получать кусочно-постоянные аппроксимации оптимального управления. В данных стра-
тегиях используются квазиградиенты функционала оптимального результата. Стратегии
вычисляются путём поиска точек экстремума на конечномерном множестве. Тот факт, что
это множество может быть конечномерным, является основным результатом статьи.
DOI: 10.31857/S0374064122110073, EDN: MBCMGS
Введение. В задачах оптимального управления обыкновенными дифференциальными
уравнениями установлено, что если функция оптимального результата непрерывно дифферен-
цируема, то оптимальная позиционная стратегия может быть построена на базе прицеливания
в направлении её градиента. Для случая, если гладкость этой функции не предполагается, рас-
сматриваются различные подходы к построению оптимальных позиционных стратегий (см.,
например, [1-9]). Идея настоящей статьи основана на подходе из работы [6, с. 127], поскольку
он представляется одним из наиболее общих с точки зрения достаточных условий. Соглас-
но данному подходу почти оптимальные позиционные стратегии строятся с использованием
квазиградиентов функции оптимального результата. Целью статьи является развитие этого
подхода на системы с запаздыванием.
Отметим, что для систем с запаздыванием позиционные стратегии управления, использу-
ющие квазиградиенты, и близкие к ним изучались в статьях [10, 11]. Однако применение этих
стратегий затруднительно, поскольку для их реализации необходимо искать точки экстрему-
ма на бесконечномерных множествах непрерывных функций - возможных историй движений
системы. В настоящей работе предлагается способ построения почти оптимальных позицион-
ных стратегий управления, использующих поиск точек экстремума лишь на конечномерном
множестве возможных текущих состояний системы. Идеи, лежащие в основе этого результата,
заключаются в следующем:
(i) Подобно [12] рассматриваются такие условия на систему и показатель качества, что
функционал оптимального результата удовлетворяет определённому условию Липшица.
(ii) Следуя [13, 14], задача оптимального управления рассматривается на пространстве
кусочно-непрерывных функций.
1. Задача оптимального управления. Пусть Rn - n-мерное евклидово пространство со
скалярным произведением 〈 · , · 〉 и нормой ∥·∥. Функция x(·): [a, b] → Rn называется кусочно-
непрерывной, если существуют числа a = ξ1 < ξ2 < ... < ξl = b такие, что для каждого i ∈
∈ 1, l - 1 функция x(·) непрерывна на промежутке [ξi, ξi+1), и существует конечный предел
x(ξ) при ξ, стремящемся к ξi+1 слева. Через PC([a, b], Rn) обозначим линейное пространство
кусочно-непрерывных функций x(·): [a, b] → Rn.
Пусть t0 < ϑ и h > 0. Положим PC = PC([-h, 0), Rn), G = [t0, ϑ] × Rn × PC. Определим
следующие нормы на пространстве PC:
∫0
∥w(·)∥1 =
∥w(ξ)∥ dξ,
∥w(·)∥∞ = sup
∥w(ξ)∥.
ξ∈[-h,0)
-h
1515
1516
ЛУКОЯНОВ, ПЛАКСИН
Пусть (τ, z, w(·)) ∈ G. Рассмотрим динамическую систему, описываемую дифференциаль-
ным уравнением с запаздыванием
x(t) = f(t, x(t), x(t - h), u(t)), t ∈ [t0, ϑ],
(1)
при начальном условии
x(τ) = z, x(t) = w(t - τ), t ∈ [τ - h, τ).
(2)
Здесь t - время, x(t) ∈ Rn - вектор состояния в момент времени t,
x(t) = dx(t)/dt, u(t) ∈ U -
текущее воздействие управления, U ⊂ Rm - компактное множество.
Обозначим через Λ(τ, z, w(·)) множество функций x(·) ∈ PC([τ - h, ϑ], Rn), удовлетворяю-
щих начальному условию (2) и условию Липшица на промежутке [τ, ϑ]. Обозначим через Uτ
множество измеримых функций u(·): [τ, ϑ] → U.
Пусть u(·) ∈ Uτ . Движением x(·) = x( · | τ, z, w(·), u(·)) системы (1), (2) называется функ-
ция x(·) ∈ Λ(τ, z, w(·)), которая удовлетворяет уравнению (1) при почти всех t ∈ [τ, ϑ].
Рассмотрим следующую задачу оптимального управления: требуется минимизировать по-
казатель качества типа Больца
∫ϑ
J (τ, z, w(·), u(·)) = σ(x(ϑ)) + f0(ξ, x(ξ), x(ξ - h), u(ξ)) dξ
(3)
τ
по всем u(·) ∈ Uτ , где x(·) = x( · | τ, z, w(·), u(·)) - движение системы (1), (2).
Обозначим
B(α) = {x ∈ Rn : ∥x∥ ≤ α}, α > 0.
Предполагаем, что выполнены следующие условия:
(f1) Функции f(t, x, y, u) ∈ Rn и f0(t, x, y, u) ∈ R, t ∈ [t0, ϑ], x, y ∈ Rn, u ∈ U, непре-
рывны.
(f2) Для любого α > 0 существует число λf = λf (α) > 0 такое, что для всех t ∈ [t0, ϑ],
x,y,x′,y′ ∈ B(α) и u ∈ U справедливо неравенство
∥f(t, x, y, u) - f(t, x′, y′, u)∥ + |f0(t, x, y, u) - f0(t, x′, y′, u)| ≤ λf (∥x - x′∥ + ∥y - y′∥).
(f3) Существует константа cf > 0 такая, что для всех t ∈ [t0, ϑ], x, y ∈ Rn и u ∈ U имеет
место оценка
∥f(t, x, y, u)∥ + |f0(t, x, y, u)| ≤ cf (1 + ∥x∥ + ∥y∥).
(σ1) Для любого α > 0 существует число λσ = λσ(α) > 0 такое, что
|σ(x) - σ(x′)| ≤ λσ∥x - x′∥, x, x′ ∈ B(α).
(σ2) Существует константа cσ > 0 такая, что
|σ(x)| ≤ cσ(1 + ∥x∥), x ∈ Rn.
Отметим, что при выполнении условий (f1)- (f3) для любых (τ, z, w(·)) ∈ G и u(·) ∈
∈ Uτ существует единственное движение x(·) = x(· | τ,z,w(·),u(·)) системы (1), (2). Этот
факт может быть установлен путём применения метода шагов работы [15, гл. 1, раздел 2] с
опорой на факт существования и единственности решения задачи Коши для обыкновенных
дифференциальных уравнений (см., например, [16, раздел 1]).
Функционал оптимального результата ρ: G → R в задаче (3) определяется по формуле
ρ(τ, z, w(·)) = inf J(τ, z, w(·), u(·)).
(4)
u(·)∈Uτ
Отметим, что этот функционал удовлетворяет условиям:
(ρ1) Имеет место равенство
ρ(ϑ, z, w(·)) = σ(z), (z, w(·)) ∈ Rn × PC.
ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ том 58
№ 11
2022
СТРАТЕГИИ ПРИЦЕЛИВАНИЯ В НАПРАВЛЕНИИ КВАЗИГРАДИЕНТОВ
1517
(ρ2) Для любых (τ, z, w(·)) ∈ G и t ∈ [τ, ϑ] справедливо равенство
ρ(τ, z, w(·)) = inf (ρ(t, x(t), xt(·)) + x0(t)),
u(·)∈Uτ
где x(·) = x( ·|τ, z, w(·), u(·)) - движение системы (1), (2), а функция x0(·) = x0( ·|τ, z, w(·), u(·))
определяется следующим образом:
∫t
x0(t) = f0(ξ,x(ξ),x(ξ - h),u(ξ))dξ, t ∈ [τ,ϑ].
(5)
τ
(ρ3) Функционал оптимального результата ρ(τ, z, w(·)) непрерывен по τ, и для любого
α > 0 существует число λρ = λρ(α) > 0 такое, что
|ρ(τ, z, w(·)) - ρ(τ, z′, w′(·))| ≤ λρ(∥z - z′∥ + ∥w(·) - w′(·)∥1)
для всех (τ, z, w(·)), (τ, z′ , w′(·)) ∈ G, удовлетворяющих неравенству
max{∥z∥, ∥w(·)∥, ∥z′ ∥, ∥w′(·)∥} ≤ α.
(6)
(ρ4) Существует константа cρ > 0 такая, что
|ρ(τ, z, w(·))| ≤ cρ(1 + ∥z∥ + ∥w(·)∥1), (τ, z, w(·)) ∈ G.
(7)
Функционал оптимального результата ρ удовлетворяет условию (ρ1) в силу своего опре-
деления (4). Условие (ρ2) может быть доказано, например, по схеме из монографии [17, с. 553].
Условие (ρ3) доказано в статье [14]. Условие (ρ4) доказывается в лемме 3 далее.
2. Позиционные стратегии в гладком случае. Пусть U : G → U и (τ,z,w(·)) ∈ G.
Определим разбиение промежутка [τ, ϑ]:
Δ = {ti ∈ [τ,ϑ],i ∈ 1,I : ti < ti+1}.
(8)
Обозначим
J (τ, z, w(·), U, Δ) = J(τ, z, w(·), u(·)),
(9)
где u(·) определяется по пошаговому правилу
u(t) = U(ti, x(ti), xti (·)), t ∈ [ti, ti+1], i ∈ 0, I - 1.
Тогда U называется позиционной стратегией управления.
Для того чтобы описать почти оптимальные позиционные стратегии в гладком случае,
введём понятие коинвариантной дифференцируемости функционалов и подходящее понятие
коинвариантной гладкости. Следуя работам [11] и [18, с. 20], функционал ρ: G → R называется
коинвариантно дифференцируемым (ci-дифференцируемым) в точке (τ,z,w(·)) ∈ G, τ < ϑ,
если существуют ∂ciτ,wρ(τ, z, w(·)) ∈ R и ∇zρ(τ, z, w(·)) ∈ Rn такие, что для любых r ∈ Rn,
x(·) ∈ Λ(τ, z, w(·)) и t ∈ [τ, ϑ] выполняется соотношение
ρ(t, r, xt(·)) - ρ(τ, z, w(·)) = ∂ciτ,wρ(τ, z, w(·))(t - τ) + 〈r - z, ∇z ρ(τ, z, w(·))〉 + o(|t - τ| + ∥r - z∥),
где величина o(·) зависит от тройки
{τ, z, x(·)}, причём o(δ)/δ → 0 при δ ↓ 0. Тогда
∂ciτ,wρ(τ,z,w(·)) называется ci-производной ρ по {τ,w(·)} и ∇zρ(τ,z,w(·)) - градиент ρ по z.
Функционал ρ: G → R называется ci-гладким, если он ci-дифференцируем в каждой точке
(τ, z, w(·)) ∈ G, τ < ϑ, функционалы ∂ciτ,wρ(τ, z, w(·)) и ∇zρ(τ,z,w(·)) непрерывны по τ, и
для любого α > 0 существует число λ∗ρ = λ∗ρ(α) > 0 такое, что
|∂ciτ,wρ(τ, z, w(·)) - ∂ciτ,wρ(τ, z′, w′(·))| + |∂ciτ,w∇zρ(τ, z, w(·)) - ∇zρ(τ, z′, w′(·))| ≤
ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ том 58
№ 11
2022
1518
ЛУКОЯНОВ, ПЛАКСИН
≤ λ∗ρ(∥z - z′∥ + ∥w(·) - w′(·)∥1)
для всех (τ, z, w(·)), (τ, z′ , w′(·)) ∈ G, τ < ϑ, удовлетворяющих неравенству (6).
По аналогии с [18, с. 123] рассмотрим предстратегию
p(t, x, y, s) = arg min(〈f(t, x, y, u), s〉 + f0(t, x, y, u)).
u∈U
В работе [13] было доказано, что если функционал оптимального результата ρ является
ci-гладким, то для позиционной стратегии управления
U◦(τ,z,w(·)) = p(τ,z,w(-h),∇zρ(τ,z,w(·)))
и для любых (τ, z, w(·)) ∈ G и ζ > 0 существует разбиение Δ (см. (8)) такое, что
J (τ, z, w(·), U0, Δ) ≤ ρ(τ, z, w(·)) + ζ.
Ниже описывается построение почти оптимальной позиционной стратегии управления в
случае, когда не предполагается, что функционал оптимального результата ρ удовлетворяет
условию ci-гладкости.
3. Стратегии прицеливания в направлении квазиградиентов. Обозначим
νλ,ε(τ) = (e-λ(τ-t0) - ε)/ε, τ ∈ [t0,ϑ], λ,ε > 0.
Пусть ε∗(λ) > 0 таково, что
νλ,ε(τ) > cρ, τ ∈ [t0,ϑ], ε ∈ (0,ε∗(λ)],
(10)
где cρ - константа из условия (ρ4). Определим функцию
√
ηλ,ε(τ,z) = νλ,ε(τ)με(z), με(z) =
ε4 + ∥z∥2,
(11)
где (τ, z) ∈ [t0, ϑ] × Rn, ε ∈ (0, ε∗(λ)] и λ > 0. Отметим, что эта функция непрерывно
дифференцируема и имеют место равенства
∂ηλε(τ,z)/∂τ = -λ(νλε(τ) + 1)με(z),
∇zηλε(τ,z) = (νλε(τ)/με(z))z.
(12)
Рассмотрим функционал
rλ,ε(τ,z,w(·))=arg min(ρ(τ,r,w(·)) + ηλ,ε(τ,z - r)),
(13)
r∈Rn
где (τ, z, w(·)) ∈ G, ε ∈ (0, ε∗(λ)] и λ > 0. Отметим, что этот функционал корректно опреде-
лён в силу леммы 4 ниже. Определим величину
∇λ,εzρ(τ,z,w(·)) = ∇zηλ,ε(τ,z - rλ,ε(τ,z,w(·))).
Теорема. Для любых (τ, z, w(·)) ∈ G и ζ > 0 существуют λ, ε > 0 и разбиение Δ (см.
(8)) такие, что для позиционной стратегии управления
Uλ,ε(τ,z,w(·)) = p(τ,z,w(-h),∇λ,εzρ(τ,z,w(·)))
(14)
имеет место оценка
J (τ, z, w(·), Uλ,ε, Δ) ≤ ρ(τ, z, w(·)) + ζ.
Доказательство теоремы приведено в п. 6.
ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ том 58
№ 11
2022
СТРАТЕГИИ ПРИЦЕЛИВАНИЯ В НАПРАВЛЕНИИ КВАЗИГРАДИЕНТОВ
1519
4. Свойства динамической системы. Взяв константу cf из условия (f3), положим
1
α(t, τ, α0) =
((1 + 2α0)e2cf (t-τ) - 1).
(15)
2
Лемма 1. Пусть τ ∈ [t0, ϑ] и α0 ≥ 0. Тогда для любых (z, w(·)) ∈ Rn × PC таких, что
max{∥z∥, ∥w(·)∥∞ } ≤ α0, и любого u(·) ∈ Uτ движение x(·) = x( · | τ, z, w(·), u(·)) системы
(1), (2) и функция x0(·) = x0( · | t, z, w(·), u(·)), определяемая согласно (5), при всех t ∈ [τ, ϑ]
удовлетворяют оценкам
sup
∥x(ξ)∥ ≤ α(t, τ, α0),
|x0(t)| ≤ α(t, τ, α0).
(16)
ξ∈[τ-h,t]
Доказательство. В силу (1), (2) и условия (f3) для x(·) = x( · | τ, z, w(·), u(·)) имеем
∫t
∫
t
∥x(t)∥ ≤ ∥z∥ +
∥f(ξ, x(ξ), x(ξ - h), u(ξ), v(ξ))∥ dξ ≤ α0 + cf
(1 + 2
sup
∥x(ζ)∥) dξ
ζ∈[τ-h,ξ]
τ
τ
при всех t ∈ [τ, ϑ]. Тогда, принимая во внимание, что правая часть этих оценок монотонна по
t, получаем, что функция
ψ(t) = 1 + 2 sup
∥x(ξ)∥, t ∈ [τ, ϑ],
(17)
ξ∈[τ-h,t]
удовлетворяет неравенству
∫t
ψ(t) ≤ 1 + 2α0 + 2cf ψ(ξ) dξ, t ∈ [τ, ϑ].
τ
Отсюда, применяя лемму Беллмана-Гронуолла (см., например, [19, с. 43]), выводим
ψ(t) ≤ (1 + 2α0)e2cf (t-τ), t ∈ [τ, ϑ].
(18)
Тогда в силу формул (15) и (17) получаем первую оценку в (16).
Для функции x0(·) = x0( · | t, z, w(·), u(·)) из условия (f3) и соотношений (15), (17), (18)
имеем
∫t
∫t
|x0(t)| ≤
∥f0(ξ, x(ξ), x(ξ - h), u(ξ), v(ξ))∥ dξ ≤ cf ψ(ξ) dξ ≤ α(t, τ, α0)
τ
τ
при всех t ∈ [τ, ϑ]. Лемма доказана.
Лемма 2. Пусть α∗ ≥ 0. Пусть (τ, z, w(·)) ∈ G и u(·) ∈ Uτ таковы, что движение
x(·) = x( · | τ, z, w(·), u(·)) системы (1), (2) удовлетворяет оценке
∥x(t)∥ ≤ α∗, t ∈ [τ - h, ϑ].
(19)
Тогда выполняется неравенство
∥x(t) - x(t′)∥ ≤ cf (1 + 2α∗)|t - t′|, t, t′ ∈ [τ, ϑ].
(20)
Доказательство. Без ограничения общности можно считать, что t ≤ t′. Тогда в силу (1),
(2) и условия (f3) имеем
t′
∫t′
∫
∥x(t) - x(t′)∥ ≤
∥f(ξ, x(ξ), x(ξ - h), u(ξ))∥ dξ ≤ cf
(1 + ∥x(ξ)∥ + ∥x(ξ - h)∥) dξ.
t
t
Далее, используя неравенство (19), получаем (20). Лемма доказана.
ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ том 58
№ 11
2022
1520
ЛУКОЯНОВ, ПЛАКСИН
5. Свойства функционала оптимального результата.
Лемма 3. Функционал оптимального результата ρ удовлетворяет условию (ρ4).
Доказательство. Возьмём cf и cσ из условий (f3) и (σ2). Положим cx = e2cf (ϑ-t0),
cρ = (2cσ + 1)cx.
Пусть (τ, z, w(·)) ∈ G. Обозначим α0 = max{∥z∥, ∥w(·)∥∞ }, α∗ = cx(1 + α0). Отметим, что
α∗ ≥ 1. Тогда в соответствии с (15) для каждого u(·) ∈ Uτ движение x(·) = x(· | τ,z,w(·),u(·))
системы (1), (2) удовлетворяет оценке
max{∥x(t)∥, |x0(t)|} ≤ α(t, τ, α0) ≤ α∗, t ∈ [τ, ϑ].
Таким образом, получаем
|σ(x(ϑ)) + x0(ϑ)| ≤ cσ(1 + α∗) + α∗ ≤ (2cσ + 1)α∗ = cρ(1 + α0) ≤ cρ(1 + ∥z∥ + ∥w(·)∥∞).
Из этой оценки и выражения (4) выводим (7). Лемма доказана.
6. Доказательства.
Определим функционал
ρλ,ε(τ,z,w(·)) = min(ρ(τ,r,w(·)) + ηλ,ε(τ,z - r)),
(21)
r∈Rn
где (τ, z, w(·)) ∈ G, ε ∈ (0, ε∗(λ)] и λ > 0.
Лемма 4. В соотношении (21) минимум достигается.
Доказательство. Рассмотрим функцию
ρ(r) = ρ(τ, r, w(·)) + ηλ,ε(τ, z - r), r ∈ Rn.
В силу условия (ρ3) эта функция непрерывна. По условиям (σ2) и (10) имеем
ρ(r) ≥ -cρ(1 + ∥r∥) + νλ,ε(τ)∥r - z∥ ≥ cρ(∥r∥ - 1 - 2∥z∥).
Следовательно, функция ρ- ограничена снизу и
ρ(r) → +∞ при ∥r∥ → ∞. Это означает,
что минимум достигается. Лемма доказана.
Лемма 5. Пусть (τ, z, w(·)) ∈ G и ζ1, λ > 0. Существует число ε1 > 0 такое, что
для любых ε ∈ (0, ε1] и u(·) ∈ Uτ движение x(·) = x( · | τ, z, w(·), u(·)) системы (1), (2)
удовлетворяет неравенству
∥rλ,ε(t, x(t), xt(·)) - x(t)∥ ≤ ζ, t ∈ [τ, ϑ].
(22)
Доказательство. Пусть (τ, z, w(·)) ∈ G и ζ1, λ > 0. Взяв константу cρ из леммы 3
и функцию α из (15), обозначим α0 = max{∥z∥, ∥w(·)∥∞ }, θ = cρ(1 + (1 + h)α(ϑ, τ, α0)).
Согласно (11) можно выбрать ε1 ∈ (0, ε∗(λ)) так, чтобы выполнялись неравенства
ηλ,ε(t0,0) ≤ θ, νλ,ε(ϑ) ≥ cϕ + 3θ/ζ, ε ∈ (0,ε1].
Пусть ε ∈ (0, ε1], u(·) ∈ Uτ , t ∈ [τ, ϑ], x(·) = x( · | τ, z, w(·), u(·)) - движение системы (1),
(2). Обозначим
r = rλ,ε(t,x(t),xt(·)),
(23)
где rλ,ε определяется по формуле (13). Тогда с учётом (11), (21) и леммы 3, с одной стороны,
имеем
ρλ,ε(t,x(t),xt(·)) = ρ(t,r,xt(·)) + ηλ,ε(t,x(t) - r) ≥ -cρ(1 + ∥r∥ + ∥xt(·)∥1) + νλ,ε(ϑ)∥x(t) - r∥ ≥
≥ -cρ(1 + ∥x(t)∥ + ∥xt(·)∥1) + 3θ/ζ∥x(t) - r∥ ≥ -θ + 3θ/ζ∥x(t) - r∥,
ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ том 58
№ 11
2022
СТРАТЕГИИ ПРИЦЕЛИВАНИЯ В НАПРАВЛЕНИИ КВАЗИГРАДИЕНТОВ
1521
а с другой -
ρλ,ε(t,x(t),xt(·)) ≤ ρ(t,x(t),xt(·)) + ηλ,ε(t0,0) ≤ cρ(1 + ∥x(t)∥ + ∥xt(·)∥1) + ηλ,ε(t0,0) ≤ 2θ.
Из этих оценок следует (22). Лемма доказана.
Лемма 6. Пусть (τ, z, w(·)) ∈ G и ζ2, λ > 0. Тогда существует число ε2 > 0 такое,
что для любых ε ∈ (0, ε2] и u(·) ∈ Uτ движение x(·) = x( · | τ, z, w(·), u(·)) системы (1), (2)
удовлетворяет неравенству
|ρ(t, x(t), xt(·)) - ρλ,ε(t, x(t), xt(·))| ≤ ζ, t ∈ [τ, ϑ].
(24)
Доказательство. Пусть (τ, z, w(·)) ∈ G и ζ2, λ > 0. В соответствии с (15) и с условием
(ρ3) обозначим α0 = max{∥z∥, ∥w(·)∥∞ }, α∗ = α(ϑ, τ, α0) + ζ2 и λρ = λρ(α∗). Согласно (11) и
лемме 5 можно выбрать число ε2 > 0 так, чтобы для любых ε ∈ (0, ε2], u(·) ∈ Uτ и t ∈ [τ, ϑ]
выполнялись неравенства
ηλ,ε(τ,0) ≤ ζ2, νλ,ε(t) > 0,
∥rλ,ε(t, x(t), xt(·)) - x(t)∥ ≤ ζ2/ max{λρ, 1},
(25)
где x(·) = x( · | τ, z, w(·), u(·)) - движение системы (1), (2).
Пусть ε ∈ (0, ε2], u(·) ∈ Uτ , t ∈ [τ, ϑ]. Введём обозначение r согласно (23). В силу леммы 1
и выбора α∗ и ε имеем
∥x(t)∥ ≤ α∗,
∥r∥ ≤ ∥x(t) - r∥ + ∥x(t)∥ ≤ α∗.
Тогда в соответствии с выбором λρ и r и неравенств (25), с одной стороны, выводим
ρ(t, x(t), xt(·)) - ρλ,ε(t, x(t), xt(·)) ≤ ρ(t, x(t), xt(·)) - ρ(t, r, xt(·)) - ηλ,ε(t, x(t) - r) ≤
≤ λρ∥x(t) - r∥ ≤ ζ2,
а с другой стороны, принимая во внимание (21), получаем
ρλ,ε(t,x(t),xt(·)) - ρ(t,x(t),xt(·)) ≤ ηλ,ε(τ,0) ≤ ζ2.
Таким образом, неравенство (24) доказано. Лемма доказана.
Лемма 7. Пусть (τ, z, w(·)) ∈ G и ζ3 > 0. Тогда существуют λ, ε3 > 0 такие, что
выполняется следующее утверждение: для любого ε ∈ (0, ε3] существует разбиение Δ (см.
(8)) такое, что если u(·) ∈ Uτ определяется согласно пошаговому правилу
u(t) = Uλ,ε(ti, x(ti), xti (·)), t ∈ [ti, ti+1), i ∈ 1, k - 1,
(26)
где x(·) = x( · | τ, z, w(·), u(·)) - движение системы (1), (2), а Uλ,ε определяется согласно
(14), то движение x(·) и функция x0(·) = x0( · | τ, z, w(·), u(·)), определяемая согласно (5),
удовлетворяют неравенству
ρλ,ε(ti+1,x(ti+1),xti+1 (·))+x0(ti+1) ≤ ρλ,ε(ti,x(ti),xti (·))+x0(ti)+(ti+1-ti)ζ3, i ∈ 1,k - 1. (27)
Доказательство. Пусть (τ, z, w(·)) ∈ G и ζ3 > 0. Определим α0 = max{∥z∥, ∥w(·)∥∞ }.
Взяв функцию α из формулы (15) и константу cf > 0 из условия (f3), обозначим
ζ1 = ζ3/6, α∗ = α(ϑ,τ,α0 + ζ1), λ∗ = (1 + 2α∗)cf .
(28)
В согласии с условием (f2) положим λ = λf (α∗). По числу ζ1 определим ε3 = ε1 в соответ-
свии с леммой 5. Пусть ε ∈ (0, ε3]. Обозначим
β(t, x, y, s, u) = 〈f(t, x, y, u), ∇z ηλ,ε(t, s)〉 + f0(t, x, y, u).
(29)
6
ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ том 58
№ 11
2022
1522
ЛУКОЯНОВ, ПЛАКСИН
В силу условия (f1) и непрерывности ∇zηλ,ε (см. (12)) существует δβ > 0 такое, что для
любых t, t′ ∈ [t0, ϑ], x, x′, y, y′ ∈ B(α∗), s, s′ ∈ B(2α∗) и u ∈ U, если
max{|t - t′|, ∥x - x′∥, ∥y - y′∥, ∥s - s′∥} ≤ δβ,
справедливо неравенство
|β(t, x, y, s, u) - β(t′, x′, y′, s′, u)| ≤ ζ1.
(30)
Поскольку w(·) ∈ PC, существуют -h = ξ1 < ξ2 < . . . < ξl = 0 такие, что функция
w(·) равномерно непрерывна на каждом промежутке [ξi, ξi+1), i ∈ 1, l - 1. Тогда существует
δw > 0 такое, что для любых i ∈ 1,l - 1 и ξ,ξ′ ∈ [ξi,ξi+1), если |ξ - ξ′| ≤ δw,
∥w(ξ) - w(ξ′)∥ ≤ δβ/2.
(31)
Выберем λρ = λρ(α∗) в согласии с условием (ρ3). Положим
δ = min{δw,δβ,δβ/(2λ∗),h,ζ1/(2λρλ∗)}.
(32)
Возьмём разбиение Δ (см. (8)) такое, что
ti+1 - ti ≤ δ, i ∈ 1,k - 1,
(33)
и функция w(·) непрерывна на промежутках [ti - τ - h, ti+1 - τ - h)
⋂ [-h, 0), i ∈ 1, k - 1.
Пусть u(·) ∈ Uτ удовлетворяет (26). Пусть x(·) = x( · | τ, z, w(·), u(·)) - движение системы
(1), (2). Пусть i ∈ 1, k - 1. Из леммы 1 и (15), (28) имеем
∥x(ξ)∥ ≤ α(ξ, τ, α0) ≤ α∗, ξ ∈ [τ - h, ϑ].
(34)
Тогда в силу леммы 2 и (28), (32), (33) выводим
∥x(t) - x(ti)∥ ≤ λ∗|t - ti| ≤ δβ /2, t ∈ [ti, ti+1].
(35)
В случае ti - h ≥ τ аналогичным образом можно получить оценки
∥x(t - h) - x(ti - h)∥ ≤ δβ /2, t ∈ [ti, ti+1),
(36)
а при ti - h < τ это неравенство выполнено в силу выбора разбиения Δ и (31)-(33).
Обозначим
ri = rλ,ε(ti,x(ti),xti (·)),
(37)
где rλ,ε взято из (13). Тогда по выбору ε имеем
∥ri - x(ti)∥ ≤ ζ1.
(38)
Ввиду условия (ρ2) существует v(·) ∈ Uti такое, что движение y(·) = x( · | ti, ri, xti (·), v(·))
системы (1), (2) и функция y0(·) = x0( · | ti, ri, xti (·), v(·)), определяемая согласно (5), удовле-
творяют неравенству
ρ(ti+1, y(ti+1), yti+1 (·)) + y0(ti+1) ≤ ρ(ti, ri, xti (·)) + 2(ti+1 - ti)ζ1.
(39)
В соответствии с (32), (33) справедливо равенство
y(t - h) = x(t - h), t ∈ [ti, ti+1].
(40)
Отметим также, что в силу (34), (38) и леммы 1, принимая во внимание (15) и (28), имеем
∥y(t)∥ ≤ α(t, ti, α(ti, τ, α0) + ζ1) ≤ α∗, t ∈ [ti, ti+1].
(41)
ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ том 58
№ 11
2022
СТРАТЕГИИ ПРИЦЕЛИВАНИЯ В НАПРАВЛЕНИИ КВАЗИГРАДИЕНТОВ
1523
Тогда в силу леммы 2 и (28), (32), (33) выводим
∥y(t) - y(ti)∥ ≤ λ∗|t - ti| ≤ δβ /2, t ∈ [ti, ti+1].
(42)
Обозначая
s(t) = x(t) - y(t), t ∈ [ti, ti+1],
(43)
и учитывая (34), (35) и (41), (42), получаем оценки
∥s(t)∥ ≤ 2α∗,
∥s(t) - s(ti)∥ ≤ δβ, t ∈ [ti, ti+1].
(44)
Рассмотрим функцию
κ(t) = ηλ,ε(t, s(t)) + x0(t) - y0(t), t ∈ [ti, ti+1].
Тогда, принимая во внимание (1), (12) и (29), имеем
κ(t) = ∂ηλ,ε(t, s(t))/∂τ + β(t, x(t), x(t - h), s(t), u(t)) - β(t, y(t), y(t - h), s(t), v(t))
для всех t ∈ (ti, ti+1). Из (26), (29), (30), (32)-(36) и (44) выводим
β(t, x(t), x(t - h), s(t), u(t)) ≤ β(ti, x(ti), x(ti - h), s(ti), u(t)) + ζ1 ≤
≤ β(ti,x(ti),x(ti - h),s(ti),v(t)) + ζ1 ≤ β(t,x(t),x(t - h),s(t),v(t)) + 2ζ1
для всех t ∈ (ti, ti+1). Тогда в согласии с выбором λ и (29), (40), (43) получаем
κ(t) ≤ ∂ηλ,ε(t, s(t))/∂τ + β(t, x(t), x(t - h), s(t), v(t)) - β(t, y(t), y(t - h), s(t), v(t)) + 2ζ1 ≤
≤ ∂ηλ,ε(t,s(t))/∂τ + λ(1 + ∥∇zηλ,ε(t,s(t))∥)∥s(t)∥ + 2ζ1.
Далее из (12) для всех t ∈ (ti, ti+1) выводим ∂ηλ,ε(t, s(t))/∂τ +λ(1+∥∇z ηλ,ε(t, s(t))∥)∥s(t)∥ ≤ 0.
Таким образом справедливо неравенство
ηλ,ε(ti+1,s(ti+1))+x0(ti+1)-y0(ti+1) = κ(ti+1) ≤ κ(ti) = ηλ,ε(ti,s(ti))+x0(ti)+2(ti+1-ti)ζ1. (45)
В силу выбора λρ и (32)-(35), (38), (40)-(42) имеем
∫t
|ρ(t, x(t), xt(·)) - ρ(t, x(t), yt(·))| ≤ λρ
∥y(ξ) - x(ξ)∥ dξ ≤
ti
≤ 2λρλ∗δ(t - ti) + ∥ri - x(ti)∥(t - ti) ≤ 2(t - ti)ζ1.
Тогда из (21), (28), (37), (39), (45) выводим (27). Лемма доказана.
Доказательство теоремы. Пусть (τ, z, w(·)) и ζ > 0. Пусть ζ2 = ζ/3 и ζ3 = ζ/(3(ϑ-τ)).
В силу лемм 6 и 7 определим λ, ε2, ε3 > 0. Пусть ε ∈ (0, min{ε2, ε3}]. В соответствии с леммой 7
возьмём разбиение Δ. Тогда, принимая во внимание (2), (3), (9) и условие (ρ1), выводим
J (τ, z, w(·), Uλ,ε, Δ) = J(τ, z, w(·), u(·)) = σ(x(ϑ)) + x0(ϑ) = ρ(ϑ, x(ϑ), xϑ(·)) + x0(ϑ) ≤
≤ ρλ,ε(ϑ,x(ϑ),xϑ(·)) + x0(ϑ) + ζ/3 ≤ ρλ,ε(τ,z,w(·)) + 2ζ/3 ≤ ρ(τ,z,w(·)) + ζ,
где функция u(·) ∈ Uτ определяется в соответствии с пошаговым правилом (26), x(·) =
= x(· | τ,z,w(·),u(·)) - движение системы (1), (2), x0(·) = x0(· | τ,z,w(·),u(·)) - функция,
определяемая согласно (5). Теорема доказана.
Работа выполнена при поддержке Министерства науки и высшего образования Российской
Федерации в рамках государственного задания № 075-01265-22-00 (проект FEWS-2020-0010).
ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ том 58
№ 11
2022
6∗
1524
ЛУКОЯНОВ, ПЛАКСИН
СПИСОК ЛИТЕРАТУРЫ
1. Красовский Н.Н., Субботин А.И. Позиционные дифференциальные игры. М., 1974.
2. Berkovitz L. Optimal feedback controls // SIAM J. on Control and Optimiz. 1989. V. 27. № 5. P. 991-
1006.
3. Frankowska H. Optimal trajectories associated with a solution of the contingent Hamilton-Jacobi
equation // Appl. Math. and Optimiz. 1989. V. 19. P. 291-311.
4. Rowland J.D.L., Vinter R.B. Construction of optimal feedback controls // Syst. and Control Lett. 1991.
V. 16. № 5. P. 357-367.
5. Clarke F.H., Ledyaev Y.S., Subbotin A.I. Universal feedback control via proximal aiming in problems
of control under disturbance and differential games. Montreal, 1994 (Preprint/Centre de Recherches
Mathematiques, Universitede Montreal, № 2386).
6. Subbotin A.I. Generalized Solutions of First Order PDEs: The Dynamical Optimization Perspective.
Berlin, 1995.
7. Swiech A. Sub- and superoptimality principle of dynamic programming revisited // Nonlin. Anal. Theor.,
Methods and Appl. 1996. V. 26. № 8. P. 1429-1436.
8. Bardi M., Capuzzo-Dolcetta I. Optimal Control and Viscosity Solutions of Hamilton-Jacobi-Bellman
Equations. Boston, 1997.
9. Nobakhtian S., Stern R.J. Universal near-optimal feedbacks // J. of Optimiz. Theor. and Appl. 2000.
V. 107. № 1. P. 89-122.
10. Осипов Ю.С. Дифференциальные игры систем с последействием // Докл. АН СССР. 1971. Т. 196.
№ 4. С. 779-782.
11. Лукоянов Н.Ю. Стратегии прицеливания в направлении инвариантных градиентов // Прикл. ма-
тематика и механика. 2004. Т. 68. № 4. С. 629-643.
12. Лукоянов Н.Ю. Об условиях оптимальности гарантированного результата в задачах управления
системами с запаздыванием // Тр. Института математики и механики УрО РАН. 2009. Т. 15. № 3.
С. 158-169.
13. Plaksin A.R. On Hamilton-Jacobi-Bellman-Isaacs equation for time-delay systems // IFAC-Papers-
OnLine. 2019. V. 52. № 18. P. 138-143.
14. Plaksin A.R. Minimax and viscosity solutions of Hamilton-Jacobi-Bellman equations for time-delay
systems // J. Optimiz. Theor. Appl. 2020. V. 187. P. 22-42.
15. Зверкин А.М., Каменский Г.А., Норкин С.Б., Эльсгольц Л.Э. Дифференциальные уравнения с
отклоняющимся аргументом // Успехи мат. наук. 1962. Т. 17. № 2 (104). С. 77-164.
16. Филиппов А.Ф. Дифференциальные уравнения с разрывной правой частью. М., 1985.
17. Evans L. Partial Differential Equations. Rhode Island, 1998.
18. Kim A.V. Functional Differential Equations. Application of i-Smooth Calculus. Dordrecht, 1999.
19. Беллман Р., Кук К.Л. Дифференциально-разностные уравнения. М., 1967.
Институт математики и механики
Поступила в редакцию 01.06.2022 г.
имени Н.Н. Красовского УрО РАН,
После доработки 01.06.2022 г.
г. Екатеринбург,
Принята к публикации 21.10.2022 г.
Удмуртский государственный университет,
г. Ижевск
ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ том 58
№ 11
2022