Автоматика и телемеханика, № 9, 2022
Стохастические системы
© 2022 г. М.М. ХРУСТАЛЕВ, д-р физ.-мат. наук
(mmkhrustalev@mail.ru),
К.А. ЦАРЬКОВ, канд. физ.-мат. наук (k6472@mail.ru)
(Институт проблем управления им. В.А. Трапезникова РАН, Москва)
ОПТИМИЗАЦИЯ НЕЛИНЕЙНЫХ
ПО УПРАВЛЕНИЮ СТОХАСТИЧЕСКИХ СИСТЕМ
ДИФФУЗИОННО-СКАЧКООБРАЗНОГО ТИПА1
Рассматривается задача оптимального программного управления ли-
нейной по состоянию и нелинейной по управлению стохастической
системой диффузионно-скачкообразного типа относительно заданного
линейно-квадратичного по состоянию функционала качества. Получены
необходимые и достаточные условия локальной оптимальности, разрабо-
тана численная процедура последовательного улучшения заданной про-
граммы управления. В качестве приложений рассмотрены примеры задач
оптимизации переключаемой системы со случайными начальными дан-
ными и терминальной инвариантности.
Ключевые слова: скачкообразные диффузии, нелинейные управляемые
системы, условия локальной оптимальности, последовательное улучше-
ние.
DOI: 10.31857/S0005231022090070, EDN: AJGPGW
1. Введение
В [1, 2] были получены необходимые и достаточные условия локальной оп-
тимальности линейных по состоянию и нелинейных по управлению стохасти-
ческих систем диффузионного типа относительно линейно-квадратичного по
состоянию функционала качества управления. Основным инструментом ана-
лиза в этих работах послужил метод моментных характеристик [3], который
состоит в том, что исходная стохастическая задача оптимального управления
заменяется эквивалентной детерминированной задачей оптимизации момен-
тов управляемого случайного процесса. В [3] было показано, что этот подход
может быть обобщен на некоторые случаи нелинейных по состоянию стоха-
стических систем диффузионного типа.
В настоящей статье рассматривается другое обобщение предлагается
исследовать задачу оптимального управления случайным процессом диффу-
зионно-скачкообразного типа [4]. В последние десятилетия скачкообразные
1 Работа выполнена при частичной финансовой поддержке Российского фонда фунда-
ментальных исследований (проект № 20-08-00400).
128
диффузии начали активно применять для моделирования разнообразных фи-
зических и экономических процессов, на которые существенное влияние ока-
зывают регулярно происходящие в некоторые моменты времени независимые
друг от друга события произвольной природы [5, 6]. Дополнительный инте-
рес представляет ситуация, в которой интенсивность происходящих событий
можно считать управляемой. Сюда относятся, в частности, задачи оптималь-
ного управления переключаемыми системами, в которых выбор моментов пе-
реключения (скачкообразного изменения состояния системы) является ресур-
сом управления. Как правило, такие задачи рассматриваются в полностью
детерминированной постановке или как задачи управления пучком траек-
торий (см., например, [7]). Одна из целей данной работы состоит в изуче-
нии возможности включения подобных задач в рамки вопроса оптимизации
скачкообразных диффузий. Опустим стремление к максимальной общности
и рассмотрим естественную для приложений линейную по состоянию управ-
ляемую систему с линейно-квадратичным функционалом качества.
2. Постановка задачи
Рассмотрим задачу оптимального управления
(
)
dx(t) =
A1(t,u(t))x(t) + B1(t,u(t))
dt +
(
)
(1)
+
A2(t,u(t))x(t) + B2(t,u(t))
dw(t) +
(
)
+
A3(t,u(t))x(t-) + B3(t,u(t))
dPu(t), x(0) = x0,
T
(
)
J (u) = E
x(t)TD1(t, u(t))x(t) + S1(t, u(t))Tx(t) + E1(t, u(t))
dt +
0
(2)
+ x(T)TQx(T) + RT
x(T ) +
T
(
)
+
x(t-)TD2(t, u(t))x(t-)+S2(t, u(t))Tx(t-) + E2(t, u(t))
dPu(t)→ inf
u∈Lm∞([0;T ])
0
Здесь t ∈ [0; T ] ⊂ R+ время; x(t) n-мерный вектор, характеризующий со-
стояние системы в момент времени t; начальное состояние x0 это случайный
вектор с заданными первым и вторым начальными моментами; u(t) неслу-
чайный m-мерный вектор программной функции управления в момент t,
причем u(·) ∈ Lm∞([0; T ]), где принадлежность, как обычно, понимается в
смысле классов эквивалентных вектор-функций; w(·) стандартный вине-
ровский процесс; Pu(·) пуассоновский процесс с управляемой неоднород-
ной интенсивностью скачков λ(t, u(t)); отображения Ai : [0; T ] × Rm → Rn×n,
Bi : [0;T]×Rm → Rn, i = 1,2,3, Di : [0;T]×Rm → Rn×n, Si : [0;T]×Rm → Rn,
Ei : [0;T]×Rm → R, i = 1,2, и λ : [0;T]×Rm → R заданы и непрерывны вместе
со своими первыми и вторыми частными производными по u на [0; T ] × Rm,
129
причем λ(t, u) ≥ 0 ∀(t, u) ∈ [0; T ] × Rm; Q ∈ Rn×n, R ∈ Rn; здесь и далее в ра-
боте используется обозначение x(t-) := lims→t-0 x(s), t ∈ (0; T ], x(0-) := x0.
Начальное состояние x0, винеровский процесс w(·) и пуассоновский про-
цесс Pu(·) независимы в совокупности.
Прокомментируем модель управляемого процесса (1). Предполагается, что
помимо детерминированного первого слагаемого и непрерывных (вообще го-
воря, частично управляемых) случайных внешних воздействий, моделируе-
мых вторым слагаемым в правой части (1), на процесс управления оказывает
влияние некоторый случайный поток событий, которые происходят независи-
мо друг от друга с интенсивностью λ(t, u(t)), т.е. управляющее устройство в
известных пределах может воздействовать на текущую частоту их возникно-
вения. Если в момент времени s ∈ [0; T ] произошло одно из событий потока, то
вектор состояния системы получает мгновенное (скачкообразное) прираще-
ние на величину, зависящую от момента времени s, текущего состояния x(s-)
и значения вектора управления u(s). Характер указанной зависимости опре-
деляется структурой третьего слагаемого в (1). В интегральной записи систе-
мы (1) первое слагаемое в правой части понимается в средне-квадратичном
смысле, второе как интеграл Ито, третье как интеграл по случайной
мере Пуассона (детальные определения можно найти в [8] или [9]).
Теперь скажем несколько слов о функционале качества (2). Во-первых, он
определен и принимает действительное значение при любом u ∈ Lm∞([0; T ])
ввиду существования сильного решения (1) с конечными первым и вторым
моментами [8]. Во-вторых, он включает в себя не только стандартные сла-
гаемые для учета суммарных и конечных отклонений от цели управления, а
также суммарных затрат на управляющие воздействия, но и слагаемые для
учета затрат на управление в рамках влияния на пуассоновский поток собы-
тий. В-третьих, не накладываются никакие излишние требования на отобра-
жения Di, Si, Ei (помимо указанных выше свойств гладкости), матрицу Q и
вектор R, поэтому функционал (2) может не достигать своей точной нижней
грани J ≥ -∞. В этом случае решением задачи (1)-(2) будем считать мини-
мизирующую последовательность {uk} ⊂ Lm∞([0; T ]) : limk→∞ J(uk) = J, ина-
че считаем решением функцию u ∈ Lm∞([0; T ]) : J(u) = J.
Замечание 1. В данной работе намеренно опускается естественное, но
громоздкое, обобщение задачи (1)-(2) на случай многомерных винеровского
и пуассоновского процессов. Также не рассматриваются некоторые допусти-
мые варианты нелинейных по состоянию управляемых систем (см. [3]). Кроме
того, в сравнении с работой авторов [10] по задаче терминальной инвариант-
ности управляемой диффузионно-скачкообразной системы из рассмотрения
убрана случайная мера Пуассона общего вида. Вместо нее рассмотрен более
частный случай в виде пуассоновского процесса. Основное отличие общего
случая заключается в наличии дополнительного вектора случайных пара-
метров, влияющего на величину скачков в системе. Для всех указанных здесь
обобщений проводимые ниже рассуждения могут быть повторены практиче-
ски дословно.
130
Замечание 2. С точки зрения приложений основным частным случа-
ем задачи (1)-(2) является линейно-квадратичная постановка об аффинном
регулировании
(
)
(
)
dx(t) =
A(t)x(t) + B(t)ũ(t, x(t))
dt +
G(t)x(t) + C(t)
dw(t) +
(
)
+
F (t)x(t-) + V (t)
dPu(t), x(0) = x0,
J (u) =
T
(
)
=E
x(t)TD(t)x(t) + ũ(t, x(t))TE(t)ũ(t, x(t))
dt + x(T )TQx(T ) + γPu(T ),
0
где ũ(t, x) = L1(t)x + L2(t), пуассоновский процесс Pu(·) имеет интенсивность
скачков λ(t, u(t)) = λ1uλ(t)2 + λ0, λi ≥ 0, а вектором управления u(t) являет-
ся совокупность элементов матрицы L1(t), вектора L2(t) и числа uλ(t). Число
γ ≥ 0 характеризует величину штрафа за совершение управляемых скачков.
Аффинный регулятор ũ(t, x) может также входить во второе и третье слагае-
мые стохастического дифференциального уравнения. Примеры таких задач
будут рассмотрены в разделе 6.
3. Метод моментных характеристик и обобщенная формула Ито
Начнем с того, что преобразуем функционал качества управления (2). Обо-
значим m(t) := E[x(t)], N(t) := E[x(t)x(t)T], тогда для всякого u ∈ Lm∞([0; T ])
T
(
(3) J(u) =
tr [D1(t, u(t))N(t)] + S1(t, u(t))Tm(t) + E1(t, u(t)) +
0
(
))
+ λ(t, u(t))
tr [D2(t, u(t))N(t)] + S2(t, u(t))Tm(t) + E2(t, u(t))
dt +
+ tr [QN(T )] + RTm(T ).
В самом деле, функция u(·) неслучайна, а случайные величины x(t-) и Pu(t)
независимы при каждом t ∈ [0; T ], так как независимы x0, w(·) и Pu(·). Следо-
вательно, можно внести линейный оператор математического ожидания под
знак каждого из интегралов в (2), при этом второй из них преобразуется
[∫s
]
к виду интеграла Лебега в силу равенства E
dPu(t)
= E[Pu(s) - Pu(r)] =
r
s
=
λ(t, u(t)) dt
∀r, s ∈ [0; T ] [8]. В предположении непрерывности функций
r
m(t) и N(t) (будет показано ниже) получаем (3).
Видно, что качество управления определяется по самой функции u(·)
и по детерминированным моментным характеристикам случайного процес-
са x(·). Хорошо известно, что в случае отсутствия пуассоновской компоненты
в (1) первый и второй начальные моменты процесса x(·) могут быть последо-
вательно найдены из решения двух линейных задач Коши [1-3], которые не
содержат моментов более высокого порядка и потому разрешимы. Установим
131
аналогичное свойство для систем вида (1), выписав систему обыкновенных
линейных дифференциальных уравнений, которой удовлетворяют функции
m : [0;T] → Rn и N : [0;T] → Rn×n. Для этого потребуется соответствующая
обобщенная формула Ито [8].
Пусть u ∈ Lm∞([0; T ]) и задана функция ϕ ∈ C2(Rn; R). Через ϕ(x) обозна-
чим строку, составленную из элементов ∂ϕ(x)/∂xi, i = 1, n, а через ϕ′′(x)
(n × n)-матрицу {∂2ϕ(x)/∂xi∂xj }. Тогда с вероятностью 1 при всех t ∈ [0; T ]
справедливо следующее соотношение [4, теорема 1.16]:
t
(
)
ϕ(x(t)) = ϕ(x0) + ϕ(x(s))
A1(s,u(s))x(s) + B1(s,u(s))
ds +
0
t
(
)
+ ϕ(x(s))
A2(s,u(s))x(s) + B2(s,u(s))
dw(s) +
0
t
1
(
+
A2(s,u(s))x(s)+B2(s,u(s)))Tϕ′′(x(s))(A2(s, u(s))x(s)+B2(s, u(s)))ds +
2
0
t
(
)
+
ϕ(x(s-) + A3(s, u(s))x(s-) + B3(s, u(s))) - ϕ(x(s-))
dPu(s).
0
Положим ϕ(x) = xi, i ∈ {1, n}, тогда
t
(
)
xi(t) = xi0 +
A1(s,u(s))x(s) + B1(s,u(s))
ds +
i
0
t
(
)
+
A2(s,u(s))x(s) + B2(s,u(s))
dw(s) +
i
0
t
(
)
+
A3(s,u(s))x(s-) + B3(s,u(s))
dPu(s),
i
0
и, учитывая, как и ранее, независимость случайных величин x(t-) и P (t),
[∫s
]
s
t ∈ [0;T], равенство E
dPu(t)
=
λ(t, u(t))dt, r, s ∈ [0; T ], а также мар-
r
r
тингальное свойство интеграла Ито [8], получаем
t
(
)
E [xi(t)] = E [xi0 ] +
A1(s,u(s))m(s) + B1(s,u(s))
ds +
i
0
t
(
)
+ λ(s, u(s))
A3(s,u(s))m(s) + B3(s,u(s))
ds,
i
0
132
откуда непосредственно вытекает следующая линейная задача Коши, реше-
нием которой является абсолютно непрерывная вектор-функция m(·):
m(t) = A1(t, u(t))m(t) + B1(t, u(t)) +
(4)
+ λ(t, u(t)) (A3(t, u(t))m(t) + B3(t, u(t))) ,
m(0) = E[x0].
Положим ϕ(x) = xixj , i, j ∈ {1, n}, тогда
xi(t)xj(t) = xi0 xj0 +
t
(
+
xj(s)(A1(s,u(s))x(s) + B1(s,u(s)))i +
0
)
+ xi(s)(A1(s,u(s))x(s) + B1(s,u(s)))j ds +
t
(
+
xj(s)(A2(s,u(s))x(s) + B2(s,u(s)))i +
0
)
+ xi(s)(A2(s,u(s))x(s) + B2(s,u(s)))j dw(s) +
t
(
)
(
)
+
A2(s,u(s))x(s) + B2(s,u(s))
A2(s,u(s))x(s) + B2(s,u(s))
ds +
i
j
0
t
(
(
)
+
xi(s-)
A3(s,u(s))x(s-) + B3(s,u(s))
+
j
0
+ xj(s-)(A3(s,u(s))x(s-) + B3(s,u(s)))i +
)
(
)
(
)
+
A3(s,u(s))x(s-) + B3(s,u(s))
A3(s,u(s))x(s-) + B3(s,u(s))
dPu(s),
i
j
а значит, использовав обозначение Ai для i-й строки матрицы A, получаем
t
(
E [xi(t)xj (t)] = E [xi0 xj0 ] +
A1(s,u(s))iE [xj(s)x(s)] + mj(s)B1(s,u(s))i +
0
)
+ A1(s,u(s))jE [xi(s)x(s)] + mi(s)B1(s,u(s))j ds +
t
(
[
]
+
A2(s,u(s))iE
x(s)x(s)T
A2(s,u(s))Tj + A2(s,u(s))im(s)B2(s,u(s))j +
0
)
+ A2(s,u(s))jm(s)B2(s,u(s))i + B2(s,u(s))iB2(s,u(s))j ds +
t
(
[
]
+ λ(s, u(s)) A3(s, u(s))iE
xj(s-)x(s-)
+ mj(s)B3(s,u(s))i +
0
133
[
]
+ A3(s,u(s))jE
xi(s-)x(s-)
+ mi(s)B3(s,u(s))j +
[
]
+ A3(s,u(s))iE
x(s-)x(s-)T
A3(s,u(s))Tj + A3(s,u(s))im(s)B3(s,u(s))j +
)
+A3(s,u(s))jm(s)B3(s,u(s))i + B3(s,u(s))iB3(s,u(s))j ds,
откуда непосредственно вытекает следующая линейная задача Коши, реше-
нием которой является абсолютно непрерывная матричная функция N(·):
N (t) = A1(t, u(t))N(t) + N(t)A1(t, u(t))T + B1(t, u(t))m(t)T +
+ m(t)B1(t,u(t))T + A2(t,u(t))N(t)A2(t,u(t))T +
+ A2(t,u(t))m(t)B2(t,u(t))T + B2(t,u(t))m(t)TA2(t,u(t))T +
(
+ B2(t,u(t))B2(t,u(t))T + λ(t,u(t)) A3(t,u(t))N(t) + N(t)A3(t,u(t))T +
(5)
+ B3(t,u(t))m(t)T + m(t)B3(t,u(t))T + A3(t,u(t))N(t)A3(t,u(t))T +
+ A3(t,u(t))m(t)B3(t,u(t))T + B3(t,u(t))m(t)TA3(t,u(t))T +
)
+ B3(t,u(t))B3(t,u(t))T ,
N (0) = E[x0xT0].
4. Эквивалентная детерминированная задача оптимизации
Рассмотрим полученную задачу оптимального управления системой мо-
ментов (4)-(5) относительно функционала качества (3), опустив для кратко-
сти записи аргументы всех имеющихся отображений:
m= A1m + B1 + λ(A3m + B3), m(0) = E[x0],
˙
N
= A1N + NAT1 + B1mT + mBT1 + A2NAT2 + A2mBT2 + B2mTAT2 + B2BT2 +
(
)
A3N + NAT3 + B3mT + mBT3 + A3NAT3 + A3mBT3 + B3mTAT3 + B3BT3
,
[
]
N (0) = E
x0xT0
,
T
(
(
))
J =
tr [D1N] + ST1m + E1 + λ
tr [D2N] + ST2m + E2
dt +
0
+ tr [QN(T )] + RTm(T ).
Видно, что m и N входят во все соотношения не более чем линейно.
Составим новый вектор состояния y(t) ∈ Rn(n+3)/2 из компонент векто-
ра m(t) и различных компонент симметричной матрицы N(t). С его помощью
задача может быть переписана в виде
y(t) =
A(t, u(t))y(t) +B(t, u(t)), y(0) = y0,
T
(
)
J (u) =
D(t, u(t))Ty(t) +E(t, u(t)) dt +Qy(T ) →
inf
u∈Lm∞([0;T ])
0
134
[
]
Здесь вектор y0 составлен из элементов вектора E [x0] и матрицы E
x0xT0
отображени
A,
B,
D,
E и вектор Q явно выражаются через данные исходно
в задаче (1)-(2) (например, с помощью оператора (симметричной) вектори-
зации, как в [2]).
Дополнительно увеличив размерность вектора состояния на единицу, при-
ведем задачу к стандартной форме линейной по состоянию управляемой си-
стемы с терминальным линейным функционалом качества
y(t) =
A(t, u(t))y(t) +B(t, u(t)), y(0) = y0,
J (u) =Qy(T ) →
inf
u∈Lm∞([0;T ])
Эта новая задача теперь может быть исследована независимо от исходной
стохастической постановки. К ней, в частности, применимы методы локаль-
ного и глобального улучшения [11] и классический принцип максимума [12].
В следующем разделе будут сформулированы необходимые и достаточные
условия локальной оптимальности, а также описан численный подход к ис-
следованию, важный для практических приложений.
5. Условия оптимальности и процедура улучшения
В предыдущих разделах была получена детерминированная линейная
по состоянию задача оптимального управления с терминальным функциона-
лом качества, эквивалентная исходной стохастической линейно-квадратичной
оптимизационной проблеме (1)-(2). Для удобства допустим некоторую воль-
ность и перепишем ее в традиционных обозначениях:
(6)
x(t) = A(t, u(t))x(t) + B(t, u(t)), x(0) = x0 ∈ Rn,
(7)
J (u) = QTx(T ) → inf
u∈Lm∞([0;T ])
Здесь по построению A и B известные непрерывные по t и дважды непре-
рывно дифференцируемые по u на [0; T ] × Rm отображения, Q ∈ Rn.
Для дальнейшего потребуются соотношения для определения градиента
функционала (7) в произвольной точке u ∈ Lm∞([0; T ]). Перед тем как их вы-
писать, обратим внимание на одну существенную деталь.
Замечание 3. Градиент функционала в точке обычно определяется для
дифференцируемых функционалов на гильбертовом пространстве X (напри-
мер, X = Rn или X = L2([0; T ])) как тот элемент из X, в который переходит
производная функционала в точке при естественном изоморфизме между X
и X. В случае банахова пространства Lm∞([0;T]) такого изоморфизма нет, но
если производная некоторого функционала J в точке u ∈ Lm∞([0; T ]) имеет
вид
T
J(u)[v] = f(t)Tv(t)dt, v ∈ Lm∞([0;T]),
0
135
где f ∈ Lm∞([0; T ]), то функция f может быть по определению названа гра-
диентом функционала J в точке u ввиду включения множеств Lm∞([0; T ]) ⊂
⊂ Lm2 ([0;T]).
Формулы для записи производной функционала (7) имеют вид, указан-
ный в замечании 3, и в общем нелинейном случае были получены уже
в [13-15]. Существует несколько стандартных способов вывода этих фор-
мул, которые подробно описаны в известной литературе. К ним относятся
вариация функции управления и введение дополнительной сопряженной пе-
ременной [16], применение абстрактного правила множителей Лагранжа [17]
и непосредственное дифференцирование наиболее подходящей формы функ-
ционала Лагранжа [18]. Конкретизируем эти результаты для задачи (6)-(7)
в следующем виде. Пусть ACn([0; T ]) обозначает пространство абсолютно
непрерывных функций из [0; T ] в Rn.
Теорема 1. Пусть функционал
L : ACn ([0;T]) × Lm∞ ([0;T]) × ACn ([0;T]) → R
имеет вид
L(x, u, ψ) = (Q - ψ(T ))T x(T ) + ψ(0)Tx0 +
T
(
)
+
ψ(t)Tx(t) + ψ(t)T (A(t, u(t))x(t) + B(t, u(t))) dt.
0
Тогда для любого u ∈ Lm∞([0; T ]) существует пара абсолютно непрерывных
вектор-функций (x, ψ), составляющих единственное решение двух задач
Коши
(8)
x(t) = A(t, u(t))x(t) + B(t, u(t)), x(0) = x0,
(9)
ψ(t) = -A(t, u(t))T
ψ(t), ψ(T ) = Q,
и таких, что для любого ξ ∈ ACn([0;T]) верны равенства
T
L(x, u, ξ) = QTx(T ) = ψ(0)Tx0 + ψ(t)TB(t, u(t))dt, L′x(x, u, ψ) = 0.
0
Следствие 1 (градиент функционала). В любой точке u ∈ Lm∞([0;T])
компоненты градиента функционала J аналитически определяются соот-
ношениями
(
)
∂J(u)
(t) = ψ(t)T A′u
(t, u(t))x(t) + B (t, u(t)) ,
t ∈ [0;T], j = 1,m,
uj
j
∂uj(·)
где пара (x, ψ) - решение задач Коши (8)-(9).
136
Следствие 2 (необходимые условия оптимальности). Пусть u
∈ Lm∞([0;T])
точка минимума в задаче (6)-(7), а пара (x) соот-
ветствующее решение задач Коши (8)-(9). Тогда для почти всех t ∈ [0; T ] и
всех j ∈ {1, m} вектора ψ(t) и A′uj (t, u(t))x(t) + B (t, u(t)) ортогональныu
j
в Rn.
Доказательства этих трех утверждений приведены в Приложении.
Заметим, что на практике аналитическое исследование результата след-
ствия 2, т.е. поиск всех стационарных точек в задаче (6)-(7), в большинстве
случаев оказывается затруднительным. В такой ситуации результат след-
ствия 1 может быть использован для решения задачи улучшения данной
программы управления. А именно, произвольно или из дополнительных со-
ображений выбирается допустимая программа u0(t), t ∈ [0; T ], после чего ме-
тодом градиентного спуска с применением какой-либо процедуры численного
интегрирования задач Коши (8)-(9) из этого начального приближения стро-
ится локально минимизирующая последовательность программ {uk(t)}. При
этом значения всех функций и градиента функционала J подсчитывают-
ся только в конечном числе узлов выбранной численной сетки интегриро-
вания на [0; T ]. Малость какой-либо нормы такого конечномерного вектора
градиента можно принять за условие остановки расчетов. Решение задачи
улучшения естественно считать некоторым приближением к решению зада-
чи (6)-(7), несмотря на то что фактическое приближение не может быть
гарантировано.
Если все же удается отыскать программу управления u ∈ Lm∞([0; T ]), удо-
влетворяющую следствию 2 (см., например, [2, раздел 5]), то для нее мо-
гут быть проверены некоторые достаточные условия оптимальности. Пред-
лагается в этих целях использовать следующие известные результаты [2, 18],
которые приведем здесь без доказательства. Пусть ACn×n([0; T ]) обозначает
пространство абсолютно непрерывных функций из [0; T ] в Rn×n.
Теорема 2. Пусть u ∈ Lm∞([0;T]), (x) соответствующее ему ре-
шение задач Коши (8)-(9), а функционал
K : ACn([0;T]) × Lm∞([0;T]) × ACn×n([0;T]) → R
имеет вид
K(x, u, Σ) = (Q - ψ(T ))T x(T ) + ψ(0)Tx0 -
1
-
(x(T ) - x(T ))T Σ(T ) (x(T ) - x(T )) +
2
T
(
)
+
ψ(t)Tx(t) + ψ(t)T (A(t,u(t))x(t) + B(t,u(t))) dt +
0
T
1
+
(x(t) - x(t))T Σ(t) (x(t) - x(t)) dt +
2
0
137
T
(
+
(x(t) - x(t))T Σ(t) A(t,u(t))x(t) + B(t,u(t)) -
0
)
- A(t, u(t))x(t) - B(t, u(t)) dt.
Тогда для любого u ∈ Lm∞([0; T ]) и соответствующего ему решения x задачи
Коши (8) при любом Σ ∈ ACn×n([0; T ]) верны равенства
K(x, u, Σ) = QTx(T ), K′x(x, u, Σ) = 0, K′u(x, u, Σ) = ∇uJ(u).
Следствие 3 (достаточные условия локальной оптимальности). Пусть
задано u ∈ Lm∞([0; T ]), а (x, ψ)
соответствующее ему решение за-
дач Коши (8)-(9). Пусть выполнены условия: для почти всех t ∈ [0; T ] и
всех j ∈ {1, m} вектора ψ(t) и A′uj (t, u(t))x(t) + B (t, u(t)) ортогональныu
j
в Rn; функция Σ является решением задачи Коши
Σ(t) = -Σ(t)A(t,u(t)) - A(t,u(t))TΣ(t) - γI, Σ(T) = γ1I,
где γ, γ1 положительные числа, I единичная матрица; для почти всех
t ∈ [0;T] строго положительны последние m угловых миноров матрицы
(
)
γI
Ω(t)
Ω(t) =
,
Ω(t)T
Ω(t)
в которой блокиΩ иΩ составлены из компонент
[
∂Asi(t,u(t))
Ωij(t) =
ψ∗s(t)
+
∂uj
s=1
(
)]
∂Asl(t,u(t))
∂Bs(t,u(t))
+ Σ∗is(t)
x∗l(t) +
,
∂uj
∂uj
l=1
]
[∂2A(t,u(t))
2B(t,u(t))
Ωjk(t) = ψ(t)T
x(t) +
∂uj∂uk
∂uj∂uk
Тогда функционал J имеет в точке u локальный минимум.
6. Примеры
Пример 1. На интервале времени [0;1] рассматривается управляемая ди-
намическая система
dx1(t) = x2(t)dt + dw(t) + x2(t-)dPu(t), x1(0) ∼ N (0, 1),
dx2(t) = u1(t)x1(t)dt, x2(0) = 0,
138
где Pu(·) процесс Пуассона интенсивности λ(t, u(t)) = u2(t)2. Функционал
качества управления имеет вид
1
J (u) = E u1(t)2dt + x1(1)2
0
и подлежит минимизации за счет выбора функций u1,2(t) ∈ L([0; 1]).
Запишем эквивалентную детерминированную задачу (3)-(5) оптимального
управления моментными характеристиками случайного процесса x(·):
m1(t) = m2(t) + u2(t)2m2(t), m1(0) = 0,
m2(t) = u1(t)m1(t), m2(0) = 0,
N11(t) = 2(1 + u2(t)2)N12(t) + u2(t)2N22(t) + 1, N11(0) = 1,
N12(t) = u1(t)m1(t) + u1(t)N11(t) + (1 + u2(t)2)N22(t), N12(0) = 0,
˙
N
22(t) = 2u1(t) (m2(t) + N12(t)) , N22(0) = 0,
1
J (u) = u1(t)2dt + N11(1) →
inf
u∈L2∞([0;1])
0
Отсюда получаем следующие исходные данные для задачи (6)-(7): t ∈ [0; 1],
x(t) ∈ R6, u(t) ∈ R2,
0
1+u22
0
0
0
0
u1
0
0
0
0
0
0
0
0
2 + 2u22
u22
0
A(t, u) =
u1
0
u1
0
1+u22
0
,
0
2u1
0
2u1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
B(t, u) =
,
x0 =
,
Q=
.
0
0
0
0
0
0
u2
1
0
1
Использование необходимых условий оптимальности (следствие 2) в этом
примере не позволяет аналитически найти стационарные точки функциона-
ла J, поэтому будем его исследовать с помощью итерационной процедуры
улучшения.
При отсутствии управляющих воздействий (u1(t) = u2(t) ≡ 0) имеем
J (u) = 2, и это решение не удовлетворяет необходимым условиям оптимума.
Взяв его в качестве начального приближения, получим методом градиентного
139
t
0,2
0,4
0,6
0,8
1,0
0
-0,1
-0,2
-0,3
-0,4
-0,5
-0,6
u1(t)
J = 2,0
J = 1,8195
J = 1,7289
J = 1,6526
J = 1,6387
J = 1,6359
J = 1,6357
Рис. 1. Градиентный спуск для функции u1(t) (первое решение).
u1(t)
u2(t)
1,0
6
0,8
5
0,6
0,4
4
0,2
t
3
0,2
0,4
0,6
0,8
1,0
0
2
-0,2
1
-0,4
-0,6
0,2
0,4
0,6
0,8
1,0
t
J = 8,184
J = 3,569
J = 1,559
J = 1,015
J = 0,642
J = 0,402
J = 0,315
Рис. 2. Градиентный спуск для функций u1(t) и u2(t) (второе решение).
спуска (следствие 1) решение с u2(t) ≡ 0 и ненулевой функцией u1(t), со значе-
нием J(u) ≈ 1,636 (см. рис. 1). Однако и оно не является близким к оптималь-
ному. Так, взяв в качестве начального приближения точку u1(t) = u2(t) ≡ 1
(в ней J(u) ≈ 8), после градиентного спуска получаем решение со значени-
ем J(u) ≈ 0,315 (см. рис. 2). Таким образом, в данном примере имеется воз-
можность сильно улучшить некоторую произвольным образом выбранную
программу управления и в несколько раз повысить качество в сравнении с
отсутствием управляющих воздействий.
140
Пример 2. На интервале времени [0;3] рассматривается управляемая ди-
намическая система
(
)
dx1(t) = u1(t)dt +
x2(t-) - x1(t-)
dPu(t),
(
)
dx2(t) = x2(t)dt +
x1(t-) - x2(t-)
dPu(t),
где Pu(·)
процесс Пуассона интенсивности λ(t, u(t)) = u2(t)2, а начальное
состояние x(0) имеет равномерное распределение на квадрате [7,8; 8,2] × [2; 4].
Последнее, в частности, означает, что известны первый и второй начальные
моменты случайного вектора x(0):
)
)
( 8
( 64,01
24
m(0) =
,
N (0) ≈
3
24
9,33
Функционал качества управления имеет вид
3
(
)
J (u) = E1
u21(t) + x21(t) + x22(t)
dt + γPu(3) , γ = 100,
2
0
и подлежит минимизации за счет выбора функций u1,2(t) ∈ L([0; 3]).
Эта задача в форме проблемы управления пучком траекторий переклю-
чаемой системы с полностью управляемыми моментами скачков (переклю-
чений) была рассмотрена в [7]. Там был получен следующий результат: оп-
тимальным является одноразовое переключение в момент времени t1 ≈ 0,7.
Изучим, возможно ли получить приближение к этому решению или иные
результаты за счет какого-либо управления интенсивностью случайно про-
исходящих переключений. Отметим, что точное соответствие с результата-
ми работы [7] невозможно, так как в [7] рассматриваемая задача решает-
ся на другом множестве допустимых управлений. В частности, ни одна из
функций u2(t) ∈ L([0; 3]) не позволяет получить δ-образную интенсивность
пуассоновского процесса, которую можно было бы считать соответствующей
детерминированному одноразовому переключению.
Эквивалентная детерминированная задача управления моментами (3)-(5)
записывается в виде
m1(t) = u1(t) + (m2(t) - m1(t)) u2(t)2, m1(0) = 8,
m2(t) = m2(t) + (m1(t) - m2(t)) u2(t)2, m2(0) = 3,
N11(t) = 2u1(t)m1(t) + u2(t)2 (N22(t) - N11(t)) , N11(0) ≈ 64,01,
N12(t) = N12(t) + u1(t)m2(t), N12(0) = 24,
˙
N
22(t) = 2N22(t) + u2(t)2 (N11(t) - N22(t)) , N22(0) ≈ 9,33,
3
1
(
)
J (u) =
u1(t)2 + γu2(t)2 + N11(t) + N22(t)
dt → inf
,
γ = 200.
2
u∈L2∞([0;3])
0
141
Отсюда получаем следующие исходные данные для задачи (6)-(7): t ∈ [0; 3],
x(t) ∈ R6, u(t) ∈ R2,
-u22
u22
0
0
0
0
u22
1-u22
0
0
0
0
2u1
0
-u22
0
u22
0
A(t, u) =
,
0
u1
0
1
0
0
0
0
u22
0
2-u22
0
0
0
0,5
0
0,5
0
u1
8
0
0
3
0
0
64,01
0
B(t, u) =
,
x0 =
,
Q=
.
0
24
0
9,33
0
0
0,5u21 + 100u2
0
1
2
Применение необходимых условий оптимальности дает следующие резуль-
таты: либо почти всюду
8
(
)
(10)
u1(t) =
et - e6-t
,
u2
(t) ≡ 0, J(u) ≈ 970,53,
1+e6
либо на некоторых интервалах выполняются соотношения
u1(t) = -ψ1(t) - 2x1(t)ψ3(t),
(11)
2(t) - ψ1(t))(x2(t) - x1(t)) + (ψ5(t) - ψ3(t))(x5(t) - x3(t)) = 100,
где ψ(t) вектор сопряженных переменных. Ясно, что решение системы ал-
гебраических уравнений (11) совместно с прямой и сопряженной системами
дифференциальных связей и краевыми условиями затруднительно. В то же
время аналитическое решение вида (10) едва ли является оптимальным, так
как, например, полученное в [7] решение с одним неслучайным моментом
переключения t1 ≈ 0,7 имеет значение J(u) ≈ 178. Попробуем улучшить ре-
зультат, используя градиентный спуск.
Отметим, что ∂J(u1, 0)/∂u2(·) = 0 при любом u1 ∈ L([0; 3]), поэтому ите-
рационный поиск решений с ненулевой интенсивностью необходимо начинать
из начального приближения с u2 = 0. Так, взяв за начальное приближение
функцию u1 из (10) и u2(t) ≡ 1, находим решение со значением J(u) ≈ 500.
Сравнение найденного управления u1(t) с соответствующим из решения [7]
приведено на рис. 3 слева. В свою очередь, вид найденного u2(t) показан
на рис. 3 справа. Ясно, что такая функция интенсивности есть не что иное,
как приближение к интенсивности ¾импульсного¿ типа в момент времени
t1 = 0,64, что соответствует детерминированному переключению в этот мо-
мент. Подчеркнем, что выбранное начальное приближение никак не соотно-
142
t
u2(t)
1
2
3
0
1000
-2
800
-4
600
J = 0,64000
-6
400
-8
-10
200
-12
u2(t)
0
1
2
3
J = 500
J = 178
t
Рис. 3. Сравнение управлений u1(t) и график u2(t) для найденного решения.
сится с решением из [7], и тем не менее получена качественно схожая програм-
ма управления с фактически одним неслучайным переключением, несмотря
на то что она сильно отличается от оптимальной.
Близкое к оптимальному значение J(u) ≈ 178 может быть также получено
с использованием заранее подобранной ограниченной интенсивности. Соот-
ветствующий численный результат получается при u1(t), взятом из [7] (см.
рис. 3, сплошная линия слева), и u2(t), взятом в виде непрерывной ломаной
со значениями u2(tk) = 0 при tk = 0,7 и u2(0, 7) = 1/h, на равномерной сетке
численного интегрирования с достаточно малым шагом дискретизации h > 0.
Этот результат уже не может быть улучшен за счет градиентного спуска.
Пример 3. В рамках заключительного примера рассмотрим адаптацию
задачи о терминальной инвариантности из [19]. На интервале времени [0; 1]
рассматривается управляемая система
dx1(t) = (x2(t) + u1(t)x1(t) + u2(t)x2(t))dt + x2(t-)dPu(t),
dx2(t) = -x1(t)dt + u3(t)x2(t-)dPu(t),
где Pu(·)
процесс Пуассона интенсивности λ(t, u(t)) ≡ 5, а начальное со-
стояние x(0) имеет нормальное распределение с характеристиками m(0) = 0,
N (0) = 10I, где I единичная матрица. Функционал качества управления
имеет вид
J (u) = E[x2(1)2].
Результат, полученный в [19], можно интерпретировать так: сингулярная
на правом конце интервала времени программа управления
A
Actg(t - 1)
u1(t) =
,
u2(t) =
,
u3(t) = -tg(t - 1), A > 0,
t-1
t-1
143
t
t
0,2
0,4
0,6
0,8
1,0
u2(t)
0,2
0,4
0,6
0,8
1,0
0
0
6
-1
-0,2
5
-2
4
-0,4
-3
3
-0,6
-4
2
-0,8
-5
1
-1,0
-6
0
-1,2
0,2
0,4
0,6
0,8
1,0
u1(t)
t
u3(t)
J = 9,805
J = 1,317
J = 0,255
J = 0,12
J = 0,061
J = 0,034
J = 0,016
Рис. 4. Градиентный спуск и приближение к оптимальному решению u(t).
обеспечивает минимальное значение функционала J(u) = 0. Естественно
ожидать приближения к этому результату при решении задачи рассматри-
ваемыми здесь методами.
Эквивалентная детерминированная задача управления моментами (3)-(5)
записывается в виде
m1(t) = u1(t)m1(t) + (u2(t) + 6)m2(t), m1(0) = 0,
m2(t) = -m1(t) + 5u3(t)m2(t), m2(0) = 0,
N11(t) = 2u1(t)N11(t) + 2(u2(t) + 6)N12(t) + 5N22(t), N11(0) = 10,
˙
N
12(t) = -N11(t)+(u1(t)+5u3(t))N12(t)+(u2(t)+5u3(t)+6)N22(t), N12(0) = 0,
N22(t) = -2N12(t) + 5(u3(t)2 + 2u3(t))N22(t), N22(0) = 10,
J (u) = N22(1) → inf
u∈L3∞([0;1])
Ясно, что первый момент m(t) тождественно равен нулю и не влияет на
решение задачи, поэтому первые два уравнения можно исключить и записать
следующие исходные данные для задачи (6)-(7): t ∈ [0; 1], x(t) ∈ R3, u(t) ∈ R3,
 2u1 2u2 + 12
5
A(t, u) = -1 u1 + 5u3 u2 + 5u3 + 6
,B(t,u)≡0,
0
-2
5u23 + 10u3
 10
 0
x0 = 0
,Q= 0
.
10
1
Градиентный спуск из начального приближения u(t) ≡ 0 позволяет полу-
чить программу управления со значением J(u) ≈ 0,016 (см. рис. 4). Заметим
144
x1(t)
x2(t)
3
4
3
2
2
1
1
0
0
0,2
0,4
0,6
0,8
1,0
0,2
0,4
0,6
0,8
1,0
t
t
-1
-1
-2
-3
-2
Рис. 5. Реализации случайного процесса x(t).
при этом, что она не близка к решению из [19] и вообще не близка к син-
гулярному управлению, ее аналитическое выражение затруднительно, одна-
ко эта программа достаточно точно решает поставленную задачу оптимиза-
ции, а следовательно, приближенно обеспечивает терминальную инвариант-
ность [19] системы по переменной x2. Последнее можно наглядно продемон-
стрировать, выполнив численное моделирование нескольких реализаций слу-
чайного процесса x(t) при фиксированных начальных условиях (см. рис. 5).
Однако здесь, в отличие от терминально инвариантной системы в [19], выбор
начального условия влияет на степень приближения реализации случайной
величины x2(1) к нулю.
7. Заключение
Полученные в работе результаты показывают принципиальную возмож-
ность содержательного исследования задач оптимального программного
управления стохастическими системами диффузионно-скачкообразного типа.
Прикладная значимость результатов проистекает из того обстоятельства, что
в настоящее время эффективные математические модели реальных управляе-
мых процессов все чаще содержат элементы ¾событийной¿ природы. В раз-
личных областях приложений в роли независимых друг от друга однотип-
ных случайных событий выступают скачки напряжения, обрывы связи, по-
рывы ветра, малые метеоритные воздействия, поломки, чрезвычайные проис-
шествия на производстве, корпоративные дефолты, страховые случаи и т.п.
Изученная в работе диффузионно-скачкообразная модель является одной из
наиболее распространенных моделей подобного рода. В связи с этим создание
145
методов оптимизации управления для нее открывает новые возможности в
соответствующих прикладных проблемах.
ПРИЛОЖЕНИЕ
Доказательство теоремы 1. Пусть u ∈ Lm∞([0;T]). Тогда задачи Ко-
ши (8), (9) имеют на [0;T] единственное решение (x,ψ) [20, стр. 63]. Первое
равенство L(x, u, ξ) = QTx(T ) вытекает из легко проверяемого интегрирова-
нием по частям соотношения
L(x, u, ξ) = QTx(T ) + ξ(0)T(x0 - x(0)) -
T
- ξ(t)T ( x(t) - A(t,u(t))x(t) - B(t,u(t))) dt,
0
а второе равенство
T
QTx(T) = ψ(0)Tx0 + ψ(t)TB(t,u(t))dt
0
следует из первого при ξ = ψ и определения функционала L. Также из опре-
деления L вытекает эквивалентность равенства L′x(x, u, ψ) = 0 и двух ра-
венств в (9), что проверяется непосредственным дифференцированием. Здесь
L′x(x,u,ψ)
элемент пространства Ln∞([0; T ]) + Rn, сопряженного к про-
странству ACn([0; T ]) [21].
Доказательство следствия 1. Определим функцию f : [0;T] → Rm
равенством
(
)
fj(t) = ψ(t)T A′u
(t, u(t))x(t) + B (t, u(t)) ,
j = 1,m.
j
uj
Исходя из замечания 3 достаточно проверить, что полная производная в
смысле Фреше функционала J в точке u ∈ Lm∞([0; T ]) имеет вид
T
J(u)[v] = f(t)Tv(t)dt, v ∈ Lm∞([0;T]).
0
В самом деле, если u(·)
ограниченная измеримая функция, то t →
→ A′uj(t,u(t)) и t → B (t,u(t))
тоже ограниченные измеримые функции
uj
(так как отображения (t, u) → A′uj (t, u) и (t, u) → B (t, u) непрерывны поu
j
постановке задачи), а значит, это верно и для fj(·) как для произведения
непрерывной и ограниченной измеримых функций. Следовательно, функция
f ∈ Lm∞([0;T]) может быть градиентом J в точке u. Дифференцируя функ-
ционал L, определенный в теореме 1, по переменной u, устанавливаем, что
T
L′u(x,u,ψ)[v] = f(t)Tv(t)dt.
0
146
Таким образом, нужно проверить равенство J(u)[v] = L′u(x, u, ψ)[v]. Для это-
го определим два отображения F, F : Lm∞([0; T ]) → ACn([0; T ]) как реше-
ния задач Коши (8), (9). Хорошо известно [17, стр. 179], что эти отобра-
жения непрерывны. Теорема 1 утверждает, что для пространств X = Ξ =
= ACn([0;T]), U = Lm∞([0;T]), отображений F, F и функционалов J (x,u) =
= QTx(T) и L выполнены условия следующей общей леммы (доказательство
см. ниже).
Лемма 1. Пусть заданы банаховы пространства X и U, непрерыв-
ное отображение F : U → X и произвольная функция J : X × U → R.
Если существуют множество Ξ, отображение F : U → Ξ и функция
L : X × U × Ξ → R такие, что
1) L(F (u), u, ξ) = J (F (u), u)
∀(u, ξ) ∈ U × Ξ;
2) L′x(F (u), u, F(u)) = 0
∀u ∈ U;
3) для любого u ∈ U существует непрерывное в точке F (u) отображение
x → L′u(x,u,F(u)) : X → U,
то функция u → J (F(u),u) дифференцируема всюду на U и
dJ (F (u), u)
= L′u(F(u),u,F(u)), u ∈ U.
du
Действительно, условия 1) и 2) составляют результат теоремы 1, а усло-
вие 3) выполнено в силу доказанного ранее равенства и определения функ-
ции f. Применяя лемму 1 и учитывая равенство J(u) = J (F (u), u), получаем
T
J(u)[v] = L′u(x,u,ψ)[v] = f(t)Tv(t)dt.
0
Доказательство следствия 1 завершено.
Доказательство леммы 1. Для любых точек u, ũ ∈ U в силу усло-
вия 1) справедливо соотношение
J (F (ũ), ũ) - J (F (u), u) = L(F (ũ), ũ, F(u)) - L(F (u), u, F(u)) =
= L(F(ũ), ũ,F(u)) - L(F(ũ),u,F(u)) +
+ L(F(ũ),u,F(u)) - L(F(u),u,F(u)) =
= L′u(F(ũ),u,F(u))[ũ - u] + L′x(F(u),u,F(u))[F(ũ) - F(u)] +
+ o(||ũ - u||) + o(||F (ũ) - F (u)||).
Отсюда ввиду непрерывности F и условий 2), 3) получаем
J (F (ũ), ũ) - J (F (u), u)
lim
= L′u(F(u),u,F(u))[e], e ∈ U : ||e|| = 1.
ũ→u
||ũ - u||
Доказательство следствия 2. Утверждение получается примене-
нием леммы Ферма [17, стр. 216] к следствию 1.
147
СПИСОК ЛИТЕРАТУРЫ
1.
Хрусталев М.М., Румянцев Д.С., Царьков К.А. Оптимизация квазилинейных
стохастических систем диффузионного типа, нелинейных по управлению //
АиТ. 2017. № 6. С. 84-105.
Khrustalev M.M., Rumyantsev D.S., Tsarkov K.A. Optimization of Quasilin-
ear Stochastic Control-Nonlinear Diffusion Systems // Autom. Remote Control.
2017. V. 78. No. 6. P. 1028-1045.
2.
Хрусталев М.М., Царьков К.А. Достаточные условия относительного минимума
в задаче оптимального управления квазилинейными стохастическими система-
ми // АиТ. 2018. № 12. С. 83-102.
Khrustalev M.M., Tsarkov K.A. Sufficient Relative Minimum Conditions in the Opti-
mal Control Problem for Quasilinear Stochastic Systems // Autom. Remote Control.
2018. V. 79. No. 12. P. 2169-2185.
3.
Хрусталев М.М., Царьков К.А. Метод моментных характеристик в теории опти-
мального управления стохастическими системами диффузионного типа // Из-
вестия РАН. Теория и системы управления. 2019. № 5. С. 20-31.
4.
Øksendal B., Sulem A. Applied Stochastic Control of Jump Diffusions. Berlin Hei-
delberg, Germany: Springer, 2005.
5.
Platen E., Bruti-Liberati N. Numerical Solution of Stochastic Differential Equations
with Jumps in Finance. Berlin Heidelberg, Germany: Springer, 2010.
6.
Yin G., Zhu C. Hybrid Switching Diffusions. New York, USA: Springer, 2010.
7.
Бортаковский А.С., Немыченков Г.И. Оптимальное в среднем управление
детерминированными переключаемыми системами при наличии дискретных
неточных измерений // Известия РАН. Теория и системы управления. 2019.
№ 1. С. 52-77.
8.
Королюк В.С., Портенко Н.И., Скороход А.В., Турбин А.Ф. Справочник по тео-
рии вероятностей и математической статистике. М.: Наука, 1985.
9.
Миллер Б.М., Панков А.Р. Теория случайных процессов в примерах и задачах.
М.: ФИЗМАТЛИТ, 2002.
10.
Хрусталев М.М., Царьков К.А. Достаточные условия терминальной инвариант-
ности стохастических систем диффузионно-скачкообразного типа // АиТ. 2020.
№ 11. С. 155-173.
Khrustalev M.M., Tsarkov K.A. Sufficient Conditions for Terminal Invariance of
Stochastic Jump Diffusion Systems // Autom. Remote Control. 2020. V.
81.
No. 11. P. 2062-2077.
11.
Krotov V.F. Global Methods in Optimal Control Theory. Advances in Nonlinear
Dynamics and Control: A Report from Russia. Progress in Systems and Control
Theory, Vol 17. Birkhauser, Boston, MA., 1993.
12.
Понтрягин Л.С., Болтянский В.Г., Гамкрелидзе Р.В., Мищенко Е.Ф. Матема-
тическая теория оптимальных процессов. М.: Наука, 1983.
13.
Kelley H.J. Gradient Theory of Optimal Flight Paths // J. Amer. Rocket Soc. 1960.
Vol. 30. No. 10. P. 947-954.
14.
Bryson A.E., Denham W.F. A Steepest Ascent Method for Solving Optimum Pro-
gramming Problems // J. Appl. Mech. 1962. Vol. 29. No. 2. P. 247-257.
15.
Левитин Е.С., Поляк Б.Т. Методы минимизации при наличии ограничений //
Журн. вычисл. матем. и мат. физики. 1966. Том 6. № 5. С. 787-823.
148
16. Брайсон А., Хо-Ю-Ши. Прикладная теория оптимального управления. М.: Нау-
ка, 1972.
17. Алексеев В.М., Тихомиров В.М., Фомин С.В. Оптимальное управление.
М.: ФИЗМАТЛИТ, 2005.
18. Кротов В.Ф., Гурман В.И. Методы и задачи оптимального управления. М.: Нау-
ка, 1973.
19. Хрусталев М.М., Царьков К.А. Терминальная инвариантность стохастиче-
ских систем диффузионно-скачкообразного типа // ДАН. 2020. Т. 493. № 1.
С. 104-107.
20. Хартман Ф. Обыкновенные дифференциальные уравнения. М.: МИР, 1970.
21. Данфорд Н., Шварц Дж. Линейные операторы. Общая теория. М.: Изд-во ИЛ,
1962.
Статья представлена к публикации членом редколлегии А.И. Кибзуном.
Поступила в редакцию 13.12.2021
После доработки 20.05.2022
Принята к публикации 10.06.2022
149