Автоматика и телемеханика, № 11, 2022
Нелинейные системы
© 2022 г. В.Н. АФАНАСЬЕВ, д-р техн. наук (afanval@mail.ru)
(Институт проблем управления РАН им. В.А. Трапезникова, Москва;
Национальный исследовательский университет
“Высшая школа экономики”, Москва)
ЗАДАЧА СЛЕЖЕНИЯ ПРИ ДЕЙСТВИИ
ОГРАНИЧЕННЫХ ВОЗМУЩЕНИЙ.
АЛГЕБРАИЧЕСКИЙ МЕТОД СИНТЕЗА1
Рассматривается задача дифференциальной игры слежения с нуле-
вой суммой и квадратичным функционалом качества, в которой объект
управления, подвергающийся воздействию неконтролируемых возмуще-
ний, описывается нелинейным обыкновенным дифференциальным урав-
нением. Известно, что синтез оптимальных управлений приводит к необ-
ходимости решать в темпе функционирования системы скалярное диф-
ференциальное уравнение в частных производных Беллмана-Айзекса, со-
держащее сведения о траектории процесса, который должен отслеживать-
ся. Отсутствие информации об этом процессе на всем интервале управ-
ления делает синтезированные управления нереализуемыми. Для реше-
ния уравнения Беллмана-Айзекса, содержащее текущее значение отсле-
живаемого процесса, в работе предложен алгебраический метод. В каче-
стве иллюстрации полученных результатов приведено моделирование по-
ведения нелинейной системы с двумя игроками с открытым горизонтом
управления.
Ключевые слова: дифференциальные игры, оптимальное управление с об-
ратной связью, уравнение Беллмана-Айзекса, пвсевдообратные матрицы.
DOI: 10.31857/S0005231022110046, EDN: KEGMFD
1. Введение
Теория дифференциальных игр как направление математической тео-
рии управления тесно связана с математической теорией оптимальных про-
цессов, теорией игр, вариационным исчислением и теорией дифференци-
альных уравнений. Становление теории дифференциальных игр связано
с именами Р.П. Айзекса [1, 2], Л.С. Понтрягина [3, 4], Е.Ф. Мищенко [5],
Б.Н. Пшеничного [6], Н.Н. Красовского [7] и многих других зарубежных и
российских ученых. Начиная с работ А.Е. Брайсона [8] дифференциальные
1 Работа выполнена при поддержке Российского фонда фундаментальных исследований
(проект № 20-8-00535).
103
игры с ненулевой суммой стали рассматриваться как задачи теории опти-
мального управления. В задачах дифференциальной игры с заданным ин-
тервалом управления с нулевой суммой и квадратичным функционалом ка-
чества синтез оптимальных управлений приводит при их реализации к необ-
ходимости решать в темпе функционирования объекта скалярное дифферен-
циальное уравнение в частных производных Беллмана-Айзекса [9] с коэф-
фициентами, зависящими от состояния объекта. Кроме этого, решение тре-
бует предварительного знания отслеживаемой траектории на всем интервале
управления. Аналитическое решение такого уравнения в общем случае явля-
ется проблемным. В задачах c линейными объектами можно получить реали-
зуемые решения только для случая, когда желаемая траектория описывает-
ся соответствующим дифференциальным уравнением [10, 11]. В этом случае
параметры регулятора определяются решениями двух дифференциальных
уравнений (одно из которых является матричным дифференциальным урав-
нением типа Риккати, второе матричным неоднородным линейным диффе-
ренциальным уравнением), краевые условия для которых задаются на правом
конце.
В настоящей статье задача дифференциальной игры слежения с неза-
данным временем окончания переходного процесса, нелинейным объектом и
ограниченными возмущениями рассматривается как проблема оптимально-
го управления, т.е. дифференциальной игры с нулевой суммой. Решение со-
ответствующего уравнения Беллмана-Айзекса ищется с применением алгеб-
раического метода. Построение оптимальных управлений с использованием
разработанного метода иллюстрируется результатами математического моде-
лирования для системы уравнений Лотки-Вольтерра, описывающей взаимо-
действие биологических объектов [12, 13]. В данном случае рассматривается
система в общем виде без указания конкретного прикладного применения
используемой модели и ее параметров. Будем считать, что эта система опи-
сывает классическое межпопуляционное взаимодействие хищников и жертв.
В случае использования методов дифференциальных игр в задачах воздей-
ствия лекарства на зараженные вирусом клетки используется подобная си-
стема уравнений, но более высокого порядка [14].
Материал статьи представлен следующим образом. Во втором разделе
осуществлена постановка задачи дифференциальной игры с квадратическим
функционалом качества, производится синтез управлений, доказывается их
оптимальность. Определяются условия существования решения дифферен-
циальной игры с нулевой суммой. В первой части третьего раздела статьи
доказывается Лемма 3.1 о необходимых и достаточных условиях существо-
вания алгебраического решения скалярного функционального нелинейного
уравнения. Во второй части этого раздела приводятся результаты приме-
нения Леммы 3.1 для нахождения решения уравнения Беллмана-Айзекса,
содержащего текущее значение отслеживаемого процесса. Доказывается оп-
тимальность полученного решения.
104
В четвертой части статьи приводится пример использования полученных
теоретических результатов при решении задачи дифференциальной игры,
описывающей взаимодействие популяций.
2. Задача слежения при действии возмущающих сил
2.1. Постановка задачи
Пусть детерминированная управляемая нелинейная система описывается
обыкновенным дифференциальным уравнением
d
x(t) = f(x(t)) + g1(x(t))u(t) + g2(x(t))w(t), x(t0) = x0 ,
(2.1)
dt
y(t) = C(t)x(t).
Здесь x(t) = {x(·) ∈ Rn, t ∈ [t0, tf )}, x ∈ Ωx, где Ωx открытое множество в Rn;
y(t)
измеряемый выход системы, y(t) ∈ Rp; u(t) = {u(·) ∈ Rr, t ∈ [t0, tf )},
{
}
r ≤ n управление, w(t) =
w(·) ∈ Rk, t ∈ [t0, tf )
, k ≤ n внешнее возму-
щение. В силу того, что возможны случаи, когда размерности векторов u(t)
и w(t) могут быть r > k или r < k, условимся, что число нулевых элементов
в векторе {g1(x(t))u(t) + g2(x(t))w(t)} ∈ Rn есть m < n. Векторы и матрицы
f (x(t)), g1(x(t)), g2(x(t))
непрерывные функции.
Предположение 2.1. Непрерывные функции f(x(t)), g1(x(t)), g2(x(t))
такие, что при любых (t0, x0) ∈ R+ × Ωx проходит одно и только одно решение
уравнения (2.1) x(t, t0, x0).
Предположения относительно ограничений на управляющее воздействие
и возмущение будут сделаны ниже.
Пусть z(t) ∈ Ωz ⊂ Rp желаемый выход системы.
Введем в рассмотрение ошибку слежения
(2.2)
ε(t) = y(t) - z(t) = C(t)x(t) - z(t), ε(t) ∈ Ωε, где Ωε = Ωx
⋃Ωz.
Предположение 2.2. Управления u(t) и w(t) реализуются с использо-
ванием обратной связи по состоянию объекта и желаемого выхода, т.е.
(2.3)
u(t) = u(t, ε(t)), w(t) = w(t, ε(t)).
Рассматривая возмущение w(t) как действие некоторого игрока, проти-
водействующего успешному выполнению задачи управления, сформулируем
задачу управления в ключе дифференциальной игры двух игроков Gu и Gw.
В статье задача дифференциальной игры рассматривается как проблема оп-
тимального управления, т.е. игра с нулевой суммой [8].
Предположение 2.3. Управляющее воздействие и возмущение удовле-
творяют следующим ограничениям:
(2.4)
uT(t)Ru(t) = ∥u(t)∥2R ≤ Eu, wT(t)Pw(t) = ∥w(t)∥2P ≤ Ew.
105
Предполагается, что существуют такие управляющие воздействия u(t) и
w(t), отвечающие ограничениям (2.4), что каждое состояние x0 ∈ X0 ⊂ Ωx в
каждый момент t0 на интервале существования решения системы (2.1) пол-
ностью управляемо [15], т.е. в рассматриваемой задаче для всех x(t) систе-
ма (2.1) управляема, t ∈ R+.
Для оценки действий игроков введем функционал качества
J (ε(·), u(·), w(·)) =
tf
{
}
1
(2.5)
= lim
εT(t)Qε(t) + uT(t)Ru(t) - wT(t)Pw(t) dt,
tf →∞ 2
t0
Q ≻ 0, R ≻ 0, P ≻ 0.
Предположение 2.4. Об условиях существования оптимального реше-
ния задачи (2.1)-(2.5). Для того чтобы записать условия, которым долж-
ны удовлетворять оптимальные управления u0(t) = u0(t, ε(t)) и w0(t) =
= w0(t,ε(t)) для игроков Gu и Gw, предположим, что такие управления суще-
ствуют и x0(t) соответствующая этим управлениям траектория (здесь знач-
ком0 отмечаются оптимальные величины). Другими словами, x0(t), u0(t) и
w0(t) удовлетворяют следующему условию:
d
1)
x0(t) = f(x0(t)) + g1(x0(t))u0(t) + g2(x0(t))w0(t), x0(t0) = x0;
dt
2) если u(t) и w(t)
любые управления, удовлетворяющие ограничени-
ям (2.4), такие что соответствующая им траектория x(t) удовлетворяет
условию
d
x(t) = f(x(t)) + g1(x(t))u(t) + g2(x(t))w(t), x(t0) = x0,
dt
то J(ε0(·), u0(·), w0(·)) ≤ J(ε(·), u(·), w(·)).
2.2. Оптимальное решение задачи дифференциальной игры
Для синтеза оптимальных управлений в смысле поставленной в разделе 1.1
задачи введем функцию Беллмана-Айзекса [10, 11]
(2.6)
V (ε(t)) = inf sup
J (ε(·), u(·), w(·)),
u w
где управления u(t), w(t), t ∈ [t0, tf ) удовлетворяют ограничениям (2.4),
а соответствующая им траектория ε(t) определена на всем интервале [t0, tf )
и удовлетворяет фазовому ограничению ε(t) ∈ Ωε.
Предположение 2.5. Пусть V (ε(t)), f(x(t)), g1(x(t)), g2(x(t)) доста-
точно гладкие, непрерывно дифференцируемые функции. Тогда для функ-
106
ции V (ε(t)) запишем уравнение Беллмана-Айзекса:
[∂V (ε(t))
∂V (ε(t))
inf sup
+
{f(x(t)) + g1(x)u(t) + g2(x)w(t)} +
u w
∂t
∂ε
{
}]
(2.7)
1
+
εT(t)Qε(t) + uT(t)Ru(t) - wT(t)Pw(t)
= 0,
2
ε(t) ∈ Ωε, t ∈ [t0, tf ) .
Перепишем уравнение (2.7) в виде
{
}
[∂V (ε(t))
∂V (ε(t))
1
∂V (ε(t))
inf sup
+
f (x(t)) +
uT(t)R +
g1(x) u(t) +
u w
∂t
∂ε
2
∂ε
{
}
1
∂V (ε(t))
1
+
-wT(t)P +
g2(x) w(t) -
uT(t)Ru(t) +
2
∂ε
2
]
1
1
+
wT(t)Pw(t) +
εT(t)Qε(t) =0
2
2
и назначим управления u(t) и w(t) так, чтобы выражения в фигурных скобках
были равны нулю. Будем иметь
}T
{∂V (ε(t))
{∂V (ε(t))}T
(2.8)
u(t) = -R-1gT1(x(t))
, w(t) = P-1gT2(x(t))
∂ε
∂ε
Выражения (2.8) предопределяют структуры уравнений, в рамках которых
будут отыскиваться оптимальные управления u0(t) и w0(t). В силу (2.8) урав-
нение Беллмана-Айзекса (2.7) принимает вид
[
∂V (ε(t))
∂V (ε(t))
inf sup
+
f (x(t)) -
u w
∂t
∂ε
}
1
{∂V (ε(t))
{∂V (ε(t))}T
-
g1(x(t))R-1gT1(x(t))
+
2
∂ε
∂ε
}
(2.9)
1
{∂V (ε(t))
{∂V (ε(t))}T
+
g2(x(t))P-1gT2(x(t))
+
2
∂ε
∂ε
]
1
+
εT(t)Qε(t)
= 0,
2
ε(t) ∈ Ωε, t ∈ [t0, tf ) .
Теорема 1. Пусть существует единственное непрерывно дифференци-
руемое решение V0(x(t)) задачи (2.1)-(2.5) и существуют управления
}T
{∂V0(ε(t))
u0(t) = -R-1gT1(x(t))
,
∂ε
(2.10)
}T
{∂V (ε(t))
w0(t) = P-1gT2(x(t))
∂ε
107
такие, что
∂V0(ε(t))
∂V0(ε(t))
1
(
)T
+
f (x(t)) -
u0(t)
Ru0(t) +
∂t
∂ε
2
1
(
)T
1
(2.11)
+
w0(t)
Pw0(t) +
εT(t)Qε(t) = 0,
2
2
ε(t) ∈ Ωε, t ∈ [t0, tf ) .
Тогда управления u0(t) и w0(t) являются оптимальными, а соответствую-
щая функция Беллмана-Айзекса есть V0(ε(t)).
Доказательство теоремы 1. Перепишем уравнение (2.11) (с учетом,
что в рассматриваемой задаче ∂V0(ε(t))/∂t = 0) в виде модифицированного
уравнения Беллмана-Айзекса
dV0(ε(t))
1 ∂V 0(ε(t))
{∂V0(ε(t))}T
1
(2.12)
+
Π(x(t))
+
εT
(t)Qε(t) = 0,
dt
2
∂ε
∂ε
2
где
(2.13)
Π(x(t)) = g1(x(t))R-1gT1(x(t)) - g2(x(t))P-1gT2
(x(t)).
Запишем функционал (2.5) с учетом (2.10) и (2.12):
J (x(·), u(·), w(·)) =
tf
{
1
∂V0(ε(t))
{∂V0(ε(t))}T}
= lim
εT(t)Qε(t) +
Π(x(t))
dt =
tf →∞ 2
∂ε
∂ε
t0
tf
{ dV0(ε(t))}T
[
]
= - lim
dt = lim
V0(ε(t0)) - V0(ε(tf ))
tf →∞
dt
tf →∞
t0
Отсюда вытекает, что
(2.14)
J (u0, w0) = V0(ε(t0
)),
так как в силу (2.5) V0(ε(tf )) = 0.
Пусть теперь управления u(t) и w(t) любые отличные от (2.10), но удо-
влетворяющие предположению 2.4, а x(t) соответствующее решение уравне-
ния (2.1) с этими управлениям. Тогда, используя равенство (2.12), заключаем,
что
dV (ε(t))
1 ∂V (ε(t))
{∂V (ε(t))}T
1
+
Π(x(t))
+
εT(t)Qε(t) ≥ 0.
dt
2
∂ε
∂ε
2
Откуда
(2.15)
J (u, w) ≥ V0(ε(t0
)).
108
Сравнение (2.14) и (2.15) показывает, что
J (u0, w0) = V0(ε(t0)) ≤ J(u, w).
Тем самым оптимальность управлений u0(t, x(t)) и w0(t, x(t)) установлена. ■
Утверждение 1. Дифференциальная игра (2.1)-(2.5) с нулевой суммой
имеет решение, если ограничения (2.4) связаны соотношением
(2.16)
Eu > Ew.
Доказательство утверждения 1. Рассмотрим модифицированное
уравнение Беллмана-Айзекса (2.12). Так как в этом уравнении εT(t)Qε(t) > 0
при ε(t) = 0, то
dV0(ε(t))
1 ∂V 0(ε(t))[
<-
g1(x(t))R-1gT1(x(t)) -
dt
2
∂ε
}T
]{∂V 0(ε(t))
- g2(x(t))P-1gT2 (x(t))
∂ε
или, учитывая (2.10) и (2.4), имеем
dV0(ε(t))
1
<-
[Eu - Ew] .
dt
2
Из последнего выражения следует, что дифференциальная игра (2.1)-(2.5)
с нулевой суммой имеет решение, если ограничения (2.4) связаны соотно-
шением
Eu > Ew.
Очевидно, что последнее будет выполняться, если матрица Π(x(t)) по
крайней мере положительно полуопределенная, что обеспечивается соот-
ветствующими свойствами матричных функций g1(x(t)), g2(x(t)) и поло-
жительной определенностью матриц штрафов R, P в функционале (2.5).
Выполнение утверждения 1 предопределяет существование решения зада-
чи дифференциальной игры с гарантирующим результатом J(u0(t), w(t)) ≤
≤ J(u0(t),w0(t)).
Отметим, что в соответствии с принятыми свойствами системы (2.1) число
ненулевых строк в матрице Π(x(t)) есть n - m.
Система (2.1) с управлениями (2.10) принимает вид
d
{∂V0(ε(t))}T
(2.17)
x(t) = f(x(t)) - Π(x(t))
, x(t0) = x0,
dt
∂ε
{
}T
где вектор
∂V0(x(t))/∂x
отыскивается решением скалярного уравнения в
частных производных
∂V0(ε(t))
1 ∂V 0(ε(t))
{∂V0(ε(t))}T
1
(2.18)
f (x(t)) -
Π(x(t))
+
εT
(t)Qε(t) = 0.
∂ε
2
∂ε
∂ε
2
109
3. Алгебраический метод решения
уравнения Беллмана-Айзекса
В задачах с линейными объектами, с не заданным временем окончания
переходного процесса и квадратичным функционалом качества от уравнения
Беллмана-Айзекса при выполнении ряда условий можно перейти к урав-
нению типа Риккати. Уравнение Риккати встречается в различных обла-
стях математики (например, в алгебраической геометрии и в теории кон-
формных отображений) и физики. Оно также нередко возникает в приклад-
ных математических задачах. Проблеме поиска решения такого уравнения
посвящено достаточно много работ [8, 11]. В этом разделе статьи для за-
дачи дифференциальной игры разрабатывается метод решения уравнения
Беллмана-Айзекса вида (2.12), основанный на применении алгебраического
подхода. Следует отметить, что некоторые результаты разработки алгебраи-
ческого метода в задачах построения управления для аффинных нелиней-
ных систем, сформулированные в виде леммы, можно обнаружить в рабо-
тах [19-21]. В этих работах используются свойства псевдообратной матри-
цы [22] и ее образа, правила выбора которого не устанавливаются. В отличие
от этих работ в представляемой статье рассматривается класс задач диф-
ференциальной игры, структура входящих параметров в ее математическую
модель объекта такова, что при синтезе оптимальных управлений не требует-
ся использование понятия образа псевдообратной матрицы. Для этого класса
задач доказывается лемма, использование которой для синтеза управлений
дифференциальной игры с объектом (2.1) и функционалом (2.5) приводит
к реализуемым решениям.
3.1. Лемма о методе решения скалярного нелинейного
функционального уравнения специального вида
Предположение 3.1. Пусть η(t) ∈ Ωη ⊂ Rn действительный вектор,
γ(η), µ(η) ⊂ Rn действительные вектор-функции, α(η) > 0 действитель-
ная функция, определенная на Rn и Π(η) ⊂ Rn×n действительная симмет-
рическая неотрицательно определенная вырожденная матрица.
Лемма 1. Псевдообратная матрица Π+(η), удовлетворяющая условию
(3.1)
Π(η)Π+(η)Π(η) = Π(η), Π+(η) = UΠT(η) = ΠT
(η)V,
где U ⊂ Rn×n и V ⊂ Rn×n некоторые матрицы, существует и единст-
венна.
(
)+
Учитывая, что рассматриваются симметрические матрицы,
ΠT(η)
=
= (Π+(η))T.
Пусть K+(η) ⊂ Rn×n симметрическая псевдообратная матрица от K(η),
которая входит в Π(η) так, что Π+(η) = K+(η)K+(η). Учитывая (3.1), свой-
110
ства псевдообратных матриц выводятся из определения [22]
(
)+
Π(η)Π+(η)Π(η) = Π(η), Π+(η)Π(η)Π+(η) = Π+(η),
Π+(η)
= Π(η),
(K(η)K(η))+ = K+(η)K+(η), K+(η) = (K(η)K(η))+ K(η) =
= K(η)(K(η)K(η))+ , K+(η)K(η)K(η) = K(η)K(η)K+(η) = K(η).
Рассмотрим скалярное нелинейное функциональное уравнение:
1
1
(3.2)
γT(η)µ(η) -
γT(η)Π(η)γ(η) +
α(η) = 0.
2
2
Лемма 2. Уравнение (3.2) имеет решение относительно γ(η)в виде
(3.3)
γ(η) = Π+(η)µ(η) + K+(η) (1n
⊗ β(η)) ,
где 1n вектор столбец размера n × 1 с элементами, равными 1, ⊗ про-
изведение Кронекера,
[
]}1/2
{1
{
}
(3.4)
β(η) =
µT(η)
Π+(η)
T µ(η) + α(η)
n
Доказательство леммы 2. Подставив (3.3) в (3.2), будем иметь
µT(η)Π+(η)Π(η)Π+(η)µ(η) + µT(η)Π+(η)Π(η)K+(η)(In ⊗ β(η)) +
+ (In ⊗ β(η))T K+(η)Π(η)Π+(η)µ(η) +
+ (In ⊗ β(η))T K+(η)Π(η)K+(η) (In ⊗ β(η)) -
-2µT(η)Π+(η)µ(η) - 2 (In ⊗ β(η))T K+(η)µ(η) - α(η) = 0
или, учитывая свойства псевдообратных матриц, будем иметь
(3.5)
2(η) - µT(η)Π+
(η)µ(η) - α(η) = 0.
Из последнего уравнения имеем
{
}]1/2
[1
{
}
β(η) =
µT(η)
Π+(η)
T µ(η) + α(η)
n
Этим получены достаточные условия существования γ(η) как решения
уравнения (3.2). Используя уравнение (3.5), получим необходимые условия
выполнения леммы. Добавим и вычтем в левой части уравнения (3.5) выра-
жение µT(η)K+(η) (1n ⊗ β(η)). Будем иметь
[
]
2(η) -
µT(η)Π+(η)µ(η) + K+(η)(1n ⊗ β(η))
-
− α(η) + µT(η)K+(η) (1n ⊗ β(η)) = 0.
111
Учитывая, что из (3.3) следует
K+(η)(1n ⊗ β(η)) = γ(η) - Π+(η)µ(η),
получаем из предыдущего уравнения:
2(η) - µT(η)Π+(η)µ(η) - α(η) + µT(η)γ(η) - µT(η)Π+(η)µ(η) -
- µT(η)γ(η) + µT(η)Π+(η)µ(η) = 0
или
2(η) - µT(η)Π+(η)µ(η) - α(η) = 0.
Полученное уравнение не что иное, как уравнение (3.5). Этим доказыва-
ется необходимое условие выполнения леммы 2.
Добавление к лемме 2.
Предположение 3.2. Пусть неотрицательно определенная матри-
ца Π(η) является диагональной.
В случае выполнения предположения 3.2, когда неотрицательно опреде-
ленные матрицы Π(η) и K(η) являются диагональными. В этом случае псев-
дообратная матрица Π+(η) заменяется на обратную матрицу Π-1(z). В этом
случае решение уравнения (3.2) относительно γ(η) имеет вид
γ(η) = Π-1(η)µ(η) + K-1(η) (1n ⊗ β(η)) ,
где
{
}]1/2
[1
{
}
β(η) =
µT(η)
Π-1(η)
T µ(η) + α(η)
n
Отметим, что сформулированное выше справедливо и для случая, когда
матрица Π(η) для всех η(t) ∈ Ωη симметричная положительно определен-
ная действительная матрица.
3.2. Применение леммы 2 при решении
уравнения Беллмана-Айзекса
Используем результаты леммы 2 для рассматриваемой в статье задачи
слежения. Сравнивая (2.18) и (3.2), будем иметь
}T
{∂V0(ε(t))
γ(η) = γ(t) =
, µ(η) = f(x(t)),
(3.6)
∂ε
α(η) = εT(t)Qε(t), Π(η) = Π(x(t)).
112
С учетом введенных обозначений уравнение Беллмана-Айзекса (2.18) при-
нимает вид
1
1
(3.7)
γT(t)f(x(t)) -
γT(t)Π(x(t))γ(t) +
εT
(t)Qε(t) = 0.
2
2
Решением этого уравнения относительно функции γ(t) ∈ Rn является:
(3.8)
γ(t) = Π+(x(t))f(x(t)) + K+(x(t)) (In
⊗ β(x(t),ε(t))) ,
где скалярная функция β(x(t), ε(t)) определяется решением уравнения
}1/2
{1
[
]
(3.9)
β(x(t), ε(t)) =
fT(x(t))Π+(x(t))f(x(t)) + εT(t)Qε(t)
n
Система (2.17) с учетом (3.6) запишется в виде
d
(3.10)
x(t) = f(x(t)) - Π(x(t))γ(t), x(t0) = x0,
dt
где
γ(t) = Π+(x(t))f(x(t)) +
(
)
}
1/2
(3.11)
{1
[
]
+ K+(x(t)) In
fT(x(t))Π+(x(t))f(x(t)) + εT(t)Qε(t)
n
Прежде чем ответить на вопрос об оптимальности управления γ(x(t)) для
системы (3.10), отметим, что функционал
tf
1
{
}
(3.12)
J (x(·), γ(·)) = lim
εT(t)Qε(t) + γT(t)Π(x(t))γ(t)
dt,
tf →∞ 2
t0
учитывая введенные обозначения (3.6), эквивалентен функционалу (2.5).
Теорема 2. Пусть имеется система, описываемая обыкновенным диф-
ференциальным уравнением
d
x(t) = f(x(t)) - Π(x(t))γ(t), x(t0) = x0,
dt
где Π(x(t))
вырожденная неотрицательная матрица. Вектор-функция
γ(t) ⊂ Rn доставляет минимум функционалу (3.12) на решениях системы
d
x(t) = f(x(t)) - Π(x(t))γ(t), x(t0) = x0.
dt
113
Доказательство теоремы 2. Учитывая, что γ(t)={∂V0(ε(t))/∂ε}T,
перепишем функционал (3.12):
J (x(·), γ(·)) =
tf
{
1
{∂V0(ε(t))}
{∂V0(ε(t))}T}
= lim
εT(t)Qε(t) +
Π(x(t))
dt =
tf →∞ 2
∂ε
∂ε
t0
tf
1
{ dV0(ε(t))}
[
]
= - lim
dt = lim
V0(ε(t0)) - V0(ε(tf ))
tf →∞ 2
dt
tf →∞
t0
Отсюда вытекает, что
(
)
(3.13)
J
γ0(t)
= V 0(ε(t0
)).
Сравнение
(3.13) и
(2.14) показывает, что J(γ0(t)) = J(u0(t), w0(t)) =
= V 0(ε(t0)). Тем самым оптимальность управления γ0(x(t)) в задаче (3.10),
(3.12) установлена.
Запишем управления (2.10) с учетом (3.6):
u0(t) = -R-1gT1(x(t))Π-1(x(t))f(x(t)) - R-1gT1(x(t))K-1(x(t)) ×
(
)
}
1/2
(3.14)
{1
[
]
× 1n
fT(x(t))Π-1(x(t))f(x(t)) + εT(t)Qε(t)
,
n
w0(t) = P-1gT2(x(t))Π-1(x(t))f(x(t)) + P-1gT2(x(t))K-1(x(t)) ×
(
)
}
1/2
(3.15)
{1
[
]
× 1n
fT(x(t))Π-1(x(t))f(x(t)) + εT(t)Qε(t)
n
Система (2.1) с управлениями (3.14) и (3.15) принимает вид
(
)
}1/2
d
{1
[
]
x(t) = -K(x(t))
1n
fT(x(t))Π-1(x(t))f(x(t)) + εT(t)Qε(t)
,
dt
n
x(t0) = x0, y(t) = Cx(t),
или
d
x(t) = f(x(t)) - If(x(t)) - K(x(t)) (1n ⊗ β(x(t), ε(t))) ,
(3.16)
dt
x(t0) = x0, y(t) = Cx(t),
где I
диагональная матрица, содержащая в диагонали m нулевых эле-
ментов и n - m единичных элементов. Расположение этих элементов в этой
114
матрице определяется матрицей K(x(t)), в которой m строк содержат нуле-
вые элементы.
Следует отметить, что в силу того что Π(x(t)) = K(x(t))K(x(t)), то мат-
рица K(x(t)) может быть, по крайней мере, как положительно, так и отрица-
тельно полуопределенной. В силу того, что скалярная функция β(x(t), ε(t))
определяется выражением (3.9), может быть принято как β(x(t), ε(t)) > 0,
так и β(x(t), ε(t)) < 0. Для анализа устойчивости системы (3.16) введем в
рассмотрение функцию Ляпунова
1
(3.17)
VL(ε(t)) =
εT
(t)ε(t).
2
Тогда полная производная (3.17) будет иметь вид
{
}
{
}
{
}
d
d
d
d
VL(x) = εT(t)
εT(t)
= -εT(t)
zT(t)
+ εT(t) C
xT(t)
=
dt
dt
dt
dt
{
}
d
= -εT(t)
zT(t)
+ εT(t)C [f(x(t)) - K(x(t))(In ⊗ β(x(t),ε(t)))] =
dt


f1(x(t))
0

·
·
{
}

d
fm-1(x(t))
0
= -εT(t)
zT(t)
T(t)C
-
< 0,
dt
0
kmm(x(t))β(x(t),ε(t))
·
·
0
knn(x(t))β(x(t),ε(t))
где f(x(t)) = f(x(t)) - If(x(t)), или
d
(3.18)
VL(ε(t)) =
εTj(t)fj(x(t)) -
dt
j=1
{
}
d
- εTj(t)kjj(x(t))β(x(t),ε(t)) - εT(t)
zT(t)
<0
dt
j=m
при ε(t) = 0.
Из полученного условия можно видеть, что устойчивость системе (3.17)
должно обеспечивать слагаемое уравнения (3.18), в которое входит синтези-
рованное управление, т.е.
(3.19)
- εTj(t)kjj
(x(t))β(x(t), ε(t)) < 0 при x(t) = 0.
j=m
Для определения арифметического знака перед функцией
εTj(t)kjj(x(t))β(x(t),ε(t)), j = m,... ,n - m примем kjj(x(t))β(x(t),ε(t)) > 0.
Тогда условие (3.19) будет выполняться, если назначать знак перед функцией
так, чтобы
{
}
sign εTj(t)kjj (x(t))β(x(t), ε(t))
= sign εTj (t), j = m,... ,n - m.
115
4. Моделирование системы уравнений Лотки-Вольтерра
Рассмотрим динамическую систему [12, 13]
d
x1(t) = b1x1(t) - a11x21(t) - a21x1(t)x2(t),
dt
(4.1)
d
x2(t) = b2x2(t) - a12x1(t)x2(t) - a22x22(t),
dt
которая описывает взаимодействие конкурирующих популяций. Параметры
b1 и b2 отвечают за скорость роста каждой популяции (рождаемость), пара-
метры aij , i = 1, 2, j = 1, 2 - за эффективность уничтожения популяции-про-
тивника. В большинстве задач данные параметры предполагаются посто-
янными. Будем рассматривать случай, когда параметры могут быть изме-
няемыми около некоторых номинальных значений a∗ij
выступать в ка-
честве игроков, т.е. эффективности уничтожения будут задаваться форму-
(
)T
лой aij(t) = a∗ij + uij (t), i = 1, 2, j = 1, 2, векторы u(t) =
u11(t) u12(t)
и
(
w(t) =
u21(t) u22(t))T управления для двух игроков. В этом случае дина-
мическая система записывается следующим образом:
(
)
d
b1x1(t) - a∗11x21(t) - a∗21x1(t)x2(t)
x(t) =
+
dt
b2x2(t) - a∗12x1(t)x2(t) - a∗22x22(t)
(4.2)
(
)
(
)
-x2(t)
0
-x1(t)x2(t)
0
1
+
u(t) +
w(t).
0
-x1(t)x2(t)
0
-x22(t)
Таким образом, система (4.2) в сравнении с системой (2.1) имеет следую-
щие параметры:
(
)
b1x1(t) - a11x1(t) - a21x1(t)x2(t)
f (x(t)) =
,
b2x2(t) - a∗12x1(t)x2(t) - a∗22x22(t)
(
)
(
)
-x2(t)
0
-x1(t)x2(t)
0
1
g1(x(t)) =
,
g2(x(t)) =
0
-x1(t)x2(t)
0
-x22(t)
В соответствии с (3.11) управление γ(t) определяется выражением:
γ(t) = Π-1(x(t))f(x(t)) +
(
)
]}
1/2
{1[
+ K-1(x(t)) In
fT(x(t))Π-1(x(t))f(x(t)) + εT(t)Qε(t)
,
2
где матрицы Π(x(t)) и K(x(t)) имеют вид
x41(t) - x21(t)x22(t)
0
(6x1(t) + 3x2(t) + 1)
Π(x(t)) =
x21(t)x22(t) - x42(t)
,
0
(3x1(t) + 6x2(t) + 1)
116
x41(t) - x21(t)x22(t)
0
(6x1(t) + 3x2(t) + 1)
.
K(x(t)) =
x21(t)x22(t) - x42(t)
0
(3x1(t) + 6x2(t) + 1)
Система (4.1) имеет четыре положения равновесия
(
)T
(
)T
(
)
b2
b1
0
0
T,
0
,
0
,
a∗22
a
11
(4.3)
(
)T
b1a∗22 - b2a∗21
b2a∗11 - b1a∗12
-a∗12a∗21 + a∗22a
-a∗12a∗21 + a∗22a
11
11
Пусть желаемым значением для состояния x(t) будет первое условие рав-
(
)T
(
)T
(
)T
новесия из (4.3), т.е.
z1(t) z2(t)
=
0
0
. В силу этого
ε1(t) ε2(t)
=
(
=
x1(t) x2(t))T.
Будем предполагать, что популяции борются между собой, минимизируя
собственные затраты и максимизируя затраты противника. Матрицы функ-
ционала (2.5) Q (x(t)), R (x(t)), P (x(t)) назначим в виде
)
( (x2(t) - 1/3)2
0
Q(x(t)) =
,
0
(x1(t) - 1/3)2
)
( 6x1(t) + 3x2(t) + 1
0
(4.4)
R (x(t)) =
,
0
3x1(t) + 6x2(t) + 1
)
( 6x1(t) + 3x2(t) + 1
0
P (x(t)) =
0
3x1(t) + 6x2(t) + 1
Управляемая система (4.2) с учетом изложенного выше принимает вид
d
x41(t) - x21(t)x22(t)
x1(t) = - ε1(t)
×
dt
(6x1(t) + 3x2(t) + 1)
{
[
]}1/2
1
×
fT(x(t))Π-1(x(t))f(x(t)) + εT(t)Q(x)ε(t)
,
2
(4.5)
d
x21(t)x22(t) - x42(t)
x2(t) = - ε2(t)
×
dt
(3x1(t) + 6x2(t) + 1)
{
[
]}1/2
1
×
fT(x(t))Π-1(x(t))f(x(t)) + εT(t)Q(x)ε(t)
2
117
10
x1
z1
8
6
4
2
00
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
4,5
5,0
5
x2
z2
4
3
2
1
0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
4,5
5,0
O set = 0
Рис. 1. Управляемые переходные процессы (x1(t), x2(t)) и (z1(t), z2(t)).
10
x1
8
z1
6
4
2
0
0
2
4
6
8
10
12
14
16
18
20
5
x2
4
z2
3
2
1
00
2
4
6
8
10
12
14
16
18
20
O set = 0
Рис. 2. Управляемые переходные процессы (x1(t), x2(t)) и (z1(t), z2(t)).
Вслед за [13] рассмотрим случай, когда постоянные параметры принима-
ются равными b1 = 1, b2 = 1, a∗11 = 2, a∗22 = 2, a∗12 = 1 и a∗21 = 1. Назначим для
(
)T
системы (4.5) начальные условия x0 =
x1(0) x2(0))T =(10
5
. На рис. 1
представлены графики для переходных процессов x1(t), x2(t) при z(t) =
(
)T
(
)T
=
z1
z2
=
1
1
На рис. 2 представлены графики переходных процессов x1(t), x2(t) при
(
x0 =
x1(0) x2(0))T =(10
5)T и z(t) =(z1 z2)T =(1,5 + cos(t) 1,5 + sin(t)
)T.
118
Приведенные в статье результаты математического моделирования под-
тверждают эффективность синтезированных управлений в задаче слежения,
организованных с использованием ошибки слежения без предварительного
знания на всем интервале управления отслеживаемой траектории.
5. Заключение
Дифференциальная игра с нулевой суммой рассмотрена как задача синте-
за оптимальных управлений в задаче слежения для класса нелинейных объ-
ектов с квадратическим функционалом качества. Реализация полученных
управлений связана с проблемой нахождения решения скалярного уравне-
ния в частных производных Беллмана-Айзекса. Для решения этого уравне-
ния предложен алгебраический метод нахождения оптимальных управлений
дифференциальной игры. Реализация этих управлений осуществляется ре-
шением алгебраических матричных нелинейных уравнений, которое может
производиться в темпе функционирования динамического объекта. Разрабо-
танный метод алгебраического решения уравнения в частных производных
Беллмана-Айзекса может быть использован для реализации управляющих
воздействий нелинейными объектами достаточно широкого класса. Получен-
ные в работе теоретические положения проиллюстрированы результатами
математического моделирования.
СПИСОК ЛИТЕРАТУРЫ
1. Айзекс Р. Дифференциальные игры. М.: Мир, 1967.
2. Isaacs R.P. Games of Pursuit, Paper P-257. - RAND Corporation, Santa Monica,
California. 1951.
3. Понтрягин Л.С. О линейных дифференциальных играх. 1 // Доклады Акаде-
мии наук СССР. 1967. Т. 174. № 6. С. 1278-1280.
4. Понтрягин Л.С. О линейных дифференциальных играх. 2 // Доклады Акаде-
мии наук СССР. 1967. Т. 175. № 4. С. 764-766.
5. Мищенко Е.Ф. О некоторых игровых задачах преследования и уклонения от
встречи // АиТ. 1972. № 9. С. 24-30.
Mishchenko E.F. On certain game problems in pursuit and evasion // Autom. Re-
mote Control. 1972. V. 33. No. 9. P. 1424-1429.
6. Пшеничный Б.Н. Необходимые условия экстремума. М.: Наука, 1969.
7. Красовский Н.Н., Субботин А.И. Позиционные дифференциальные игры. М.:
Наука, 1974.
8. Bryson А.Е., Yu-Chi Ho. Applied Optimal Control. Optimization, Estimation and
Control. Waltham, Massachusetts Toronto, London, 1969.
9. Беллман Р., Энджел Э. Динамическое программирование и уравнения в част-
ных производных. М.: Мир, 1974.
10. Kalman R.E. The Theory of Optimal Control and Calculus of Variations / in Bellman
(ed). Mathematical Optimization Techniques, University of California Press, Berkely,
Calif. 1963.
119
11.
Афанасьев В.Н. Математическая теория управления нелинейными непрерывны-
ми динамическими системами. М.: КРАСНАНД. 2021.
12.
Buratto A., Cesaretto R., Zamarchi R. HIV vs. the Immune System: A Differential
Game // Math. 2015. V. 3. No. 4. P. 1139-1170.
13.
Братусь А.С., Новожилов А.С., Платонов А.П. Динамические системы и мо-
дели биологии. М.: ФИЗМАТЛИТ, 2010.
14.
Трубецков Д.И. Феномен математической модели Лоттки Вольтерры и сходных
с ней // Известия вузов. Прикладная нелинейная динамика. 2011. Т. 19. № 2.
С. 69-88.
15.
Васильев Ф.П. Методы оптимизации. Том 2. М.: МЦНМО, 2011.
16.
Галеев Э.М., Зеликин М.Ю., Конягин С.В. и др. Оптимальное управление / Под
ред. Н.П. Осмоловского и В.М. Тихомирова. М.: МЦНМО, 2008.
17.
Егоров А.И. Уравнения Риккати. М.: Физматлит, 2001. Изд-во Наука, Физмат-
лит 2001.
18.
Winternitz P. Lie groups and solutions of nonlinear partial differential equations.
Lecture Notes in Physics, 1983. V. 189. P. 263-331.
19.
Liu R.W., Leake J. Inverse Lyapunov Problems // Technical Report No. EE6510,
Department of Electrical Engineering, University of Notre Dame, August 1965.
20.
Sain M.K., Won C.-H., Spencer Jr., B.F., Liberty S.R. Cumulants and Risk-Sensitive
Control: A Cost Mean and Variance Theory with Application to Seismic Protection
of Structures // Advances in Dynamic Games and Applications, Annals of the In-
ternational Society of Dynamic Games, Boston: Birkhauser. 2000. V. 5. P. 427-459.
21.
Won Chang-Hee, Biswas Saroj. Optimal Control Using Algebraic Method for
Control - Affine Nonlinear Systems. Temple University, USA. cwon@temple.edu,
sbiswas@temple.edu. April 20. 2007. 33 p.
22.
Алберт А. Регрессия, псевдоинверсия и рекуррентное оценивание. М.: Наука,
1977.
Статья представлена к публикации членом редколлегии Е.Я. Рубиновичем.
Поступила в редакцию 26.07.2021
После доработки 27.06.2022
Принята к публикации 28.07.2022
120