Автоматика и телемеханика, № 11, 2020
© 2020 г. А.С. БОРТАКОВСКИЙ, д-р физ.-мат. наук (asbortakov@mail.ru)
(Московский авиационный институт)
ТЕОРЕМА РАЗДЕЛЕНИЯ ДЛЯ ОПТИМАЛЬНОГО
В СРЕДНЕМ УПРАВЛЕНИЯ ГИБРИДНЫМИ СИСТЕМАМИ
ПЕРЕМЕННОЙ РАЗМЕРНОСТИ1
Рассматривается задача оптимального в среднем управления линей-
ной гибридной системой, непрерывное движение которой чередуется с
дискретными изменениями (переключениями) со сменой пространства со-
стояний. Начальное состояние системы случайное. Качество управления
характеризуется средним значением квадратичного функционала. Мо-
менты переключений и их количество заранее не заданы. Они опреде-
ляются в результате минимизации функционала. Для рассматриваемой
задачи классический принцип разделения не выполняется. Доказан так
называемый условный принцип разделения. Приводятся примеры приме-
нения условного и классического принципов разделения.
Ключевые слова: гибридные системы, изменение размерности простран-
ства состояний, оптимальное в среднем управление, теорема разделения.
DOI: 10.31857/S0005231020110045
1. Введение
Задачи оптимального управления пучками траекторий непрерывных де-
терминированных систем были исследованы в [1, 2]. При дальнейших ис-
следованиях были получены достаточные условия оптимальности в среднем
управления пучками траекторий непрерывно-дискретных [3] и переключае-
мых [4]. В [5] для линейных гибридных систем постоянной размерности была
доказана теорема разделения. В настоящей статье эта теорема доказывается
для гибридных систем переменной размерности (ГСПР).
Непрерывное движение ГСПР описывается дифференциальными уравне-
ниями, а мгновенные изменения состояния (переключения) рекуррентными
уравнениями или включениями. В момент переключения меняется простран-
ство состояний системы, в частности его размерность. Системы управления с
изменяемым пространством состояний исследовались под разными названия-
ми: составные системы [6], ступенчатые системы [7], системы со сменой фазо-
вого пространства [8], сложные (многоэтапные) процессы [9], системы с пере-
менной структурой и размерностью [10, 11], гибридные системы с промежу-
точными условиями [12, 13]. В задачах оптимального управления [6-8, 12, 13],
как правило, моменты смены фазового пространства фиксированы или опре-
деляются промежуточными условиями, а переключения состояний неуправ-
ляемы. Количество переключений задано, а в первых публикациях [6-8] по
этой тематике переключение единственное. Необходимые условия для ги-
1 Работа выполнена при финансовой поддержке Российского фонда фундаментальных
исследований (проект № 18-08-128-а).
46
бридных систем с промежуточными условиями, обобщающие принцип мак-
симума, получены в [12, 13], где количество переключений задано, моменты
переключений не фиксированы, а сами переключения неуправляемы. Дру-
гой подход к исследованию гибридных систем заключается в использовании
дискретно-непрерывных и импульсных систем управления [14].
Достаточные условия оптимальности ГСПР получены в [15, 16] для за-
дач, в которых количество и моменты переключений заранее не заданы, а
переключения управляемы. При этом допускались процессы с мгновенны-
ми многократными переключениями. Однако применение этих условий для
линейно-квадратичных задач (ЛКЗ) затруднительно. Причина этого заклю-
чается в том, что функция цены (функция Гамильтона-Якоби-Беллмана
(ГЯБ)) в ЛКЗ управления ГСПР не является квадратичной [17]. Начиная
с ЛКЗ управления непрерывными системами [18] квадратичность функции
цены была доказана для дискретных и непрерывно-дискретных систем. От-
метим, что в этих системах либо нет переключений, либо они происходят в
заданные моменты времени. В гибридных системах моменты переключений
не фиксированы, и их оптимизация приводит к неквадратичным функциям
цены. Поэтому для синтеза оптимальных линейных ГСПР с квадратичным
функционалом качества нужны новые достаточные условия, которые полу-
чены в настоящей статье.
Для ЛКЗ управления непрерывными стохастическими системами доказа-
на теорема разделения [19]: оптимальное в среднем управление стохастиче-
ской системой совпадает с оптимальным позиционным управлением соответ-
ствующей детерминированной системой, в котором используется оптималь-
ная оценка состояния стохастической системы. При таком способе форми-
рования управления задачи оптимального управления и наблюдения можно
решать отдельно. Этот подход получил название принципа разделения. Он
широко применяется на практике, часто без обоснования, даже для нелиней-
ных систем. В частном случае для детерминированной непрерывной системы,
начальное состояние которой не определено, теорема разделения доказана
в [1]: оптимальное в среднем управление линейной системой с квадратичным
функционалом качества совпадает с оптимальным управлением одной тра-
екторией этой системы, исходящей из геометрического центра тяжести мно-
жества возможных начальных состояний. В этом детерминированном случае
задача наблюдения тривиальная. Она сводится к нахождению центра тяже-
сти множества возможных состояний.
В настоящей статье рассматривается задача управления линейной ГСПР,
начальное состояние которой представляет собой случайный вектор с задан-
ной плотностью вероятности. Качество управления характеризуется средним
значением квадратичного функционала качества управления отдельной тра-
екторией. Эту задачу можно рассматривать как задачу оптимального в сред-
нем управления пучком траекторий детерминированной ГСПР. Для таких
ЛКЗ классический принцип разделения не выполняется, поскольку, как ука-
зано выше, функция цены не является квадратичной. Однако оказывается
справедливым условный принцип разделения: оптимальное в среднем управ-
ление пучком траекторий совпадает с условным оптимальным управлением
траекторией, исходящей из математического ожидания вектора началь-
47
ного состояния системы. Условное оптимальное управление отличается от
оптимального дополнительным условием фиксированными моментами пе-
реключений. Согласно условному принципу задача наблюдения отделена от
задачи условного оптимального управления, т.е. математическое ожидание
начального состояния системы находится отдельно от оптимального управ-
ления с фиксированными моментами переключений. Однако оптимальные
моменты переключений определяются при минимизации среднего значения
функционала. Последняя задача минимизации конечномерная и может быть
решена многими методами.
В статье доказывается теорема разделения для оптимального в среднем
управления линейной ГСПР с квадратичным критерием качества. Получе-
ны уравнения для нахождения оптимальных законов управления. Выделен
класс ЛКЗ, в котором выполняется классический принцип разделения. Рас-
смотрены академические примеры, демонстрирующие применение условно-
го и классического принципов разделения для ГСПР. В частности, приведен
контрпример ЛКЗ задачи управления гибридной системой, в котором класси-
ческий принцип разделения не выполняется, а условный принцип разделения
выполняется.
2. Постановки задач
Пусть на заданном промежутке времени T = [t0, tF ] динамическая систе-
ма совершает N переключений в моменты времени t1, . . . , tN , образующие
неубывающую конечную последовательность T = {t1, . . . tN }:
(2.1)
t0 ≤ t1 ≤ ... ≤ tN ≤ tF .
Между неравными последовательными моментами переключений состояние
системы изменяется непрерывно, согласно линейному дифференциальному
уравнению:
(2.2)
i = Ai(t)xi(t) + Bi(t)ui(t), t ∈ Ti,
i∈N,
а в моменты переключений дискретно, в соответствии с рекуррентным
уравнением
(2.3)
xi(ti)
Ai(ti)xi-1(ti)
Bi(ti)vi
,
i = 1,...,N.
В соотношениях (2.2): N ≜ {i = 0, 1, . . . , N |ti < ti+1 } множество номеров
ненулевых (по длине) частичных промежутков Ti = [ti, ti+1] непрерывного
изменения системы; xi(t)
состояние системы в момент времени t ∈ Ti,
xi(t) ∈ Xi = Rni; ui(t) управление непрерывным движением системы в мо-
мент времени t ∈ Ti, ui(t) ∈ Ui = Rpi , i ∈ N . Элементы матриц Ai(·) и Bi(·)
суммируемы на Ti, i ∈ N . При ti = ti+1 промежуток Ti, i ∈ N , представляет
собой точку Ti = {ti}, функция xi(·) определена в одной точке ti, а значе-
ние u(ti) управления несущественно. В уравнении (2.3): vi управление пе-
реключением системы в момент ti ∈ T , vi ∈ Vi = Rqi , i = 1, . . . , N . Возможное
равенство последовательных моментов в (2.1) означает, что система соверша-
ет мгновенные многократные переключения [15, 16].
48
Множество допустимых программных управлений W(t0, x0) составляют па-
ры w = (u(·), v(·)), включающие управление непрерывным движением - после-
довательность u(·) ≜ {ui(·)}Ni=0 ограниченных измеримых функций ui : Ti
→ Ui; управление переключениями - последовательность v(·)≜ {(ti,vi)|ti ∈ T,
vi ∈ Vi,i = 1,... ,N}. Подчеркнем, что последовательность v(·) фактически
определяет множество переключений T , причем у разных допустимых управ-
лений v(·) количество N переключений и моменты T = {t1, . . . tN } переклю-
чений могут не совпадать. При этом не исключается случай отсутствия пе-
реключений, когда N = 0 и T = ∅ по определению. Допустимое управле-
ние w ∈ W(t0, x0) согласно [20] порождает для любого начального условия
x0(t0) = x0 единственную допустимую траекторию x(·) ≜ xi(·)Ni=0, которая на
каждом ненулевом (по длине) промежутке Ti, i ∈ N , представляет собой аб-
солютно непрерывную функцию xi : Ti → Xi, удовлетворяющую почти всюду
Ti дифференциальному уравнению (2.2). В каждый момент переключения
ti ∈ T скачки xi-1(ti) → xi(ti) допустимой траектории удовлетворяют рекур-
рентному уравнению (2.3). На множестве W(t0, x0) допустимых управлений
задан квадратичный функционал качества
[
]
1
1
(2.4)
I(t0, x0, w) =
xTi(t)Ci(t)xi(t) +
uTi(t)Di(t)ui(t)
dt +
2
2
i=0
ti
[
]
1
1
+
λi (ti) +
xTi-1 (ti
Ci (ti)xi-1 (ti) +
vT
i
Di (ti)vi
+
2
2
i=1
1
+
xTN (tF )FxN (tF ) ,
2
где tN+1 ≜ tF . Все матрицы в (2.4) - cимметрические соответствующих по-
рядков. Матрицы Ci(t)
Ci(t), F
неотрицательно определенные, а Di(t) и
Di(t) положительно определенные. Функции Ci(·), Di(·) измеримые огра-
ниченные,
Ci(·),
Di(·)
ограниченные. Величины λi(t) положительные,
точнее
(2.5)
λi(t) ≥ λ+
>0
при всех t ∈ T , i = 1, . . . , N, для некоторого положительного числа λ+. Сла-
гаемые, зависящие от момента ti, можно рассматривать как затраты (или
“штраф”) на переключение xi-1(ti) → xi(ti) состояния системы. При усло-
вии (2.5) затраты будут не меньше λ+ > 0. Отметим, что в функционале (2.4)
количество переключений N и моменты переключений ti, i = 1, . . . , N, явля-
ются управляющими параметрами, относящимися к управлению переключе-
ниями v(·).
Задача 1 (оптимального управления). Требуется найти наименьшее зна-
чение функционала (2.4) и оптимальное управление w ∈ W(t0, x0), на кото-
ром это значение достигается:
(2.6)
I(t0, x0, w) =
min I(t0, x0
,w).
w∈W(t0,x0)
49
Подчеркнем, что при минимизации (2.6) определяются количество пере-
ключений N, моменты переключений T , управление u(·) непрерывным дви-
жением системы, а также управление v(·) переключениями. При этом коли-
чество переключений N будет конечным из-за положительности затрат на
каждое переключение. Кроме того, условие (2.5) исключает у оптимальных
процессов так называемые фиктивные переключения, при которых состоя-
ние системы не изменяется xi(ti) = xi-1(ti) и фактического переключения
нет. При положительных затратах на переключение процессы с фиктивными
переключениями, разумеется, не будут оптимальными.
В теории и на практике нередко возникают задачи управления с фик-
сированными моментами переключений, например задачи управления дис-
кретными или непрерывно-дискретными системами. Пусть T = {t1, . . . , tN }
заданное множество моментов переключений
(2.1). Обозначим через
I(t0, x0, w|T ) функционал качества управления (2.4) при фиксированных мо-
ментах переключений. Задача минимизации условного функционала качества
I(t0, x0, w|T ) на множестве W(t0, x0|T ) допустимых управлений из W(t0, x0)
с заданными моментами переключений (2.1) формулируется следующим об-
разом.
Задача 2 (условного оптимального управления). Требуется найти наи-
меньшее значение функционала I(t0, x0, w|T ) при заданных моментах пе-
реключений T = {t1, . . . tN } и условное оптимальное управление wT
∈ W(t0,x0|T ), на котором это значение достигается:
(2.7)
I(t0, x0, wT |T ) =
min I(t0, x0
,w|T ).
w∈W(t0,x0|T )
Такое управление wT называется условным оптимальным, поскольку оно на-
ходится при дополнительном условии заданных моментах переключений T .
Задачи (2.6) и (2.7) связаны. Оптимальное управление w ∈ W(t0, x0) по-
лучается из условного оптимального управления wT ∈ W(t0, x0|T ) после до-
полнительной минимизации по моментам переключений T = {t1, . . . , tN }:
I(t0, x0, w) = min
min
I(t0, x0, w|T ).
N ∈Z+
t0≤t1≤...≤tN ≤tF
Пусть в отличие от задачи (2.6) начальное состояние x0 системы точно
неизвестно, а является случайным вектором с известной плотностью рас-
пределения p0 : X0 → R. Предполагается, что в процессе управления ни-
какой дополнительной информации, уточняющей состояние системы, не
поступает. Обозначим через W(t0, p0) множество допустимых управлений
w = (u(·),v(·)), каждое из которых порождает допустимую траекторию для
любого начального состояния x0 ∈ X0. Пусть по-прежнему качество управ-
ления одной траекторией характеризуется функционалом (2.4), а качество
управления системой со случайным начальным состоянием оценивается сред-
ним значением этого функционала
(2.8)
I(t0, p0, w) = p0(x0)I(t0, x0, w)dx0.
X0
50
Предполагаем, что это среднее значение существует. Функционалы вида (2.8)
применяются и для детерминированных задач управления пучками траекто-
рий [21]. В этом случае функция p0(·) играет роль начальной плотности пучка
частиц.
Задача 3 (оптимального в среднем управления). Требуется найти наи-
меньшее среднее значение (2.8) функционала (2.4) и оптимальное в среднем
управление w ∈ W(t0, p0), на котором это значение достигается:
I(t0, p0, w) =
min I(t0, p0, w).
w∈W(t0,p0)
Как и в случае управления одной траекторией, задачу оптимального в
среднем управления можно рассматривать при дополнительном условии
заданных моментах переключений T = {t1, . . . , tN }. При этом качество управ-
ления характеризуется средним значением
(2.9)
I (t0, p0, w|T ) = p0(x0)I(t0, x0, w|T )dx0.
X0
условного функционала качества I(t0, x0, w|T ). Задача минимизации этого
функционала на множестве W(t0, p0|T ) допустимых управлений из W(t0, x0)
с заданными моментами переключений (2.1) формулируется следующим об-
разом.
Задача 4 (условного оптимального в среднем управления). Требуется
найти наименьшее среднее значение функционала (2.9) при заданных момен-
тах переключений T = {t1, . . . tN } и условное оптимальное в среднем управ-
ление wT ∈ W(t0, p0), на котором это значение достигается:
I(t0, p0, wT ) =
min I(t0, p0, w).
w∈W(t0,p0|T )
3. Оптимальное управление
Сначала выясним характер зависимости функционала (2.4) от начально-
го состояния. Пусть T = {t1, . . . tN } фиксированное множество моментов
переключений (2.1). На участках непрерывного движения (2.2) и при пере-
ключениях (2.3) текущее состояние ГСПР является аффинной функцией на-
чального состояния x0:
(3.1)
xi(t) = k(t|t1,... ,ti)x0 + l(t,w|t1,... ,ti), t ∈ Ti
,
i∈N.
Функции k и l зависят от всех моментов переключений t1, . . . , ti, принадлежа-
щих промежутку [t0, t], причем функционал w → l(t, w|t1, . . . , ti) линейный
по управлению w = (u(·), v(·)), определенному на [t0, t]. Подставляя (3.1) в
условный функционал качества (2.6), получаем
1
(3.2)
I(t0, x0, w|T ) =
xT0K(t0|T )x0 + L(t0,w|T )x0 + M(t0
,w|T ).
2
51
Здесь K(t0|T )
симметрическая неотрицательно определенная матрица
порядка n0, L(t0, w|T ) - векторная функция (строка), линейно зависящая
от управления w, M(t0, w|T )
положительно определенный квадратич-
ный функционал от управления w. Заметим, что при фиксированных мо-
ментах переключений T множество допустимых управлений можно считать
линейным нормированным пространством, поскольку его составляют пары
w = (u(·),v(·)) с измеримым ограниченным управлением u(·) непрерывным
движением и конечной последовательностью v(·) векторов управления пере-
ключениями. На множестве W(t0, x0) функционал (3.2) дифференцируем по
управлению, причем производная (Фреше) имеет вид
(3.3)
I(t0,x0,w|T ) = L(t0|T )x0 + M(t0
,w|T ).
Обозначение L(t0|T ) = L(t0, w|T ) подчеркивает, что производная линейной
функции w → L(t0, w|T ) не зависит от управления.
Условное оптимальное программное управление wT одной траекторией,
исходящей из начальной позиции (t0, x0), удовлетворяет необходимому усло-
вию оптимальности: I(t0, x0, w|T ) = 0. Для положительно определенного
квадратичного функционала (3.2) это условие будет также и достаточным.
Записывая производную (3.3), вычисленную на условном оптимальном управ-
лении wT , получаем
(3.4)
L(t0|T )x0 + M(t0,wT
|T ) = 0.
Поскольку функционал w → M(t0, w|T ) квадратичный, то уравнение (3.4)
представляет собой линейное функциональное уравнение относительно
условного оптимального управления wT . Заметим, что оптимальное управ-
ление w ∈ W(t0, x0) также удовлетворяет уравнению (3.4), поскольку оно
является условным оптимальным при наилучшем выборе моментов переклю-
чений T, т.е.
L(t0|T)x0 + M(t0,w|T) = 0.
4. Оптимальное в среднем управление
Запишем выражение для среднего значения функционала (3.2):
{
}
1
I(t0, p0, w|T ) = p0(x0)
xT0K(t0|T )x0 + L(t0,w|T )x0 + M(t0,w|T ) dx0.
2
X0
Найдем производную этого функционала по управлению
I (t0,p0,w|T ) = L(t0|T ) p0(x0)x0dx0 + M(t0,w|T ) =
X0
= L(t0|T )x0 + M(t0,w|T ),
52
где x0
математическое ожидание начального состояния системы. Условное
оптимальное в среднем управление wT удовлетворяет необходимому условию
экстремума:
(4.1)
L(t0|T )x0 + M(t0,wT
|T ) = 0.
Оптимальное в среднем управление w также является условным оптималь-
ным в среднем управлением w = wT при наилучшем выборе моментов пере-
ключений T . Поэтому оно удовлетворяет уравнению (4.1)
(4.2)
L(t0|T )x0 + M(t0
,w|T ) = 0.
Сравнивая (4.2) с (3.4), заключаем, что оптимальное в среднем управление
w = wT совпадает с условным оптимальным управлением wT для начального
состояния x0. Отсюда следует справедливость утверждения.
Теорема 1 (теорема разделения). Оптимальное в среднем управление
линейной ГСПР с квадратичным функционалом качества совпадает с услов-
ным оптимальным управлением одной траекторией, исходящей из матема-
тического ожидания начального состояния системы.
Как видим, для поставленной задачи выполняется так называемый услов-
ный принцип разделения. Оптимальное в среднем управление может не
совпадать с оптимальным управлением траекторией, исходящей из мате-
матического ожидания начального состояния системы. Эти управления мо-
гут отличаться моментами переключений или даже количеством переключе-
ний. Для детерминированных ЛКЗ управления непрерывными, дискретны-
ми, непрерывно-дискретными системами принцип разделения выполняется,
поскольку моменты переключений фиксированы или переключений нет во-
все.
Отметим, что задача наблюдения в рассматриваемом случае тривиаль-
ная. Она сводится к нахождению среднего значения начального состояния
системы. Аналогичная оценка множества возможных состояний применяется
в задачах управления пучками траекторий детерминированных систем. В ка-
честве оценки выбирается геометрический центр тяжести (барицентр). Такая
задача наблюдения существенно проще традиционного наблюдения в стоха-
стических системах, непременно связанного со стохастической фильтрацией.
5. Синтез оптимального управления
Применение метода динамического программирования [22] опирается на
понятие функции цены (функции Гамильтона-Якоби-Беллмана (ГЯБ)), ко-
торая определяется минимальным значением функционала оставшихся по-
терь. Обозначим через Wi(t, xi) множество допустимых программных управ-
лений после i-го переключения для процессов, удовлетворяющих условию
xi(t) = xi. Оставшиеся переключения происходят в моменты ti+1,... ,tN, ко-
торые образуют неубывающую конечную последовательность на промежутке
[t, tF ]:
(5.1)
t≜ti ≤ti+1 ≤...≤tN ≤tN+1 ≜tF.
53
Количество k = N - i оставшихся переключений и сами моменты переклю-
чений ti+1, . . . , tN не фиксированы и у разных допустимых процессов могут
не совпадать.
На множестве Wi(t, xi) определим функционал оставшихся потерь:
[
]
1
1
(5.2)
Ii(t,xi,w) =
xTj(t)Cj(t)xj(t) +
uTj(t)Dj(t)uj(t)
dt +
2
2
j=i
tj
[
]
1
1
+
λj (tj) +
xTj-1 (tj
Cj (tj)xj-1 (tj) +
vTj
Dj (tj) vj
+
2
2
j=i+1
1
+
xTN (tF )FxN (tF ) .
2
Функция цены ϕi(t, xi) после i-го переключения по определению равна зна-
чению функционала оставшихся потерь (5.2), вычисленному на оптимальном
процессе, удовлетворяющем начальному условию xi(t) = xi. Иначе говоря,
функция цены равна минимальному значению функционала оставшихся по-
терь (5.2) на множестве допустимых управлений Wi(t, xi):
ϕi(t, xi) = min Ii(t, xi, w).
w∈Wi(t,xi)
При фиксированных моментах переключений функционал (5.2) и множе-
ство допустимых программных управлений будем обозначать, указывая до-
полнительно последовательность T = {ti+1, . . . , tN } моментов переключений:
Ii(t,xi,w|T ) и W(t,xi,w|T ) соответственно. Функция ϕi(t,xi|ti+1,... ,tN),
равная значению функционала оставшихся потерь Ii(t, xi, w|T ), вычислен-
ному на процессе, исходящем из стартовой позиции (t, xi), при управлении,
которое оптимально среди всех допустимых управлений, имеющих k = N - i
переключений, быть может фиктивных, в моменты времени ti+1, . . . , tN , об-
разующие неубывающую последовательность (5.1), называется k-моментной
функцией цены [17]. Для процессов без переключений, когда k = 0 и T = ∅,
нульмоментную функцию цены обозначим через ϕi(t, xi|∅). Функцию цены
можно выразить через ее моментные функции
ϕi(t, xi) = min
min
ϕi(t, xi|ti+1, . . . , tN ).
N ∈Z+
t≤ti+1≤...≤tN ≤tF
Рекуррентная процедура нахождения моментных функций цены для ги-
бридных систем постоянной размерности представлена в [17]. Опишем ана-
логичную процедуру для ГСПР. Согласно определению моментная функция
цены (t, xi) → ϕi(t, xi|ti+1, . . . , tN ) на [ti, ti+1] × Xi удовлетворяет уравнению
ГЯБ
[
]
{∂ϕi
∂ϕi
(5.3)
min
+
Ai (t)xi + Bi (t) ui +
ui∈Ui
∂t
∂xi
}
1
1
+
xTiCi (t)xi +
uTDi (t)ui
=0
i
2
2
54
с терминальным условием в момент переключения ti+1:
(5.4)
ϕi(ti+1, xi|ti+1, . . . , tN)=
{
= min ϕi+1(ti+1
Ai+1xi
Bi+1vi+1|ti+2,... ,tNi+1 +
vi+1∈Vi+1
}
1
1
+
xTi
Ci+1xi +
vT
Di+1vi+1
i+1
2
2
Рекуррентное уравнение (5.4) связывает k-моментную функцию цены (k =
= N - i) после i-го переключения с (k - 1)-моментной функцией цены после
(i + 1)-го переключения. Здесь и далее для сокращения записи рекуррентных
уравнений аргумент ti+1 у матриц опускаются.
Для ЛКЗ моментные функции цены будут квадратичными:
ϕi(t, xi|ti, . . . , tN ) =
(5.5)
1
=
xTiΦi(t|ti+1,... ,tN )xi + λi+1(ti+1) + ... + λN(tN),
2
где Φi
симметрическая неотрицательно определенная матрица поряд-
ка ni, абсолютно непрерывная по t на [ti, ti+1]. Подставляя (5.5) в уравне-
ния (5.3), (5.4), получаем для нахождения матриц Φi, i = 0, 1, . . . , N , следу-
ющую рекуррентную процедуру.
Матрица Φi(t) нульмоментной функции цены ϕi(t, xi|∅) после i-го пере-
ключения (без последующих переключений) удовлетворяет на [t0, tF ] мат-
ричному дифференциальному уравнению Риккати:
(5.6)
Φi + ATi(t)Φi + ΦiAi(t) + Ci(t) - ΦiBi(t)D-1i(t)BTi(t)Φi
=0
с терминальным условием Φi(tF ) = F . Оптимальное управление непрерыв-
ным движением линейно по состоянию системы
(5.7)
ui(t,xi) = -D-1i(t)BTi(t)Φi(t)xi.
Матрица Φi(t|ti+1, . . . , tN ) k-моментной функции цены (k = N - i) после i-го
переключения находится по матрице Φi+1 предыдущей (k - 1) моментной
функции. В момент ti+1 первого из оставшихся переключений эта матрица
удовлетворяет рекуррентному уравнению
(5.8)
Φi(ti+1|ti+1,... ,tN
)=
[
]-1
=
ATi+1Φk-1i+1
Bi+1
Di+1
BTi+1Φk-1i+1
Bi+1
BTi+1Φk-1i+1
Ai+1+
+
Ci+1
ATi+1Φk-1i+1
Ai+1,
а условное оптимальное управление переключениями линейно по состоянию
системы
vi+1(ti+1,xi|ti+2,... ,tN ) =
(5.9)
[
]-1
=-
Di+1
BTi+1Φk-1i+1
Bi+1
BTi+1Φk-1i+1
Ai+1xi.
55
В правых частях уравнений (5.8), (5.9) матрица Φk-1i+1 = Φi+1(ti+1|ti+2, . . . , tN ) -
это матрица (k - 1)-моментной функции цены после (i + 1)-го переключе-
ния, k = N - i. При i = N - 1 аргументы ti+2, . . . , tN отсутствуют и матри-
ца Φi(ti+1|ti+2, . . . , tN ) = Φi(ti+1), т.е. совпадает с матрицей нульмоментной
функции цены.
На промежутке [ti, ti+1] матрица Φi(t|ti+1, . . . , tN ) как функция времени t
удовлетворяет матричному дифференциальному уравнению Риккати (5.6) с
терминальным условием (5.8). Оптимальное управление непрерывным дви-
жением на этом промежутке линейно по состоянию системы
(5.10)
ui(t,xi|ti+1,... ,tN) = -D-1i(t)BTi(t)Φi(t|ti+1,... ,tN )xi.
При k = 0 управление (5.10) совпадает с (5.7).
В результате рекуррентной процедуры находятся матрицы Φi(t), Φi(t|t1),
...,Φi(t|t1,...,tN) моментных функции цены (5.5), а также соответствующие
условные оптимальные управления (5.9), (5.10). Для завершения синтеза оп-
тимального управления остается определить количество переключений N и
сами моменты переключений t1, . . . , tN , решая задачу конечномерной мини-
мизации
{1
(5.11) min I = min
min
xT0Φ0(t0|t1,... ,tN)x0 + λ1(t1) + ...
N ∈Z+
t0≤t1...≤tN ≤tF
2
}
... + λN(tN)
Заметим, что из-за положительности затрат (2.5) минимум (5.11) достигается
при конечном числе переключений N.
Таким образом, справедливо следующее утверждение.
Теорема 2 (оптимальное управление). Оптимальное управление линей-
ной ГСПР (2.1)-(2.3) с квадратичным функционалом качества (2.4) имеет
вид
u∗i(t) = -D-1i(t)BTi(t)Φi(t|t∗i+1,... ,t∗N )x∗i(t),
(5.12)
[
]
t∈
t∗i,t∗i+1
,
i = 0,1,...,N,
[
]-1
v∗i(t∗i) = -
Di
BTiΦi(t∗i|t∗i+1,... ,t∗N
Bi
×
(5.13)
BTiΦi(t∗i|t∗i+1,... ,t∗N
Aix∗i-1(t∗i).
Наименьшее значение функционала, оптимальное количество переключе-
ний N и оптимальные моменты переключений t∗1,... ,t∗N являются реше-
нием задачи минимизации (5.11).
Подчеркнем, что условные оптимальные управления (5.9), (5.10) линей-
ны по состоянию системы. Однако количество переключений N и моменты
переключений t∗1, . . . , t∗N , которые находятся в (5.11), в общем случае нели-
нейно зависят от начального состояния x0. Поэтому оптимальные управле-
ния (5.12), (5.13) ГСПР оказывается нелинейными по состоянию в отличие
от классических ЛКЗ оптимального управления.
56
6. Синтез оптимального в среднем управления
Как было показано выше, оптимальное в среднем управление совпадает с
условным оптимальным управлением wT одной траекторией, исходящей из
математического ожидания x0 начального состояния системы. Для синтеза
такого управления используем так называемую функцию стоимости полуоп-
тимального процесса [5], значение βi(t, xi, x) которой по определению рав-
но значению функционала оставшихся потерь (5.2), вычисленному на тра-
ектории x(·), исходящей из позиции (t, xi), при управлении w, оптимальном
для траектории x(·), исходящей из позиции (t, xi). Иначе говоря, функция
βi(t,xi,x) равна значению функционала оставшихся потерь на полуоптималь-
ном процессе (x(·), w), в котором управление w оптимальное (правда, для тра-
ектории x(·)), а траектория x(·) неоптимальная, хотя получается при управ-
лении w. При совпадении аргументов xi = xi имеет место равенство
(6.1)
ϕi(t, xi) = βi(t, xi, xi).
Чтобы получить функцию стоимости βi(t, xi, x), будем использовать, как
и для функции цены, вспомогательные функции. Функцию βi(t, xi, xi|ti+1,
...,tN), равную (по определению) значению функционала оставшихся по-
терь (5.2), вычисленному на траектории, исходящей из позиции (t, xi), при
условном оптимальном управлении wT , имеющем k = N - i переключений
в моменты T = {ti+1, . . . , tN }, для траектории, исходящей из позиции (t, xi),
будем называть k-моментной функцией стоимости полуоптимального про-
цесса после i-го переключения.
Рекуррентная процедура нахождения моментных функций стоимости по-
луоптимального процесса для гибридных систем постоянной размерности
представлена в [5]. Опишем аналогичную процедуру для ГСПР. Согласно
определению моментная функция стоимости (t, xi) → βi(t, xi, xi|ti+1, . . . , ti+k)
на [ti, ti+1] × Xi × Xi удовлетворяет дифференциальному уравнению
∂βi
∂βi
∂βi
(6.2)
+
[Ai(t)xi + Bi(t)ui] +
[Ai(t)xi + Bi(t)ui
]+
∂t
∂xi
∂xi
1
1
+
xTCi(t)xi +
uTiDi(t)ui = 0
2
2
с терминальным условием в момент переключения ti+1:
1
1
(6.3)
βi(ti+1,xi,xi|ti+1,... ,tN ) =
xTi
Ci+1xi +
vTi+1 Di+1vi+1+
2
2
(
)
i+1
ti+1
Ai+1xi
Bi+1vi+1
Ai+1xi
Bi+1vi+1|ti+2,... ,tN
В уравнениях (6.2), (6.3) условные оптимальные управления ui и vi имеют
вид (5.10) и (5.9) соответственно для состояния xi = xi. Как и ранее, для
сокращения записи рекуррентных уравнений аргумент ti+1 у матриц не ука-
зывается.
57
Для ЛКЗ моментная функция стоимости будет квадратичной:
(6.4)
βi (t,xi,xi |ti+1,... ,tN
)=
1
1
1
1
=
xTiΦixi +
xTiΦiΔxi +
ΔxTiΦixi +
ΔxTiΓiΔxi +
2
2
2
2
+ λi+1 (ti+1) + ... + λN (tN).
Здесь Γi = Γi(t|ti+1, . . . , tN )
симметрическая неотрицательно определен-
ная матрица порядка ni, абсолютно непрерывная по t на [ti, ti+1]; Δxi =
= xi - xi; Φi = Φi(t|ti+1,...,tN) матрица k-моментной функции цены (5.3),
k = N - i. При Δx = 0 получаем равенство (6.1). Подставляем (6.4) в урав-
нения (6.2), (6.3). Учитывая, что матрицы Φi удовлетворяют уравнени-
ям (5.6), (5.8), для нахождения матриц Γi, i = 0, 1, . . . , имеем следующую
рекуррентную процедуру.
Матрица Γi как функция времени t → Γi(t|ti+1, . . . , tN ) на промежутке
[ti, ti+1] удовлетворяет дифференциальному уравнению
(6.5)
Γi + ATi(t)Γi + ΓiAi(t) - Ci
(t) = 0
с терминальным условием в момент переключения ti+1:
Γi (ti+1 |ti+1,... ,tN) =
(6.6)
=
ATi+1 Γi+1 (ti+1 |ti+2,... ,tN
Ai+1
Ci+1.
Здесь Γi+1(ti+1|ti+2, . . . , tN ) матрица (N - i - 1)-моментной функции стои-
мости после (i + 1)-го переключения. Матрица Γi(t) нульмоментной функ-
ции стоимости удовлетворяет уравнению (6.5) с терминальным условием
Γi(tF ) = F. В отличие от уравнения Риккати (5.6) и рекуррентного уравне-
ния (5.8) дифференциальное уравнение (6.5) и рекуррентное уравнение (6.6)
линейные, что упрощает процедуру решения.
По функции стоимости находим среднее значение (2.8) функционала ка-
чества
(6.7)
I(t0, p0, wT ) = p0(x00(t0, x0, x0)dx0.
X0
Упростим (6.7) для условного оптимального управления wT , T = {t1, . . . , tN },
траекторией, исходящей из математического ожидания x0 начального состоя-
ния системы. Подставляя (6.4) в (6.7) и учитывая, что среднее значение
Δx = 0, получаем
1
I(t0, p0, wT ) =
xT0Φ0(t0|t1,... ,tN )x0 +
2
(6.8)
1
+
tr [Γ0(t0|t1, . . . , tN )K0] +
λi(ti).
2
i=1
58
Здесь K0
матрица ковариации случайного вектора x0:
K0 = (x0 - x0)(x0 - x0)T.
Для завершения синтеза оптимального в среднем управления остается
определить количество переключений N и сами моменты переключений
t1,... ,tN , решая задачу конечномерной минимизации
{
N
1
(6.9) min I = min
min
xT0Φ0(t0|t1,... ,tN )x0 +
λi(ti) +
N ∈Z+
t0≤t1...≤tN ≤tF
2
i=1
}
1
+
tr [Γ0(t0|t1, . . . , tN )K0]
2
Заметим, что из-за положительности затрат (2.5) минимум (6.9) достигается
при конечном числе переключений N.
Таким образом, справедливо следующее утверждение.
Теорема 3 (оптимальное в среднем управление). Оптимальное в сред-
нем управление линейной ГСПР (2.1)-(2.3) с квадратичным функционалом
качества (2.4) имеет вид
(
)
ui (t) = -D-1i (t)BTi (t) Φi
t|ti+1,...,tN
xi (t) ,
[
]
t∈
ti,ti+1
,
i = 0,1,...,N,
[
]-1
(
)
vi(ti) = -
Di
BTiΦi
ti |ti+1,... ,tN
Bi
×
(
)
(
)
×
BTiΦi
t∗i |ti+1,... ,tN
Aixi-1
ti
Наименьшее среднее значение функционала, оптимальное количество пере-
ключений N и оптимальные моменты переключений t1, . . . , tN являются
решением задачи минимизации (6.9).
Как видим, при синтезе оптимального в среднем управления задача на-
блюдения нахождение математического ожидания начального состояния
системы вполне тривиальная и решается отдельно от задачи управления.
Задача синтеза условного оптимального управления также решается незави-
симо от задачи наблюдения. Однако завершающая операция синтеза опти-
мального в среднем управления поиск оптимальных моментов переключе-
ний (6.9) выполняется при известных математическом ожидании и кова-
риационной матрице вектора начального состояния. Иначе говоря, послед-
нюю операцию синтеза оптимального в среднем управления нельзя отделить
от задачи наблюдения.
Отметим случай, когда выполняется классический принцип разделения.
Следствие. Если матрица Γ0(t0|t1,...,tN), удовлетворяющая уравне-
ниям (6.5), (6.6), не зависит от моментов переключений t1,... ,tN , то оп-
тимальное в среднем управление линейной ГСПР с квадратичным функцио-
налом качества совпадает с оптимальным управлением одной траекторией,
исходящей из математического ожидания начального состояния системы.
59
Доказательство. В самом деле, подставляя в (6.9) Γ0(t0|t1,...,tN) =
= Γ0(t0), получаем задачу минимизации
{
}
N
1
min I = min
min
xT0Φ0(t0|t1,... ,tN )x0 +
λi(ti)
+
N ∈Z+
t0≤t1...≤tN
2
(6.10)
i=1
1
+
tr [Γ(t0)K0] .
2
Последнее слагаемое не зависит от переключений. Поэтому решение задачи
минимизации (6.10) совпадает с решением задачи (5.11) при x0 = x0. Значит,
оптимальное в среднем управление и оптимальное управление для траекто-
рии, исходящей из математического ожидания начального состояния, сов-
падают, так как имеют одинаковое количество переключений и одинаковые
моменты переключений, что и требовалось доказать.
7. Примеры
Рассмотрим две ЛКЗ управления в среднем гибридными системами. В пер-
вом примере для ГСПР выполняется классический принцип разделения. Во
втором примере для гибридной системы второго порядка классический прин-
цип не выполняется, а условный оказывается справедливым.
Пример 1 (движение носителя c отделением управляемых объек-
тов). Гибридная система представляет собой группу объектов, количество
которых увеличивается с каждым переключением. Движение начинает один
составной объект (носитель) массы M. При каждом переключении от него
отделяется один простой объект массы m, который продолжает самостоя-
тельное управляемое движение. Количество управляемых объектов, а следо-
вательно, и размерность гибридной системы, увеличивается с каждым пере-
ключением. Сформулируем постановку задачи.
Пусть на заданном промежутке времени T = [t0, tF ] динамическая систе-
ма совершает N переключений в моменты времени t1, . . . , tN : t0 ≤ t1
...≤tN ≤tF.
Между неравными последовательными моментами переключений ti < ti+1
движение носителя и отделившихся простых объектов описываются диффе-
ренциальными уравнениями:
x = y(t), (M - im)y = u(t),
(7.1)
xj = yj(t), m yj = uj(t), t ∈ [ti,ti+1].
Здесь x, y, u координаты состояния носителя и его управление, (M - im)
масса носителя после отделения от него i объектов; xj, yj , uj координаты и
управление j-го объекта, j = 1, . . . , i; m масса каждого простого объекта.
Ограничения на координаты и управления отсутствуют. Масса носителя не
меньше суммарной массы переносимых объектов M ≥ Nm.
В момент переключения ti от носителя отделяется i-й объект под действи-
ем управления vi, а состояния носителя и ранее отделившихся объектов не
60
меняются:
x(ti) = x(ti - 0), y(ti) = y(ti - 0);
(7.2)
xi(ti) = x(ti), yi(ti) = y(ti) + vi;
xj(ti) = xj(ti - 0), yj(ti) = yj(ti - 0), j = 1,... ,i - 1.
Качество управления оценивается квадратичным функционалом
I (t0, x0, y0, w) =
}
[
]
{ (M - im)
m
=
u2 (t) +
u21 (t) + ... + u2i (t)
dt +
2M
2M
i=0
ti
(7.3)
∑{
[
]}
m
m
+
λi (ti) +
v2i +
x2i (tF ) + y2i (tF )
+
2M
2M
i=1
M -Nm
[
]
+
x2 (tF ) + y2 (tF )
,
2M
где (x0, y0) начальное состояние носителя, λi(ti) = αi(tF - t)2 + βi поло-
жительные затраты на i-е переключение, αi > 0, βi > 0, i = 1, . . . , N. Весовые
коэффициенты в (7.3) перед квадратами переменных пропорциональны мас-
сам простых объектов и массе носителя после отделения простых объектов
соответственно.
Начальное состояние (x0, y0) носителя является случайным вектором,
имеющим равномерное распределение на квадрате 0 ≤ x ≤ 2, 0 ≤ y ≤ 2. Каче-
ство управления системой со случайным начальным состоянием оценивается
средним значением функционала (7.3):
2
2
1
(7.4)
I(t0, w) =
I(t0, x0, w)dx0dy0.
4
0
0
Требуется найти:
1) наименьшее значение функционала (7.3) и оптимальное управление для
процесса, удовлетворяющего начальному условию x0 = 1, y0 = 1;
2) наименьшее среднее значение (7.4) функционала (7.3) и оптимальное в
среднем управление, на котором это значение достигается.
Будем искать решение задачи при следующих значениях параметров:
t0 = 0, tF = 10, M = 3, m = 1, α1 = 0,012, α2 = 0,0145, β1 = β2 = 0,01. Посколь-
ку M = 3m, то количество отделяемых объектов не более двух (N ≤ 2). По
сравнению с общей постановкой задачи вектор состояния системы до перво-
го переключения имеет вид (x, y)T, между переключениями (x, y, x1, y1)T,
после второго переключения (x, y, x1, y1, x2, y2)T. Матрицы в уравнениях
движения (2.2), (2.3) для рассматриваемой задачи имеют соответствующие
размеры. Например, в момент первого переключени
A1 = diag(E2,E2), где
61
E2
единичная матрица второго порядка
B1 =
(0
0
0
1)T; после второго
переключения
T
((
)
(
)
(
))
0
1
0
0
0
0
0
1
0
1
0
1
A2 = diag
,
,
,
B2 =0 0 0 1 0 0 .
0
0
0
0
0
0
0
0
0
0
0
1
1. Перед синтезом оптимального управления ГСПР рассмотрим две про-
стые вспомогательные задачи. Первая задача это ЛКЗ Больца
(7.5)
x(t) = y(t), M y(t) = u,
tF
1
1
1
I =
u2(t)dt +
F11x2(tF ) + F12x(tF )y(tF ) +
F22y2(tF ) → min.
2
2
2
t
В этой задаче функция цены квадратичная ϕ(t, x, y) =12 ϕ11x2 + ϕ12xy+
+12ϕ22y2, причем матрица Φ = (ϕij) квадратичной формы удовлетворяет
уравнению Риккати, аналогичному (5.6). Записывая для элементов матри-
цы Φ дифференциальные уравнения, получаем систему
ϕ212
ϕ12ϕ22
ϕ222
ϕ11(t) -
= 0,
ϕ12(t) + ϕ11 -
= 0,
ϕ22(t) + 2ϕ12 -
= 0.
M2
M2
M2
Решение этой системы с терминальными условиями ϕ11(tF ) = F11, ϕ12(tF ) =
= F12, ϕ22(tF) = F22 имеет вид
τ2
M2F11 + |F|τ
M2(F11τ + F12) + |F|
2
ϕ11(t) = M2
,
ϕ12(t) = M2
,
Δ
Δ
τ3
M2(F11τ2 + 2F12τ + F22) + |F|
3
ϕ22(t) = M2
,
Δ
(
)
τ3
где Δ = M4 + M2 F11
|F | , τ = tF - t, |F| = F11F22-
3
2
−F212
определитель симметрической матрицы F = (Fij ). Оптимальное по-
зиционное управление линейное по состоянию системы
ϕ12(t)x + ϕ22(t)y
(7.6)
u(t, x, y) = -
M
Обозначим через Φ = Φ(t|tF , M, F ) матрицу квадратичной функции цены ϕ.
Вторая вспомогательная задача это дискретная одношаговая ЛКЗ Боль-
ца
1
1
1
x1 = x0, y1 = y0 + v, I =
v2 +
F11x21 + F12x1y1 +
F22y21 → min.
2
2
2
Функция цены в этой задаче квадратичная
ϕ(x, y) =12ϕ11x2 + ϕ12xy +12ϕ22y2,
ее коэффициенты находятся по формулам
F212
F12
F22
ϕ11 = F11 -
,
ϕ12 =
,
ϕ22 =
1+F22
1+F22
1+F22
62
Оптимальное позиционное управление линейно по состоянию
F12x + F22y
(7.7)
v(x, y) = -
1+F22
Обозначим черезΦ =Φ(F ) матрицу квадратичной функции цены
ϕ.
При помощи матриц Φ(t|tF , M, F ) иΦ(F ) можно выразить матрицы квад-
ратичных форм моментных функций цены (5.5). Записывая эти выражения,
матрицы, соответствующие носителю, будем указывать без индекса, а со-
ответствующие простым объектам с индексом, равным номеру объекта.
Например, матрица нульмоментной функции цены после второго переключе-
ния имеет вид diag(Φ(t), Φ1(t), Φ2(t)); матрица одномоментной функции цены
между переключениями diag(Φ(t|t2), Φ1(t)).
Для нульмоментной функции цены ϕ0(t0, x0, y0) матрица Φ0(t0) находится
по формуле Φ0(t0) = Φ(t0|tF , M, E2), так как задача без переключений сов-
падает с задачей Больца (7.5) при F = E2.
Матрица Φ0(t0|t1) одномоментной функции цены ϕ0(t0, x0, y0|t1) нахо-
дится следующим образом. Сначала определяются матрицы нульмомент-
ных функций цены для носителя Φ(t1) = Φ(t1|tF , M - m, E2) и для просто-
го объекта Φ1(t1) = Φ(t1|tF , m, E2) в момент t1 после переключения. Затем
находим матрицу Φ0(t1|t1) =M-mM Φ(t1) +mM Φ(Φ1(t1)) одномоментной функ-
ции цены в момент t1 перед переключением. И по формуле Φ0(t0|t1) =
= Φ(t0|t1,M,Φ0(t1|t1)) получаем искомую матрицу.
Для двухмоментной функции цены ϕ0(t0, x0, y0|t1, t2) процедура нахож-
дения матрицы Φ0(t0|t1, t2) аналогичная. Сначала определяются матрицы
нульмоментных функций цены для носителя Φ(t2) = Φ(t2|tF , M - 2m, E2),
первого Φ1(t1) = Φ(t1|tF , m, E2) и второго Φ2(t2) = Φ(t2|tF , m, E2) простых
объектов. Затем находим матрицу одномоментной функции цены для носи-
теля в момент t2 перед переключением Φ(t2|t2) =M-2mM Φ(t2) +mM Φ(Φ2(t2)).
Потом находим матрицу Φ(t1|t2) = Φ(t1|t2, M - m, Φ(t2|t2)) одномоментной
функции цены для носителя в момент t1 после первого переключения. Далее
определяем матрицу двухмоментной функции цены в момент t1 перед пер-
вым переключением Φ0(t1|t1, t2) =M-mM Φ(t1|t1, t2) +mM Φ(Φ1(t1)). И по фор-
муле Φ0(t0|t1, t2) = Φ(t0|t1, M, Φ(t1|t1, t2)) получаем искомую матрицу.
В результате описанной процедуры находятся моментные функции цены.
В задаче без переключений наименьшее значение функционала качества (7.3)
для заданного начального состояния (x0, y0) = (1, 1)T вычисляется по нуль-
моментной функции цены min I0 = ϕ0(0, 1, 1) = 1,7321. Для задач с переклю-
чениями нужно выполнить оптимизацию моментов переключений, решая со-
ответственно задачи
min I1 = min
ϕ0(0,1,1|t1), minI2 =
min ϕ0(0, 1, 1|t1, t2).
0≤t1≤tF
0≤t1≤t2≤tF
В первой задаче получаем min I1 = 1,7231 при t1 = 2,163; во второй min I2 =
= 1,7031 при t1 = 2,32, t2 = 9,72.
При численном решении задачи моментные функции находились по точ-
ным формулам, а оптимизация моментов переключений выполнялась при-
ближенно перебором на сетке с шагом 0,001 для одного переключения и с
63
Рис. 1.
y
1
0
1
2
3
x
-1
Рис. 2.
шагом 0,01 с двумя переключениями. Условные оптимальные траектории с
одним и двумя переключениями представлены на рис. 1 и 2 соответствен-
но. Сплошной линией изображается движение носителя и второго объек-
та, штриховой первого объекта, двойными стрелками отделение объ-
екта от носителя. Условные оптимальные управления определяются форму-
лами (7.6), (7.7). Таким образом, оптимальным является процесс с двумя
переключениями.
2. Для решения задачи оптимального в среднем управления ГСПР нужно
найти моментные функции стоимости (6.4). Разумеется, речь идет о матри-
цах Γ, так как матрицы Φ моментных функций цены уже найдены в п. 1.
В рассматриваемом функционале (7.3) матрицы Ci
Ci нулевые, а собствен-
ные движения (без управления) носителя и простых объектов описываются
одинаковыми уравнениями. Поэтому матрицы Γ для носителя и простых объ-
ектов будут отличаться только коэффициентами, пропорциональными мас-
сам.
Обозначим через Γ(t|tF , F ) симметрическую матрицу второго порядка c
элементами
γ11(t) = F11, γ12(t) = F12 + F11τ, γ22(t) = F22 + 2F12τ + F11τ2,
где τ = tF - t. Эта матрица удовлетворяет уравнению (6.5) для нульмомент-
ной функции стоимости c терминальным условием Γ(tF |tF , F ) = F .
64
C помощью этой матрицы выразим все матрицы Γ для моментных функ-
ций стоимости. Как и ранее, матрицы, соответствующие носителю, будем
писать без индекса, а соответствующие простым объектам с индексами,
равными номеру объекта.
Для нульмоментной функции стоимости β0(t0, x0, y0, x0, y0) матрица Γ0(t0)
находится по формуле Γ0(t0) = Γ(t0|tF , E2).
Матрица Γ0(t0|t1) одномоментной функции стоимости β0(t0, x0, y0, x0, y0|t1)
находится следующим образом. Сначала определяются матрицы нульмомент-
ных функций стоимости для носителя Γ(t1) =(M-m)M Γ(t1|tF , E2) и для про-
стого объекта Γ1(t1) =mM Γ(t1|tF , E2) в момент t1 после переключения. В мо-
мент переключения эти матрицы складываются: Γ0(t1|t1) = Γ(t1) + Γ1(t1) =
= Γ(t1|tF ,E2)
матрица одномоментной функции стоимости в момент t1
перед переключением. Последнее равенство записано, так как сумма ве-
совых коэффициентов равна единице. Наконец, по формуле Γ0(t0|t1) =
= Γ(t0|t10(t1|t1)) получаем искомую матрицу. Отметим, что из-за непре-
рывности продолжения решения дифференциальных уравнений имеем ра-
венство Γ(t0|t1, Γ0(t1|t1)) = Γ(t0|t1, Γ(t1|tF , E2)) = Γ(t0|tF , E2). Поэтому мат-
рица Γ0 одномоментной функции стоимости не зависит от момента переклю-
чения t1: Γ0(t0|t1) = Γ0(t0).
Аналогично доказывается, что матрица Γ0(t0|t1, t2) двухмоментной функ-
ции стоимости β0(t0, x0, y0, x0, y0|t1, t2) также не зависит от моментов пере-
ключений t1,t2.
Таким образом, согласно следствию, в рассматриваемой ЛКЗ принцип раз-
деления выполняется. Поэтому оптимальное управление (с двумя переклю-
чениями), наденное в п. 1 для математического ожидания (x0, y0) = (1, 1) на-
чального состояния, является оптимальным в среднем управлением ГСПР.
Наименьшее среднее значение функционала вычисляется по формуле (6.10):
1
min I2 =
(x0, y0)TΦ0(t0|t1, t2)(x0, y0) + λ1(t1) + λ2(t2) +
2
1
+
tr [Γ(t0)K0] = 18,7031,
2
где K0 =13 E2, а моменты переключений такие же как в п. 1: t1 = 2,32,
t2 = 9,72.
Пример 2 (движение с переключениями канала управления). Пусть на
заданном промежутке времени [0, 3] гибридная система постоянной раз-
мерности совершает N переключений (скачков) в моменты времени ti,
i = 1,...,N, которые образуют неубывающую конечную последовательность:
0 ≤ t1 ≤ ... ≤ tN ≤ tN+1 ≜ 3. Между неравными последовательными момен-
тами переключений состояние системы изменяется непрерывно, согласно
дифференциальным уравнениям:
(7.8)
x1(t) = u(t),
x2(t) = x2(t), t ∈ Ti
,
i∈N,
а в моменты переключений дискретно в соответствии с рекуррентными
уравнениями
(7.9)
x1i = x2i- + vi, x2i = x1-
,
i = 1,...,N.
65
Здесь, как и ранее, N ≜ {i = 0, 1, . . . , N |ti < ti+1 } - множество номеров ненуле-
вых (по длине) частичных промежутков Ti = [ti, ti+1] непрерывного движения
системы; x(t) - состояние системы в момент времени t ∈ Ti, x = (x1, x2)T ∈ X =
= R2; u(t) значение управления непрерывным движением системы в мо-
мент времени t ∈ Ti, u ∈ R. В уравнении (7.9): xi = (x1i, x2i) = x(ti) состоя-
ние системы сразу после i-го переключения, xi- = (x1i-, x2i-) состояние
системы непосредственно перед i-м переключением; vi управление пере-
ключением системы в момент ti ∈ T , vi ∈ R, T = {t1, . . . , tN }.
Качество процесса управления оценивается квадратичным функционалом
3
∑(
)
1
[
]
η
(7.10)
I(x0, w) =
u2(t) + x21(t) + x22(t)
dt +
λ+
v2
,
i
2
2
i=1
0
где x0
начальное состояние системы, w = (u(·), v(·)) допустимое управ-
ление. Коэффициенты λ и η определяют затраты на каждое переключение.
Количество N и моменты переключений t1, . . . , tN заранее не заданы и под-
лежат оптимизации.
Начальное состояние (x0, y0) является случайным вектором, имеющим
равномерное распределение на параллелограмме с вершинами A(7,5; 5),
B(8,5; 5), C(7,5; 6), D(6,5; 6). Качество управления системой со случайным
начальным состоянием оценивается средним значением функционала (7.10):
(7.11)
I(t0, w) =
I(x0, w)dx0.
ABCD
Требуется найти:
1) оптимальное управление w для траектории, исходящей из центра x0 =
= (7,5; 5,5) параллелограмма ABCD, и соответствующее этому управлению
значение функционала (7.10);
2) оптимальное в среднем управление w и соответствующее этому управ-
лению среднее значение (7.11) функционала (7.10).
В системе (7.8), (7.9) имеется один канал управления: первая координата
управляема при непрерывном движении, а вторая - нет (она экспоненциаль-
но отклоняется от нуля). В момент переключения фактически происходит
взаимная замена координат состояния неуправляемая координата стано-
вится управляемой и наоборот, причем значение первой управляемой коор-
динаты корректируется при помощи управления. Таким образом, совершая
переключения (т.е. меняя канал управления), можно попеременно управлять
координатами состояния системы.
По сравнению с общей постановкой задачи имеем гибридную систему
постоянной размерности (второго порядка) со скалярными управлениями:
X = R2, U = V = R, t0 = 0, tF = 3. Нижнюю индексацию количества сделан-
ных переключений у вектора состояния xi(t), функций цены ϕi (стоимости βi)
и моментных функций цены (стоимости), а также соответствующих матриц
опускаем.
66
1. Перед синтезом оптимального управления ГСПР рассмотрим вспомога-
тельную ЛКЗ Больца
x1(t) = u(t),
x2(t) = x2(t), t0 ≤ t ≤ tF , x(t0) = (x10,x20)T,
tF
1
[
]
1
I(x0, w) =
u2(t) + x21(t) + x22(t)
dt +
xT(tF )Fx(tF ) → min,
2
2
t0
где F симметрическая неотрицательно определенная матрица второго по-
рядка. Функция цены в этой задаче квадратичная ϕ(t, x) =12 xTΦ(t|tF , F )x.
Элементы симметрической матрицы Φ имеют вид [17]:
1
[
]
F12
Φ11 =
(1 + F211) sh 2τ + 2F12 ch 2τ
,
Φ12 =
eτ ,
2
Δ
(
)
F212e
1
Φ22 = -
shτ +
e - 1
+F22e,
Δ
2
где τ = tF - t, Δ = ch τ + Φ11 sh τ. Оптимальное позиционное управление ли-
нейно по состоянию u(t, x) = -Φ11(t)x1 - Φ12(t)x2.
Перейдем к нахождению моментных функций цены, которые имеют вид:
1
ϕ(t0, x|t1, . . . , tk) =
xTΦ(t|t1,... ,tk)x + kλ.
2
Непрервное изменение матриц Φ моментных функций цены выражается при
помощи матрицы Φ, а скачки при переключениях определяются рекуррент-
ным уравнением
(
)
1
ηΦ22 + Φ11Φ22 - Φ212 ηΦ12
(7.12)
Φ(t1|t1, . . . , tN ) =
η+Φ11
ηΦ12
ηΦ11
В правой части уравнения (7.12) стоят элементы матрицы Φ(t1|t2, . . . , tN ),
предшествующей (N - 1)-моментной функции цены. Условное оптималь-
ное позиционное управление переключением системы v(t1, x|t2, . . . , tN ) =
= -Φ12x1 - Φ11x2.
Для нульмоментной функции цены ϕ(t0, x0) матрица Φ(t0) получается по
формуле Φ(t0) = Φ(t0|tF , O), где O нулевая квадратная матрица второго
порядка.
Матрица Φ(t0|t1) одномоментной функции цены ϕ(t0, x0, y0|t1) находится
следующим образом. Сначала определяется матрица нульмоментной функ-
ции цены Φ(t1) = Φ(t1|tF , O) в момент t1 после переключения. Затем матрица
Φ(t1|t1) одномоментной функции цены в момент t1 перед переключением, ко-
торая определяется рекуррентным уравнением (7.12) c элементами матрицы
Φ(t1) в правой части. Наконец, по формуле Φ(t0|t1) = Φ(t0|t1, Φ0(t1|t1)) полу-
чаем искомую матрицу. Продолжая аналогичным образом, получаем следую-
щие моментные функции цены [17].
На каждом шаге рекуррентной процедуры определяем наименьшее значе-
ние функционала (7.10) при фиксированном числе переключений
}
{1
(7.13)
Ik =
min
xT0Φ(t0|t1,... ,tk)x0 + kλ
,
k = 1,2,...
t0≤t1≤...≤tk≤tF
2
67
Рис. 3.
Условием окончания служит неравенство Ik ≤ Ik+1, т.е. шаг k, после которого
наименьшие значения (7.13) перестают убывать. Проверку нужно начинать с
неравенства I0 ≤ I1, где I0 = ϕ(t0, x0) наименьшее значение функционала
в задаче без переключений.
При численном решении задачи моментные функции находились по точ-
ным формулам, а оптимизация моментов переключений выполнялась при-
ближенно перебором на сетке с шагом 0,01. Для заданного начального состоя-
ния были получены следующие значения функционалов:
I0 = 2547,0217, I1 = 111,97371, I2 = 111,74633,
I3 = 111,70389, I4 = 111,76546.
Так как I3 < I4, то оптимальной оказывается траектория с тремя переклю-
чениями в моменты времени: t1 = 0,35, t2 = 1,15, t3 = 2,15. На рис. 3 опти-
мальная фазовая траектория изображена сплошной линией, начинающейся
в точке x0, состояния непосредственно до и после переключений отмечены
маленькими окружностями, направление движения указано стрелками.
2. Для решения задачи оптимального в среднем управления нужно найти
моментные функции стоимости (6.4), которые для рассматриваемой задачи
имеют вид
1
1
β(t, x, x|t1, . . . , tN ) =
xTΦxi +
xTΦΔxi +
2
2
(7.14)
1
1
+
ΔxTΦx +
ΔxTΓΔx + Nλ.
2
2
68
Матрицы Φ моментных функций цены найдены в п. 1 решения. Поэтому для
формирования (7.14) остается получить матрицы Γ. В формуле (7.14) учи-
тывается, что при Δx = 0 выполняется равенство (6.1).
Обозначим через Γ(t|tF , F ) симметрическую матрицу второго порядка c
элементами
1
(
)
Γ11 = F11 + τ, Γ12 = F12eτ , Γ22 = F22 + e +
e - 1
2
Эта матрица удовлетворяет уравнению (6.5), соответствующему решаемой
задаче, с терминальным условием Γ(tF |tF , F ) = F .
Запишем также рекуррентное уравнение (6.6) для рассматриваемой ЛКЗ
(
)
Γ22
Γ12
(7.15)
Γ(t1|t1, . . . , tN ) =
Γ12
Γ11
В правой части уравнения (7.15) стоят элементы матрицы Γ(t1|t2, . . . , tN ),
предшествуюшей (N - 1)-моментной функции стоимости β(t1, x, x|t2, . . . , tN ).
Для нульмоментной функции стоимости β(t0, x0, x0) матрица Γ(t0) полу-
чается по формуле Γ(t0) = Γ(t0|tF , O), где O нулевая квадратная матрица
второго порядка.
Матрица Γ(t0|t1) одномоментной функции стоимости β(t0, x0, x0|t1) на-
ходится следующим образом. Сначала определяется матрица нульмомент-
ной функции стоимости Γ(t1) = Γ(t1|tF , O) в момент t1 после переключения.
Затем получаем матрицу Γ(t1|t1) одномоментной функции стоимости в мо-
мент t1 перед переключением, которая определяется рекуррентным уравне-
нием (7.15) c элементами матрицы Γ(t1) в правой части. Наконец, по формуле
Γ(t0|t1) = Γ(t0|t1, Γ(t1|t1)) получаем искомую матрицу. Продолжая аналогич-
ным образом, получаем моментные функции стоимости.
На каждом шаге рекуррентной процедуры определяем наименьшее сред-
нее значение функционала (7.10) при фиксированном числе переключений.
Для этого решаем задачу минимизации, используя формулу (6.8):
}
{1
1
Ik = min
xT0Φ(t0|t1,... ,tk)x0 +
tr [Γ0(t0|t1, . . . , tN )K0] + kλ
t0≤t1...≤tk
2
2
Для заданного распределения начального состояния были получены следую-
щие значения функционалов:
I0 = 3076,988, I1 = 119,663, I2 = 115,185,
I3 = 115,066, I4 = 115,016, I5 = 115,058.
Так как I4 < I5, то оптимальным в среднем оказывается управление с
четырьмя переключениями в моменты времени t1 = 0,2, t2 = 0,6, t3 = 1,4,
t4 = 2,2. Для этого управления на рис. 3 изображены множества возможных
состояний системы в начальный и конечный моменты времени, представляю-
щие собой параллелограммы, а также траектория, исходящая из математиче-
ского ожидания x0 = (7,5; 5,5)T. Отметим, что эта траектория (штриховая ли-
ния) отличается от оптимальной траектории для того же начального состоя-
ния (сплошная линия). У этих процессов даже разное количество переклю-
чений. Значит, классический принцип разделения не выполняется. Условный
69
принцип разделения выполняется, так как оптимальное в среднем управле-
ние является условным оптимальным для траектории, исходящей из центра
тяжести.
8. Заключение
Принцип разделения позволяет свести задачу оптимального в среднем
управления детерминированной системой со случайным начальным состояни-
ем к совокупности двух задач оптимального управления одной траектори-
ей и оптимального наблюдения. Решением задачи наблюдения служит оценка
начального состояния, например его математическое ожидание. Эта оценка
используется в оптимальном позиционном управлении, полученном при реше-
нии задачи управления одной траекторией. Обоснованием такого подхода для
ЛКЗ управления ГСПР служит доказанный в статье так называемый услов-
ный принцип разделения. По сравнению с обычным принципом разделения,
справедливым для ЛКЗ оптимального в среднем управления непрерывными,
дискретными и непрерывно-дискретными системами, условный принцип раз-
деления сложнее с вычислительной точки зрения. Для его применения нужно
вычислить и запомнить моментные функции цены, которые зависят от на-
растающего количества моментов переключений. Это существенно повышает
требования к вычислительным ресурсам, необходимым для численного ре-
шения задачи. Если количество допустимых переключений небольшое из-за
технических ограничений, то решение задачи упрощается. Условный принцип
разделения можно применять и для нелинейных ГСПР. Поскольку принцип
разделения для нелинейных систем не выполняется, получаемое управление
не будет оптимальным в среднем. Однако на практике это субоптимальное
управление часто оказывается вполне приемлемым.
СПИСОК ЛИТЕРАТУРЫ
1. Овсянников Д.А. Математические методы управления пучками. Л.: Изд-во ЛГУ,
1980.
2. Куржанский А.Б. Управление и наблюдение в условиях неопределенности. М.:
Наука, 1977.
3. Бортаковский А.С. Оптимальное и субоптимальное управления пучками траек-
торий детерминированных непрерывно-дискретных систем // Изв. РАН. Теория
и системы управления. 2009. № 1. С. 18-33.
4. Бортаковский А.С., Немыченков Г.И. Оптимальное в среднем управление
детерминированными переключаемыми системами при наличии дискретных
неточных измерений // Изв. РАН. Теория и системы управления. 2019. № 1.
С. 52-77.
5. Бортаковский А.С. Теорема разделения в задачах управления пучками траекто-
рий детерминированных линейных переключаемых систем // Изв. РАН. Теория
и системы управления. 2020. № 2. С. 37-63.
6. Величенко В.В. Оптимальное управление составными системами // Докл. АН
СССР. 1967. Т. 176. № 4. С. 754-756.
7. Медведев В.А., Розова В.Н. Оптимальное управление ступенчатыми система-
ми // АиТ. 1972. № 3. С. 15-23.
70
Medvedev V.A., Rozova V.N. Optimal Control of Incremental Systems // Autom.
Remote Control. 1972. V. 33. No. 3. P. 359-366.
8.
Болтянский В.Г. Задача оптимизации со сменой фазового пространства // Диф-
ференц. уравнения. 1983. Т. 19. № 3. С. 518-521.
9.
Гурман В.И. Принцип расширения в задачах управления. М.: Наука, 1985.
10.
Емельянов С.В., Уткин В.И., Таран В.А. и др. Теория систем с переменной
структурой. М.: Наука, 1970.
11.
Кириллов А.Н. Динамические системы с переменной структурой и размерно-
стью // Изв. вузов. Сер. Приборостроение. 2009. Т. 52. № 3. С. 23-28.
12.
Sussmann H.J. A maximum principle for hybrid optimal control problems / Proc.
of 38th IEEE Conf. on Decision and Control. Phoenix, 1999.
13.
Dmitruk A.V., Kaganovich A.M. The Hybrid Maximum Principle is a consequence
of Pontryagin Maximum Principle // Syst. Control Lett. 2008. V. 57. P. 964-970.
14.
Миллер Б.М., Рубинович Е.Я. Оптимизация динамических систем с импульс-
ными управлениями. М.: Наука, 2005.
15.
Бортаковский А.С. Синтез оптимальных систем управления со сменой моделей
движения // Изв. РАН. Теория и системы управления. 2018. № 4. С. 57-74.
16.
Бортаковский А.С. Достаточные условия оптимальности гибридных систем пе-
ременнной размерности // Тр. МИАН. 2020. Т. 308. № 2. С. 88-100.
17.
Бортаковский А.С., Урюпин И.В. Минимизация количества переключений оп-
тимальных непрерывно-дискретных управляемых процессов // Изв. РАН. Тео-
рия и системы управления. 2019. № 4. С. 29-46.
18.
Летов А.М. Динамика полета и управление. М.: Наука, 1973.
19.
Wonham W.M. On the Separation Theorem of Stochastic Control // SIAM J. Con-
trol. 1968. V. 6. P. 312-326.
20.
Ли Э.Б., Маркус Л. Основы теории оптимального управления. М.: Наука, 1972.
21.
Овсянников Д.А. Моделирование и оптимизация динамики пучков заряженных
частиц. Л.: Изд-во Ленингр. ун-та, 1990.
22.
Беллман Р. Динамическое программирование. М.: Изд-во иностр. лит. 1960.
Статья представлена к публикации членом редколлегии А.И. Кибзуном.
Поступила в редакцию 02.03.2020
После доработки 18.05.2020
Принята к публикации 09.07.2020
71