Автоматика и телемеханика, № 7, 2019
© 2019 г. М.М. ХРУСТАЛЁВ, д-р физ.-мат. наук (mmkhrustalev@mail.ru),
Е.Е. ОНЕГИН (evgeny.onegin@phystech.edu)
(Институт проблем управления им. В.А. Трапезникова РАН, Москва;
Московский авиационный институт)
НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИЯ В ЗАДАЧЕ
ОПТИМАЛЬНОЙ СТАБИЛИЗАЦИИ КВАЗИЛИНЕЙНЫХ
СТОХАСТИЧЕСКИХ СИСТЕМ1
Рассматривается широкий класс допустимых стратегий управления,
обеспечивающих устойчивость системы в среднем квадратичном. Полу-
чены необходимые и одновременно достаточные условия оптимальности
линейного стационарного регулятора. Демонстрируется отличие постав-
ленной задачи от задачи оптимального управления на неограниченном
интервале времени. Суть полученных условий оптимальности продемон-
стрирована на примере стабилизации искусственного спутника Земли в
окрестности круговой орбиты.
Ключевые слова: квазилинейные стохастические системы, оптимальная
стабилизация, линейный регулятор.
DOI: 10.1134/S0005231019070031
1. Введение
Середина XX в. ознаменовалась интенсивным развитием теории стоха-
стических дифференциальных уравнений. Модели, описываемые подобными
уравнениями, нашли широкое применение в экономике, физике, биологии,
социологии и технике. Особый интерес представляют проблемы управления
подобными системами, в частности задача оптимального управления. Самым
развитым разделом теории оптимального управления стохастическими систе-
мами является оптимальное управление линейными системами с квадратич-
ным критерием [1]. Формулировка данной задачи без указания лишних на
данный момент подробностей состоит в следующем: требуется минимизиро-
вать функционал
t1
(
)
J (X, u) := E
X(s)TQX(s) + u(s, X(s))TEu(s, X(s)) ds → min,
u
t0
где u - стратегия управления, а X - векторный случайный процесс, описы-
ваемый стохастическим дифференциальным уравнением Ито
(
)
dX(t) = A0X(t) + B0u(t, X(t)) + C0 dt +
(1)
∑(
)
AiX(t) + Biu(t,X(t)) + Ci dWi(t).
i=1
1 Работа выполнена при финансовой поддержке государственного задания № 9.7555.
2017/БЧ.
89
Хорошо известно [2], что в случае, когда уравнения системы содержат
лишь аддитивные возмущения (матричные коэффициенты Ai, Bi, i = 1, k
равны нулю), для данной задачи имеет место принцип разделения. Кроме
того, если матрица E в критерии отрицательно определена, то решения за-
дачи в указанном случае нет. В то же время для систем вида (1) принцип
разделения, вообще говоря, не работает, и показано [3-5], что даже с отрица-
тельно определенной матрицей E в критерии задача может иметь решение.
С целью подчеркнуть эти и другие особенности в публикациях уравнения
вида (1) называют: линейными в широком смысле [6], с зависящими от со-
стояния и управления шумами [7-9], с мультипликативными шумами [10],
билинейными [11] или квазилинейными [12, 13].
Одной из упомянутых особенностей является то, что при Ci = 0, i = 0, k,
и u(t, 0) 0 система (1) имеет тривиальное решение X ≡ 0. При этом при-
обретают содержательный смысл вопрос асимптотической устойчивости в
среднем квадратичном нулевого решения замкнутой системы [14] и задача
оптимальной стабилизации с квадратичным критерием на неограниченном
интервале времени. Отметим, что управление, которое обеспечивает устой-
чивость замкнутой системы (если оно существует), с одной стороны, сводит
состояние системы к нулю в среднем квадратичном, а с другой - подавляет
воздействие случайных возмущений на систему. Задаче оптимальной стаби-
лизации квазилинейных стохастических систем посвящено достаточно много
публикаций (например [7-9, 15]), но при наиболее общих предположениях о
системе и критерии она рассмотрена в [16], где имеются достаточные усло-
вия оптимальности линейного стационарного регулятора. В настоящей статье
получены необходимые и одновременно достаточные условия оптимальности
линейного стационарного регулятора. Данный результат при дополнитель-
ных предположениях о системе был сформулирован в [17].
Структура статьи следующая: раздел 2 содержит постановку задачи, в
разделе 3 производятся вспомогательные построения, четвертый раздел со-
держит основной результат, в пятом разделе на модельном примере произ-
ведено сравнение исследуемой задачи оптимальной стабилизации с задачей
оптимальной стабилизации по части координат, в разделе 6 в качестве де-
монстрации рассмотрена задача оптимальной стабилизации искусственного
спутника Земли в окрестности заданной круговой орбиты.
2. Постановка задачи оптимальной стабилизации
Рассматривается стохастическое дифференциальное уравнение Ито вида
(
)
∑(
)
(2)
dX(t) = A0X(t) + B0u(t, X(t)) dt +
AiX(t) + Biu(t,X(t)) dWi
(t),
i=1
где t t0 - время; X - случайный процесс со значениями в Rn; W - стандарт-
ный винеровский процесс со значениями в Rk; (t, x)→u(t, x):[t0, +)×Rn
→Rm - измеримая по Борелю стратегия управления; Ai ∈ Rn×n, Bi ∈ Rn×m,
i = 0,k - постоянные матрицы.
90
Обозначим через DP0 множество процессов управления z = (X, u), которые
являются парами случайных процессов X и стратегий управления u таких,
что
1. При заданной стратегии управления u непрерывный случайный про-
цесс X является слабым решением [18, раздел 5.3] уравнения (2) с начальным
условием
(3)
PX(t0) = P0,
где PX(t0) означает распределение случайного вектора X(t0), а P0 - борелев-
ская вероятностная мера на Rn, удовлетворяющая условию
∥x∥4P0(dx) < +∞.
Rn
Предполагается, что X(t0) не зависит от W (t), t t0;
2. Выполнены условия:
t
t
(4)
E
∥X(s)4ds < +∞, E
∥u(s, X(s))4ds < +∞, t t0,
t0
t0
+
(
)
E
∥X(s)2 + ∥u(s, X(s))2 ds < +∞,
(5)
t0
lim E∥X(t)2 = 0,
t→+
где ∥ · ∥ - евклидова норма на Rn, E - оператор математического ожидания
(здесь и далее математическое ожидание берется в вероятностном простран-
стве, связанном с z).
Замечание 1. Здесь подразумевается, что вместе с каждым отдель-
но взятым процессом управления z имеется полное фильтрованное вероят-
ностное пространство (Ω, F, (Ft)tt0 , P), на котором заданы непрерывный
случайный процесс X = (X(t), Ft)tt0 и стандартный винеровский процесс
W = (W(t),Ft)tt0 такие, что выполнено начальное условие (3) и для каждо-
го t > t0 с вероятностью единица верно равенство (2). При этом под процессом
управления правильно понимать кортеж
(
)
z = (Ω,F,(Ft)tt0,P),(W(t),Ft)tt0,(X(t),Ft)tt0,u
С целью упростить обозначения далее не будем указывать данные подробно-
сти.
Замечание 2. Как известно, условия существования слабых решений
стохастического дифференциального уравнения являются более мягкими,
чем для существования сильных решений. С этой точки зрения рассмотре-
ние слабых решений позволяет охватить более широкий класс допустимых
91
стратегий управления. Однако представленные в данной работе результаты
остаются верны, если ограничить множество допустимых стратегий управ-
ления таким образом, чтобы стохастическое дифференциальное уравнение
имело сильные решения.
Замечание 3. Известно, что если неуправляемая стохастическая систе-
ма асимптотически устойчива в среднем квадратичном, то она экспонен-
циально устойчива в среднем квадратичном. Поэтому если линейный ста-
ционарный регулятор u(t, x) = -Lx обеспечивает асимптотическую устойчи-
вость в среднем квадратичном системы (2), то условия (4) и (5) выполнены
автоматически для любого процесса управления z = (X, u), удовлетворяюще-
го условию 1.
Пусть M - множ
выполнено условие
∥x∥4P0(dx) < +, а
Rn
D :=
DP0 .
P0∈M
На множестве D зададим функционал качества управления J : D → R,
+
(
J (z) = E
X(s)TQX(s) + X(s)TSu(s, X(s)) +
(6)
t0
)
+ u(s, X(s))TSTX(s) + u(s, X(s))TEu(s, X(s)) ds,
где Q ∈ Rn×n и E ∈ Rm×m - симметрические матрицы, Q 0, E ≻ 0; матрица
S ∈ Rn×m удовлетворяет условию Q - SE-1ST0.
Определение. Стратегию управления u будем называть стабилизи-
рующей, если при любом начальном распределении P0 ∈ M существует про-
цесс управления z = (X,u) ∈ DP0 .
Задача оптимальной стабилизации системы (2) состоит в поиске такой
стабилизирующей стратегии управления u, что при любом фиксированном
начальном распределении P0 ∈ M процесс управления z = (X, u) ∈ DP0 ми-
нимизирует критерий (6), т.е.
(7)
J (z) = min
J (z).
z∈DP0
Такую стратегию управления u будем называть оптимальной.
3. Вспомогательный функционал качества управления
Аналогично тому, как это было сделано в [16, 19, 20], построим для данной
задачи вспомогательный функционал качества управления. Для этого фик-
сируем некоторый процесс управления z = (X, u) ∈ D. Известно [18, теоре-
92
ма 4.2.1], что для всякой функции (t, x) → ϕ(t, x) : [t0, +) × Rn → R, имею-
щей непрерывные производные∂ϕ∂t ,
2ϕ , i,j = 1,n, верна формула Ито
∂xi∂xj
(
t
∂ϕ
(
)
ϕ(t0, X(t0))+
(s, X(s)) +xϕ(s, X(s))T
A0X(s)+B0u(s,X(s))
+
∂t
t0
)
1
(8)
+
(AiX(s) + Biu(s, X(s)))THϕx(s, X(s))(AiX(s) + Biu(s, X(s))) ds +
2
i=1
t
(
)
+
xϕ(s, X(s))T AiX(s) + Biu(s, X(s)) dWi(s) = ϕ(t, X(t)),
i=1
t0
( ∂ϕ
∂ϕ
гдеxϕ :=
,...,
)T - градиент функции ϕ(t, ·); Hϕx - матрица Гессе
∂x1
∂xn
функции ϕ(t, ·), (Hx)ij =
2ϕ , i,j = 1,n.
∂xj∂xi
Применяя данную формулу к функции ϕ(t, x) = xTMx, где M ∈ Rn×n -
симметрическая матрица, получим равенство
(
t
(
)
X(t0)TMX(t0) +
2X(s)TM
A0X(s) + B0u(s,X(s))
+
t0
)
+ (AiX(s) + Biu(s,X(s)))T M (AiX(s) + Biu(s,X(s))) ds +
i=1
t
(
(
))
+2
X(s)TM
AiX(s) + Biu(s,X(s))
dWi(s) = X(t)TMX(t).
i=1 t0
Возьмем математическое ожидание от левой и правой частей этого равен-
ства. Тогда, учитывая свойства [18, теорема 3.2.1] стохастического интеграла
Ито и требования (4), будем иметь
t
(
(
)
(
)
E X(t0)TMX(t0)
+E
2X(s)TM
A0X(s) + B0u(s,X(s))
+
t0
)
∑(
)T
(
)
+
AiX(s) + Biu(s,X(s))
M
AiX(s) + Biu(s,X(s))
ds =
i=1
(
)
= E X(t)TMX(t) .
93
Устремляя t к бесконечности, с учетом (4) и (5) получим
(
(
)
(
)
E X(t0)TMX(t0)
+E
2X(s)TM
A0X(s) + B0u(s,X(s))
+
t0
(9)
)
∑(
)T
(
)
+
AiX(s) + Biu(s,X(s))
M
AiX(s) + Biu(s,X(s))
ds = 0.
i=1
Теперь рассмотрим вспомогательный функционал Γ : D → R:
(
(
)
(
)
Γ(z) := E X(t0)TMX(t0)
+E
2X(s)TM
A0X(s) + B0u(s,X(s))
+
t0
∑(
)T
(
)
+
AiX(s) + Biu(s,X(s))
M
AiX(s) + Biu(s,X(s))
+ X(s)TQX(s) +
i=1
)
+ X(s)TSu(s,X(s)) + u(s,X(s))TSTX(s) + u(s,X(s))TEu(s,X(s)) ds.
Нетрудно видеть, что в силу равенства (9) и произвольности выбора процесса
управления z выполнено важное свойство
(10)
Γ(z) ≡ J(z), z ∈ D,
которое не зависит от выбора матрицы M.
Введем в рассмотрение функцию h : Rn × Rm × Rn×n → R
(
)
h(x, u, M) := xT MA0 + A0TM + ATiMAi + Q x +
i=1
(
)
(11)
+xT MB0 + ATiMBi +S u+
i=1
(
)
(
)
+uT B0TM+ BTiMAi
+ST x+uT E+ BTMBi u.
i
i=1
i=1
Сразу же отметим, что при фиксированной матрице M ∈ Rn×n функция
h(·, ·, M) является линейно-квадратичной функцией по совокупности пере-
менных (x, u) ∈ Rn × Rm. При помощи функции h можно переписать функ-
ционал Γ в более компактном виде
[
]
(12)
Γ(z) = tr
MK0
+E
h(X(s), u(s, X(s)), M)ds,
t0
[
]
где K0 ∈ Rn×n - матрица вторых начальных моментов вектора X(t0), tr
·
-
след матрицы.
94
4. Условия оптимальности
Для стабилизирующих линейных стационарных регуляторов получен сле-
дующий результат.
Теорема. Для того чтобы стабилизирующий регулятор u(t,x) = -Lx
был оптимальной стратегией, необходимо и достаточно существование
неотрицательно определенной симметрической матрицы M, удовлетво-
ряющей условиям:
(13)
MAu0 +Au0TM+ AuiTMAui +Q-SL-LTST +LT
EL = 0,
i=1
(
)-1 (
)
(14)
L= E+ BTMBi
B0TM + BTiMAi
+ST
,
i
i=1
i=1
где Aui = Ai - BiL, i = 0, k.
Доказательство. Пусть M - произвольная неотрицательно опреде-
ленная симметрическая матрица. Тогда функцию h можно переписать в виде
(
)
(15)
h(x, u, M) = (u + F (M)x)T E + BT
i
MBi
(u + F (M)x) +
i=1
(
(
)
)
+xT MA0 +A0TM + ATiMAi+Q-F(M)T E+ BTMBi F(M) x,
i
i=1
i=1
где
(
)-1 (
)
F (M) := E + BTMBi
B0TM + BTiMAi
+ST
i
i=1
i=1
С другой стороны, верно равенство
h(x, u(t, x), M) =
(
)
(16)
= xT MAu0 + Au0TM + Aui TMAui + Q - SL - LTST + LTEL x.
i=1
Из равенств (15), (16) можно видеть, что условия (13), (14) равносильны
условиям
(17)
h(x, u(t, x), M ) 0,
(
)
(18)
MA0+A0TM+ ATiMAi
+Q-F(M)T E+ BT
MBi
F (M) = 0,
i
i=1
i=1
и, в частности, условие (13) равносильно (17).
95
Пусть теперь условия (13) и (14) выполнены. Докажем, что в этом слу-
чае стратегия управления u(t, x) является оптимальной. Для этого фикси-
руем начальное распределение P0 ∈ M и покажем, что процесс управления
z = (X,u) ∈ DP0 минимизирует критерий, т.е. для любого процесса управле-
ния z = (X, u) ∈ DP0 верно неравенство
J(z) - J(z) 0.
Используя свойство (10), выражение (12) для функционала Γ и учитывая
(17), (18), получим, что
(
)
[
]
J(z) - J(z) = Γ(z) - Γ(z) = tr
MK0
+E h
X (s), u(s,X(s)), M ds -
t0
[
]
- tr
MK0
- E h(X(s),u(s,X(s)),M)ds =
t0
+
(
)
=E h
X (s), u(s,X(s)), M ds =
t0
(
)
+
(
)T
=E
u(s,X(s)) + F (M)X(s)
E+ BT
i
MBi
×
i=1
t0
(
)
× u(s,X(s)) + F (M)X(s) ds 0.
Последнее неравенство верно, так как функция под интегралом является
k
квадратичной формой, и матрица E +
BTiMBi этой формы положи-
i=1
тельно определена. В силу произвольности выбора P0 полученное неравен-
ство верно вне зависимости от начального распределения, и, следовательно,
стратегия управления u является оптимальной.
Для доказательства необходимости потребуется следующий результат.
Лемма. Если линейный регулятор u(t,x) = -Lx является стабилизи-
рующим, то существует единственная неотрицательно определенная сим-
метрическая матрица M, которая удовлетворяет уравнению
(19)
MAu0 +Au0TM+ AuiTMAui +Q-SL-LTST +LT
EL = 0,
i=1
где Aui = Ai - BiL, i = 0, k.
Уравнение (19) называют обобщенным уравнением Ляпунова, и оно играет
ключевую роль при анализе устойчивости уравнения (2). Подробное изучение
свойств данного уравнения имеется в [16]. Доказательство леммы дано в [21,
с. 68].
96
Пусть стабилизирующий регулятор u(t, x) = -Lx оптимален. Из вышепри-
веденной леммы следует, что для данного регулятора существует единствен-
ная неотрицательно определенная симметрическая матрица M, которая яв-
ляется решением уравнения (13) и при этом обеспечивает выполнение тож-
дества (17). Осталось показать, что имеет место равенство (14).
Предположим, что условие (14) не выполнено. Тогда построим новую стра-
тегию управления
{
-Lx, t0 t < t,
u(t, x) =
-Lx, t t,
где t > t0 - некоторый фиксированный момент времени, матрицаL выбрана
из условия (14) и имеет вид
(
)-1 (
)
L= E+ BT
i
MBi
B0TM + BTiMAi
+ST
i=1
i=1
МатрицаL существует в силу того, что M является неотрицательно опре-
деленной матрицей, а E - положительно определенная матрица. Заметим,
что в силу стационарности системы (2) линейный регулятор u также будет
стабилизирующим.
Используя равенство (15) и тождество (17), получим следующие соотно-
шения для функции h:
(
xT MA0 + A0TM + ATiMAi + Q-
(
i=1
)
)
h(x, u(t, x), M) =
-F(M)T E + BTMBi F(M) x, t0t < t,
i
i=1
0, t t,
(
)
(
)
h(x, u(t, x), M ) = xT
F (M) - L)T E + BTMBi (F(M) - L
x+
i
i=1
(
+xT MA0 +A0TM+ ATiMAi +Q-
i=1
(
)
)
- F(M)T E + BTMBi F(M) x ≡ 0.
i
i=1
При помощи данных выражений можно легко оценить разность
h(x, u(t, x), M ) - h(x, u(t, x), M ) =
(
)
(
)
=xT
F (M) - L)T E + BTMBi (F(M) - L
x0
i
i=1
97
при t0 t < t. Отсюда следует, учитывая тождество (17), что имеет место
неравенство h(x, u(t, x), M ) 0, t0 t < t, причем равенство выполняется
только на множестве нулевой меры Лебега в Rn.
Зафиксируем такое начальное распределение P0 ∈ M, которое имеет плот-
ность распределения p0 ∈ C2(Rn) и матрицу вторых моментов K0 ∈ Rn×n.
Рассмотрим процессы управления z = (X, u) и z = (X, u) из множества DP0 .
X
Известно [6, разделы 2.6 и 9.3], что распределение случайного процесса
(также как и X) имеет плотность вероятности, которая описывается урав-
нением Фоккера-Планка-Колмогорова с начальным условием p0. Обозначим
через p(t, ·) ∈ C2(Rn) плотность распределения вектора
X(t).
Покажем, что J(z) < J(z). Действительно,
(
)
[
]
J(z) - J(z) = Γ(z) - Γ(z) = tr
MK0
+E h
X (s), u(s,X(s)), M ds -
t0
t
[
]
- tr
MK0
E h(X(s),u(s,X(s)),M)ds=E h
X (s), u(s,X(s)), M)ds =
t0
t0
t
=
h(x, u(s, x), M)p(s, x) dxds < 0.
t0 Rn
Последнее неравенство имеет место в силу того, что, как было показано выше,
подынтегральная функция строго меньше нуля на множестве полной меры.
Таким образом, получено противоречие с тем, что стратегия управления u
оптимальна, и сделанное предположение неверно.
Следствие. Пусть z = (X,u) ∈ D, u(t,x) = -Lx - оптимальная стра-
тегия управления. Тогда из соотношений (12), (17) следует, что оптималь-
ное значение критерия определяется равенством
(20)
J (z) = tr[MK0
],
где матрица M - решение уравнения (13), K0 - матрица вторых начальных
моментов вектора X(t0).
Замечание 4. Из теоремы следует, что задача синтеза оптимальной
стратегии управления u(t, x) = -Lx сводится к совместному решению мат-
ричных уравнений (13), (14) или (14), (18). Введем обозначение R(M) для
оператора в левой части уравнения (18):
(
)
R(M) := MA0 + A0TM + ATiMAi+Q-F(M)T E+ BTMBi F(M)
i
i=1
i=1
и обратимся к вопросу численного решения уравнения R(M) = 0. В [16] для
этой цели использовалось обобщение метода Ньютона на матричные уравне-
98
ния и получена следующая итерационная процедура
Mj+1 = Mj + ΔMj, j = 0,1,2,... ,
(21)
Au0(Mj)TΔMj + ΔMjAu0(Mj) + Aui(Mj)TΔMjAui(Mj) = -R(Mj
),
i=1
где Aui(M) := Ai - BiF (M), i = 0, k. Здесь на каждом шаге приращение ΔMj
находится из линейного матричного уравнения (21), которое имеет решение
на каждом шаге, если регулятор u(t, x) = -F (M0)x обеспечивает асимптоти-
ческую устойчивость в среднем квадратичном системы (2).
Замечание 5. В [16, cледствие 2.1.2] получены условия оптимальности
в данной задаче при более широких предположениях: допускается, что мат-
рицы в критерии не обязаны быть неотрицательно определенными. Однако
вследствие такой общности условия являются лишь достаточными и не яв-
ляются необходимыми.
5. Оптимальная стабилизация по части координат
Особенность рассматриваемой в данной статье задачи заключается в том,
что допустимое множество D ограничено случайными процессами, асимпто-
тически стремящимся к нулю в среднем квадратичном. Однако в силу лишь
неотрицательной определенности матрицы Q в критерии (6) можно рассмот-
реть более общую задачу оптимальной стабилизации системы (2) по части
координат.
Пусть заданы полное вероятностное пространство (Ω, F, P), стандарт-
ный винеровский процесс W и n-мерная векторная случайная величина X0,
E∥X04 < +, не зависящая от W (t), t > t0. Обозначим черезD множество
процессов управления z = (X, u) таких, что:
1. При заданном u непрерывный случайный процесс X является сильным
решением уравнения (2) с начальным условием X(t0) = X0;
2. Критерий (6) принимает конечное значение, и выполнены условия
t
t
E
∥X(s)4ds < +∞, E
∥u(s, X(s))4ds < +∞, t t0.
t0
t0
Задачей оптимальной стабилизации по части координат будем называть за-
дачу поиска стратегии управления u такой, что найдется допустимый процесс
управления z = (X, u) ∈D, который будет минимизировать критерий (6),
J (z) = min J(z).
z∈D
На модельном примере сравним данную задачу с задачей оптимальной
стабилизации.
99
Пример 1. Рассмотрим следующую систему стохастических дифферен-
циальных уравнений и критерий качества управления:
1
(
)
(22)
dX1(t) = -
X1(t)dt + u
t,X(t)
dW (t),
2
)
(1
(
)
(23)
dX2(t) =
X2(t) + u
t,X(t)
dt, X(0) = (1 1)T,
2
+
(
(
))
(24)
J (z) = E
X21(s) + u2
s,X(s)
ds,
0
где t 0 - время; X = (X1 X2)T - случайный процесс со значениями в R2;
W - одномерный стандартный винеровский процесс; (t,x) →u(t,x) : R×R2
→ R - стратегия управления; z = (X,u) - процесс управления.
При помощи теоремы получим решение задачи оптимальной стабилиза-
ции. Матрицы
(
)
1
0
(
)
M =
,
L=
0
1
0
2
являются совместным решением уравнений (13), (14). При этом матри-
ца M - положительно определена. Покажем, что стратегия управления
u(t, x) = -Lx является стабилизирующей. Уравнение для матрицы вторых
моментов K(t) ∈ R2×2 вектора состояния X(t) замкнутой системы (22), (23)
имеет вид [16]
(
)
d
K22(t)
0
K(t) = -K(t) +
,
dt
0
0
(
)
(
)
K11(t) K12(t)
1
1
K(t) =
, K(t0) =
K12(t) K22(t)
1
1
Данное уравнение можно переписать в виде векторного линейного диффе-
ренциального уравнения
-1
0
1
d
vech[K(t)] = 0
-1
0
vech[K(t)],
dt
0
0
-1
vech[K(t)] :=
(K11(t) K12(t) K22(t))T .
Полученное уравнение является асимптотически устойчивым, следовательно,
стратегия управления u(t, x) = -Lx является стабилизирующей. Учитывая
следствие, критерий примет значение
J (z) = 3,
где z = (X, u); u(t, x) = -Lx; X - решение уравнений (22), (23) с заданными
стратегией управления и начальным условием.
100
Теперь решим задачу оптимальной стабилизации по части координат си-
стемы (22), (23) с критерием (24). Существенным отличием задачи опти-
мального управления от задачи оптимальной стабилизации является то, что
управляемый случайный процесс X может не удовлетворять требованиям (5).
Воспользуемся фактом, что X2 не входит явно ни в критерий, ни в уравнение
для X1. Задача сводится к задаче оптимальной стабилизации уравнения (22)
с критерием (24):
1
(
)
(25)
dX1(t) = -
X1(t)dt + u
t,X1(t)
dW (t), X1
(0) = 1,
2
+
(
(
))
J (z) = E
X21(s) + u2
s,X1(s)
ds.
0
Используя условия теоремы, находим оптимальный стабилизирующий регу-
лятор u и соответствующую величинуM:
u(t, x) 0,
M = 1.
Найденная стратегия управления обеспечивает устойчивость уравнения (25),
а значение критерия для процесса управления z = ( X1, u) равно J(z) = 1.
Замечание 6. Тот факт, что найдена стратегия управления u, которая
обеспечивает лучшее значение критерия, чем оптимальная стабилизирующая
стратегия u при фиксированном начальном условии, не противоречит полу-
ченным условиям оптимальности. Действительно, пусть P0 - вероятностная
мера, которая сконцентрирована в точке X0 = (1 1)T,
X - решение уравне-
ний (22), (23) со стратегией управления u и начальным условием X0. Легко
видеть, что компонента
X2(t) неограниченно возрастает на бесконечности.
Поэтому процесс управления z = (X, u) не принадлежит множеству DP0 и
условие (7) не нарушается.
6. Оптимальная стабилизация спутника
на круговой орбите
В качестве демонстрации рассмотрим задачу оптимальной стабилизации
движения спутника по круговой орбите.
Пример 2. Рассматривается плоское движение искусственного спутника
вокруг центра масс Земли в окрестности заданной круговой орбиты. Пред-
полагается, что управление реализуется при помощи двигателя, вектор тя-
ги которого всегда направлен по касательной к круговой орбите движения
спутника и может непрерывно изменяться, в том числе может менять знак.
Линеаризованные уравнения движения спутника в окрестности опорной тра-
101
ектории движения по круговой орбите радиуса r0 имеют вид [22]:
dΔr(t) = ΔVR(t)dt,
dΔVR(t) = (ω20Δr(t) + 2ω0ΔVT (t))dt,
(26)
dΔVT (t) = (0ΔVR(t) + u(t, X(t)))dt + ξu(t, X(t))dW (t),
dΔl(t) = (0Δr(t) + ΔVT (t))dt,
X(0) = X0,
Gm
где t 0 - время; ω0 =
- угловая скорость движения спутника по за-
r3
0
данной опорной траектории, G - гравитационная постоянная, m - масса Зем-
ли; X = (Δr, ΔVR, ΔVT , Δl)T - вектор состояния системы, Δr(t) = r(t) - r0 -
отклонение расстояния r(t) между спутником и центром масс Земли от ра-
диуса заданной опорной траектории r0, ( VR(t) - н)рмальная составляющая
скорости движения спутника, ΔVT (t) =
VT (t) - v0
- отклонение тангенци-
альной составляющей скорости движения спутника VT (t) от скорости движе-
ния v0 = ω0r0 по заданной опорной траектории; Δl(t) - отклонение спутника
от заданной опорной траектории вдоль круговой орбиты; u(t, x) - страте-
гия управления (величина прямо пропорциональная тяге двигателя). Правая
часть системы (26) содержит случайные возмущения ξu(t, X(t))dW (t), кото-
рые имеют смысл мультипликативных ошибок управления [23]. Мультипли-
кативная ошибка управления уменьшается при уменьшении тяги двигателя и
становится равной нулю при выключении двигателя. Часто используемая ад-
дитивная ошибка меньше соответствует физическому смыслу происходящих
процессов.
Критерий качества управления имеет вид
+
(
)
J (z) = E
Δr(s)2 + ΔVR(s)2 + ΔVT (s)2 + Δl(s)2 + u(s,X(s))2
ds.
0
Были заданы следующие параметры системы: радиус орбиты r0 =
= 6,871 · 106 м, интенсивность возмущений ξ = 10-4.
Матрицы M и L были найдены численным решением уравнений (13), (14).
В результате
91,2985
4,1182 · 104
0,6343
-90,7549
4,1182 · 104
2,4695 · 107
286,9913
-54500,7739
M =
,
0,6343
286,9913
0,8602
-0,3162
90,7549
-54500,7739
-0,3162
120,5546
)
L=
(0,6343 286,9913
0,8602
-0,3162
,
и значение критерия равно J(z) = 2,4682 · 107.
Найденный регулятор u(t, x) = -Lx обеспечивает асимптотическую устой-
чивость в среднем квадратичном системы (26) и вместе с матрицей M явля-
ется решением уравнений (13), (14), следовательно является оптимальным
стабилизирующим регулятором.
102
7. Заключение
Рассмотрена задача оптимальной стабилизации квазилинейной стохасти-
ческой системы на неограниченном интервале времени. При достаточно ши-
роких предположениях о системе управления и критерии качества получены
необходимые и одновременно достаточные условия оптимальности линейно-
го стационарного регулятора в широком классе допустимых управлений. На
модельном примере продемонстрировано отличие изучаемой проблемы от за-
дачи оптимальной стабилизации по части координат. Практическая значи-
мость результата показана на примере задачи стабилизации искусственного
спутника Земли в окрестности заданной круговой орбиты.
СПИСОК ЛИТЕРАТУРЫ
1.
Panossian H.V. Review of Linear Stochastic Optimal Control Systems and
Applications // J. Vib. Acoust. Stress Reliab. Des. 1989. V. 111. No. 4. P. 399-403.
2.
Квакернаак Х., Сиван Р. Линейные оптимальные системы управления. Мир,
1972.
3.
Shuping Chen, Xunjing Li, Xun Yu Zhou. Stochastic Linear Quadratic Regulators
with Indefinite Control Weight Costs // SIAM J. Control Optim. 1998. V. 36. No. 5.
P. 1685-1702.
4.
Shuping Chen, Xun Yu Zhou. Stochastic Linear Quadratic Regulators with Indefinite
Control Weight Costs // SIAM J. Control Optim. 2000. V. 39. No. 4. P. 1065-1081.
5.
M. Ait Rami, Moore J.B., Xun Yu Zhou. Indefinite Stochastic Linear Quadratic
Control and Generalized Differential Riccati Equation // SIAM J. Control Optim.
2002. V. 40. No. 4. P. 1296-1311.
6.
Arnold L. Stochastic Differential Equations: Theory and Applications. N.Y.: John
Wiley & Sons, 1974.
7.
Wonham W.M. Optimal Stationary Control of a Linear System with State-
Dependent Noise // SIAM J. Control. 1967. V. 5. No. 3. P. 486-500.
8.
Haussmann U.G. Optimal Stationary Control with State Control Dependent Noise //
SIAM J. Control. 1971. V. 9. No. 2. P. 184-198.
9.
McLane P.J. Optimal Stochastic Control of Linear Systems with State- and Control-
Dependent Disturbances // IEEE Trans. Automat. Control. 1971. V. 16. No. 6.
P. 793-798.
10.
Laurent El Ghaoui. State-Feedback Control of Systems with Multiplicative Noise via
Linear Matrix Inequalities // Syst. & Control Lett. 1995. V. 24. No. 3. P. 223-228.
11.
Verriest E.I., Florchinger P. Stability of Stochastic Systems with Uncertain Time
Delays // Syst. & Control Lett. 1995. V. 24. No. 1. P. 41-47.
12.
Параев Ю.И. Введение в статистическую динамику процессов управления и
фильтрации. Библиотека технической кибернетики. М: Сов. радио, 1976.
13.
Румянцев Д.С., Хрусталёв М.М., Царьков К.А. Алгоритм поиска субоптималь-
ных стратегий управления квазилинейными динамическими стохастическими
системами диффузионного типа // Изв. РАН. Теория и системы управления.
2014. № 1. C. 74-86.
Rumyantsev D.S., Khrustalev M.M., Tsarkov K.A. An Algorithm for Synthesis of
the Suboptimal Control Law for Quasi-Linear Stochastic Dynamical Systems //
J. Comput. Syst. Sci. Int. 2014. V. 53. No. 1. P. 71-83.
103
14.
Willems J.L., Willems J.C. Feedback Stabilizability for Stochastic Systems with
State and Control Dependent Noise // Automatica. 1976. V. 12. No. 3. P. 277-283.
15.
Kleinman D.L. Optimal Stationary Control of Linear Systems with Control-
Dependent Noise // IEEE Trans. Automat. Control. 1969. V. 14. No. 6. P. 673-677.
16.
Damm T. Rational Matrix Equations in Stochastic Control. Berlin-Heidelberg:
Springer, 2004.
17.
Хрусталёв М.М., Онегин Е.Е. Аналитическое конструирование оптимальных
регуляторов для квазилинейных стохастических систем, функционирующих на
неограниченном интервале времени // Программные системы: теория и прило-
жения. 2015. Т. 6. № 2. C. 29-44.
18.
Øksendal B. Stochastic Differential Equations. Berlin-Heidelberg: Springer, 2003.
19.
Хрусталёв М.М. Условия равновесия по Нэшу в стохастических дифференци-
альных играх при неполной информированности игроков о состоянии // Изв.
РАН. Теория и системы управления. 1995. № 6. С. 194-208.
20.
Хрусталёв М.М. Условия равновесия по Нэшу в стохастических дифференци-
альных играх при неполной информированности игроков о состоянии // Изв.
РАН. Теория и системы управления. 1996. № 1. С. 72-79.
21.
Халина А. С., Хрусталёв М. М. Оптимизация облика и стабилизация управля-
емых квазилинейных стохастических систем, функционирующих на неограни-
ченном интервале времени // Изв. РАН. Теория и системы управления. 2017.
№ 1. С. 65-88.
Khalina A.S., Khrustalev M.M. System Shape Optimization and Stabilization of
Controlled Quasi-Linear Stochastic Systems that Operate on an Infinite Time
Interval // J. Comput. Syst. Sci. Int. 2017. V. 56. No. 1. P. 64-86.
22.
Лебедев А.А., Красильщиков М.Н., Малышев В.В. Оптимальное управление
движением космических летательных аппаратов. М: Машиностроение, 1974.
23.
Лебедев А.А., Бобронников В.Т., Красильщиков М.Н., Малышев В.В. Статисти-
ческая динамика и оптимизация управления летательных аппаратов. М: Маши-
ностроение, 1985.
Статья представлена к публикации членом редколлегии А.И. Кибзуном.
Поступила в редакцию 01.02.2018
После доработки 20.10.2018
Принята к публикации 08.11.2018
104