Автоматика и телемеханика, № 3, 2022
Линейные системы
© 2022 г. Б.Т. ПОЛЯК, д-р техн. наук (boris@ipu.ru),
М.В. ХЛЕБНИКОВ, д-р физ.-мат. наук (khlebnik@ipu.ru)
(Институт проблем управления им. В.А. Трапезникова РАН, Москва;
Национальный исследовательский университет
“Московский физико-технический институт”, Москва)
СИНТЕЗ ОБРАТНОЙ СВЯЗИ ПО ВЫХОДУ
ПРИ ПОМОЩИ НАБЛЮДАТЕЛЯ
КАК ЗАДАЧА ОПТИМИЗАЦИИ1
Предлагается новый подход к решению задачи подавления неслучай-
ных ограниченных внешних возмущений в линейных системах управле-
ния при помощи динамической обратной связи по выходу. Подход основан
на сведении проблемы к задаче матричной оптимизации, где переменны-
ми являются матрица обратной связи и матрица наблюдателя. Выписан
градиентный метод для отыскания динамической обратной связи по вы-
ходу и дано его обоснование. Рассмотрен ряд примеров.
Ключевые слова: линейные системы, внешние возмущения, обратная
связь по выходу, наблюдатель, оптимизация, уравнение Ляпунова, гра-
диентный метод, метод Ньютона, сходимость.
DOI: 10.31857/S0005231022030023
1. Введение
Вопросам стабилизации и управления линейными системами по выходу с
использованием наблюдателя посвящено множество публикаций, относящих-
ся к самым разным областям автоматического управления. Так, в работах
Измайлова [1] (и ранее Полоцкого [2]), посвященных проблеме всплеска, речь
шла именно о наблюдателях. Систематическое изложение теории наблюдате-
лей можно найти в монографии [3].
В работе [4], посвященной задаче подавления ограниченных внешних воз-
мущений, рассматривался синтез динамической обратной связи по выходу,
которая минимизирует размер эллипсоида, содержащего состояние линейной
системы управления. Соответствующая задача синтеза управления была све-
дена к решению задачи полуопределенного программирования в терминах ли-
нейных матричных неравенств (ЛМН) [5, 6]. При этом использовалась оцен-
ка состояния, получаемая с помощью наблюдателя Люенбергера [7]. Вместе
с тем в [4] пришлось произвести ряд загрублений для того, чтобы линеа-
ризовать матричные неравенства и установить окончательный результат в
1 Исследование выполнено при поддержке Российского научного фонда, проект № 21-71-
30005.
7
терминах ЛМН. При этом сами ЛМН получились довольно громоздкими, а
найденные условия излишне консервативными.
Среди наиболее идейно близких к такому подходу публикаций следует упо-
мянуть и монографию [8], в которой был предложен ЛМН-подход к синте-
зу стабилизирующих регуляторов по измеряемому выходу с использованием
наблюдателя. Впрочем, в ней не затрагивается случай произвольных ограни-
ченных внешних возмущений принадлежащих классу L.
С другой стороны, в последнее время стал очень популярным подход к
задачам управления линейными системами как к задачам оптимизации. Так,
в классической задаче о линейно-квадратичном регуляторе можно рассмат-
ривать матрицу линейной обратной связи как переменную и свести пробле-
му к минимизации показателя качества по этой переменной. Градиент такой
функции для обратной связи по выходу был выписан еще в статье [9] 1970 г.,
однако обоснование подобных методов появилось лишь недавно, см. [10-14].
В [15] аналогичный подход был впервые применен к задачам с внешними
возмущениями.
Настоящая статья является естественным продолжением как работы [4],
так и [15]. В ней предлагается новый подход к решению задачи подавле-
ния неслучайных ограниченных внешних возмущений в линейных системах
управления при помощи динамической обратной связи по выходу. Подход
основан на сведении проблемы к задаче матричной оптимизации, где пере-
менными являются матрица обратной связи и матрица наблюдателя; далее
эта задача решается градиентным методом. Многочисленные примеры де-
монстрируют эффективность предлагаемого алгоритма.
Всюду далее | · | евклидова норма вектора, ∥ · ∥ спектральная нор-
ма матрицы, ∥ · ∥F
фробениусова норма матрицы,T символ транспо-
нирования, tr след матрицы, 〈·, ·〉 скалярное произведение Фробениуса
для матриц, I единичная матрица соответствующей размерности, λi(A)
собственные значения матрицы A, а σ(A) = - maxRe (λi(A)) > 0 степень
i
устойчивости гурвицевой матрицы A. Все матричные неравенства понимают-
ся в смысле знакоопределенности матриц.
2. Постановка задачи и подходы к решению
2.1. Постановка задачи
Рассмотрим систему управления
x = Ax + Bu + Dw, x(0) = x0,
(1)
y=C1x+D1w,
z = C2x,
где A ∈ Rn×n, B ∈ Rn×p, D ∈ Rn×m, D1 ∈ Rl×m, C1 ∈ Rl×n, C2 ∈ Rr×n, с со-
стоянием x ∈ Rn, наблюдаемым выходом y ∈ Rl, оптимизируемым выходом
z ∈ Rr, управлением u ∈ Rp и внешним возмущением w ∈ Rm, ограниченным
8
в каждый момент времени:
|w(t)| ≤ 1 для всех t ≥ 0.
Пара (A, B) управляема, пара (A, C1) наблюдаема.
Хотя природа возмущений в состоянии и выходе системы, вообще говоря,
различна, удобно считать их одними и теми же, полагая что матрицы D и D1
“вырезают” из вектора w разные “куски”; общий случай также может быть
рассмотрен ценой некоторого усложнения.
Пусть состояние x системы недоступно измерению и информация о системе
предоставляется ее выходом y. Задачей является нахождение минимального
(в определенном смысле) эллипсоида, содержащего оптимизируемый выход z.
Построим наблюдатель, описываемый линейным дифференциальным
уравнением, включающим в себя рассогласование выхода y и его прогно-
за C1x:
(2)
x = Ax + Bu + L(y - C1
x),
x(0) = 0,
где L ∈ Rn×l матрица наблюдателя.
Введем в рассмотрение невязку
e(t) = x(t) - x(t);
согласно (1), (2) она будет удовлетворять дифференциальному уравнению
ė = (A - LC1)e + (D - LD1)w, e(0) = x0.
Таким образом, при построении обратной связи с помощью динамического
регулятора
(3)
u = Kx, K ∈ Rp×n,
приходим к системе
x = (A + BK)x - BKe + Dw,
(4)
ė = (A - LC1)e + (D - LD1)w,
z=C2x
с регулируемым выходом z.
Важно отметить, что часто синтез статического регулятора по выходу
невозможен, т.е. матрица A + BKC1 не стабилизируема выбором K, тогда
как динамический регулятор (3) может быть построен (при малоограничи-
тельных требованиях управляемости и наблюдаемости системы; подробнее
см. раздел 2.3).
9
2.2. Метод инвариантных эллипсоидов
Напомним концепцию метода инвариантных эллипсоидов (подробнее
см. [6, 16]). Рассмотрим линейную стационарную динамическую систему в
непрерывном времени
x = Ax + Dw, x(0) = x0,
(5)
z = Cx,
где A ∈ Rn×n, D ∈ Rn×l, C ∈ Rn×n, с состоянием x(t) ∈ Rn, выходом z(t) ∈ Rr
и измеримым по t внешним возмущением w(t) ∈ Rl, ограниченным в каждый
момент времени:
(6)
|w(t)| ≤ 1 для всех t ≥ 0.
Пусть система (5) устойчива (т.е. матрица A гурвицева), пара (A, D) управ-
ляема.
Определение 1. Эллипсоид с центром в начале координат
{
}
(7)
Ex =
x∈Rn: xTP-1x≤1
,
P ≻ 0,
называется инвариантным для динамической системы (5), (6), если из усло-
вия x(0) ∈ Ex следует x(t) ∈ Ex для всех моментов времени t ≥ 0.
Иными словами, любая траектория системы, исходящая из точки, лежа-
щей в эллипсоиде Ex, при всех допустимых внешних возмущениях, действую-
щих на систему, в любой момент времени будет находиться в этом эллип-
соиде. Инвариантный эллипсоид обладает свойством притягиваемости, т.е.
траектория системы, исходящая из точки вне эллипсоида Ex, стремится к
эллипсоиду Ex с течением времени.
Инвариантные эллипсоиды можно рассматривать как характеристику
влияния внешних возмущений на вектор выхода системы. В этой связи есте-
ственно интересоваться минимальными (в том или ином смысле) эллипсои-
дами, содержащими выход системы. Нетрудно видеть, что если Ex инва-
риантный эллипсоид (7) с матрицей P , то выход системы (5) при x0 ∈ Ex
принадлежит эллипсоиду
{
}
(8)
Ez =
z ∈ Rp: zT(CPCT)-1z ≤ 1
Эллипсоид (8) будем называть ограничивающим (по выходу). Часто в ка-
честве критерия его минимальности рассматривается линейная функция
f (P ) = tr CP CT, значение которой равно сумме квадратов полуосей огра-
ничивающего эллипсоида.
В [5] был установлен результат, дающий критерий инвариантности эллип-
соида в терминах линейных матричных неравенств. Несколько уточняя этот
критерий (см. [6]), приходим к следующему утверждению.
10
Теорема 1. Пусть матрица A гурвицева, σ = -max
(A)) > 0, па-
Re (λi
i
ра (A, D) управляема, а матрица P (α) ≻ 0, 0 < α < 2σ, удовлетворяет урав-
нению Ляпунова
(
)
(
)T
α
α
1
A+
I P +P A+
I
+
DDT = 0.
2
2
α
Тогда задача об оптимальном ограничивающем эллипсоиде сводится к ми-
нимизации одномерной функции
f (α) = tr CP (α)CT
на интервале 0 < α < 2σ и, если α точка минимума и x(0) удовлетво-
ряет условию xT(0)P-1)x(0) ≤ 1, гарантируется оценка
|z(t)|2 ≤ f(α),
0 ≤ t < ∞.
2.3. Подход к решению
Введя составной вектор
(
)
x
g=
∈R2n,
e
придадим системе (4) вид
(
)
(
)
(
)
A+BK
-BK
D
x0
ġ=
g+
w, g(0) =
,
0
A - LC1
D - LD1
x0
|
{z
}
|
{z
}
(9)
Ac
D
(
)
z=
C2
0
g.
|
{z
}
C2
Следуя методу инвариантных эллипсоидов, заключим состояние g систе-
мы (9) в инвариантный эллипсоид
{
}
Eg =
g∈R2n: xTP-1x≤1
,
порожденный матрицей P ∈ R2n×2n, и будем минимизировать размер соот-
ветствующего ограничивающего эллипсоида
{
}
Ez =
z ∈ Rr: zT(C2PCT2 )-1z ≤ 1
по выходу z с матрицей C2P CT2. В качестве критерия его минимальности при-
мем критерий следа, т.е. величину tr C2P CT2.
Обратим внимание, что в отличие от [4], здесь для оценки выхода z с
помощью ограничивающего эллипсоида строится инвариантный эллипсоид
по состоянию x, а не по его оценке x, что гораздо более естественно.
11
Заметив, что матрица Ac представима в виде
(
)
(
)
(
)
(
)
A+BK
-BK
A 0
B
(
)
0
(
)
Ac =
=
+
K
I
-I
+
L
0
-C1
,
0
A - LC1
0
A
0
|
{z
}
I
|
{z
}
|
{z
}
| {z }
|{z}
N1
N2
A
M1
M2
в соответствии с теоремой 1 приходим к задаче минимизации функции
tr C2P CT2 при ограничении
(
)
α
A + M1KN1 + M2LN2 +
I P +
2
(10)
(
)T
α
1
+ P A + M1KN1 + M2LN2 +
I
+
DDT = 0
2
α
относительно матричных переменных P = PT ∈ R2n×2n, K ∈ Rp×n, L ∈ Rn×l
и скалярного параметра α > 0.
Вместе с тем в качестве критерия качества выберем функционал
(11)
f (K, L, α) = tr C2P CT2 + ρK ∥K∥2F + ρL∥L∥2F ,
в котором помимо компоненты, определяющей размер ограничивающего эл-
липсоида по критерию следа, введены штрафы за величину матриц регу-
лятора и наблюдателя (при этом коэффициенты ρK , ρL > 0 регулируют их
важность); в то же время их наличие гарантирует коэрцитивность миними-
зируемой функции по K и L, см. раздел 3.2.
Замечание 1. Обратим внимание, что блочная матрица Ac имеет те же
собственные значения, что и стоящие на ее диагонали матрицы A + BK и
A - LC1. В свою очередь, существование матриц K и L таких, чтобы матрицы
A + BK и A - LC1 были устойчивыми, вытекает из свойств управляемости
и наблюдаемости исходной системы.
Введем для удобства обозначение
AK,L = A + M1KN1 + M2LN2.
В силу замечания 1 заведомо существуют матрицы K0 и L0 такие, что мат-
рица AK0,L0 гурвицева. Матрицы (K, L), обладающие этим свойством, будем
называть стабилизирующей матричной парой.
3. Оптимизация функции f(K, L, α)
В предыдущем разделе было установлено, что исходная задача синте-
за динамической обратной связи при помощи наблюдателя, подавляющей
воздействие внешних возмущений, свелась к задаче минимизации функции
f (K, L, α), определяемой соотношением (11), при ограничении
(
)
(
)T
α
α
1
(12)
AK,L +
I P +P AK,L +
I
=-
DDT
2
2
α
12
по переменным P = PT ∈ R2n×2n, K ∈ Rp×n, L ∈ Rn×l и скалярному парамет-
ру α > 0.
Запись f(K, L, α) подчеркивает, что при заданных K, L и α матрица P на-
ходится из уравнения Ляпунова (12); тем самым независимыми переменными
являются K, L и α.
3.1. Оптимизация функции f(α)
Итак, приходим к уравнению Ляпунова (12) вида AP + P AT = -DDT
с полуопределенной правой частью. Важно отметить, что в настоящей рабо-
те не предполагается ни требование квадратности и невырожденности мат-
рицы D, введенное в [15], ни стандартное требование управляемости пары
(A, D).
Замечание 2. Согласно [6, лемма 1.2.3] единственное решение уравне-
ния Ляпунова (12) лишь положительно полуопределено (при гурвицевой мат-
рице AK,L +α2 I, т.е. при 0 < α < 2σ(AK,L)). При этом на указанном интервале
оно представимо в явном виде как
+∞
P = P(α) = e(AK,L+2I)t 1
DDTe(AK,L+2 I)Ttdt =
α
0
+∞
eαt
=
eAK,LtDDTeAK,Ltdt ≽ 0.
α
0
Отсюда имеем C2P CT2 ≽ 0, поэтому функция f(α) = tr C2P CT2, рассматривае-
мая как функция только от параметра α (при некоторой фиксированной ста-
билизирующей паре (K, L)), строго положительна на рассматриваемом ин-
тервале. В самом деле, в противном случае полуопределенная матрица C2P CT2
обращалась бы в нуль, что невозможно в силу C2 = 0 и D = 0 (из последнего
имеем P = 0).
Эти результаты позволяют полностью перенести на рассматриваемый слу-
чай свойства функции f(α), установленные в [15]. В частности, функция f(α)
определена, положительна и сильно выпукла на интервале 0 < α < 2σ(AK,L),
а ее значения стремятся к бесконечности на концах интервала, причем суще-
ствует c > 0 такое, что
c
(13)
f (α) ≥
,
0 < α < 2σ(AK,L
).
α(2σ - α)
Минимизацию функции f(α) можно эффективно осуществлять при по-
мощи метода Ньютона. Зададимся начальным приближением
0<α0 <
< 2σ(AK,L), например α0 = σ(AK,L), и применим итерационный процесс
fj)
(14)
αj+1 = αj -
f′′j)
13
При этом согласно [15]
(
)
(
)
1
1
f(α) = tr Y P -
DDT
,
f′′(α) = 2tr Y X +
DDT
,
α2
α3
где Y и X решения уравнений Ляпунова
(
)T
(
)
α
α
AK,L +
I
Y +Y AK,L +
I
+CT2C2 = 0
2
2
и
(
)
(
)T
α
α
1
AK,L +
I X+X AK,L +
I
+P -
DDT = 0.
2
2
α2
Следующая теорема гарантирует глобальную сходимость алгоритма.
Теорема 2
[15]. В методе (14) справедливы оценки
f′′0)
j - α| ≤
0 - α|,
j+1 - α| ≤ c|αj - α|2,
2j f′′)
где c > 0 некоторая константа (она может быть выписана явно).
Первая оценка гарантирует глобальную сходимость метода (быстрее, чем
геометрическая прогрессия с коэффициентом 1/2), а вторая квадратич-
ную сходимость в окрестности решения. Реально требуется не более трех -
четырех итераций для получения решения с большой точностью (если только
начальная точка не слишком близка к границам интервала). Таким образом,
авторы располагают быстрым алгоритмом для оптимизации по параметру α.
3.2. Оптимизация функции f(K, L)
Теперь займемся минимизацией функции
f (K, L) = min f(K, L, α),
α
предварительно исследовав ее свойства.
Лемма 1. Функция f(K,L) определена и положительна на множе-
стве S стабилизирующих регуляторов.
Действительно, если матрица AK,L гурвицева, то σ(AK,L) > 0 и для 0 <
< α < 2σ(AK,L) решение P ≽ 0 уравнения Ляпунова (12) существует. Тем
самым определена (строго положительная в силу замечания 2) функция
f (K, L, α); при этом f(K, L) > 0 в силу (13). Множество ее определения S мо-
жет быть невыпуклым и несвязным, причем его границы могут быть неглад-
кими, см. [15].
Лемма 2. На множестве S стабилизирующих матричных пар функция
f (K, L) коэрцитивна (т.е. стремится к бесконечности на границе области),
причем справедливы следующие оценки:
λmin(C2CT2)∥D∥2F
(15)
f (K, L) ≥
,
4σ(AK,L) (∥AK,L∥ + σ(AK,L))
f (K, L) ≥ ρK ∥K∥2, f(K, L) ≥ ρL∥L∥2.
14
Доказательство этого и последующих утверждений приведены в Прило-
жении.
Введем в рассмотрение множество уровня
S0 = {(K,L) ∈ S : f(K,L) ≤ f(K0,L0)}.
Из леммы 2 вытекает очевидное
Следствие 1. Для любых (K0,L0) ∈ S множество S0 ограничено.
C другой стороны, у функции f(K, L) на множестве S0 существует точка
минимума (как у непрерывной в силу свойств решения уравнения Ляпуно-
ва функции на компактном множестве), но множество S0 не имеет общих
точек с границей S в силу (15). Далее будет показано, что f(K, L) диффе-
ренцируема на S0. Следовательно, справедливо
Следствие 2. Существует точка минимума (K,L) на множе-
стве S, и в ней градиент функции f(K,L) обращается в нуль.
Перейдем к свойствам градиента функции f(K, L, α).
Лемма 3. Функция f(K,L,α) определена на множестве стабилизирую-
щих матричных пар (K, L) и для 0 < α < 2σ(AK,L). На этом допустимом
множестве она дифференцируема, причем градиент дается выражениями
(
)
1
αf(K,L,α) = tr Y P -
DDT
,
α2
(
)
Kf(K,L,α) = 2
ρKK + MT1Y PNT1
,
(
)
Lf(K,L,α) = 2
ρLL + MT2Y PNT2
,
где матрица Y является решением уравнения Ляпунова
(
)T
(
)
α
α
(16)
AK,L +
I
Y +Y AK,L +
I
+CT2C2
= 0.
2
2
Минимум f(K,L,α) достигается во внутренней точке допустимого
множества и определяется условиями
Kf(K,L,α) = 0,
Lf(K,L,α) = 0,
αf(K,L,α) = 0.
При этом f(K, L, α) как функция от α строго выпукла на 0 < α < 2σ(AK,L)
и достигает минимума во внутренней точке этого интервала (см. подраз-
дел 3.1).
Градиенты функции f(K, L) по K и по L не являются липшицевыми на
множестве S стабилизирующих регуляторов, однако можно показать, что они
обладают этим свойством на его подмножестве S0, аналогично тому, как это
было сделано в [15].
Полученные свойства минимизируемой функции и ее производных позво-
ляют построить метод минимизации и обосновать его сходимость.
15
4. Алгоритм решения
Ниже предлагается следующий итеративный подход к решению зада-
чи (10)-(11). В его основе лежит попеременное применение градиентного
метода по переменным K и L и минимизация по параметру α по методу
Ньютона.
Алгоритм для минимизации f(K,L,α):
1.
Задаемся параметрами
ε > 0, γK > 0, γL > 0,
0 < τK < 1,
0<τL <1
и начальными стабилизирующими приближениями K0 и L0.
Вычисляем величину α0 =12 σ(A + M1K0N1 + M2L0N2).
2.
На j-й итерации имеем величины Kj , Lj и αj .
Вычисляем градиент HKj = ∇K f(Kj, Lj , αj ). Если ∥HKj ∥ ≤ ε, то Kj при-
нимаем за приближенное решение.
3.
Делаем шаг градиентного метода по K:
Kj+1 = Kj - γKjHKj,
при этом длину шага γKj > 0 подбираем дроблением γK до выполнения
условий:
а) Kj+1 стабилизирует матрицу A + M1KN1 + M2LjN2;
б) f(Kj+1) ≤ f(Kj ) - τK γKj ∥HKj2.
4.
Имея величину Kj+1, вычисляем градиент HLj = ∇Lf(Kj+1, Lj , αj ).
Если ∥HLj∥ ≤ ε, то Lj принимаем за приближенное решение.
5.
Делаем шаг градиентного метода по L:
Lj+1 = Lj - γLjHLj,
при этом длину шага γLj > 0 подбираем дроблением γL до выполнения
условий:
а) Lj+1 стабилизирует матрицу A + M1Kj+1N1 + M2LN2;
б) f(Lj+1) ≤ f(Lj) - τLγLj∥HLj2.
6.
Для полученных Kj+1, Lj+1 решаем задачу минимизации f(Kj+1, Lj+1, α)
по α и получаем αj+1. Переходим к п. 2.
Важным моментом является выбор пробного шага градиентного мето-
да. Весьма перспективным является его выбор из следующих соображений.
Пусть для некоторых K, L, α и P ≻ 0 выполняется
(A + M1KN1 + M2LN2) P + P (A + M1KN1 + M2LN2)TP +
1
+ αP +
DDT = 0.
α
Рассмотрим приращение по K:
K → K - γHK, HK = ∇Kf(K,L,α),
16
и найдем, для каких γ матрица A + M1(K - γHK )N1 + M2LN2 останется
устойчивой (гурвицевой).
Для этого достаточно потребовать, чтобы P оставалась матрицей квадра-
тичной функции Ляпунова для A + M1(K - γHK )N1 + M2LN2, т.е.
(
(
)
)
A+M1
K-γHK
N1 + M2LN2
P +
(
(
)
)T
+P
A+M1
K-γHK
N1 + M2LN2
P ≺0
или, с учетом исходного уравнения,
(
(
)T)≺αP+ 1
γ
-M1HKN1P - P
M1HKN1
DDT,
α
откуда
(
)
(
)T
1
γ<λ-1max
-M1HKN1P - P
M1HKN1
, αP +
DDT
α
Аналогичным образом предлагается выбирать пробный шаг при оптимизации
по переменной L.
Можно предложить еще один способ выбора пробного шага. Найдем для
некоторой стабилизирующей пары (K, L) решение P уравнения Ляпунова
(A + M1KN1 + M2LN2) P + P(A + M1KN1 + M2LN2)TP = -I.
Рассмотрим приращение по K:
K → K - γHK, HK = ∇Kf(K,L,α),
и найдем, для каких γ матрица P останется матрицей квадратичной функции
Ляпунова для A + M1(K - γHK )N1 + M2LN2, т.е.
(
(
)
)
A+M1
K-γHK
N1 + M2LN2
P +
(
(
)
+P
A+M1
K-γHK
N1 + M2LN2
)TP ≺ 0.
С учетом исходного уравнения имеем
(
(
)T)≺I,
γ
-M1HKN1P - P
M1HKN1
откуда
(
(
)T)
γ<λ-1max
-M1HKN1P - P
M1HKN1
Аналогичным образом выбирается пробный шаг при оптимизации по пере-
менной L.
Также весьма многообещающим представляется способ, аналогичный
предложенному в [14] и основанный на использовании вторых производных;
согласно ему пробный шаг по K выбирается по формуле
2
∥HKj
γj =
2KKf(K,L)[HKj,HKj]
17
Вычисление выражения в знаменателе производится с помощью формулы2
1
2KKf(K,L)[E,E] = ρK〈E,E〉 + 2〈MT1Y PKNT1,E〉,
2
где PK решение уравнения Ляпунова
(
)
(
)T
α
α
AK,L +
I PK +PK AK,L +
I
+ M1EN1P + P(M1EN1)T = 0.
2
2
Пробный шаг по L выбирается аналогичным образом.
Использование вторых производных требует всего лишь решения еще двух
уравнений Ляпунова, т.е. не сильно усложняет вычисления. Впрочем, этот
подход требует отдельного обоснования.
5. Примеры
Пример 1. Продемонстрируем предложенный подход к подавлению
внешних возмущений на примере задачи управления двухмассовой систе-
мой системой из двух твердых тел с массами m1 и m2, соединенных пружи-
ной с коэффициентом упругости κ, скользящих без трения вдоль неподвиж-
ного горизонтального стержня (см. рис. 1).
Управляющее воздействие u ∈ R прикладывается к левому телу с целью
компенсировать влияние внешнего возмущения
(
)
w1
w=
∈R2,
w2
компоненты которого воздействуют на левое и правое тело соответственно.
Возмущение предполагается произвольным, но ограниченным в любой мо-
мент времени: |w(t)| ≤ 1.
Обозначим через x1, v1 соответственно координату и скорость левого тела,
а через x2, v2 правого тела. Тогда
x1
x2
x=
R4
v1∈
v2
есть вектор состояния рассматриваемой динамической системы, полностью
описывающий ее поведение.
Рис. 1. Двухмассовая система из примера 1.
2 Соответствущий результат устанавливается аналогично доказательству леммы 5 в [15].
18
В качестве наблюдаемого выхода системы возьмем вектор
(
)
x1
y=
∈R2,
x2
а в качестве регулируемого вектор
(
)
v1
z=
∈R2.
v2
При единичных параметрах системы (m1 = m2 = κ =1) непрерывная мо-
дель возмущенных колебаний системы описывается уравнениями (1) с мат-
рицами
0
0
1
0
0
0
0
1
κ
κ
A=
−
0
0,
m1
m1
κ
κ
-
0
0
m2
m2
0
0
0
0
0
0
1
B=
1
,
D=
0
,
m1
m1
1
0
0
m2
(
)
(
)
1
0
0
0
0
0
1
0
C1 =
,
C2 =
,
D1 = 0.
0
1
0
0
0
0
0
1
Заметим, что для этой задачи статического регулятора по выходу не су-
ществует: матрица A + BKC1 не стабилизируема за счет выбора K.
В [4] был предложен подход к решению этой задачи, основанный на тех-
нике линейных матричных неравенств [5] и методе инвариантных эллипсои-
дов [6]. Следуя ему, получаем матрицу регулятора
(
)
K=
-8,9842
6,6234
-6,3412
-5,2864
· 104,
матрицу наблюдателя
1,6533
-0,0655
0,1231
1,3992
L=
1,6800
-0,1450
−0,0456
1,0700
и соответствующий ограничивающий эллипс по выходу z с матрицей
(
)
18,3672
3,6100
R=
,
trR = 35,8764.
3,6100
17,5092
19
800
700
600
500
400
300
200
100
0
0
50
100
150
200
250
Niter
Рис. 2. Оптимизационная процедура в примере 1.
Теперь воспользуемся предлагаемым подходом, положив ρK = 0,01,
ρL = 0,001 и взяв в качестве начального приближения для регулятора мат-
рицу
)
K0 =
(-10
1
-10 1
,
а в качестве начального приближения для наблюдателя матрицу
10
1
1
1
L0 =
101.
1
1
Динамика изменения критерия f(K, L) при расчете по вышеописанному ал-
горитму показана на рис. 2.
Процесс завершился нахождением матрицы регулятора
(
)
K =
-6,1908
3,8595
-4,9321
-3,2368
,
(норма ∥K∥ = 9,3821 которого много меньше, чем у регулятораK, получен-
ного методом ЛМН), а также матрицы наблюдателя
5,1504
2,7780
-4,6186
-1,0657
L =
∥L∥ = 16,9272,
13,2831
5,5175
,
4,0128
3,0511
20
5
4
3
2
1
0
-1
-2
-3
-4
-5
-4
-3
-2
-1
0
1
2
3
4
5
v1
Рис. 3. Ограничивающие эллипсы и траектории выхода в примере 1.
и соответствующего ограничивающего эллипса по выходу z с матрицей
(
)
5,1094
0,9660
R =
,
tr R = 10,0630.
0,9660
4,9536
На рис. 3 сплошной полужирной линией показан найденный ограничиваю-
щий эллипс; для сравнения полужирным пунктиром показан ограничиваю-
щий эллипс при LMI-подходе. На этом же рисунке сплошной линией показана
траектория выхода z системы при некотором начальном условии и допусти-
мом внешнем возмущении, а пунктиром траектория ее оценки z = C2x при
x(0) = 0; как видно, она покидает ограничивающий эллипс.
На рис. 4 сплошной линией показана динамика величины |z(t)|, а пункти-
ром ее оценки |z(t)|.
Изменим теперь начальное приближение матрицы наблюдателя на
0
10
−15
10
L0 =
8
.
-5
−2
8
В результате процесс сойдется к матрице регулятора
)
K =
(-8,4182 -0,0044
-3,1765
-6,3851
,
21
20
18
16
14
12
10
8
6
4
2
0
5
10
15
20
25
30
35
40
45
50
t
Рис. 4. Динамика изменения величин |z(t)| и |z(t)| в примере 1.
где ∥K∥ = 11,0329, матрице наблюдателя
6,3792
13,4718
−5,7668
-3,9960
L =
,
 7,8898
5,2154
−3,8242
-1,9790
для которой ∥L∥ = 18,7649, и соответствующему ограничивающему эллипсу
по выходу z с матрицей
)
(5,3326 0,8664
R
=
,
tr R = 10,3729.
0,8664
5,0403
При сравнительно различных матрицах регулятора и наблюдателя най-
денные эллипсы отличаются всего лишь на 3% по критерию следа, см. рис. 5.
Для сравнения штрихпунктиром показан ограничивающий эллипс, получен-
ный в соответствии с методом [17] синтеза линейных динамических регуля-
торов по выходу, основанным на решении ЛМН.
Пример 2. Вновь обратимся к системе из примера 1; пусть теперь на-
блюдению доступно все зашумленное состояние системы:
0
0
0
0
C1 = I, D1 =
0 0
0
1
22
2,5
2,0
1,5
1,0
0,5
0
-0,5
-1,0
-1,5
-2,0
-2,5
-2,0 -1,5 -1,0 -0,5
0
0,5
1,0
1,5
2,0
2.5
v1
Рис. 5. Ограничивающие эллипсы в примере 1.
ЛМН-подход доставляет матрицу регулятора
(
)
K=
-1,4474
1,0068
-0,9406
-0,9006
· 1010,
матрицу наблюдателя
1,2219
-0,3075
0,1889
0,3736
0,0869
0,8083
0,1552
0,4082
L=
-0,0833
-0,2344
1,9514
0,0692
0,0543
0,3880
-0,0735
0,8007
и соответствующий ограничивающий эллипс по выходу z с матрицей
)
(9,4702 2,4556
R
=
,
trR = 19,2166.
2,4556
9,7464
Обратим внимание на величину матрицы регулятора. С целью ее умень-
шения принято вводить компоненту управления в минимизируемый выход:
z = C2x + B2u, что естественно приводит к дополнительному увеличению
размера ограничивающего эллипсоида.
Предлагаемый подход при начальных приближениях
10
1
0
0
(
)
1
1
0
0
K0 =
-10 1
-10 1
,
L0 =
10 1 0 0
1
1
0
0
23
4
3
2
1
0
-1
-2
-3
-4
-3
-2
-1
0
1
2
3
4
v1
Рис. 6. Ограничивающие эллипсы в примере 2.
доставляет матрицу регулятора
(
)
K =
-9,8237
2,9696
-6,9974
-1,1508
,
матрицу наблюдателя
9,9369
1,3231
-0,3335
0,0487
1,1640
0,4330
0,8599
0,3908
L =
10,0696
0,6950
0,4359
0,1733
0,9665
0,8494
-0,3407
-0,5958
и соответствующий ограничивающий эллипсоид с матрицей
)
(5,3755 1,3414
R
=
,
tr R = 12,0655.
1,3414
6,6900
На рис. 6 сплошной линией показан найденный ограничивающий эллипс.
Для сравнения точечной линией показан ограничивающий эллипс, получен-
ный при помощи ЛМН-подхода, а штрихпунктиром ограничивающий эл-
липс, предоставляемый линейным динамическим регулятором по выходу.
Пример 3. Рассмотрим двойной математический маятник, состоящий из
двух невесомых стержней длины l1 и l2, на концах которых укреплены гру-
зики массами m1 и m2. Система движется в вязкой среде с коэффициентом
сопротивления γ, в вертикальной плоскости xy, и положение маятника опре-
деляется углами ϕ1 и ϕ2 отклонения стержней от вертикали, см. рис. 7.
24
x
j1
l1
u
m1
j2
l2
w
m2
y
Рис. 7. Двойной математический маятник из примера 3.
Для компенсации ограниченного внешнего возмущения w : |w| ≤ 1, воздей-
ствующего на “нижнее” тело, к “верхнему” телу приложено управляющее воз-
действие u.
Вводя переменные
ϕ3 =ϕ˙1, ϕ4 =ϕ˙2,
приходим к линеаризованной системе
ϕ1 = ϕ3,
ϕ2 = ϕ4,
(
)
m2
g
m2 g
γ
1
ϕ3 = -
1+
ϕ1 +
ϕ2 -
ϕ3 +
u,
m1
l1
m1 l1
m1
m1
(
)
(
)
m2
g
m2
g
γ
1
ϕ4 =
1+
ϕ1 -
1+
ϕ2 -
ϕ4 +
w.
m1
l2
m1
l2
m2
m2
При
m1 = m2 = 1, l1 = l2 = g, γ = 0,2
матрицы системы имеют вид
0
0
1
0
0
0
0
0
0
1
0
0
A=
,
B=
,
D=
-2
1
-0,2
0
1
0
2
-2
0
-0,2
0
1
В качестве наблюдаемого выхода выберем
)
1
y=
,
ϕ2
25
т.е.
)
(1 0 0
0
C1 =
,
D1 = 0,
0
1
0
0
а в качестве регулируемого выхода вектор
)
1
z=
,
ϕ2
т.е.
)
(0 0 1
0
C2 =
0
0
0
1
При вычислении статической обратной связи в соответствии с [15] полу-
чаем стабилизирующий регулятор по выходу
(
)
K=
0,0088
-0,8657
и матрицу
(
)
1,5854
-0,0437
R
=
-0,0437
26,6679
ограничивающего эллипсоида; при этом trR = 28,2533.
Теперь воспользуемся предлагаемым подходом. Поскольку матрица A си-
стемы устойчива, в качестве начальных приближений казалось бы естествен-
но выбирать нулевые, однако точка K = L = 0 является седловой для ми-
нимизируемой функции. Поэтому в качестве начального приближения для
регулятора возьмем матрицу
(
)
K0 =
0
0
0
0
,
а в качестве начального приближения для наблюдателя сгенерируем некото-
рую матрицу
0,7653
-0,2647
−0,1251
0,5897
L0 =
,
 0,6699
-0,8014
−0,3497
0,9036
оставляющую матрицу A - LC1 устойчивой.
Процесс (при ρK = 0,01, ρL = 0,001) завершился нахождением матрицы
регулятора
)
K =
(0,5492 0,1428
-1,4488
0,4888
,
∥K∥ = 1,6309,
26
40
35
30
25
20
15
10
5
0
5
10
15
20
25
30
35
40
Niter
Рис. 8. Оптимизационная процедура в примере 3.
матрицы наблюдателя
1,0623
-0,2113
0,5233
1,1165
L =
,
∥L∥ = 1,9715,
 1,3406
-0,4269
−0,2458
1,3874
и соответствующего ограничивающего эллипса по выходу z с матрицей
)
(1,0674 0,3449
R
=
,
tr R = 3,2595.
0,3449
2,1921
Динамика изменения критерия f(K, L) при расчете по вышеописанному ал-
горитму показана на рис. 8.
Для сравнения, при ином также произвольном начальном приближе-
нии
0,0826
-0,0346
0,7379
0,6160
L0 =
 0,1141
0,4720
−0,9572
0,1446
процесс доставляет матрицу регулятора
)
K =
(0,7847 -0,0119
-1,4160
0,5955
,
∥K∥ = 1,7250,
27
6
4
2
0
-2
-4
-6
-1,5
-1,0
-0,5
0
0,5
1,0
1,5
j1
Рис. 9. Ограничивающие эллипсы в примере 3.
матрицу наблюдателя
1,0002
-0,0842
0,7970
0,9984
L =
,
∥L∥ = 1,9280,
 0,9408
-0,1216
−1,0109
1,0961
и соответствующий ограничивающий эллипс по выходу z с матрицей
)
(1,0529 0,2916
R
=
,
tr R = 3,3120.
0,2916
2,2591
Как и в примере 1, при различных матрицах регулятора и наблюдателя най-
денные эллипсы отличаются по критерию следа лишь на несколько процен-
тов.
На рис. 9 сплошной линией и пунктиром показаны найденные ограничи-
вающие эллипсы. Для сравнения точечной линией показан ограничивающий
эллипс, полученный при помощи статической обратной связи, его размер в
8 раз больше (по критерию следа), а штрихпунктиром ограничивающий
эллипс, предоставляемый линейным динамическим регулятором по выходу.
6. Заключение
Предложен новый подход к задаче стабилизации по выходу. Он обладает
преимуществами перед известным методом [4], основанным на ЛМН.
28
Важной задачей для дальнейших исследований является обобщение пред-
лагаемого подхода на другие типы динамических регуляторов (а не только
регуляторов с использованием наблюдателей).
ПРИЛОЖЕНИЕ
Доказательство леммы 2. Рассмотрим последовательность стабили-
зирующих матричных пар {Kj , Lj } ⊆ S такую, что
(Kj , Lj ) → (K, L) ∈ ∂S,
т.е. σ(AK,L) = 0. Это означает, что для любого ε > 0 найдется число N = N(ε)
такое, что неравенство
|σ(AKj ,Lj ) - σ(AK,L)| = σ(AKj ,Lj ) < ε
справедливо для всех j ≥ N(ε).
Пусть Pj
решение уравнения Ляпунова (12), ассоциированного с па-
рой (Kj , Lj ):
(
)
(
)T
αj
αj
1
AKj,Lj +
I Pj + Pj AKj,Lj +
I
+
DDT = 0,
2
2
αj
а Yj решение двойственного к нему уравнения Ляпунова
(
)T
(
)
αj
αj
AKj,Lj +
I
Yj + Yj AKj,Lj +
I
+ C2CT2 = 0.
2
2
Тогда (см. [15, лемма П.1])
(
)
(
)
(
)
1
f (Kj , Lj ) = tr
C2PjCT2
+ ρ∥Kj2F ≥ tr
PjC2CT2
= tr Yj
DDT
αj
1
1
λmin(C2CT2)
λmin(Yj)∥D∥2F
αj
αj 2∥AKj,Lj +αj2I∥∥D∥F
λmin(C2CT2)
λmin(C2CT2)
4σ(AKj ,Lj )∥AKj ,Lj +αj2I∥∥D∥F
4σ(AKj ,Lj )(∥AKj ,Lj ∥ +αj2)∥D∥F
λmin(C2CT2)
(
) ∥D∥2F
4σ(AKj ,Lj )
∥AKj ,Lj ∥ + σ(AKj ,Lj )
λmin(C2CT2)
∥D∥2F
-−-→ +∞,
4ε(∥AKj ,Lj ∥ + ε)
ε→0
поскольку
0 < αj < 2σ(AKj,Lj).
29
C другой стороны,
f (Kj, Lj ) = tr (C2Pj CT2) + ρK ∥Kj2F + ρL∥Lj2F ≥ ρK ∥Kj2F
≥ ρK∥Kj2 -------→ +∞
∥Kj ∥→+∞
и
f (Kj , Lj ) = tr (C2Pj CT2) + ρK ∥Kj2F + ρL∥Lj2F ≥ ρL∥Lj2F
≥ρL∥Lj2
-−-----→ +∞.
∥Lj ∥→+∞
Лемма 2 доказана.
Доказательство леммы 3. Дифференцирование по α производится
в соответствии с результатами, приведенными в разделе 3.1.
Для дифференцирования по K функции (11) при ограничении в виде урав-
нения Ляпунова
(
)
(
)T
α
α
1
(Π.1)
AK,L +
I P +P AK,L +
I
+
DDT
=0
2
2
α
относительно матрицы P инвариантного эллипсоида придадим величине K
приращение ΔK и обозначим соответствующее приращение P через ΔP :
(
)
α
A + M1(K + ΔK)N1 + M2LN2 +
I (P + ΔP ) +
2
(
)T
α
1
+ (P + ΔP ) A + M1(K + ΔK)N1 + M2LN2 +
I
+
DDT = 0.
2
α
Оставляя обозначение ΔP для главной части приращения, получаем
(
)
(
)T
α
α
AK,L + M1ΔPN1 +
I P + P AK,L + M1ΔPN1 +
I
+
2
2
(
)
(
)T
α
α
1
+ AK,L +
I ΔP + ΔP AK,L +
I
+
DDT = 0.
2
2
α
После вычитания уравнения (Π.1) из этого уравнения имеем:
(
)
(
)T
α
α
AK,L +
I ΔP + ΔP AK,L +
I
+
(Π.2)
2
2
+ M1ΔKN1P + P(M1ΔKN1)T = 0.
Вычислим приращение функционала f(K, L, α) по K, линеаризуя соответ-
ствующие величины:
ΔKf(K,L,α) = tr C2ΔPCT2 + ρK tr KTΔK + ρK tr (ΔK)TK =
= tr CT2C2ΔP + 2ρK tr KTΔK.
30
Рассмотрим уравнение Ляпунова (16), двойственное к (Π.2). Из двойствен-
ных уравнений (Π.2) и (16) имеем (см. [15, лемма П.1]):
ΔKf(K,L,α) = tr 2N1PY M1ΔK + 2ρK tr KTΔK =
(
)
= 2
ρKK + MT1Y PNT1
,ΔK .
Таким образом,
(
)
Kf(K,L,α) = 2
ρKK + MT1Y PNT1
Полностью аналогичным образом устанавливается, что
(
)
Lf(K,L,α) = 2
ρLL + MT2Y PNT2
Лемма 3 доказана.
СПИСОК ЛИТЕРАТУРЫ
1.
Измайлов P.Н. Эффект “всплеска” в стационарных линейных системах со ска-
лярными входами и выходами // АиТ. 1987. № 8. С. 56-62.
Izmailov R.N. The “Peak” Effect in Stationary Linear Systems with Scalar Inputs
and Outputs // Autom. Remote Control. 1987. V. 48. No. 8. P. 1018-1024.
2.
Полоцкий В.Н. О максимальных ошибках асимптотического идентификатора
состояния // АиТ. 1978. № 8. С. 26-32.
3.
Коровин С.К., Фомичев В.В. Наблюдатели состояния для линейных систем с
неопределенностью. М.: Физматлит, 2007.
4.
Поляк Б.Т., Топунов М.В. Подавление ограниченных внешних возмущений:
управление по выходу // АиТ. 2008. № 5. С. 72-90.
Polyak B.T., Topunov M.V. Suppression of Bounded Exogenous Disturbances: Out-
put Feedback // Autom. Remote Control. 2008. V. 69. No. 5. P. 801-818.
5.
Boyd S., El Ghaoui L., Feron E., et al. Linear Matrix Inequalities in System and
Control Theory. Philadelphia: SIAM, 1994.
6.
Поляк Б.Т., Хлебников М.В., Щербаков П.С. Управление линейными система-
ми при внешних возмущениях: Техника линейных матричных неравенств. М.:
ЛЕНАНД, 2014.
7.
Luenberger D.G. An Introduction to Observers // IEEE Trans. Automat. Control.
1971. V. AC-16. No. 6. P. 596-620.
8.
Баландин Д.В., Коган М.М. Синтез законов управления на основе линейных
матричных неравенств. М.: Физматлит, 2007.
9.
Levine W., Athans M. On the Determination of the Optimal Constant Output Feed-
back Gains for Linear Multivariable Systems // IEEE Trans. Automat. Control.
1970. V. 15. No. 1. P. 44-48.
10.
Fazel M., Ge R., Kakade S., Mesbahi M. Global Convergence of Policy Gradient
Methods for the Linear Quadratic Regulator // Proc. 35th Int. Conf. Machine Learn-
ing. Stockholm, Sweden, July 10-15, 2018. V. 80. P. 1467-1476.
11.
Mohammadi H., Zare A., Soltanolkotabi M., Jovanović M.R. Global Exponential
Convergence of Gradient Methods Over the Nonconvex Landscape of the Linear
Quadratic Regulator // Proc. 2019 IEEE 58th Conf. Decision Control. Nice, France,
December 11-13, 2019. P. 7474-7479.
31
12. Zhang K., Hu B., Basar T. Policy Optimization for H2 Linear Control with H
Robustness Guarantee: Implicit Regularization and Global Convergence // arXiv:
1910.09496, 2020.
13. Bu J., Mesbahi A., Fazel M., Mesbahi M. LQR through the Lens of First Order
Methods: Discrete-Time Case // arXiv:1907.08921, 2019.
14. Fatkhullin I., Polyak B. Optimizing Static Linear Feedback: Gradient Method //
SIAM J. Control Optim. 2021. V. 59. No. 5. P. 3887-3911.
15. Поляк Б.Т., Хлебников М.В. Синтез статического регулятора для подавления
внешних возмущений как задача оптимизации // АиТ. 2021. № 9. С. 86-115.
Polyak B.T., Khlebnikov M.V. Static Controller Synthesis for Peak-to-Peak Gain
Minimization as an Optimization Problem // Autom. Remote Control. 2021. V. 82.
No. 9. P. 1530-1553.
16. Поляк Б.Т., Хлебников М.В., Щербаков П.С. Линейные матричные неравенства
в системах управления с неопределенностью // АиТ. 2021. № 1. С. 3-54.
Polyak B.T., Khlebnikov M.V., Shcherbakov P.S. Linear Matrix Inequalities in Con-
trol Systems with Uncertainty // Autom. Remote Control. 2021. V. 82. No. 1.
P. 1-40.
17. Хлебников М.В. Подавление ограниченных внешних возмущений: линейный ди-
намический регулятор по выходу // АиТ. 2011. № 4. C. 27-42.
Khlebnikov M.V. Suppression of Bounded Exogenous Disturbances: A Linear Dy-
namic Output Controller // Autom. Remote Control. 2011. V. 72. No. 4. P. 699-712.
Статья представлена к публикации членом редколлегии П.С. Щербаковым.
Поступила в редакцию 02.11.2021
После доработки 10.12.2021
Принята к публикации 24.12.2021
32