Автоматика и телемеханика, № 7, 2022
Робастное, адаптивное и сетевое
управление
© 2022 г. Л.Т. АЩЕПКОВ, д-р физ.-мат. наук (ashchepkov@yahoo.com)
(Дальневосточный федеральный университет, Владивосток)
АНАЛИТИЧЕСКОЕ КОНСТРУИРОВАНИЕ РЕГУЛЯТОРА
С АМПЛИТУДНЫМ ОГРАНИЧЕНИЕМ
Рассматривается стационарная задача оптимального управления ново-
го линейно-квадратичного типа на полуоси времени с амплитудным огра-
ничением на управление. С помощью достаточных условий оптимально-
сти находится оптимальное позиционное управление с разрывом на под-
пространстве фазового пространства. Исследуется движение доопреде-
ленной системы по подпространству в скользящем режиме. Показана экс-
поненциальная устойчивость замкнутой системы. Приведены примеры.
Ключевые слова: оптимальное управление, задача линейно-квадратич-
ного типа, оптимальный синтез, скользящий режим, экспоненциальная
устойчивость.
DOI: 10.31857/S0005231022070030, EDN: ADTRWW
1. Введение
Задача аналитического построения регулятора с момента появления пер-
вых публикаций [1, 2] стала предметом многочисленных исследований бла-
годаря широкому применению в технических приложениях. Обзор опубли-
кованных работ служит предметом отдельного серьезного исследования и не
входит в цели настоящей статьи. Отметим лишь, что аналитическое и числен-
ное решение задачи при дополнительных ограничениях на управление зна-
чительно усложняется (см., например, [3-7]). Причины усложнения состоят
в нелинейности и разрывности управлений типа обратной связи и трудно-
сти описания скользящих режимов на различных пересечениях поверхностей
разрыва управлений.
Исследованию одной из таких задач посвящена настоящая статья. Рас-
сматривается задача оптимального управления линейно-квадратичного типа
на полуоси времени с ограниченной евклидовой нормой управления. Новым
элементом в постановке задачи служит целевой функционал, который наряду
с традиционным квадратичным отклонением траектории от начала коорди-
нат учитывает еe отклонение от подпространства R разрыва оптимального
управления. Это подпространство естественно появляется при аналитическом
решении задачи с помощью достаточных условий оптимальности [8]. Анализ
показывает, что подпространство R состоит из двух взаимно дополняющих
49
друг друга множеств. Первое из них прошивается траекториями замкнутой
системы без односторонних касаний. Второе множество заполняется траекто-
риями скольжения, ведущими в начало координат. В целом замкнутая систе-
ма с дополнительными уравнениями скольжения экспоненциально устойчива.
В теории систем с переменной структурой разрывные позиционные управ-
ления специально вводятся в систему для создания устойчивых и мало чув-
ствительных к возмущениям скользящих движений [9]. Вопросы оптималь-
ности управлений при этом обычно не рассматриваются или отодвигаются
на второй план. В данном случае новизна предлагаемого подхода состоит в
том, что требования существования и устойчивости скользящих движений
формулируются на уровне постановки задачи и непосредственно закладыва-
ются в еe условия. При минимизации функционала из множества возможных
позиционных управлений выделяется единственное оптимальное управление
с нужными свойствами. Тем самым исключается произвол в выборе управ-
ления.
Остановимся еще на одном моменте, связанном с постановкой задачи. Вы-
бор в качестве области управления U шара не случаен и обусловлен тем, что
оптимальное управление в этом случае определено и непрерывно на всем фа-
зовом пространстве, исключая подпространство R. Это значительно упроща-
ет описание и анализ скользящих движений. Технически шар U легко заме-
нить эллипсоидом, чтобы учесть разномасштабные координаты управления.
Вместе с тем обобщение результатов на области управления с негладкими
границами, например многогранники, нетривиально из-за сложности описа-
ния скользящих режимов на различных пересечениях плоскостей разрыва
управления.
2. Постановка задачи
Объектом нашего внимания будет задача оптимального управления
(
)
J =
x(t)Cx(t) + 2BLx(t)
dt → min,
(1)
0
x = Ax + Bu, x(0) = x0, x(∞) = 0,
∥u∥ ≤ 1, t ≥ 0.
Здесь A, C, L ∈ Rn×n постоянные матрицы c уточненными далее свойства-
ми; B ∈ Rn×m постоянная матрица ранга m ≤ n; x, x0 ∈ Rn перемен-
ный и фиксированный фазовые векторы, x0 = 0; x = dx/dt; u ∈ Rm вектор
управления со значениями в шаре U, заданном неравенством ∥u∥ ≤ 1. Во всех
операциях используются векторы-столбцы; штрих знак транспонирования;
∥u∥ = (uu)1/2 евклидова норма вектора u. Равенство x(∞) = 0 понимается
в предельном смысле: x(t) → 0 при t → ∞.
Примем дополнительные предположения: матрица L удовлетворяет мат-
ричному алгебраическому уравнению Ляпунова
(2)
A
L + LA + C = 0;
50
все собственные значения матрицы A имеют отрицательные действительные
части; матрица C симметричная и положительно определенная. Последние
два условия необходимы и достаточны [10] для существования, единственно-
сти, симметричности и положительной определенности матрицы L.
Непрерывную кусочно-гладкую траекторию x(t), t ≥ 0, и кусочно-непре-
рывное управление u(t), t ≥ 0, назовем процессом, если пара x(t), u(t) отвеча-
ет условиям (1), исключая, возможно, первое требование, и соответствующее
значение функционала J конечно. Задача состоит в отыскании среди всех
процессов оптимального процесса с наименьшим значением целевого функ-
ционала.
Отметим, что квадратичная форма xLx является функцией Ляпунова
экспоненциально устойчивой однородной системы дифференциальных урав-
нений x = Ax.
3. Синтез оптимальной системы
Для решения задачи воспользуемся достаточными условиями оптимально-
сти [8]. С использованием формулы Лейбница-Ньютона представим целевой
функционал на произвольном фиксированном процессе x(t), u(t) в виде
t=∞
(
)
(
)
J =
x(t)Cx(t) + 2BLx(t)
dt +
x(t)Lx(t)
dt - x(t)Lx(t)
t=0
0
0
Выполним во втором интеграле дифференцирование по t. Учитывая краевые
условия (1), равенство (2) и соотношения
L = L, xLAx = (xLAx) = xALx, x ∈ Rn,
получим
(
)
J=
x(t)Cx(t) + 2BLx(t)
dt +
2x(t)L (Ax(t) + Bu(t)) dt + x′0Lx0 =
0
0
(
)
(
)
= x′0Lx0 + x(t)
AL + LA + C
x(t)dt + 2
BLx(t)+x(t)LBu(t)
dt =
0
0
)
(
+(BLx(t))u(t)dt.
= x′0Lx0 + 2
BLx(t)
0
Найдем нижнюю оценку целевого функционала. Имеем
)
(
J = x′0Lx0 + 2
BLx(t) + (BLx(t))u(t) dt ≥
0
)
(
≥ x′0Lx0 + 2 min
min
BLx + (BLx)u dt.
x∈Rn∥u∥≤1
0
51
В силу известного неравенства Коши-Буняковского минимизируемая по u
функция под знаком интеграла на шаре ∥u∥ ≤ 1 неотрицательна и равна нулю
при
BLx
(3)
u(x) = -
,
B
Lx = 0.
∥BLx∥
В результате нижняя оценка функционала примет вид
)
(
(4)
J = x′0Lx0 + 2
BLx(t) + (BLx(t))u(t) dt ≥ x′0Lx0.
0
Как видно, позиционное управление (3) определено и непрерывно на всем фа-
зовом пространстве, за исключением точек x подпространства R, заданного
уравнением BLx = 0.
Прежде чем установить точность нижней оценки (4), введем в рассмотре-
ние замкнутую управлением (3) систему уравнений
(5)
x = Ax + Bu(x)
и выясним поведение ее траекторий в малой окрестности подпространства R.
Обозначим через
s(x, u) = BL(Ax + Bu)
производную векторной функции s(x) = BLx в силу системы дифференци-
альных уравнений (1). Определим в подпространстве R два множества S и P :
(
)
x∈S⇔
0 ∈ s(x,U), BLx = 0
,
(
)
x∈P ⇔
0 ∈ s(x,U), BLx = 0
Здесь символом s(x, U) обозначена область значений функции s(x, u) на ша-
ре U при фиксированном x. Согласно первому определению точка x при-
надлежит S в том и только в том случае, если BLx = 0 и найдется вектор
v(x) ∈ U со свойством BL(Ax + Bv(x)) = 0. C учетом невырожденности мат-
рицы BLB представим включение x ∈ S в равносильной форме
(
(6)
v(x) = -
BLB
)-1 BLAx, ∥v(x)∥ ≤ 1, B
Lx = 0.
Отсюда следуют очевидные свойства множества S выпуклость, замкну-
тость и симметричность относительно начала координат. Эти свойства про-
веряются непосредственно. Например, чтобы убедиться в выпуклости S, до-
статочно показать, что из включений x, y ∈ S вытекает z = (1 - λ)x + λy ∈ S
при λ ∈ [0, 1]. Действительно, в силу выполнения соотношений (6) для x, y,
свойств нормы и условия λ ∈ [0, 1] имеем
(
v(z) = v((1 - λ)x + λy) = (1 - λ)v(x) + λv(y) = -
BLB
)-1 BLAz,
∥v(z)∥ = ∥(1 - λ)v(x) + λv(y)∥ ≤ (1 - λ)∥v(x)∥ + λ∥v(y)∥ ≤ 1,
BLz = BL((1 - λ)x + λy) = (1 - λ)BLx + λBLy = 0,
52
т.е. z ∈ S. Соответствующие управлению (6) траектории замкнутой системы
уравнений
(7)
x = Ax + Bv(x), B
Lx = 0,
исходящие из точек множества S, лежат в S. В связи с этим назовем S обла-
стью скольжения и (7) уравнениями скольжения.
Рассмотрим подробнее множество P . Пусть x произвольная фиксиро-
ванная точка P , в которой BLx = 0 и 0 ∈ s(x, U). По определению множество
s(x, U) выпуклое, замкнутое и ограниченное. Применим к множествам s(x, U)
и 0 теорему об отделимости [11]. Согласно этой теореме найдется зависящий
от x ненулевой вектор c ∈ Rm, удовлетворяющий неравенству c s(x, U) < 0,
или в подробной записи
(8)
cB
L(Ax + Bu) < 0, u ∈ U.
В геометрической трактовке неравенство (8) означает, что в точке x ∈ P
все векторы скорости x = Ax + Bu, u ∈ U, имеют отрицательные проекции
на вектор cBL = 0. В частности, если при малом ε > 0 непрерывное реше-
ние x(t), |t - τ| ≤ ε замкнутой системы (5) имеет в точке x(τ) = x односто-
ронние производные
x(τ ± 0) = Ax(τ) + Bu(x(τ ± 0)),
то проекции векторов x(τ ± 0) на вектор cBL тоже отрицательны. Тогда из
соображений непрерывности, условия x(τ) = x ∈ P и достаточной малости
ε > 0 следует, что
cBLx(τ - ε) = cBL(x(τ - ε) - x(τ)) = -εcBL x(τ - 0) + o(ε) > 0,
cBLx(τ + ε) = cBL(x(τ + ε) - x(τ)) = εcBL x(τ + 0) + o(ε) < 0,
где o(ε) малая порядка выше ε. Значит, траектория x(t) пересекает плос-
кость cBLx = 0 в точке x(τ) без односторонних касаний. Так как плоскость
cBLx = 0 содержит P и x ∈ P, то траектория x(t) одновременно пересекает
множество P в точке x(τ) = x. В силу произвольности x последний вывод
верен для любой точки P .
Множество P назовем областью прошивания. Как видно из сказанного,
условие x ∈ P достаточно для того, чтобы проходящая через точку x траек-
тория замкнутой системы (5) прошивала подпространство R разрыва управ-
ления (3).
Итак, в зависимости от положения начальной точки x0 непрерывная
траектория замкнутой системы (5) может пересекать область прошива-
ния P ⊂ R без односторонних касаний и частично лежать в области сколь-
жения S ⊂ R. Движение в скользящем режиме описывается уравнениями
скольжения (7).
53
Вернемся к проверке точности оценки (4). Обозначим через x(t) непрерыв-
ную траекторию, определенную на полуоси t ≥ 0 уравнениями замкнутой си-
стемы (5), (7) и начальным условием x(0) = x0. Выделим на полуоси времени
множества T1, T2, T3, полагая
t ∈ T1 ⇔ x(t) ∈ R; t ∈ T2 ⇔ x(t) ∈ S; t ∈ T3 ⇔ x(t) ∈ P.
Если t ∈ T1, то на основании (2), (3), (5) получим
(
)
x(t)Lx(t)
= 2x(t)L (Ax(t) + Bu(x(t))) =
(
)
= x(t)
AL + LA
x(t) - 2BLx(t)≤ -x(t)Cx(t).
Если t ∈ T2, то в силу (2), (6), (7) точно так же находим
(
)
x(t)Lx(t)
= 2x(t)L (Ax(t) + Bv(x(t))) =
(
)
(
= x(t)
AL + LA
x(t) + 2
BLx(t)) v(x(t)) = -x(t)Cx(t).
Приведенные выкладки показывают, что неравенство
(
)
(9)
x(t)Lx(t)
≤ -x(t)
Cx(t)
имеет место во всех точках гладкости траектории x(t), t ≥ 0, за возможным
исключением моментов t ∈ T3 и момента первого попадания траектории в
область S. Из неравенства (9) с учетом положительной определенности мат-
рицы L и теоремы Вейерштрасса получим
(x(t)Lx(t))
x(t)Cx(t)
xCx
≤-
≤ - min
= -α < 0, t ≥ 0.
x(t)Lx(t)
x(t)Lx(t)
∥x∥=1 xLx
Отсюда путем интегрирования неравенства по t в пределах от нуля до t на-
ходим
ln x(t)Lx(t) - ln x′0Lx0 ≤ -αt.
Следовательно,
(10)
x(t)Lx(t) ≤ x′0Lx0e-αt
,
t ≥ 0.
Оценка (10) свидетельствует об экспоненциальной устойчивости замкнутой
системы (5), (7) при любом x0 ∈ Rn и влечет выполнение предельного соот-
ношения x(∞) = 0.
На процессе x(t), u(t) с управлением
u(t) = -BLx(t)/BLx(t)
, t∈T1;
(
u(t) = -
BLB
)-1 BLAx(t), t ∈ T2,
54
нижняя оценка (4) целевого функционала достигается. Действительно, в этом
случае при t ∈ T1 подынтегральная функция в неравенстве (4) равна нулю на
основании определения управления u(t) и при t ∈ T2 ∪ T3 вследствие вы-
полнения равенства BLx(t) = 0. По построению множества T1, T2, T3 не пе-
ресекаются, и их объединение совпадает с полуосью t ≥ 0, поэтому интеграл
в неравенстве (4) равен нулю. Значит, процесс x(t), u(t) оптимальный.
Подведем итоги. Если условия задачи (1) отвечают перечисленным в раз-
деле 2 предположениям, то при любом x0 решение задачи существует. Оп-
тимальное позиционное управление (3) кусочно-непрерывное с разрывом на
подпространстве R. В дополняющих друг друга областях P, S подпростран-
ства R выполнены соответствующие достаточные условия прошивания и
скольжения. В области скольжения управление v(x) непрерывное и допу-
стимое по амплитудному ограничению (1). Уравнения скольжения (7) ли-
нейны и линейно зависимы. Замкнутая система (5), (7) экспоненциально
устойчива. Минимум целевого функционала равен x′0Lx0.
Приведенные выводы и точная нижняя оценка (4) целевого функционала
дают ответ на вопрос, в каком случае пробный процесс y(t), u(t) ≡ 0, соот-
ветствующий задаче Коши y = Ay c начальными значениями y = x0, t = 0
оптимален в задаче (1). Для этого процесса на основании оценки (4) имеем
(11)
J = x′0Lx0 + 2
BLy(t) dt ≥ x′0Lx0.
0
В силу неотрицательности и непрерывности подынтегральной функции
∥BLy(t)∥ равенство в оценке (11) возможно в том и только в том случае,
если BLy(t) ≡ 0, t ≥ 0. При нарушении данного условия, хотя бы в один мо-
мент t ≥ 0, пробный процесс удовлетворяет строгому неравенству (11), т.е.
не оптимален. Другими словами, по функционалу (1) пробный процесс опти-
мален в том и только в том случае, если его траектория полностью лежит в
области скольжения.
4. Примеры
В зависимости от матрицы B оптимальное управление (3) имеет разные
аналитические свойства. Если B квадратная невырожденная матрица, то
оптимальное управление непрерывно на всем фазовом пространстве, за ис-
ключением начала координат. Режим скольжения отсутствует.
Если матрица B состоит из единственного столбца b = 0, то оптимальное
управление
=-signbLx
u(x) = -bLx/bLx
релейное с разрывом на плоскости bLx = 0. Области скольжения S и про-
шивания P заданы соответствующими условиями
(12)
bLAx≤bLb, bLx = 0;
bLAx>bLb, b
Lx = 0.
55
Если векторы bL и bLA линейно независимы, то геометрически область
скольжения представляет собой замкнутую полосу на плоскости bLx = 0, за-
ключенную между двумя параллельными плоскостями bLAx = ±bLb. Урав-
нения скольжения имеют вид
x = Ax + bv(x), v(x) = -bLAx/bLb, bLx = 0.
Описания (12) областей скольжения и прошивания равносильны известным
достаточным условиями существования скользящих режимов и прошива-
ния [9] в терминах функции s(x) = bLx и ее односторонних производных
в силу замкнутой системы x = Ax + bu(x).
Поясним сказанное иллюстративным примером, в котором
(
)
(
)
-1
0
1
( 2 0)
( 1 0)
A=
,
b=
,
C =
,
L=
0
-2
-1
0
4
0
1
С использованием приведенных выше формул находим оптимальное релей-
ное управление u(x1, x2) = -sign(x1 - x2) с разрывом на прямой x1 - x2 = 0,
области скольжения x1 - x2 = 0, |x2| ≤ 2, прошивания x1 - x2 = 0, |x2| > 2, и
уравнения скольжения
x1 = -x1 + v(x1,x2),
x2 = -2x2 - v(x1,x2),
v(x1, x2) = (x1 - 2x2) /2, x1 - x2 = 0,
|x2| ≤ 2.
Эти уравнения приводятся к удобному для интегрирования виду
(13)
x1 = -3x1/2,
x2 = -3x2/2, x1 - x2 = 0,
|x2
|≤2
с помощью эквивалентных представлений v(x1, x1) = -x1/2; v(x2, x2) =
= -x2/2 управления v(x1,x2) в области скольжения. При постоянном управ-
лении u = -1 или u = +1 фазовая точка исходной системы дифференци-
альных уравнений с возрастанием времени движется к устойчивому фокусу
Φ-1 = (-1,1/2) или Φ+1 = (1,-1/2) по соответствующей параболе
x2 = 1/2 + c1(x1 + 1)2 (u = -1); x2 = -1/2 + c2(x1 - 1)2 (u = +1).
Постоянные c1, c2 определяются начальными значениями. Картина распо-
ложения оптимальных траекторий представлена на рисунке. Как видно из
рисунка, на заключительном этапе оптимальное движение к началу коорди-
нат происходит преимущественно в режиме скольжения.
Сравним по переходным периодам оптимальную траекторию x(t) =
= (ξe-3t/2, ξe-3t/2), t ≥ 0, системы (13), исходящую в момент t = 0 из произ-
вольной фиксированной точки x = (ξ, ξ), |ξ| ≤ 2, области скольжения с проб-
ной траекторией y(t) = (ξe-t, ξe-2t), t ≥ 0, описываемой при u = 0 исходными
дифференциальными уравнениями с теми же начальными значениями. Пере-
ходными периодами считаем моменты времени t1, t2 первого попадания этих
56
x2
u = 1
Ф-1
x1
Ф1
u = -1
Фазовый портрет оптимальной системы в примере. Жирной линией выделена
область скольжения, по которой происходит движение в начало координат.
Остальная часть прямой разрыва оптимального управления состоит из точек
прошивания.
траекторий на границу квадрата [-ε, ε] × [-ε, ε] при малом положительном
ε < |ξ|. Используя координатное представление траекторий x(t), y(t), после
очевидных вычислений находим
t1 = (2/3)ln (|ξ| /ε) ; t2 = ln (|ξ|/ε) .
Очевидно, переходный период t1 оптимальной траектории составляет 2/3
переходного периода t2 пробной траектории для любой начальной точки об-
ласти скольжения. Так как пробная траектория не лежит в области сколь-
жения, то в силу неравенства (11) она уступает оптимальной траектории еще
и по целевому функционалу. Таким образом, в примере оптимальная тра-
ектория на участке скольжения лучше пробной траектории по переходному
периоду и значению целевого функционала.
5. Заключение
В статье рассмотрена задача оптимального управления нового ли-
нейно-квадратичного типа на полуоси времени при ограничении на управ-
ление. С использованием матричного алгебраического уравнения Ляпунова
и достаточных условий оптимальности получены простые аналитические вы-
ражения для разрывного оптимального позиционного управления и допол-
57
нительных уравнений скольжения в подпространстве разрыва управления.
Установлена экспоненциальная устойчивость замкнутой системы.
СПИСОК ЛИТЕРАТУРЫ
1.
Летов А.М. Аналитическое конструирование регуляторов. I // АиT. 1960. № 4.
С. 436-441.
2.
Калман Р. Об общей теории систем управления // Tp. 1 Межд. конгресса ИФАК.
М.: АН СССР, 1961. Т. 1. С. 521-547.
3.
Летов А.М. Аналитическое конструирование регуляторов. Дальнейшее разви-
тие проблемы. V // АиТ. 1962. № 11. С. 1405-1413.
4.
Фуллер А.Т. Оптимизация линейных систем регулирования по различным кри-
териям качества // Tp. 1 Межд. конгресса ИФАК. М.: АН СССР, 1961. Т. 1.
С. 584-605.
5.
Габасов Р., Кириллова Ф.М., Павленок Н.С. Построение программного и пози-
ционного решений линейно-квадратичной задачи оптимального управления //
Журн. вычисл. матем. и матем. физики. 2008. Т. 48. № 10. С. 1748-1779.
6.
Срочко В.А. Итерационные методы решения задач оптимального управления.
М.: Физматлит, 2000.
7.
Антипин А.С., Хорошилова Е.В. О краевой задаче терминального управления
с квадратичным критерием качества // Изв. Иркутского гос. ун-та. 2014. Т. 8.
С. 7-28.
8.
Кротов В.Ф., Букреев В.З., Гурман В.И. Новые методы вариационного исчис-
ления в динамике полета. M.: Машиностроение, 1969.
9.
Уткин В.И. Системы с переменной структурой: состояние, проблемы, перспек-
тивы // АиT. 1983. № 9. С. 5-25.
10.
Параев Ю.И. Уравнения Ляпунова и Риккати. Томск: Томский ун-т, 1989.
11.
Поляк Б.Т. Введение в оптимизацию. М.: Наука, 1983.
Статья представлена к публикации членом редколлегии Л.Б. Рапопортом.
Поступила в редакцию 21.10.2021
После доработки 15.02.2022
Принята к публикации 31.03.2022
58