Автоматика и телемеханика, № 2, 2019
Стохастические системы
© 2019 г. Е.С. ПАЛАМАРЧУК, канд. физ.-мат. наук (e.palamarchuck@gmail.com)
(Национальный исследовательский университет
“Высшая школа экономики”, Москва;
Центральный экономико-математический институт РАН, Москва)
О ЗАДАЧЕ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ
ЛИНЕЙНОЙ СТОХАСТИЧЕСКОЙ СИСТЕМОЙ
С НЕОГРАНИЧЕННОЙ НА БЕСКОНЕЧНОСТИ
НЕУСТОЙЧИВОЙ МАТРИЦЕЙ СОСТОЯНИЯ1
Рассматривается задача управления на бесконечном интервале време-
ни линейной стохастической системой с неустойчивой асимптотически
неограниченной матрицей состояния. Понятие антиустойчивости матри-
цы обобщается на случай неэкспоненциальной антиустойчивости, и вво-
дится функция темпа антиустойчивости как характеристика роста нор-
мы соответствующей фундаментальной матрицы. Показывается, что ли-
нейный установившийся закон управления является оптимальным по
критерию скорректированного обобщенного долговременного среднего.
Построенный критерий в явном виде включает информацию о темпе ан-
тиустойчивости и параметрах возмущающего процесса. Проводится ана-
лиз условий оптимальности.
Ключевые слова: стохастический линейно-квадратический регулятор, ан-
тиустойчивость, неустойчивость, суперэкспоненциальный рост, уравнение
Риккати.
DOI: 10.1134/S0005231019020041
1. Введение
Стабилизация неустойчивых систем относится к числу важных задач, ре-
шаемых в теории управления [1-7]. Требование к свойству устойчивости как
независящему от конкретного горизонта приводит к рассмотрению постано-
вок на бесконечном временном интервале. Для линейных систем возможность
стабилизации и наличие приводящего к стабилизации оптимального управ-
ления напрямую связаны с характером изменения коэффициентов систем.
Стандартным предположением при этом является ограниченность парамет-
ров по времени, см. [1] и [8, с. 267]. Тем не менее существуют примеры си-
стем см., например, [9-13], не удовлетворяющих указанному выше условию,
что порождает необходимость отдельного исследования соответствующих си-
туаций. Далее описывается система управления, рассматриваемая в данной
статье.
1 Исследование выполнено за счет гранта Российского научного фонда (проект №17-11-
01098) в Национальном исследовательском университете “Высшая школа экономики”.
64
Пусть на полном вероятностном пространстве {Ω, F, P} задан n-мерный
случайный процесс Xt = Xt(ω), t 0, ω ∈ Ω, описываемый уравнением
(1)
dXt = AtXtdt + BtUtdt + Gtdwt, X0
= x,
где начальное состояние x неслучайно; wt = wt(ω), t 0, — d-мерный стан-
дартный винеровский процесс; Ut = Ut(ω) — управление или k-мерный слу-
чайный процесс; At, Bt, Gt, t 0, — детерминированные матричные функции
времени таких размеров, при которых (1) имеет смысл. В качестве допусти-
мых управлений Ut = Ut(ω) рассматриваются случайные процессы, согласо-
ванные с фильтрацией {Ft}t≥0, Ft = σ{ws, s t} (σ(·) — знак σ-алгебры),
такие, что уравнение (1) имеет решение и при этом Ut(ω) - с вероятностью
t
единица квадратично интегрируем, т.е.
∥Us(ω)2 ds < ∞ почти наверное
0
для любого t 0 (∥ · ∥ - евклидова норма). Множество допустимых управ-
лений обозначим через U. Вводимые в дальнейшем переменные, являющиеся
функциями времени t и характеризующие элементы системы управления, бу-
дут пониматься как неслучайные, если это не оговорено особо, как это было
сделано для поцессов Xt = Xt(ω), wt = wt(ω) и Ut = Ut(ω). При этом также
полагаем, что
∥Gt2 dt > 0, матрица Bt - ограничена; матрица At являет-
0
ся неограниченной на бесконечности, т.е. ∥At∥ → ∞ при t → ∞. Важно под-
черкнуть, что основное предположение относительно матрицы состояния At
касается отсутствия у нее свойства асимптотической устойчивости. Также
известно, см. [14-16], что для матриц с зависящими от времени элементами
наряду с экспоненциальной устойчивостью рассматривается и более общее
понятие устойчивости с переменным темпом δt. Cформулируем необходимые
в данном случае определения.
Определение 1 (см. [16]). Матрица
At является устойчивой с тем-
t
пом δt, если существует функция δt > 0, при t 0, limt→∞
δv dv → ∞, та-
0
кая что lim supt→∞ (
At∥/δt) < ∞, и для фундаментальной матрицыΦ(t,s),
t
соответствующей
At, справедлива оценка
Φ(t,s) κexp{-
δv dv},
s
0 s t, с некоторой константой κ > 0. Если δtconst, то устойчи-
вость - экспоненциальная, при δt 0 - субэкспоненциальная и при δt → ∞ -
суперэкспоненциальная, где t → ∞.
Следующее определение выступает естественным обобщением известного
понятия экспоненциальной антиустойчивости, см. [17].
Определение 2. Матрица At называется антиустойчивой с тем-
пом δt (или δt-антиустойчивой), если матриц
At = -A′t ( - знак транспо-
нирования) является устойчивой с темпом δt. При этом экспоненциальная,
субэкспоненциальная или суперэкспоненциальная антиустойчивости харак-
теризуются в соответствии с определением 1.
Далее приводятся основные предположения относительно параметров си-
стемы (1), в рамках которых будут получены основные утверждения статьи.
Предположение A. Матрица At является суперэкспоненциально ан-
тиустойчивой с темпом δt, при этом δt - неубывающая дифференцируемая
функция, t 0, и limt→∞(δt2t) = 0 (знак ˙ - производная функции по време-
ни).
65
Предположение B. Матрица Bt такая, что BtB′tbI при t 0, где
b > 0 - некоторая константа (запись A B для матриц означает, что раз-
ность A - B неотрицательно определена).
Условия в предположениях A и B более подробно обсуждаются в разделе 2.
Для каждого T > 0 в качестве целевого функционала определим случай-
ную величину JT (U):
T
(2)
JT (U) = (X′tQtXt + U′tRtUt
)dt,
0
где U ∈ U - допустимое управление на интервале [0, T ]; Qt qI, Rt ρI,
t 0, - ограниченные симметричные матрицы, q,ρ - некоторые положитель-
ные константы. Необходимо отметить, что под стабилизацией системы (в ши-
роком смысле) может пониматься поддержание траектории ее развития вбли-
зи заданного уровня в течение планового периода путем выбора управляю-
щих воздействий, см., например, [18, ч. 3]. Рассмотрение такого подхода так-
же объясняет использование (2) при оценке качества управления. Действи-
тельно, (2) измеряет совокупные потери, возникающие из-за отклонения Xt
от нулевого состояния и, кроме того, учитывает издержки применения соот-
ветствующей стратегии.
Далее требуется сформулировать задачу управления, включающую опти-
мизацию EJT (U) при T → ∞ (E(·) - оператор взятия математического ожи-
дания), что возможно сделать, подобрав подходящую нормировку ожидае-
мого значения целевого функционала, и тогда соответствующее оптималь-
ное управление называется оптимальным в среднем на бесконечном интерва-
ле времени. Основываясь на известных результатах [8, c. 306; 19-21], можно
ожидать, что получаемая таким образом стратегия будет иметь форму опти-
мального установившегося закона [8], определяемого на основе решения урав-
нения Риккати, и при этом будет стабилизировать систему. В данном случае
проблема стабилизации рассматривается в контексте, специфичном для ли-
нейных стохастических систем управления с аддитивным шумом, который
не зависит от состояния или управления. Оптимальная стратегия призва-
на обеспечивать стабилизацию долгосрочных потерь в смысле минимизации
роста ожидаемого значения целевого функционала (2), характеристику дан-
ного подхода см., например, в [22, гл. 3]. С учетом изложенного цель данной
статьи - нахождение управления, являющегося решением задачи
EJT (U)
(3)
lim sup
inf ,
T→∞
U ∈U
δt∥Gt2 dt
0
где δt - функция, задающая темп антиустойчивости матрицы At из урав-
нения динамики состояния (1), см. предположение A. Методика построе-
ния критерия в (3) и необходимая аргументация будут даны в разделе 3.
В разделе 3 также приводятся дополнительные условия на коэффициенты,
гарантирующие возможность достижения устойчивости траекторий в стоха-
стической системе посредством применения управления, которое выступает
66
решением (3). Статья организована следующим образом. В разделе 2 прово-
дится обсуждение приведенных ранее предположений на параметры системы.
В разделе 3 формулируется основной результат о существовании управле-
ния U в форме линейного установившегося закона, являющегося решением
задачи (3) с соответствующим критерием, который относится к типу скор-
ректированных обобщенных долговременных средних. Также показывается,
что U будет стабилизирующим управлением в детерминированной системе.
Раздел 4 посвящен анализу технического условия, необходимого для уста-
новления оптимальности U, и примерам. Заключение содержит основные
выводы и описание возможных направлений дальнейших исследований.
2. Об основных предположениях на параметры
Обсудим сформулированные ранее предположения на параметры системы
управления (1)-(2). Основное внимание уделим специфике предположений A
и B. При этом предположение A касается свойств неограниченной на беско-
нечности матрицы At в (1) и связано с определениями 1 и 2. В определении 1
функция δt задает темп убывания верхней оценки нормы фундаменталь-
ной матрицы (при фиксированном s), выступает в качестве характеристики
асимптотической устойчивости и носит название темпа устойчивости. Экспо-
ненциальная устойчивость имеет место для δt const. Если δt 0 при t → ∞,
то возникает субэкспоненциальный тип устойчивости, а при δt → ∞ - супер-
экспоненциальный, данная терминология была введена в [14]. Для неограни-
ченных матриц определение понятия суперэкспоненциальной устойчивости
позволяет дать более полную характеристику поведения решений соответ-
ствующих линейных уравнений, так как в данном случае экспоненциально
убывающая верхняя оценка с произвольным постоянным темпом (соответ-
ствующая экспоненциальной устойчивости) оказывается неинформативной,
как отмечалось в [1]. В этой связи суперэкспоненциально устойчивые мат-
рицы также естественно будет назвать суперустойчивыми или сверхустой-
чивыми, см. [19]. Для неустойчивых матриц приведенные в определении 1
требования не выполняются. В частности, возможно асимптотически неогра-
ниченное возрастание нормы фундаментальной матрицы. В целях уточнения
характера неустойчивости используется понятие антиустойчивости, связан-
ное с теорией операторов, см., например, [17, с. 11]. Обращаясь далее к со-
ответствующему определению 2, нетрудно заметить, что экспоненциальная
антиустойчивость соответствует δt const определения 2, если δt 0 имеем
субэкспоненциальную антиустойчивость, а при δt → ∞ матрица At является
суперэкспоненциально антиустойчивой. Суперэкспоненциальную антиустой-
чивость также можно охарактеризовать как сверхнеустойчивость. Действи-
тельно, воспользовавшись фактом, что фундаментальная матрица Φ(t, s) для
At является решением задачи
Φ(t,s)
= AtΦ(t,s), Φ(s,s) = I,
∂t
где I - единичная матрица,Φ(t, s) = Φ(s, t), при этомΦ(t, s) задается для
At = -A′t (Φ(s,t) = Φ-1(t,s), см. также [17, с. 2]), нетрудно заметить, что
67
следствием приведенной в определении 1 верхней оценки будет являться су-
перэкспоненциально растущая нижняя граница по параметру t для Φ(t, s)
при фиксированном s 0:
⎨∫t
Φ(t, s) (1) exp
δv dv
,
0 s t.
s
Очевидно, что любая антиустойчивая матрица является также неустойчивой,
но обратное неверно. Предположим, что рассматриваются матрицы 2 × 2:
A(1)t = (2t 0; 0 - 2t), A(2)t = (2t 0; 0 2t) (; - разделитель строк),
∥A(1)t = ∥A(2)t = 2
2t.
При этом
(
)
Φ(1)(t,s) =
exp(t2 - s2) 0 ; 0 exp(-t2 + s2)
,
(
)
Φ(2)(t,s) =
exp(t2 - s2) 0 ; 0 exp(t2 - s2)
иΦ(1)(t, s)∥ → ∞,Φ(2)(t, s)∥ → ∞, если t → ∞, т.е. обе матрицы неустойчи-
вы. Однако если взять
A(1)t = -(A(1)t) и
A(2)t = -(A(2)t), то
A(1)t = (-2t 0; 0 2t),
A(2)t = (-2t 0; 0 - 2t),
тогда
Φ(1)(t, s) = (exp(-t2 + s2) 0 ; 0 exp(t2 - s2)), что также соответствует
неустойчивой матрице, аΦ(2)(t, s) = (exp(-t2 + s2) 0 ; 0 exp(-t2 + s2)) будет
характеризовать суперэкспоненциальную устойчивость. Таким образом, из
двух неустойчивых матриц A(1)t и A(2)t матрица A(2)t - антиустойчива, а A(1)t -
не антиустойчива.
Введенное предположение B задает условия, предъявляемые к матрице Bt,
которая характеризует вклад управляющего воздействия в динамику состоя-
ния системы. Как будет показано далее, предположение B обеспечит воз-
можность суперэкспоненциальной стабилизации линейной детерминирован-
ной системы, т.е. найдется кусочно-непрерывная матрица Kt, такая что мат-
рица At + BtKt будет суперэкспоненциально устойчивой. Построение законов
управления в виде обратной связи по состоянию является распространенным
подходом, применяемым для стабилизации не только линейных [1, 3, 7, гл. 6],
но также и нелинейных систем, см. [2, 23]. Необходимо отметить ряд особен-
ностей рассматриваемой системы (1), не позволяющих использовать пред-
ложенные ранее методы. Во-первых, ситуация ∥At∥ → ∞ при t → ∞ нахо-
дится за пределами случаев стабилизируемости автономных систем и систем
с ограниченными коэффициентами, например, [1, 3]. Во-вторых, требование
суперэкспоненциальной стабилизации с возможностью ∥Kt∥ → ∞ при t → ∞
не удовлетворяет ключевым предположениям, сформулированным для си-
стем с ∥At∥ → ∞ в [5, 6, 24]. Также необходимо отметить, что стандартное
условие, достаточное для стабилизируемости систем с ограниченными ко-
эффициентами, а именно - управляемость пары матриц (At, Bt), см. [1], в
68
случае ∥At∥ → ∞ при t → ∞ может обеспечить лишь неравномерную по вре-
мени стабилизацию (тогда в определении 1 κ = κ(s) является функцией s
и κ(s) → ∞ для s → ∞), как было показано в [13, 15]. Вследствие этого в
рассматриваемой ситуации относительно параметров системы и формулиру-
ется предположение B.
3. Основные результаты
Как отмечалось в [19], определение оптимального в среднем управления U
на бесконечном интервале времени осуществляется посредством нахождения
решения задачи вида
(4)
lim supEKT (U) inf ,
T→∞
U ∈U
где EKT (U) - математическое ожидание некоторого функционала KT (U), за-
висящего от допустимого управления U ∈ U и длины интервала планирова-
ния T . В качестве примера можно привести известный критерий долговре-
менного среднего EKT (U) = EJT (U)/T для (1)-(2) с ограниченными коэф-
фициентами, который затем обобщался и корректировался в [19, 20, 25], в
направлении уточнения нормировки EJT (U) и отражения специфики факто-
ров, влияющих на динамику систем. Определенный в данном исследовании
критерий, см. (3), также относится к классу долговременных средних. Отме-
тим, что при построении критерия в (4) и его последующем анализе исполь-
зуется подход (подробную характеристику см. также в [19]), основанный на
определении установившегося закона управления U∗t = -R-1tB′tΠtX∗t, струк-
тура которого содержит решение уравнения Риккати (при условии, что оно
существует):
(5)
Πt + ΠtAt + A′tΠt - ΠtBtR-1tB′tΠt + Qt
= 0.
Под решением (5) понимается такая функция Πt, которая при подстановке
в (5) дает верное равенство. В [19, 21, 26] указывалось, что подходящая норми-
ровка ожидаемого значения функционала EJT (U) для критерия в (4) вклю-
чает оценку изменения Πt, применяемую затем для корректировки диспер-
T
сии интегральных шумовых воздействий
∥Gt2 dt. В частности, в [19] было
0
установлено, что lim supt→∞(Πt∥δt) < ∞, где δt - найденный темп устойчиво-
сти, что способствовало введению критерия скорректированного обобщенного
долговременного среднего с
∕∫T
EKT (U) = EJT (U)
(1t)∥Gt2 dt.
0
Для случая системы управления (1)-(2) при условии выполнения предполо-
жений A и B соответствующее исследование, касающееся уравнения Риккати
и определения критерия, проводится далее, а затем доказывается оптималь-
ность U с точки зрения построенного критерия. В следующем утвержде-
нии устанавливается существование симметричного неотрицательно опреде-
69
ленного решения уравнения Риккати (5), оценивается порядок его измене-
ния и определяются стабилизирующие свойства линейного закона управле-
ния ut = -R-1tB′tΠtxt в детерминированной системе dxt = Atxtdt + Btutdt.
Лемма. Пусть выполнены предположения A и B. Тогда существует аб-
солютно непрерывная функция Πt, t 0, с значениями в множестве неот-
рицательно определенных симметричных матриц, удовлетворяющая урав-
нению Риккати (5), при этом c1δtI Πt c2δtI, где c1,c2 > 0 - некоторые
константы. Матрица At - BtR-1tB′tΠt являетсяδt-суперэкспоненциально
устойчивой сδt = λδt, где δt - темп антиустойчивости матрицы At, а λ -
некоторая положительная константа.
Доказательства леммы и последующих утверждений вынесены в Прило-
жение.
Замечание 1. В условиях леммы функция Πt0 при t 0, удовлетво-
ряющая (5), может быть получена как предел при T → ∞ решений ΠTt урав-
нения (5) с граничным условием ΠTT = 0 (здесь верхний индексT обознача-
ет решение уравнения при граничном условии), т.е. limT→∞ ΠTt = Πt. Для
систем с ограниченными коэффициентами данный факт хорошо известен,
см. [8, теорема 3.5, с. 267], а в рассматриваемом случае справедливость тако-
го предельного перехода устанавливается при доказательстве леммы.
При исследовании оптимальности установившегося закона управления U
в стохастической системе потребуется следующее техническое условие, свя-
зывающее допустимые матрицу диффузии Gt и темп антиустойчивости δt:
Предположение G.
2
δ2T ∥GT
(6)
lim
= 0.
T→∞
δt∥Gt2 dt
0
Для характеристики оптимальности U также будет использован подход, при
котором происходит сравнение ненормированных значений целевых функ-
ционалов при разных управлениях, основанный на понятии опережающей
оптимальности (так называемой overtaking оптимальности, см., напр., [20])
Определение 3 (см. [20]). Управление U ∈ U обладает свойством
опережающей оптимальности в среднем (опережающе оптимально в сред-
нем) на бесконечном интервале времени, если для любого числа ϵ > 0 суще-
ствует T0 > 0, такое что при произвольном допустимом управлении U ∈ U
выполнено неравенство
(7)
EJT (U) < EJT (U) + ϵ для любого T > T0.
Основной результат статьи содержится в следующем утверждении.
Теорема. Пусть выполнены предположения A и B. Тогда закон управ-
ления вида
(8)
U∗t = -R-1tB′tΠtX∗t,
70
где процесс X∗t, t 0, задается уравнением
(9)
dX∗t = (At - BtR-1tB′tΠt)X∗tdt + Gtdwt, X0
= x,
является решением задачи
EJT (U)
(10)
lim sup
inf .
T→∞
U ∈U
δt∥Gt2 dt
0
При этом матричная функция Πt 0 при t 0 удовлетворяет уравнению
Риккати (5) и обладает свойствами, сформулированными в лемме. Значе-
ние критерия на оптимальном управлении J = lim supT→
T
яв-
0
δt∥Gt2 dt
ляется конечным положительным числом:
tr(G′tΠtGt) dt
0 < J = limsup 0
< ∞,
T→∞
δt∥Gt2 dt
0
где δt - темп антиустойчивости матрицы At, tr(·) - след матрицы. Кроме
того, если ∥Gt∥δt 0, t → ∞, то управление U также является опережа-
юще оптимальным в среднем на бесконечном интервале времени.
Замечание 2. Для детерминированной системы управления (Gt0) при
условии выполнения предположений A и B стратегия U будет являться ре-
шением задачи lim supT→∞ JT (U) infU∈U , а значение lim supT→∞ JT (U) =
= xΠ0x.
Критерий в (10) также можно отнести к критериям скорректированно-
го обобщенного долговременного среднего, см. [19, 21]. В отличие от случая
систем управления с субэкспоненциально [21] и суперэкспоненциально [19]
устойчивыми матрицами состояния корректировка осуществляется в сторо-
ну увеличения нормировки ожидаемого значения целевого функционала (до-
множение ∥Gt2 на δt в подынтегральном выражении (10)).
Замечание 3. По результатам, содержащимся в утверждениях леммы
и теоремы, можно сделать вывод о том, что оптимальное управление U яв-
ляется стабилизирующим для детерминированной системы (см. лемму), а в
стохастической системе такое управление U стабилизирует рост ожидаемого
значения целевого функционала при T → ∞, которое не превышает величину
T
δt∥Gt2 dt с точностью до мультипликативной константы. При этом воз-
0
можность стабилизации управлением U соответствующей оптимальной тра-
ектории X∗t, t 0, будет зависеть от поведения матрицы диффузии Gt. На
основании результатов из [16] для устойчивости процесса в среднем квад-
ратичном, т.е. E∥X∗t2 0 при t → ∞, см. [27, с. 171], достаточно потре-
бовать ∥Gt2t 0, t → ∞, что, в частности, выполняется при использо-
вании опережающе оптимальной стратегии U (см. условие в теореме) или
же ограниченной матрицы диффузии Gt. В рамках более сильного условия
71
t
(∥Gt2t) ln(
δv dv) 0, t → ∞, также см. [16], для траектории имеет ме-
0
сто стохастическая устойчивость с вероятностью единица по определению
из [28, с. 111], когда ∥X∗t(ω)∥ → 0 почти наверное при t → ∞, т.е. для по-
чти всех ω ∈ Ω. Приведенная характеристика X∗t представляет существен-
ное отличие по сравнению с поведением оптимальной траектории для стоха-
стических линейных регуляторов, в которых шум зависит от состояния или
управления (т.е. когда в (1) вместо Gtdwt возмущения имеют форму X′tGtdwt
или U′tGtdwt). В таких системах мультипликативный характер случайных
воздействий естественным образом порождает стабилизирующие свойства со-
ответствующей оптимальной стратегии управления, см. [27, гл. 8].
4. Анализ условий оптимальности и примеры
Проанализируем техническое условие (6), при выполнении которого спра-
ведливо основное утверждение теоремы. Введя обозначение
T
ΓT = δt∥Gt2 dt,
0
(6) можно переписать в виде
dΓT /dT
(11)
lim
δT
= 0.
T→∞ ΓT
Таким образом, (6) означает, что рост нормировки критерия должен быть
достаточно медленным по отношению к функции δt, характеризующей анти-
устойчивость матрицы состояния. Как видно из (11), необходимым условием
здесь будет являться стремление к нулю темпа изменения ΓT . С другой сторо-
ны, если положитьGt = δtGt (“усилить” матрицу возмущений), то (6) примет
вид
2
∥GT
(12)
lim
= 0.
T→∞
(1t)∥Gt2 dt
0
Знаменатель в (12) совпадает с нормировкой критерия для систем с супер-
экспоненциально устойчивой матрицей состояния и матрицей диффузииGt,
см. [19]. Далее рассмотрим систему с ограниченной At и предположим, что
для такой системы существует оптимальный установившийся закон управле-
нияU∗t. Как известно (см. [20]), оптимальностьU в соответствующей стоха-
стической системе с матрицей возмущенийGt может исследоваться при помо-
щи понятия g-оптимальности в среднем на бесконечном интервале времени,
которая имеет место в случае, когда lim supT→∞ gT (EJT (U) - EJT (U)) 0
для любого U ∈ U при заданной функции gT > 0, T > 0. Данный подход
позволяет оценить порядок изменения разности математических ожиданий
целевых функционалов в отличие от долговременных средних, сравниваю-
щих предельные (при T → ∞) нормированные значения EJT (U). В частно-
T
сти, функция gT = 1/
∥Gt2 dt является нормировкой в критерии обобщен-
0
ного долговременного среднего, см. [20, 29]. Тогда выполнение (12) будет
72
означать, что в стандартной стохастической системе с матрицей
Gt имеет
место g-оптимальность с более медленно растущей нормирующей функцией
T
gT = 1/
(1t)∥Gt2 dt, взятой из критерия для суперустойчивых систем.
0
В следующем далее примере показывается, что (6) допускает включение
в анализ систем управления с различным характером изменения параметров
возмущений во времени.
Пример 1. Рассмотрим случай ∥Gt21mt, где m - вещественное чис-
ло (знак используется для указания на асимптотически одинаковый поря-
док изменения двух функций: ft ∼ gt, если limt→∞(ft/gt) = c = 0). Ситуация
m = 0 соответствует постоянной матрице диффузии, для m > 0 имеем так
называемые затухающие возмущения, а при m < 0 - нарастающие.
а) m > 2: в этом случае ∥Gt2δ2t 0, t → ∞, т.е выполняется более силь-
ное условие, чем (6), приводящее к опережающей оптимальности в среднем
на бесконечном интервале времени;
t
б) m = 2: условие (6) выполнено при limt→∞
(1s) ds → ∞, т.е. есть
0
возможность рассматривать только достаточно медленно растущие функции
темпа антиустойчивости, например δt ∼ tk, 0 < k 1;
в) m < 2, m = 1: соотношение (6) имеет место при условииδt 0, t → ∞,
т.е. вновь допустимыми оказываются медленно растущие функции δt, напри-
мер δt ln t;
г) m = 1: выполнение (6) обеспечивается, если δt/t → 0, t → ∞, когда
темп антиустойчивости растет медленнее линейной функции, в частности для
δt ∼ tk, 0 < k < 1.
В качестве иллюстрации применения основного утверждения, полученного
в данной статье (теоремы), рассматривается следующий пример 2.
Пример 2. Система управления скалярным процессом, см.
(1)-(2)
при n = 1, имеет вид: dXt = (t + 1)Xtdt +
2Utdt + (t + 1)-1dwt, X0 = 1,
T
JT (U) =
[X2t + (t + 1)2((t + 1)2 + 1)-1U2t]dt. При этом At = t + 1, Bt =
2,
0
Gt = 1/(t + 1), x = 1, Qt = 1, Rt = (t + 1)2((t + 1)2 + 1)-1 (также
1/2
Rt1). Нетрудно заметить, что коэффициенты системы удовлетворяют
сделанным ранее предположениям: At = t + 1 суперэкспоненциально анти-
устойчива с темпом δt = t + 1, B′tBt = 2 > 0. В данном случае уравнение Рик-
кати (5) принимает вид
(13)
Πt + 2(t + 1)Πt - 2(1 + (t + 1)-22t
+1=0
и имеет решение со свойствами, определенными в лемме. Действительно,
Πt = t + 1 будет являться решением (13). Функция Πt также может быть по-
лучена (см. замечание 1) как предел limT→∞ ΠTt = Πt, где
[
]
ΠTt = (t + 1)
1 + 0,5(Z(T,t) - 2)-1
,
{
}T - Ψt]
Z(T, t) = exp
-(t + 1)2
+
(t + 1)3
{
} [1 - (T + 1)(t + 1)-1]
+ exp
(T + 1)2 - (t + 1)2
(t + 1)2
73
с
Ψx = exp {-(x + 1)2}dx.
При этом At - BtR-1tB′t = -(t + 1) - 2(t + 1)-1 суперэкспоненциально устой-
чива с темпомδt = t + 1. Далее, функция Gt = 1/(t + 1) удовлетворяет пред-
T
положению G (см. также п. б примера 1),
δtG2t dt = ln(T + 1), следователь-
0
но, по теореме 1 закон управления U∗t = -
2[(t + 1) + (t + 1)-1]X∗t, с дина-
микой процесса
[
]
dX∗t =
-(t + 1) - 2(t + 1)-1
X∗tdt + (t + 1)-1dwt, X0 = 1,
является решением задачи
lim sup{EJT (U)/ ln(T + 1)} → inf
T→∞
T
и значение J = 1, так как
ΠtG2t dt = ln(T + 1).
0
5. Заключение
В стьтье рассмотрена задача управления на бесконечном интервале вре-
мени линейной стохастической системой с суперэкспоненциально антиустой-
чивой (т.е. сверхнеустойчивой) матрицей At в уравнении состояния. Такая
сверхнеустойчивость означает, что нижняя граница для нормы соответст-
вующей фундаментальной матрицы растет по экспоненте с неограничен-
ным темпом δt, δt → ∞, при t → ∞. Показано, что закон управления (8)-(9)
в виде линейной обратной связи по состоянию является решением зада-
чи (10) с критерием скорректированного обобщенного долговременного сред-
него (см. теорему). Построенный критерий содержит нормированное ожидае-
мое значение квадратичного целевого функционала. Нормирующая функция
T
ΓT =
δt∥Gt2 dt представляет собой сумму дисперсий компонент вектора
0
T
ZT =
√δtGt dwt интегральных усиленных шумовых воздействий на систе-
0
му. В отличие от ранее изученного случая δt-суперэкспоненциально устойчи-
T
вой матрицы At, см. [19], где была определена нормировка
(1t)∥Gt2 dt,
0
в рассматриваемой ситуации темп антиустойчивости δt увеличивает значе-
ние ΓT .
В качестве направления дальнейших исследований следует выделить рас-
смотрение задач с более сильными (в вероятностном смысле) критериями
оптимальности, когда в (4) происходит минимизация не средних значений, а
самих нормированных целевых функционалов как случайных величин в си-
стемах с суперустойчивыми или сверхнеустойчивыми матрицами состояния.
ПРИЛОЖЕНИЕ
Доказательство леммы. ПоложимΠt = Πtt и рассмотрим урав-
нение Риккати для функцииΠt:
˜
(Π.1)
Πt
t
At
A′t Πt -ΠtBt(Rtt)-1B′t Πt + Qtt
= 0,
74
гд
At = At + (1/2)(δtt)I. Уравнение вида (Π.1) возникает в системе управ-
ления
T
dxt
Atxtdt + Btutdt, xt0 = x, JT,t0 (u) =
(1t)(x′tQtxt + u′tRtut) dt
t0
с суперэкспоненциально антиустойчивой матрице
At, x — произвольный век-
тор начального состояния, t0 0 — фиксированный момент времени. При
этом темп антиустойчивости δ(0)t =λδt, 0 <λ < 1, что следует из условия
δt2t 0, t → ∞, предположения A. Хорошо известно [8, теорема 3.4, с. 253],
что при конечном T задача JT,t0 (u) min имеет решение u∗Tt = -(Rtt)-1×
×B′tΠTt x∗Tt , при этом значение функционала на оптимальном управлении
JT,t0 (u∗T ) = xΠTt
x, где симметричная матрицаΠTt 0 — решение уравнения
0
(Π.1) с граничным условиемΠTT = 0. Построим альтернативное управление,
стабилизирующее систему и не зависящее от T :
u(0)t = Ktx(0)t = -kδtB′t(BtB′t)-1x(0)t.
Заметим, что в силу предположения B это управление существует, а констан-
ту k > 0 можно выбрать таким образом, чтобы обеспечить δt-суперэкспонен-
циальную устойчивость матриц
At + BtKt
At - kδtI. Поэтому
T
t
xΠTt
x JT,t0(u(0)) c∥x∥2 exp
-
2δv dv
(1t + δt) dt c∥x∥2.
0
t0
t0
Здесь и далее в качестве c и c будем обозначать некоторые положительные
константы, конкретные значения которых не играют роли и могут менять-
ся от формулы к формуле. Таким образом,ΠTt
— неубывающая (по T ) и
0
ограниченная функция. Стандартная аргументация (см. [8, с. 268]) приводит
к тому, что существует предел limT→∞ ΠTtt, удовлетворяющий (Π.1) и
обладающий теми же свойствами, что иΠTt . Так как Πt = δt Πt, то из ограни-
ченностиΠt сверху следует соотношение Πt c2δtI с некоторой константой
c2 > 0. Для установления нижней границы изменения Πt рассмотрим функ-
циюΠt = Π-1t, являющуюся решением уравнения
¯
(Π.2)
Π
t -ΠtAt - AtΠt -ΠtQtΠt + BtRŧ1Bt
= 0.
Уравнение (Π.2) также относится к классу уравнений Риккати и соответству-
ет системе управления с δt-суперэкспоненциально устойчивой матрицей -A′t.
Для таких систем известно [19], чтоΠt c1(1t), откуда следует соотноше-
ние Πt c1δtI при некоторой константе c1 > 0.
Переходя к исследованию устойчивости матрицы At - BtR-1tB′tΠt, рас-
смотрим линейное уравнение dzt = (At - BtR-1tB′tΠt)ztdt, zt0 = z, и выпишем
d(z′tΠtzt) = (-z′tQtzt - z′tΠtBtR-1tB′tΠtzt)dt.
75
Предположение B и полученное двойное неравенство c1δtI Πt c2δtI при-
водят к последовательности оценок:
d(z′tΠtzt) -λδt(z′tΠtzt)dt,
t
ztΠtzt zt0 Πt0 zt0 exp
- λδv dv
,
t0
t
(Π.3)
∥zt2 κ exp
- λδv dv
∥z∥2
t0
при некоторых положительных константах λ и κ. Из соотношения (Π.3)
следуетδt-суперэкспоненциальная устойчивость матрицы At - BtR-1tB′tΠt с
δt = λδt. Лемма доказана.
Доказательство теоремы. В силу выполнения предположений A
и B справедливо утверждение леммы о существовании и свойствах решения
уравнения Риккати (5), а также можно определить закон управления U в
виде (8)-(9). Зафиксировав произвольное конкурирующее управление U ∈ U
и соответствующий ему процесс Xt, положим xt = Xt - X∗t и ut = Ut - U∗t.
Пара (xt, ut)tT удовлетворяет уравнению
(Π.4)
dxt = (Atxt + Btut)dt, x0
= 0.
Так как Qt qI, то найдется число k > 0, такое что матрица At - kδt
√Qt
будет δt-устойчивой. Тогда, преобразовав (Π.4), получим
dxt = (At - kδt
Qt)xtdt +t
Qtxtdt + Btutdt, x0 = 0,
и
t
t
⎬(
)
∥xt c exp
- δv dv
δs
Qsxs +
Rsus∥ ds.
0
s
Согласно неравенству Коши-Буняковского
t
t
(
)
∥xt2 c exp
- δv dv
δsx′sQsxs + u′sRsus
ds,
0
s
откуда следует оценка
t
(Π.5)
1 ∥xt2 c
(x′sQsxs + u′sRsus
) ds.
δt
0
76
Далее, представление для разности JT (U) - JT (U) имеет вид
T
T
(Π.6) JT (U) - JT (U) = 2x′T ΠT X∗T - (x′tQtxt + u′tRtut) dt - 2 x′tΠtGtdwt.
t0
0
C учетом (Π.5), свойств функции Πt (см. лемму) и применения элементарно-
го неравенства 2ab a2/c + cb2, справедливого при произвольном c > 0 для
любых чисел a и b, (Π.6) оценивается как
T
(Π.7)
JT (U) - JT (U) c1δ3T ∥X∗T2 - 2 x′tΠtGtdwt
0
при некоторой константе c1 > 0. Переходя к математическому ожиданию
(Π.7), получаем
(Π.8)
EJT (U) EJT (U) + c1δ3T E∥X∗T2.
Так как матрица At - BtR-1tB′tΠt в уравнении (9) являетсяδt-суперэкспонен-
циально устойчивой, то
δ3T E∥X∗T2
T
T
T
(Π.9)
3Texp
-
2δv dv
∥x∥2 + exp
-
2δv dv
∥Gt2 dt .
0
0
t
Необходимо отметить, что следствием условияδt2t 0, t → ∞, из предпо-
ложения A является сходимость
T
δ3T exp
-
2δv dv
0
при T → ∞.
0
Второе слагаемое в (Π.9) можно переписать как
T
T
T
T
LT = δ3T exp
-
2δv dv
∥Gt2dt = exp
-
2δv dv
∥Gt2 dt,
0
t
0
t
δt =δt + (3/2)(δtt),
Gt = δt/2Gt.
Используя правило Лопиталя, нетрудно показать, что условие ∥GT ∥δT 0,
T → ∞, будет достаточным (я LT0 пр) T → ∞, а выполнение предпо-
T
ложения G гарантирует LT /
δt∥Gt2 dt
0 при T → ∞. Принимая во
0
внимание проведенные рассуждения, приходим к опережающей оптимально-
сти в среднем для U, если ∥GT ∥δT 0, T → ∞, или же к оптимальности
77
в среднем на бесконечном интервале времени по критерию с нормировкой
T
δt∥Gt2 dt:
0
EJT (U)
EJT (U)
lim sup
lim sup
T→∞
T→∞
δt∥Gt2 dt
δt∥Gt2 dt
0
0
Ожидаемое значение целевого функционала на оптимальном управлении вы-
T
числяется по формуле EJT (U) = xΠ0x - E[(X∗T )ΠT X∗T ] +
tr(G′tΠtGt) dt.
0
)
(∫
T
Так как E[(X∗T )ΠT X∗T ]T E∥X∗T2 и δT E∥X∗T2/
δt∥Gt2 dt
0,
0
T
T
T → ∞, а
tr(G′tΠtGt) dt c1
δt∥Gt2 dt (см. лемму), то предельная ве-
0
0
личина
tr(G′tΠtGt)dt
EJT (U)
xΠ0x
0
0 < J = limsup
=
+ lim sup
< ∞.
T→∞
T→∞
δt∥Gt2 dt
δt∥Gt2 dt
δt∥Gt2 dt
0
0
0
Теорема доказана.
СПИСОК ЛИТЕРАТУРЫ
1.
Anderson B.D.O., Ilchmann A., Wirth F.R. Stabilizability of Linear Time-Varying
Systems // Syst. Control Lett. 2013. V. 62. No. 9. P. 747-755.
2.
Bacciotti A., Rosier L. Liapunov functions and stability in control theory. N.Y.:
Springer, 2006.
3.
Dragan V., Halanay A. Stabilization of linear systems. Boston: Birkhauser, 1999.
4.
Dragan V., Morozan T., Stoica A.M. Mathematical methods in robust control of
linear stochastic systems. N.Y.: Springer, 2006.
5.
Fomichev V.V., Mal’tseva A.V., Shuping W. Stabilization Algorithm for Linear
Time-Varying Systems // Differ. Equat. 2017. V. 53. No. 11. P. 1495-1500.
6.
Phat V.N. Global Stabilization for Linear Continuous Time-Varying Systems //
Appl. Math. Comput. 2006. V. 175. No. 2. P. 1730-1743.
7.
Terrell W.J. Stability and stabilization: An Introduction. Princeton: Princeton
Univer. Press, 2009.
8.
Квакернаак X., Сиван P. Линейные оптимальные системы управления. М.: Нау-
ка, 1977.
9.
Wu M.-Y., Sherif A. On the Commutative Class of Linear Time-Varying Systems //
Int. J. Control. 1976. V. 23. No. 3. P. 433-444.
10.
Jetto L., Orsini V., Romagnoli R. BMI-based Stabilization of Linear Uncertain
Plants with Polynomially Time Varying Parameters // IEEE Trans. Automat.
Control. 2015. V. 60. No. 8. P. 2283-2288.
11.
Jones J.J. Modelling and Simulation of Large Scale Multiparameter Dynamical
System // Proc. IEEE 1989 National Aerospace and Electronics Conf. NAECON
1989. N.Y.: IEEE, 1989. P. 415-425.
12.
Levine J., Zhu G. Observers with Asymptotic Gain for a Class of Linear Time-
Varying Systems with Singularity // IFAC Proc. Volumes. 1993. V. 26. No. 2.
P. 145-148.
78
13.
Karafyllis I., Tsinias J. Non-uniform in Time Stabilization for Linear Systems and
Tracking Control for Non-holonomic Systems in Chained Form // Int. J. Control.
2003. V. 76. No. 15. P. 1536-1546.
14.
Caraballo T. On the Decay Rate of Solutions of Non-autonomous Differential
Systems // Electron. J. Differ. Equat. 2001. V. 2001. No. 5. P. 1-17.
15.
Inoue M., Wada T., Asai T., Ikeda M. Non-exponential Stabilization of Linear Time-
invariant Systems by Linear Time-varying Controllers // Proc. 50th IEEE Conf. on
Decision and Control and European Control Conf. N.Y., 2011. P. 4090-4095.
16.
Palamarchuk E.S. On the Generalization of Logarithmic Upper Function for
Solution of a Linear Stochastic Differential Equation with a Nonexponentially Stable
Matrix // Differ. Equat. 2018. V. 54. No. 2. P. 193-200.
17.
Abou-Kandil H., Freiling G., Ionescu V., Jank G. Matrix Riccati equations in control
and systems theory. Basel: Birkhauser, 2012.
18.
Turnovsky S.J. Macroeconomic analysis and stabilization policy. Cambrigde:
Cambridge Univer. Press, 1977.
19.
Паламарчук Е.С. Оптимизация суперустойчивой линейной стохастической си-
стемы в приложении к модели со сверхнетерпеливыми агентами // АиТ. 2018.
№ 3. С. 61-75.
Palamarchuk E.S. Optimization of the Superstable Linear Stochastic System Applied
to the Model with Extremely Impatient Agents // Autom. Remote Control. 2018.
No. 3. P. 440-451.
20.
Белкина Т.А., Паламарчук Е.С. О стохастической оптимальности для линейного
регулятора с затухающими возмущениями // АиТ. 2013. № 4. С. 110-128.
Belkina T.A., Palamarchuk E.S. On Stochastic Optimality for a Linear Controller
with Attenuating Disturbances // Autom. Remote Control. 2013. V. 74. No. 4.
P. 628-641.
21.
Паламарчук Е.С. Анализ асимптотического поведения решения линейного сто-
хастического дифференциального уравнения с субэкспоненциально устойчивой
матрицей и его приложение к задаче управления // Теор. вероятностей и ее
применения. 2017. Т. 62. Вып. 4. С. 654-669.
Palamarchuk E.S. Analysis of the Asymptotic Behavior of the Solution to a
Linear Stochastic Differential Equation with Subexponentially Stable Matrix and
Its Application to a Control Problem // Theory of Probability & Its Applications.
2018. V. 62. No. 4. P. 522-533.
22.
Fischer J. Optimal sequence-based control of networked linear systems. Karlsruhe:
KIT Scientific Publishing, 2015.
23.
Aeyels D., Lamnabhi-Lagarrigue F., van der Schaft A. (Eds.) Stability and
stabilization of nonlinear systems. Berlin: Springer, 2008.
24.
Chen G., Yang Y. New Stability Conditions for a Class of Linear Time-Varying
Systems // Automatica. 2016. V. 71. P. 342-347.
25.
Паламарчук Е.С. Стабилизация линейных стохастических систем с дисконтиро-
ванием: моделирование долгосрочных эффектов применения оптимальных стра-
тегий управления // Математич. моделирование. 2015. Т. 27. № 1. С. 3-15.
Palamarchuk E.S. Stabilization of Linear Stochastic Systems with a Discount:
Modeling and Estimation of the Long-Term Effects from the Application of Optimal
Control Strategies // Math. Models Comput. Simul. 2015. V. 7. No. 4. P. 381-388.
26.
Паламарчук Е.С. Анализ критериев долговременного среднего в задаче стоха-
стического линейного регулятора // АиТ. 2016. № 10. С. 78-92.
79
Palamarchuk E.S. Analysis of Criteria for Long-run Average in the Problem of
Stochastic Linear Regulator // Autom. Remote Control. 2016. V. 77. No. 10.
P. 1756-1767.
27. Khasminskii R. Stochastic stability of differential equations. 2nd ed. N.Y.: Springer,
2012.
28. Mao X. Stochastic differential equations and applications. 2nd ed. Cambridge, UK:
Woodhead Publishing, 2007.
29. Паламарчук Е.С. Оценка риска в линейных экономических системах при отри-
цательных временных предпочтениях // Экономика и мат. методы. 2013. Т. 49.
№ 3. С. 99-116.
Статья представлена к публикации членом редколлегии Б.М. Миллером.
Поступила в редакцию 28.02.2018
После доработки 09.08.2018
Принята к публикации 08.11.2018
80