Автоматика и телемеханика, № 1, 2020
© 2020 г. Е.С. ПАЛАМАРЧУК, канд. физ.-мат. наук (e.palamarchuck@gmail.com)
(Центральный экономико-математический институт РАН, Москва)
ОПТИМАЛЬНЫЙ РЕГУЛЯТОР ДЛЯ НЕАВТОНОМНОЙ
ЛИНЕЙНОЙ СТОХАСТИЧЕСКОЙ СИСТЕМЫ
С ДВУСТОРОННИМ ЦЕЛЕВЫМ ФУНКЦИОНАЛОМ1
Рассматривается задача стохастического линейного регулятора на бес-
конечном интервале времени с двусторонним целевым функционалом и
переменной матрицей диффузии. В двустороннем квадратичном целевом
функционале пределы интегрирования имеют противоположный знак и
зависят от длины интервала планирования. Показано, что при ограни-
чениях на рост матрицы диффузии известный закон управления в виде
линейной обратной связи по состоянию будет являться оптимальным по
критерию обобщенного долговременного среднего и его потраекторного
аналога. Также проводится анализ вероятностного поведения оптималь-
ной траектории развития системы.
Ключевые слова: стохастический линейный регулятор, двусторонний це-
левой функционал, переменная матрица диффузии.
DOI: 10.31857/S0005231020010055
1. Введение
Стохастические линейные регуляторы относятся к классу систем управле-
ния, имеющих важное теоретическое и практическое значение, см. [1, гл. 3].
При этом их динамика обычно рассматривается на положительной по-
луоси изменения параметра времени t ∈ [t0, T ] и горизонте планирования
[t0, T ] [0, +). Вместе с тем, в теоретико-операторной перспективе, т.е. при
возникновении бесконечномерных пространств состояний, см., например, [2],
анализ эволюции систем может проводиться на всей числовой прямой, т.е.
при t ∈ (-∞, +), и постановка задач управления осуществляется на интер-
валах [t0 - T, t0 + T ], где T 0, и затем T → +, см. [3, 4]. Кроме того, как
подчеркивается в [5], существуют области приложений (обработка сигналов,
статистическое оценивание, передача информации и др.), моделирование в
которых также предполагает возможность значений независимой перемен-
ной t ∈ (-∞, +). Опишем систему управления, исследуемую в данной ста-
тье. Пусть на полном вероятностном пространстве {Ω, F, P} задан n-мерный
случайный процесс Xt, t ∈ R, R — множество действительных чисел, описы-
ваемый уравнением
(1)
dXt = AtXtdt + BtUtdt + Gtdwt,
1 Работа выполнена в рамках НИР “Теория и методы для компьютерного и математиче-
ского моделирования и анализа общественных систем и процессов”, номер государственной
регистрации АААА-Ф18-118021990120-2.
67
где At, Bt — ограниченные матрицы с зависящими от времени элементами;
шумовые воздействия моделируются с помощью так называемого двусто-
роннего винеровского процесса wt, t ∈ R, задаваемого обычным образом как
wt = w(1)t, t 0, и wt = w(2)-t, t < 0, при двух независимых d-мерных стандарт-
ных винеровских процессах w(1)t, w(2)t, t 0, см., например, [6, с. 7]; множество
допустимых управлений U состоит из k-мерных квадратично интегрируе-
мых случайных процессов Ut, t ∈ R, согласованных с фильтрацией {Ft}t∈R,
Ft = σ{ws,s t} (σ(·) — знак σ-алгебры), таких что существует решение
уравнения (1), т.е., см., например, [3], процесс Xt, t ∈ R, для которого почти
t
t
t
наверное (п.н.) выполняется Xt = Xs +
Aτ Xτ +
Bτ Uτ +
Gτ dwτ
s
s
s
при всех s t; Gt — матрица диффузии, о предположениях относитель-
но ее элементов будет сказано далее, а здесь отметим, что в рассмотрение
могут включаться ситуации как ограниченных параметров возмущений (на-
пример, постоянных Gt ≡ G или затухающих ∥Gt∥ → 0), так и нарастающих
∥Gt∥ → ∞, t → ±∞ (∥ · ∥ — матричная евклидова норма).
Для T > 0 в качестве двустороннего целевого функционала на [-T, T ]
определим случайную величину
T
(2)
J2T (U) = (X′tQtXt + U′tRtUt
) dt,
-T
где U ∈ U — допустимое управление; Qt qI, Rt ρI, t ∈ R, — ограниченные
симметричные матрицы, q, ρ > 0 — некоторые константы ( — знак транспо-
нирования, запись A B для матриц означает, что разность A - B неотри-
цательно определена, I — единичная матрица).
Ранее задачи стохастического линейного регулятора на бесконечном ин-
тервале времени (T → +) с функционалом вида (2) рассматривались
в [7] при управлении передачей информации в сетях, для приложений
в инженерных системах — см. [8; 9, часть
13.2.10]. При этом в каче-
стве критерия оптимальности использовалось долговременное среднее, т.е.
lim sup{EJ2T /(2T )} → inf . Очевидно, что при таком подходе не учитыва-
T→+
U ∈U
ется специфика изменения матрицы диффузии Gt во времени, например,
ее неограниченность на бесконечности, как, например, в когнитивной моде-
ли [10], или ее вырождение, см. случай диффузии [11]. В данной статье для
определения управлений, оптимальных в среднем на бесконечном интервале
времени, предлагается критерий, который обобщает приведенный выше:
EJ2T (U)
(3)
lim sup
inf .
T→+
U ∈U
∥Gt2 dt
-T
Более сильным (в вероятностном смысле) критерием, чем долговременное
среднее, является потраекторное эргодическое, когда задача
lim sup{J2T /(2T )} → inf
T→+
U ∈U
68
решается с вероятностью единица, см. [3]. При учете фактора воздействия
на динамику системы переменной матрицы диффузии можно использовать
потраекторное обобщенное долговременное среднее, когда ставится задача
J2T (U)
(4)
lim sup
inf
с вероятностью единица.
T→+
U ∈U
∥Gt2 dt
-T
Следует отметить, что обобщенные долговременные средние также вводи-
лись в [12-14] для стохастического линейного регулятора с односторонним
целевым функционалом, т.е. при интегрировании на [0, T ] в (2). Задачи с
двусторонними функционалами рассматривались в [3, 4], а используемые
там критерии оптимальности являлись стандартными для систем с огра-
ниченными коэффициентами (упомянутые выше долговременное среднее и
потраекторное эргодическое). При этом для элементов множества допусти-
мых управлений предполагались выполненными условия конечности момен-
тов соответствующих им процессов, точнее, supt∈R(E∥Xt2 + E∥Ut2) < ∞,
см. [4], или же supt∈R(E∥Xt4 + E∥Ut4) < ∞, см. [3], а также эргодическо-
T
го среднего lim supT→∞{(2T )-1
∥Ut2 dt} < ∞ в [4]. По сравнению с ана-
-T
лизом, проведенным в [3, 4], в настоящей статье представляется ряд обоб-
щений (для случая конечномерных систем управления). Во-первых, вклю-
чается ситуация неограниченного изменения во времени матрицы диффузии
(∥Gt∥ → ∞, t → ±∞), и применяются новые критерии обобщенных долговре-
менных средних (см. (3), (4)), учитывающие этот факт. Во-вторых, задачи
(3) и (4) решаются для гораздо более широкого класса управляющих воздей-
ствий, чем было сделано в [3, 4]: достаточно потребовать существования ре-
t
шения (1) и квадратичной интегрируемости управлений, т.е.
∥Uτ2 dτ < ∞,
s
−∞ < s t < +. Важно подчеркнуть, что известная форма оптимальной
стратегии в виде линейной обратной связи по состоянию, структура которой
также включает решение уравнения Риккати (см., например, [1, 3, 4]), сохра-
няется и в рассматриваемом случае для (3) и (4). Для оптимальной траек-
тории, соответствующей такому управлению, в [3] было выявлено свойство
глобальной асимптотической устойчивости в среднем квадратичном. В дан-
ной статье будут получены более точные оценки изменений этого процесса во
времени как в среднем квадратичном смысле, так и с вероятностью единица,
в зависимости от коэффициентов матрицы диффузии, что представляется
обобщением результата [15], где изучался скалярный стационарный процесс.
Таким образом, цель данной статьи — нахождение управления U∗t, оптималь-
ного в задачах (3) и (4), и исследование свойств соответствующей ему опти-
мальной траектории X∗t при t → ±∞. Дальнейшее изложение организовано
следующим образом. В разделе 2 вводятся основные предположения о пара-
метрах системы управления (1)-(2) и решается задача (3). Раздел 3 посвящен
проблеме потраекторной оптимальности U для задачи (4) и стохастическо-
му анализу динамики траектории X. Кроме того, в разделе 3 приводятся
примеры различных классов функций, которые могут описывать изменение
матрицы диффузии Gt в рамках основных предположений. Заключение со-
держит выводы и информацию о направлении дальнейших исследований.
69
2. Оптимальность в среднем на бесконечном интервале времени
Сначала сформулируем предположения о коэффициентах (1)-(2), в рам-
ках которых будут получены основные результаты.
Предположение AB. Пара матриц (At,Bt) является стабилизируе-
мой при t ∈ R.
Стабилизируемость пары (At, Bt), см., например, [2, 4], означает суще-
ствование ограниченной матрицы Kt с кусочно-непрерывными элементами,
при которой матрица At = At + BtKt является экспоненциально устойчи-
вой, t ∈ R, т.е. соответствующая ей фундаментальная матрица Φ(t, s) допус-
кает оценкуΦ(t, s) κ0e(t-s), s t, κ0, κ > 0 — константы. При этом,
как известно, фундаментальная матрица определяется из решения задачи
Φ(t,s)
= AtΦ(t,s), Φ(s,s) = I. Далее формулируется предположение отно-
∂t
сительно параметров возмущений, т.е. матрицы Gt, t ∈ R. Введем множество
T = {-∞;+;±∞} и запись t → T будем использовать для сокращенного
обозначения ситуаций t → -∞, t → + или t → ±∞.
Предположение G. Для элементов матрицы диффузии Gt выполня-
ется одно из следующих условий:
1) Gt — ограничена при t → T ;
2) ∥Gt∥ → +∞, Gt — дифференцируема, при этом d ln ∥Gt∥/dt → 0, t → T .
Необходимо подчеркнуть, что возможность выполнения условий 1, 2 для
матрицы Gt зависит от того, на какой полуоси (положительной или отрица-
тельной) изменяется параметр t ∈ R. В частности, для ∥Gt = em
t, где m
нечетное число, имеет место условие 1 при t → -∞ и условие 2 при t → +.
В условиях предположения AB, см. [2, 4], существует управление
(5)
U∗t = -R-1tB′tΠtX∗t,
где ограниченная симметричная матрица Πt pI, p > 0 — константа, удов-
летворяет уравнению Риккати
(6)
Πt + ΠtAt + A′tΠt - ΠtBtR-1tB′tΠt + Qt
= 0.
При подстановке (5) в (1) становится очевидно, что процесс X∗t, t ∈ R, яв-
ляется решением линейного стохастического дифференциального уравнения
(СДУ)
(7)
dX∗t = (At - BtR-1tB′tΠt)X∗tdt + Gtdwt
и представляет собой аналог процесса Орнштейна-Уленбека при t ∈ R
в случае СДУ с переменными коэффициентами. При этом матрица A∗t =
= At - BtR-1tB′tΠt — экспоненциально устойчива, см. [2, 4], а ряд других
свойств X∗t, t ∈ R, устанавливается в лемме 1.
Лемма 1. Пусть выполнены предположения AB и G. Тогда решени-
t
ем (7) является процесс вида X∗t =
Φ(t, s)Gsdws, где Φ(t, s) — фундамен-
-∞
тальная матрица, соответствующая экспоненциально устойчивой матри-
це A∗t = At - BtR-1tB′tΠt. При этом существует константа cG > 0, такая
что E∥X∗t2 cG max{1, ∥Gt2}, t ∈ R.
70
Доказательство леммы 1, а также всех последующих утверждений выне-
сено в приложение. В следующей далее теореме 1 приводится результат об
оптимальности в среднем на бесконечном интервале времени управления U.
Теорема 1. Пусть выполнены предположения AB и G. Тогда закон
управления U, задаваемый (5)-(7), является решением задачи
EJ2T (U)
(8)
lim sup
inf ,
T→+
U ∈U
∥Gt2 dt
-T
при этом
ΠtGt)dt
tr(G′t
EJ2T (U)
-T
(9)
0 < limsup
= lim sup
< ∞,
T→+
∥Gt
2 dtT→+
∥Gt2 dt
−T
-T
где tr(·) — след матрицы.
3. Потраекторная стохастическая оптимальность
В приводимых далее леммах 2 и 3 характеризуются асимптотические свой-
ства траекторий процесса X∗t, t ∈ R. Знание этих свойств оказывается необ-
ходимым при исследовании стохастической оптимальности управления U в
задаче (4).
Лемма 2. Пусть выполнены предположение AB и п. 2 предположения G.
Тогда существует константа c > 0, такая что
2
∥X∗t
lim sup
< c< ∞ с вероятностью единица,
t→T
∥Gt2 ln |t|
где | · | — модуль скалярной переменной.
Приведенная в лемме 2 функция ht = ∥Gt2 ln |t| является мажорантой, т.е.
верхней функцией процесса X∗t, см. [16, определение 1], при условии выпол-
нения п. 2 предположения G. Для ограниченной Gt, t 0, результат о виде ht
был получен ранее в [16], частный случай скалярного стационарного процесса
рассмотрен в [15].
Лемма 3. Пусть выполнены предположение AB и предположение G. Ес-
ли в п. 2 предположения G также d ln ∥Gt∥/dt · ln |t| → 0, t → T , то
∥X∗-T2 + ∥X∗T2
lim
=0
с вероятностью единица.
T→+
∥Gt2 dt
-T
71
Соотношение в лемме 3 утверждает, что нормировка при помощи ΓT =
√∫T
=
∥Gt2 dt как прошлых (X∗-T ), так и последующих (X∗T ) значений тра-
-T
ектории обеспечит стремление результирующего процесса к нулю п.н. с рос-
том длины “окна” рассматриваемых наблюдений. Заданная таким образом
функция ΓT определяет среднеквадратичное отклонение компонент вектора
интегральных шумовых воздействий за период [-T, T ], точнее, берется ZT =
T
T
=
Gtdwt и тогда E∥ZT2 =
∥Gt2 dt.
-T
-T
При анализе задачи (4) для случая ∥Gt∥ → ∞, t → T , потребуется вы-
полнение более сильного условия, чем сформулированное в п. 2 предположе-
ния G.
Предположение G1. Пусть в п. 2 предположения G выполнено соот-
ношение dln ∥Gt∥/dt · ln |t|(ln ln |t| + ln ln ∥Gt) 0, t → T , и при этом ∥Gt
является монотонной функцией, t → T .
Основным результатом данного раздела является утверждение теоремы 2
о потраекторной оптимальности управления U.
Теорема 2. Пусть выполнены условия теоремы 1 и предположение G1.
T
Если
∥Gt2 dt → ∞, T → +∞, то оптимальный в среднем закон управ-
-T
ления U будет также являться решением задачи с потраекторным кри-
терием обобщенного долговременного среднего, т.е.
J2T (U)
(10)
lim sup
inf
с вероятностью единица,
T→+
U ∈U
∥Gt2 dt
-T
при этом
J2T (U)
EJ2T (U)
(11)
lim sup
= lim sup
п.н.
T→+
∥Gt
2 dtT→+
∥Gt2 dt
−T
-T
Приведем примеры различных классов функций, описывающих динами-
ку нормы матрицы диффузии Gt. Используемый далее знак отношения
ft ∼ gt для двух скалярных неотрицательных функций ft и gt означает, что
0 < limt→±∞(ft/gt) < ∞.
Пример 1.
1. Степенное семейство ∥Gt2 ∼ |t|2α, α ∈ R : при α 0 имеет место
п. 1 предположения G и для α > 0 — п. 2. Так как d ln ∥Gt∥/dt ∼ 1/|t|, а
ln ln ∥Gt∥ ∼ ln |t|, то соотношение в предположении G1 возникает при любом
числе α. При этом условия теоремы 2 будут выполнены для α -1/2.
2. Логарифмическое семейство ∥Gt2 ln2α |t|, β ∈ R : если β 0, то име-
ет место п.
1
предположения G и при β > 0 — п. 2. В силу того что
d ln ∥Gt∥/dt ∼ 1/(|t| ln |t|), а функция ln ln ∥Gt∥ ∼ ln ln |t|, требование предпо-
ложения G1 выполняется при любом β. Также для каждого β ∈ R будут вы-
полнены условия теоремы 2.
72
3. Экспоненциальное семейство ∥Gt2 ∼ e|t|μ , μ < 1 : при μ 0 имеет ме-
сто п. 1 предположения G и для μ > 0 — п. 2. Также d ln ∥Gt∥/dt ∼ |t|μ-1
и ln ln ∥Gt∥ ∼ |t|μ, т.е. соотношение из предположения G1 следует при любом
0 < μ < 1. Очевидно, что условия теоремы 2 выполняются при каждом μ < 1.
4. Заключение
В статье рассмотрена задача стохастического линейного регулятора на
бесконечном интервале времени с двусторонним целевым функционалом и
переменной матрицей диффузии Gt. В двустороннем квадратичном целевом
функционале J2T (U), см. (2), пределы интегрирования имеют противополож-
ный знак и зависят от длины интервала планирования, т.е. t ∈ [-T, T ] в (2),
а затем T → +. Показано, что в рамках стандартного условия стабилизи-
руемости детерминированной системы (см. предположение AB) и ограниче-
ниях на рост матрицы диффузии, см. предположения G и G1, известный закон
управления U в виде линейной обратной связи по состоянию (5)-(7) будет
являться оптимальным по критерию обобщенного долговременного среднего
(теорема 1) и его потраекторного аналога (теорема 2). Также в статье прове-
ден анализ асимптотического вероятностного поведения X∗t — оптимальной
траектории развития системы, см. уравнение (7). В частности, установле-
но, что верхняя граница изменений X∗t в среднем квадратичном может быть
определена в зависимости от ∥Gt (лемма 1). В потраекторной динамике най-
дена достаточная нормировка, обеспечивающая стремление значений процес-
са к нулю с вероятностью единица (см. лемму 3) и определяемая через ста-
тистическую характеристику (стандартное отклонение) вектора интеграль-
ных шумовых воздействий. В качестве направления дальнейших исследова-
ний можно выделить изучение задачи трекинга стохастической траектории,
обобщая, например, случай модели [7], где эталонная траектория является
гауссовским процессом.
ПРИЛОЖЕНИЕ
Доказательство леммы 1. Так как X∗t = Φ(t,0)χt, где χt =
t
=
Φ(0, s)Gsdws, то сначала требуется показать, что существует стоха-
-∞
стический интеграл χt с бесконечным нижним пределом, а затем диффе-
ренцированием проверить, что X∗t удовлетворяет (7). В силу определения
двустороннего винеровского процесса wt = w(2)-t, t < 0, где wτ2) — стандарт-
ный винеровский процесс, τ 0, стохастическое исчисление для интегралов
вида χt осуществляется по обычным правилам интегрирования по Ито, так-
t
же см. [6, с. 13-14]. Для t 0 процесс X∗t = Φ(t, 0)X0 +
Φ(t, s)Gsdws, где
0
X0 = χ0. Известно, см. [6, теорема 5.1, c. 54], что существование χt, t ∈ R, свя-
0
зано с требованием E∥χ02 =
Φ(0, s)Gs2 ds < ∞, которое выполняется
-∞
в силу экспоненциальной устойчивости матрицы A∗t и предположения G. Дей-
ствительно,Φ(0, s) κ0eκs, s 0, и lim sups→-∞ ∥Gs2eγs < ∞ для любого
γ > 0, тогда, выбирая γ < 2κ, имеем E∥χ02 < ∞. Далее находим, что
t
t
(Π.1)
E∥X∗t2 = tr{Φ(t, s)GsG′sΦ(t, s)} ds c
e-2κ(t-s)∥Gs2
ds,
−∞
-∞
73
где tr(·) — след матрицы, здесь и далее в качестве c обозначена некоторая
положительная константа, конкретное значение которой несущественно и мо-
жет меняться от формулы к формуле. Из (Π.1) следует, что при ограни-
ченной Gt выражение для E∥X∗t2 также будет ограничено, t ∈ R. Если же
∥Gt∥ → +∞, t → T , то при помощи интегрирования по частям, по аналогии
с проделанным в [14, лемма 1] для случая t → +, можно показать, что
lim supt→T (E∥X∗t2/∥Gt2) < ∞. Лемма 1 доказана.
Доказательство теоремы 1. Зафиксируем управление U ∈ U и опре-
делим соответствующий ему процесс по (1). Пусть xt = X∗t - Xt, ut = U∗t -Ut,
x = X0 - X0, тогда получается представление
(Π.2)
J2T (U) - J2T
(U) =
T
T
= 2x′T ΠT X∗T - 2x′-T Π-T X∗-T - (x′tQtxt + u′tRtut)dt - 2 x′tΠtGtdwt.
-T
-T
Для оценки (Π.2) проводится анализ динамики xt при t ∈ [-T, T ]. По построе-
нию
(Π.3)
dxt = Atxtdt + Btut
dt.
Пусть сначала t ∈ [0, T ]. Тогда рассмотрение (Π.3) с начальным услови-
ем x0 = x и предположение Qt qI приводят к решению (Π.3) вида xT =
T
= Φ(T, 0)x +
Φ(T, t)(k√Qtxt + Btut)dt, где
Φ(t, s) — фундаментальная
0
матрица, соответствующая экспоненциально устойчивой матрице
At = At -
− k√Qt при некоторой константе k > 0. Оценка приведенного выше соотно-
шения дает
T
(Π.4)
∥xT2 ce-κT ∥x∥2 + c e(T-s)(x′sQsxs + u′sRsus
)ds
0
с некоторыми константами c, κ > 0. Для случая t ∈ [-T, 0] уравнение (Π.3)
рассматривается при граничном условии x0 = x. В силу Qt qI существу-
ет константа
k> 0, такая что матрица
At = At +k√Qt является экспо-
ненциально антиустойчивой, т.е.Φ(s, t) κe1(t-s), s t, а κ, κ1 > 0 —
константы. Тогда, представив решение (Π.3) в виде x-T =Φ(-T, 0)x -
0
-
Φ(-T, s)(k√Qsxs + Bsus)ds, будем при некоторой константе c>0
-T
иметь оценку
0
(Π.5)
∥x-T2 ce1T ∥x∥2 + c e1(T+s)(x′sQsxs + u′sRtus
)ds.
-T
Тогда ограниченность Πt, t ∈ R, в совокупности с элементарным неравен-
ством 2ab ca2 + b2/c, которое справедливо при произвольном c > 0, и
(Π.4)-(Π.5) приводят к следующей оценке для ожидаемого значения (Π.2):
EJ2T (U) - EJ2T (U) c0e1 ∥x∥2 + c1E∥X∗T2 + c2E∥X∗-T2
74
с некоторыми константами κ1, c0, c1, c2 > 0. Применение нормировки
T
∥Gt2, с учетом результата леммы 1 и условий предположения G, в
-T
предельном переходе для T → +∞, обеспечивает выполнение соотношения
EJ2T (U)
EJ2T (U)
lim sup
lim sup
,
T→+
∥Gt
∥Gt2 dt
−T
-T
показывающего, что U является решением задачи (3). Следует заметить, что
для процессов, определенных при всех t ∈ R, как в (7), решение соответствую-
t
щего уравнения представляется в интегральном виде X∗t = X∗s +
A∗τX∗τ +
s
t
+
Gτ dwτ при произвольном s ∈ R, s t. Тогда по замечанию [17, замеча-
s
ние 4.3.7, c. 99] известные результаты, в частности справедливость формулы
Ито, могут быть распространены на случай таких процессов. Далее, по фор-
муле Ито
(Π.6)
J2T (U
)=
T
T
= [(X∗-T )Π-T X∗-T ] - [(X∗T )ΠT X∗T ] + tr(G′tΠtGt) dt + 2 (X∗t )ΠtGtdwt.
-T
-T
На основании неравенства из леммы 1 и свойства pI Πt cI, t ∈ R, выписы-
T
вается двусторонняя оценка для ожидаемого значения (Π.6): ĉ1
∥Gt2 dt
-T
T
EJ2T (U) ĉ2
∥Gt2 dt при некоторых константах ĉ1, ĉ2 > 0, из которой
-T
следует (9). Теорема 1 доказана.
Доказательство леммы
2. Для случая T = + процесс X∗t =
X
t
= Φ(t,0)X0 +X∗t , где
=
Φ(t, s)Gsdws, t 0. В [14, лемма 2] было по-
t
0
казано, что ∥X∗t2 c0∥Gt2 ln t п.н. при t → + и детерминированной кон-
станте c0 > 0. Так как X0 — случайная величина, аΦ(t, 0 κ0e-κt, то
из приведенного выше результата для ∥X∗t2 сразу получается утвержде-
ние доказываемой леммы. При T = -∞ сначала рассмотрим скалярный про-
цесс zt с уравнением динамики dzt = -κztdt + σtdwt, κ > 0, и коэффициен-
том диффузии σt со свойствами из условия леммы 2. Тогда zt = e-κtIt, где
t
It =
eκsσsdws. В стохастическом интеграле I-T , T 0, можно провести
-∞
замену времени τ = -1/s и учесть, что τw-1 = ŵτ , где ŵτ , τ 0, — другой
винеровский процесс, см., например, [18, с. 94]. Поэтому
(
)
τ
ŵτ
I-T = e-κ/τσ-1
-
τ
τ2
0
При T → + для оценки слагаемых в I-T может использоваться локаль-
ный закон повторного логарифма [18, следствие 3, с.
93]. Пусть I(1)T =
1/T
=
0
e-κ/τ σ-1ττ , тогда |IT1)| ĉ1hT1) при hT1) =MT ln ln(1/MT ), MT =
75
1/T
=
e-2κ/τ σ2-1
и некоторой константе
ĉ1 > 0. Для процесса I(2)T =
0
τ2
1/T
=
e-κ/τ σ-1 ŵτ
при T → + будет иметь место оценка |I(2)T| ĉ2h(2)T,
0
τ2
1/T e-κ/τ
τ ln ln(1)
где h(2)T =
-1 |dτ и ĉ2 > 0 — некоторая константа.
0
τ2
При помощи правила Лопиталя нетрудно показать, что
(
)
√(
)
h(1)T + h(2)
/
e2κT σ2-T ln T
→ c, T → +∞.
T
Тогда lim supT→+{|zT |/ (σ2-T ln T )} < ∞, и использование этой оценки для
-T
каждой из компонент вспомогательного процесса
X-T =
eκ(T+s)Gsdws
-∞
приводит к тому, что существует константа
> 0, при которой
lim supT→+{∥X-T ∥/hT } < ĉ < ∞ п.н., если hT =
∥G-T2 ln T . Далее,
для процесса разности Zt = X∗t -Xt с уравнением динамики dZt = A∗tZtdt +
t
+(κI - A∗t)Xtdt и решением Zt =
Φ(t, s)(κI - A∗s)Xs ds стандартным
-∞
образом показывается, см., например, [16], что экспоненциальная устойчи-
вость A∗t иht/ht 0 гарантируют ограниченность отношения ∥Zt∥/ht при
t → -∞, откуда следует, что и limsupt→-∞{∥X∗t ∥/ht} < c< ∞ для ht =
=
∥Gt2 ln |t|. Лемма 2 доказана.
Доказательство леммы 3. В условиях п. 2 предположения G ис-
пользование результата леммы 2 в совокупности с требованием d ln ∥Gt∥/dt×  
}
t
× ln |t| → 0, t → T , приводит к тому, что limt→T
∥X∗t2/
∥Gs2 ds
0
{
}
t
climt→T
∥Gt2 ln |t|/
∥Gs2 ds
=0 с вероятностью единица. Если мат-
0
рица диффузии Gt ограничена, то при T = + вновь используется представ-
T
ление X∗T = Φ(T, 0)X0 +X∗T , гдеX∗T =
Φ(T, s)Gsdws, T 0, и известный ре-
0
T
зультат [13, теорема 1], согласно которому ∥X∗T2/
∥Gs2ds → 0 п.н., T →
0
+∞. Тогда, принимая во внимание наличие убывающей экспоненциаль-
T
ной оценки дляΦ(T, 0), получаем соотношение ∥X∗T2/
∥Gs2ds → 0, T →
-T
0
+∞. Для T =-∞ представление ∥X∗-T2 =∥X02-
(X∗t)(At +A′t)X∗tdt-
-T
0
0
0
(X∗t)Gtdwt -
(dwt)G′tX∗t -
∥Gt2 dt позволяет применить при
-T
-T
-T
анализе слагаемых результаты [13, лемма 1, ле ма 2] с подынтегральной за-
0
меной времени τ = -t, и тогда также ∥X∗-T2/
∥Gs2 ds0, T → +∞.
-T
Лемма 3 доказана.
Доказательство теоремы 2. Для оценки (Π.2) используются полу-
ченные неравенства (Π.4) и (Π.5). Замена T на t в (Π.4), (-T ) на t — в (Π.5) и
последующее интегрирование этих соотношений на [0, T ] и [-T, 0] приводят к
T
T
(Π.7)
∥xt2 dt c1∥x∥2
+c1
(x′tQtxt + u′tRtut
)dt
0
0
76
и соответственно к
0
0
(Π.8)
∥xt2 dt c1∥x∥2
+c1
(x′tQtxt + u′tRtut
)dt
−T
-T
при некоторых константах c1, c1 > 0. Тогда (Π.2) можно оценить как
J2T (U) J2T (U) + c0∥x∥2 + c1∥X∗T2 + c2∥X∗-T2-
T
T
−c3
∥xt2 dt - 2 x′tΠtGtdwt,
-T
-T
где c0, c1, c2, c3 > 0 — некоторые константы, а затем записать, что
(Π.9)
J2T (U) J2T (U) + R(0)T + R(+)T + R(-)T,
T
где процессы R(0)T = c0∥x∥2 + c1∥X∗T2 + c2∥X∗-T2, R(+)
= -c30 ∥xt2 dt-
T
T
2
x′tΠtGtdwt, R(-)T = -R(+)-T. Так как выполнены предположения G, G1
0
T
и
∥Gt2 dt → ∞, T → +∞, то с учетом леммы 3 имеем
-T
∕∫T
lim
R(0)
∥Gt2 dt
=0
п.н.
T
T→+
−T
Далее рассматривается поведение процессов R(+)T и R(-)T при T → +. Для
ограниченной Gt, t 0, известно, см., например, [12], что lim sup{R(+)T/gT } 0
t→+
п.н. для любой функции gT > 0 и gT → ∞, t → +. По условию в качестве
T
нормировки gT можно взять gT =
∥Gt2 dt. Если имеет место п. 2 предпо-
-T
ложения G и предположение G1, то после использования закона повторного
логарифма для стохастических интегралов, см., например, [19], R(+)T оцени-
вается в виде |R(+)T| LT , T → +∞, где
/
0
0∫T
T
0
LT = ĉ1∥GT2 ∥xt2 dt ln ln
∥xt2 dt-
0
0
T
2
∥xt2dt + ĉ3∥GT2 ln ln ∥GT ∥,
0
а
ĉ1, ĉ2, ĉ3
— некоторое константы. Применяя аналогичные рассужде-
ния как и при доказательстве в [14, лемма 3], можно определить, что
LT c∥GT2 ln ln ∥GT ∥, и тогда lim supt→+{R(+)T/gT } = 0 п.н. при gT =
77
= ∥GT2 ln ln ∥GT. Из этого результата и предположения G1 следует, что{
}
T
limT→+ gT /
∥Gt2 dt
= 0 п.н. Также необходимо отметить, что резуль-
-T
таты по выбору нормировок gT для процесса R(-)T получаются на основе со-
ответствующих соотношений, приведенных выше для R(+)T, если произвести
замену времени τ = -t в подыинтегральных выражениях. Тогда с учетом
этих замечаний из (Π.9) в пределе при T → + приходим к неравенству
J2T (U)
J2T (U)
lim sup
lim sup
с вероятностью единица.
T→+
∥Gt
2 dtT→+
∥Gt2 dt
−T
-T
Далее, переходя к (Π.6), принимая во внимание (9) и результат леммы 3,
очевидно, что для доказательства (11) необходимо исследовать поведение
T
IT = (X∗t)ΠtGt dwt = I(+)T + I(-)T,
-T
T
где I(+)T =
(X∗t)ΠtGt dwt, I(-)T = -I(+)-T. Точнее, требуется проанализиро-
0
T
вать I(+)T/ΓT , с ΓT =
∥Gt2 dt, при этом случай I(-)T/|Γ-T | рассматрива-
0
ется аналогичным образом путем замены времени. Для ограниченной Gt,
t 0, как было показано в [13], отношение I(+)T/ΓT0 п.н. при T → +.
Для ∥Gt∥ → ∞, t → +∞, и соотношений в предположении G1 используется
закон повторного логарифма для стохастических интегралов, см. [19], когда
{
}
T
lim sup
|I(+)T|/
〈I(+)T ln ln〈I(+)T
<∞ п.н., где 〈I(+)T=
∥X∗t2∥Gt2Πt2dt.
0
T→+
Применение леммы 2 в совокупности с монотонностью ∥Gt дает оценки
T
〈I(+)T c∥GT2
∥Gt2dt ln T и ln ln〈I(+)T c(ln ln T + ln ln ∥GT). Тогда
0
〈I(+)T ln ln〈I(+)T〉 / Γ2T c∥GT2 (ln ln T + ln ln ∥GT) ln T / ΓT 0, T → +
(здесь равенство нулю получено вследствие предположения G1), поэтому
I(+)T/ΓT 0 с вероятностью единица. С учетом изложенного
T
IT /
∥Gt2 dt → 0 п.н., T → +∞,
-T
и имеет место (11). Теорема 2 доказана.
СПИСОК ЛИТЕРАТУРЫ
1. Квакернаак X., Сиван P. Линейные оптимальные системы управления. М.: Нау-
ка, 1977.
78
2.
Mueller M., Cantoni M. Normalized Coprime Representations for Time-Varying
Linear Systems // Proc. 49th IEEE Conf. on Decision and Control. N.Y., 2010.
P. 7718-7723.
3.
Tudor C. Quadratic Control for Linear Stochastic Equations with Pathwise Cost //
Stochastic Systems and Optimization. Proc. 6th IFIP WG 7.1 Working Conf.
Warsaw, Poland, September 12-16, 1988. Berlin: Springer, 1989. P. 360-369.
4.
Da Prato G., Ichikawa A. Quadratic Control for Linear Time-Varying Systems //
SIAM J. Control Optim. 1990. V. 28. No. 2. P. 359-381.
5.
Makila P.M. Convoluted Double Trouble // IEEE Contr. Syst. Mag. 2002. V. 22.
No. 4. P. 26-31.
6.
Nourdin I. Selected aspects of fractional Brownian motion. Milan: Springer, 2012.
7.
Altman E., Basar T., Hovakimyan N. Worst-Case Rate-Based Flow Control with
an ARMA Model of the Available Bandwidth // Advances in Dynamic Games and
Applications. Boston: Birkhauser, 2000. P. 3-29.
8.
Sun T., Nielsen S.R.K. Stochastic Optimal Control of a Heave Point Wave Energy
Converter Based on a Modified LQG Approach // Ocean Eng. 2018. V. 154.
P. 357-366.
9.
Grimble M.J., Johnson M.A. Optimal control and stochastic estimation: theory and
applications. V. 2. N.Y.: John Wiley & Sons, 1986.
10.
Smith P.L., McKenzie C.R.L. Diffusive Information Accumulation by Minimal
Recurrent Neural Models of Decision Making // Neural Comput. 2011. V. 23. No. 8.
P. 2000-2031.
11.
Lim S.C., Muniandy S.V. Self-Similar Gaussian Processes for Modeling Anomalous
Diffusion // Phys. Rev. E. 2002. V. 66. No. 2. P. 021114.
12.
Белкина Т.А., Паламарчук Е.С. О стохастической оптимальности для линейного
регулятора с затухающими возмущениями // АиТ. 2013. № 4. С. 110-128.
Belkina T.A., Palamarchuk E.S. On Stochastic Optimality for a Linear Controller
with Attenuating Disturbances // Autom. Remote Control. 2013. V. 74. No. 4.
P. 628-641.
13.
Паламарчук Е.С. Асимптотическое поведение решения линейного стохасти-
ческого дифференциального уравнения и оптимальность почти наверное для
управляемого случайного процесса // Журн. вычислит. математики и мат. фи-
зики. 2014. Т. 54. № 1. С. 89-103.
Palamarchuk E.S. Asymptotic Behavior of the Solution to a Linear Stochastic
Differential Equation and Almost Sure Optimality for a Controlled Stochastic
Process // Comput. Math. Math. Phys. 2014. V. 54. No. 1. P. 83-96.
14.
Паламарчук Е.С. Оценка риска в линейных экономических системах при от-
рицательных временных предпочтениях // Экономика и матем. методы. 2013.
Т. 49. № 3. С. 99-116.
15.
Al-Azzawi S., Liu J., Liu X. Convergence Rate of Synchronization of Systems with
Additive Noise // Discrete Contin. Dyn. Syst. Ser. B. 2017. V. 22. No. 2. P. 227-245.
16.
Паламарчук Е.С. Об обобщении логарифмической верхней функции для реше-
ния линейного стохастического дифференциального уравнения с неэкспоненци-
ально устойчивой матрицей // Дифференциальные уравнения. 2018. Т. 54. № 2.
С. 195-195.
Palamarchuk E.S. On the Generalization of Logarithmic Upper Function for
Solution of a Linear Stochastic Differential Equation with a Nonexponentially Stable
Matrix // Differ. Equat. 2018. V. 54. No. 2. P. 193-200.
79
17. Prevot C., Rockner M. A concise course on stochastic partial differential equations.
Berlin: Springer, 2007.
18. Булинский А.В., Ширяев А.Н. Теория случайных процессов. М.: Физматлит,
2005.
19. Wang J. A Law of the Iterated Logarithm for Stochastic Integrals // Stoch. Proc.
Appl. 1993. V. 47. No. 2. P. 215-228.
Статья представлена к публикации членом редколлегии Б.М. Миллером.
Поступила в редакцию 31.05.2019
После доработки 15.07.2019
Принята к публикации 18.07.2019
80