Автоматика и телемеханика, № 3, 2021
Стохастические системы
© 2021 г. Е.С. ПАЛАМАРЧУК, канд. физ.-мат. наук (e.palamarchuck@gmail.com)
(Математический институт им. В.А. Стеклова РАН, Москва)
ОБ ОПТИМАЛЬНОЙ СУПЕРЭКСПОНЕНЦИАЛЬНОЙ
СТАБИЛИЗАЦИИ РЕШЕНИЙ ЛИНЕЙНЫХ СТОХАСТИЧЕСКИХ
ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ1
Рассматривается проблема асимптотической суперэкспоненциальной
стабилизации траекторий линейного скалярного управляемого случайно-
го процесса. Уравнение динамики процесса содержит аддитивные и муль-
типликативные шумовые воздействия. С целью достижения стабилиза-
ции решается задача оптимального управления на бесконечном интер-
вале с квадратичным целевым функционалом, включающим суперэкспо-
ненциально растущую функцию времени. Для процесса, полученного при
применении оптимальной стратегии управления, проводится анализ его
стремления к нулевому состоянию в среднем квадратичном, а также с
вероятностью единица.
Ключевые слова: линейный регулятор; мультипликативный и аддитив-
ный шум; суперэкспоненциальная стабилизация.
DOI: 10.31857/S0005231021030053
1. Введение
В данной статье рассматривается задача оптимальной асимптотической
стабилизации траекторий линейного управляемого случайного процесса.
Пусть на полном вероятностном пространстве {Ω, F, P} задан скалярный
случайный процесс Xt, t ≥ 0, описываемый уравнением
(1)
dXt = aXtdt + bUtdt + (Gt + gtXt + σtUt)dwt
с неслучайным начальным условием X0 = x; a и b = 0 константы; Gt, gt,
σt
известные кусочно-непрерывные функции времени; wt, t ≥ 0, одно-
мерный стандартный винеровский процесс; Ut
допустимое управление,
т.е. скалярный случайный процесс, согласованный с фильтрацией {Ft}t≥0,
Ft = σ{ws, s ≤ t} (σ(·) знак σ-алгебры), такой что уравнение (1) имеет ре-
шение. Множество допустимых управлений обозначим U.
Следует отметить, что уравнение (1) одновременно содержит как аддитив-
ные (Gtdwt), так и мультипликативные ((gtXt + σtUt)dwt) шумовые воздей-
ствия, что охватывает достаточно широкий спектр приложений. Так, процесс
1 Исследование выполнено за счет гранта Российского научного фонда (проект № 18-
71-10097) в Математическом институте им. В.А. Стеклова РАН.
98
вида (1) при gt ≡ σt ≡ 0 является стандартным в теории линейных регулято-
ров, см., например, [1, раздел 3.6]. Если Gt ≡ gt ≡ 0, то Xt описывает эволю-
цию стоимости инвестиционного портфеля, см. [2, гл. 6; 3, раздел 9.2]. Для
Gt ≡ σt ≡ 0 уравнение (1) моделирует динамику накопленного объема хими-
ческого вещества (например, углекислого газа, см. [4]), а при Gt = 0 исполь-
зуется для отражения изменений в размере популяции [5, раздел 2.4, с. 142]
и в инженерных системах [6].
Стабилизация решений
(1) означает нахождение такого управления
U ∈ U, что при возрастании параметра времени t соответствующий этому
управлению процесс Xt стремится к нулю в том или ином вероятностном
смысле. Управление U при этом называется стабилизирующим. С целью
уточнения скорости сходимости Xt к нулевому состоянию далее вводится со-
ответствующее определение, также см. [3, раздел 4.6; 7, 8].
Определение. Пусть для функции δt > 0, t ≥ 0, задана функция ht ={
}
t
= exp
-2
δv dv . Тогда решение Xt уравнения
(1) асимптотически
0
стремится к нулю: а) в среднем квадратичном с темпом
δt, если
lim supt→∞(EX2t/ht) < ∞; б) с вероятностью единица и темпомδt, ес-
ли существует неслучайная константа c > 0, такая что неравенство
lim supt→∞(X2t/ht) < c выполняется с вероятностью единица.
Указанные в определении соотношения означают, что существуют кон-
станты cm, cM > 0 и конечные моменты времени t0, t0(ω) (ω ∈ Ω), такие что{
}
t
EX2t ≤ cm exp
-2
≤ cM exp{-2t0δv dv}, почти навер-
0
δv dv при t > t0 и
t
ное (п.н.) для t > t0(ω). При этом нетрудно заметить, что экспоненциальная
сходимость соответствует случаюδt ≡ δ > 0. Приδt → 0, t → ∞, будет суб-
экспоненциальное убывание верхней границы для решений, например поли-
номиальное, см. [3, с. 144]. В данной статье рассматривается ситуация, когда
δt → ∞, t → ∞, т.е. достижение суперэкспоненциальной скорости сходимости
решений (1). С этой целью будет решена задача оптимальной суперэкспонен-
циальной стабилизации, постановка которой осуществляется далее.
Предполагается, что применение любого управления U ∈ U на интервале
планирования [0, T ] порождает издержки, отражаемые в интегральном квад-
ратичном целевом функционале вида
T
t
(
)
(2)
JT (U) = exp
2
δv dv
qX2t + U2t
dt,
0
0
где U ∈ U допустимое управление на интервале [0, T ]; q > 0 константа;
функция δt такая, что δt → ∞, t → ∞. Подход с построением функционала
вида (2) изначально возник в линейных детерминированных системах, см. [9],
при проблеме их экспоненциальной стабилизации. Тогда было показано, что
решение lim supT→∞ JT (U) → infU∈U при δt ≡ δ в (2) дает экспоненциально
стабилизирующее управление. Также известно, см., например, [10, гл. 8], что
в стохастических системах при наличии только мультипликативных шумов,
т.е. для Gt ≡ 0 в (1), экспоненциальная стабилизация в среднем квадратичном
99
может быть достигнута при оптимальном управлении, найденном из задачи
lim supT→∞ EJT (U) → infU∈U , когда функция δt ≡ 0 в (2). Следуя вышеизло-
женной логике, оптимальная суперэкспоненциальная стабилизация связана с
решением задачи управления на бесконечном интервале времени, а точнее
с минимизацией подходящего критерия, построенного на основе (2).
Для уравнения (1) вводится следующее предположение относительно его
коэффициентов (параметров шумовых воздействий Gt, gt и σt) и функции δt
темпа суперэкспоненциальной стабилизации.
Предположение GD. Функция δt > 0 неубывающая дифференци-
руемая функция, δt → ∞, t → ∞ и limt→∞t2t) = 0 (знак ˙ производная
функции по времени). При этом для коэффициентов (1) выполняется:
t
1) Gt =
√γt exp
- δv dv
G, где G = 0 константа, а функция γt
0
положительная и удовлетворяет условию
t
λ
(3)
lim
γt exp
-
2λδt dv
=0
для любой константы
> 0;
t→∞
0
2) отношение g2tt ограничено при t ≥ 0;
3) произведение σ2tδt ограничено, t ≥ 0, и существуют положительные
константы k, k0, такие что
t
t
(4)
lim sup{2(1 - kb) + k0}
δs ds + (gs - kσsδs)2 ds
≤ 0.
t→∞
0
0
Приведенное условие (3), налагаемое на коэффициент диффузии Gt,
означает, что в системе имеют место затухающие аддитивные возмущения
(Gt → 0, t → ∞), изменение параметров которых оценивается суперэкспонен-
циально убывающей функцией. Такое предположение о характере шумовых
воздействий, в частности, использовалось в [11] при моделировании биологи-
ческих систем. При наличии в (1) только аддитивных шумов (gt ≡ 0, σt ≡ 0)
из 1)-3) следует суперэкспоненциальная стабилизация траекторий процесса
Xt = X(0)t при использовании управления U(0)t = -kδtX(0)t, см. [12]. Если в (1)
присутствуют мультипликативные возмущения и Gt ≡ 0, то при соблюдении
условий 2) и 3) применение U(0)t = -kδtX(0)t гарантирует суперэкспоненци-
альную стабилизацию в среднем квадратичном. Далее будет показано, по
аналогии со случаем системы с ограниченными коэффициентами, см. [13, раз-
дел 4.4], что стабилизируемость влечет существование решения обобщенного
уравнения Риккати при t ≥ 0 и дает возможность переходить к рассмотре-
нию задачи стохастического управления на бесконечном интервале време-
ни. Обращаясь к 2) и 3) предположения GD, можно отметить, что в 2) до-
пустимо рассматривать неограниченные на бесконечности коэффициенты gt
100
(g2t → ∞, t → ∞). В частности, gt =
√δt использовалось в [8] при анализе при-
мера неэкспоненциальной стабилизации решений линейных стохастических
дифференциальных уравнений (СДУ). Условие в 3) предполагает асимпто-
тическую сингулярность коэффициента σtt → 0, t → ∞), например, когда
σ2tδt → 0, t → ∞. При этом σt (по абсолютной величине) не превышает 1/√δt
(с точностью до константы). Такая специфика в 3) порождается необходимо-
стью в суперэкспоненциальной стабилизации и является более сильным тре-
бованием по сравнению со стандартным случаем ограниченных коэффициен-
тов, когда экспоненциальная стабилизируемость достигается при достаточно
малых σt ≡ σ, см. [14].
Переходя к формулировке задачи управления, отметим, что из-за возмож-
ной неограниченности значений EJT (U) при T → ∞, см., например, [15], при
оптимальной стабилизации будет решаться задача с критерием, включающим
нормировку величин EJT (U):
EJT(U)
(5)
lim sup
→ inf .
T→∞
U ∈U
γtδt dt
0
)-1
(∫T
В критерии (5) множитель
γtδt dt
играет роль дисконтирования, т.е.
0
уменьшения значений EJT (U). Таким образом, задача оптимальной супер-
экспоненциальной стабилизации решений (1) состоит в следующем: опреде-
лить оптимальное управление U из решения (5) и показать, что U является
асимптотически суперэкспоненциально стабилизирующим для (1). Другими
словами, процесс X∗t при возрастании t должен стремиться к нулю (с ве-
роятностью единица и в среднем квадратичном) с суперэкспоненциальным
темпом. Для стохастических систем ранее подобный подход, сочетающий ре-
шение задачи управления и анализ сходимости процесса, был реализован
в [16, 17]. В данной статье будет исследоваться оптимальность и стабили-
зирующие свойства управления вида U∗t = -(b + σtgt)(1 + σ2tΠt)-1ΠtX∗t, где
Πt удовлетворяет обобщенному уравнению Риккати.
Статья организована следующим образом. В разделе 2 проводится иссле-
дование решения обобщенного уравнения Риккати, входящего в структуру
оптимального закона управления U, а также анализ решений линейных сто-
хастических дифференциальных уравнений (СДУ). Раздел 3 содержит основ-
ной результат об оптимальности управления U и стремлении к нулю соот-
ветствующего процесса X. В разделе 4 проводится обсуждение критерия (5)
с точки зрения использования дисконтирования. В заключении формулиру-
ются основные выводы статьи.
2. Анализ обобщенного уравнения Риккати и
сходимости решений линейных СДУ
Как отмечено, в формировании оптимального управления U будет за-
действовано решение обобщенного уравнения Риккати, результаты анализа
которого сформулированы в лемме 1.
101
Лемма 1. Пусть выполнено предположение GD. Тогда существует
неотрицательная абсолютно непрерывная функция Πt, t ≥ 0, удовлетворяю-
щая обобщенному уравнению Риккати
2
(6)
Πt + 2(a + δtt + g2tΠt -(b+σtgt)
Π2t
+ q = 0.
1+σ2tΠt
При этом
0 < liminf(Πtt) ≤ lim sup(Πtt) < ∞.
t→∞
t→∞
Таким образом, на основании утверждения леммы 1 можно сделать вывод
о существовании закона управления U∗t = -(b + σtgt)(1 + σ2tΠt)-1ΠtX∗t. До-
казательство леммы 1 и последующих утверждений вынесено в Приложение.
В следующей лемме 2 приводится результат о суперэкспоненциальной
верхней оценке для интегрального функционала, содержащего Πt. Эта оцен-
ка в дальнейшем будет использоваться при исследовании асимптотического
поведения решений линейных СДУ.
Лемма 2. Пусть выполнено предположение GD. Тогда существуют по-
ложительные константы κ, λ, такие что для функции
(
)
∫t
b(b + σvgvv
(g∗v)2
Φ(t, s) = exp
a+δv -
+
dv
,
1+σ2vΠv
2
s
где
(b + σtgt)
g∗t = gt -
σtΠt,
1+σ2tΠt
справедлива оценка
t
(7)
Φ2(t,s) ≤ κexp
-
2λδv dv
при s ≤ t.
s
Отметим, что результат леммы 2, в частности, позволяет утверждать, что
при отсутствии аддитивных возмущений применение закона управления U
приводит к суперэкспоненциальной стабилизации в среднем квадратичном с
темпомδt > δt. Если аддитивные шумовые воздействия также имеют место,
то для анализа траекторий соответствующего процесса потребуется рассмот-
реть класс уравнений, описываемый далее.
Рассматривается линейное СДУ с аддитивными и мультипликативными
возмущениями
(8)
dZt = atZt dt + Gtdwt + G∗tZtdwt
и неслучайным начальным условием Z0 = z; at, Gt, G∗t кусочно-непрерыв-
ные функциях времени. Пусть для коэффициента at и некоторой функции
102
δ∗t > 0 выполняется lim supt→∞(|at|/δ∗t) < ∞, при этом функция δt = δ удо-
влетворяет предположению GD и отношение (G∗t)2∗t ограничено (| · | знак
модуля). Для функции Gt предположим, что при некоторой константеλ > 0
имеет место соотношение
t
(9)
lim
G2t exp
2λ δ∗v dv
= 0.
t→∞
0
В приводимой далее лемме 3 содержится результат анализа асимптотической
сходимости к нулю процесса Zt при сформулированных условиях на коэффи-
циенты (8).
}
{∫t
(
)
Лемма 3. Если для Φ(t,s) = exp
av + (G∗v)2/2
dv справедлива
s
оценка
t
Φ(t,s) ≤ κ exp
- δ∗v dv
,
s ≤ t,
s
где κ
некоторая положительная константа, то решение Zt линейного
СДУ (8) асимптотически стремится к нулю с вероятностью единица и в
среднем квадратичном с темпомδt = αδ∗t. При этом положительная кон-
станта α такая, что λ - ǫ < α < λ при сходимости с вероятностью еди-
ница и α = λ для сходимости в среднем квадратичном, здесь λ = min(1,λ),
константаλ взята из условия (9), ǫ > 0 сколь угодно малое число.
3. Основной результат
При условии выполнения предположения GD справедливо утверждение
леммы 1 и существует закон управления
b+σtgt
(10)
U∗t = -
ΠtX∗t,
1+σ2tΠt
где процесс X∗t, t ≥ 0, задается уравнением
(
)
b(b + σtgt)
(11)
dX∗t = a -
Πt X∗tdt + Gtdwt + g∗tX∗tdwt
1+σ2tΠt
с начальным условием X∗0 = x; функция g∗t = gt -(b+σtgt)σtΠt; функция Πt,
1+σ2tΠt
t ≥ 0, удовлетворяет (6).
В следующей теореме формулируется результат об оптимальной асимпто-
тической суперэкспоненциальной стабилизации решений (1).
Теорема. Пусть для фиксированного темпа стабилизации δt > 0 и ко-
эффициентов уравнения (1) выполнено предположение GD и
γT δ2T
(12)
lim
= 0.
T→∞
γtδt dt
0
103
Тогда стратегия управления U, определяемая по (10)-(11), будет обеспе-
чивать оптимальную суперэкспоненциальную стабилизацию решений (1).
Точнее, решение X∗t уравнения (1) при Ut = U∗t (см. (11)) асимптотиче-
ски суперэкспоненциально стремится к нулю в среднем квадратичном и
с вероятностью единица. Темп сходимостиδt = λδt, где множитель λ
некоторая положительная константа, такая что λ - ǫ < λ < λ; величи-
на λ = 1 + |λ|, если (3) справедливо при некотором числеλ < 0, и λ = 1 в
противном случае, ǫ > 0 сколь угодно малое число. При этом U∗t является
решением задачи оптимального управления (5).
Также полезно отметить, каким образом приведенные в разделе 2 лем-
мы 1-3 участвуют в доказательстве основного результата. Во-первых, бла-
годаря лемме 1 устанавливается существование управления U. Соотноше-
ние (7) леммы 2 используется при построении верхней оценки для разности
целевых функционалов EJT (U) - EJT (U), U ∈ U, а также определении ко-
нечности критерия в (5) на управлении U. Наконец, из-за того что урав-
нение (11) представляет собой частный случай (8), для нахождения темпа
сходимости процесса X∗t к нулю применяется лемма 3.
Замечание. Для ситуации включения в уравнение (1) только мульти-
пликативных возмущений (Gt ≡0) соответствующая задача оптимизации име-
ет вид lim supT→∞ EJT (U) → infU∈U и ее решение (10)-(11) существует при
выполнении условий 2), 3) предположения GD. В этом случае темп сходимо-
стиδt процесса X∗t к нулевому состоянию равенδt = λδt, где λ > 1 некото-
рая константа.
4. Критерий оптимальности и дисконтирование
Дисконтирование является часто применяемой процедурой при постановке
задач оптимального управления на бесконечном интервале времени, см., на-
пример, [18, гл. 6]. Критерий в (5) далее можно преобразовать, соответствую-{
}
T
щим образом выделив дисконтирующий множитель fT = exp -
rt dt ,
0
при этом rt ≥ 0, t ≥ 0, называется ставкой дисконтирования. Если fT =
(∫T
)-1
(∫t
)-1
(∫t
=
γtδt dt
, то ставка rt = γtδt
γsδs ds
tδt, где βt t
γsδs)-1ds,
0
0
0
и из (12) следует, что функция βt стремится к нулю при t → ∞. Точнее, име-
ют место соотношения limt→∞ βtδ2t = 0 и limt→∞ rtδt = 0. Тогда задача (5)
принимает вид
T
lim supexp
- rt dt
EJT(U) → inf ,
U ∈U
T→∞
0
т.е. рассматривается минимизация долгосрочных дисконтированных ожидае-
мых совокупных потерь. Сравнивая определенную выше ставку дисконтиро-
вания rt и темп роста δt подыинтегрального множителя в (2), можно отме-
тить, что величина rt оказывается намного меньше, чем δt, что нагляднее
будет продемонстрировать на примере.
104
)-1
(∫t
Пример. Пусть γt ≡ γ > 0, тогда ставка rt =
δs ds
δt соответствует
0
дисконтированию с функцией ft, стремящейся к нулю при t → ∞. В частнос-
ти, темп стабилизации δt ∼ tm, 0 < m < 1, или δt ∼ lnl t, l > 0, приводит к
дисконтированию по ставке rt ∼ 1/(t + 1), известному как “гиперболическое”,
см. [19] (gt ∼ ĝt
обозначение того, что для двух положительных функций
gt, ĝt имеет место limt→∞(gtt) > 0).
Следует отметить, что для общего случая пары функций (γt, δt), удовле-
творяющих предположению GD и условию (12), справедливо следующее на-
t
блюдение: если
γsδs ds → ∞, t → ∞, то будет иметь место “положитель-
0
ное” дисконтирование, т.е. дисконтирование по пол∫ожительной ставке rt > 0
и функция ft стремится к нулю при t → ∞. При
γsδs ds < ∞ возникает
0
так называемое “нулевое” дисконтирование, когда функция ft стремится к
константе
f > 0, что выражается в отсутствии неограниченной по времени
нормировки функционала для задачи (5), а величин
f соответствует нуле-
вой ставке r ≡ 0.
5. Заключение
В статье рассмотрена задача оптимальной суперэкспоненциальной стаби-
лизации решения линейного СДУ (1), содержащего аддитивные и мульти-
пликативные шумовые воздействия. Показано, что при выполнении условий
на параметры возмущений и функцию темпа стабилизации (см. предполо-
жение GD) закон управления (10)-(11) в виде линейной обратной связи по
состоянию является суперэкспоненциально стабилизирующим (см. теорему).
Множитель в (10), задающий коэффициент усиления, зависит от решения
обобщенного уравнения Риккати (6), существование которого гарантируется
при соблюдении требований 2) и 3) предположения GD (см. лемму 1). Усло-
вие, касающееся суперэкспоненциального характера убывания коэффициен-
та диффузии для аддитивных возмущений (см. 1) предположения GD и (9)),
играет ключевую роль при определении асимптотической суперэкспоненци-
альной сходимости к нулю решения линейного СДУ (см. лемму 3). Введе-
ние ограничений на коэффициент диффузии также необходимо для выпол-
нения (12), чтобы стабилизирующее управление U оказалось оптимальным
в смысле решения задачи управления (5) на бесконечном интервале времени.
ПРИЛОЖЕНИЕ
Доказательство леммы
1. Доказательство существования реше-
ния (6) основано на предельном переходе при T → ∞ для решений обобщен-
ных уравнений Риккати, рассматриваемых на [0, T ], с нулевым граничным
условием на правом конце. ПустьΠt = δ-1tΠt, тогдаΠt удовлетворяет урав-
нению
(
)
˜
Πt + 2
a+δttδ-1t
Πt + g2t Πt -
(Π.1)
(
)-1
Π2
- (b + σtgt)2
1/δt + σ2t Πt
+ qδ-1t = 0.
t
105
Возникновение функции
Πt связано с решением задачи стохастического
управления для уравнения вида
(
)
(Π.2)
dxt = a + δttδ-1
xtdt + butdt + (gtxt + σtut)dwt
t
с начальным условием xt0 = x и целевым функционалом
JT,t0 (u) =
T
=
δ-1t(qx2t +u2t)dt, где t0 ≥ 0 произвольный начальный момент времени.
t0
Закон управления вида u∗Tt = -(b + σtgt)(1/δt + σ2t ΠTt )-1 ΠTt x∗Tt является ре-
шением задачи
JT,t0 (u) → min, где функцияΠTt удовлетворяет (Π.1) с гра-
ничным условиемΠTT = 0 см. [2, теорема 7.10, раздел 6.7, с. 334] (индексT
обозначает решения, определенные на конечных интервалах [0, T ]). При этом
JT,t0 (u∗T ) =ΠTt
x2. Так какδt2t → 0, t →∞, то в силу (4) предположения GD
0
конкурирующий закон управления u(0)t = -kδtx(0)t будет суперэкспоненциаль-
но стабилизировать решение уравнения (Π.2) в среднем квадратичном. Также
при этом имеет место соотношениеΠTt
x2 =
JT,t0 (u∗T ) ≤
JT,t0 (u(0)) ≤ cx2,
0
здесь и далее c > 0 некоторая константа, конкретное значение которой не
является важным и может меняться от формулы к формуле. Таким обра-
зом, функцияΠTt ограничена при t ≥ 0 и не убывает (по T ). Тогда стан-
дартная аргументация (см. [1, с. 268]) приводит к тому, что существует пре-
дел limT→∞ ΠTtt, функцияΠt удовлетворяет (Π.1) и обладает свойствами
неотрицательности и ограниченности сверху. Кроме того, показывается, что
при сформулированных условиях имеет место оценка lim inft→∞ Πt > 0. Дей-
ствительно, рассмотрим функциюΠt-1t, которая удовлетворяет уравне-
нию
(
)
δt
¯
Π
t -2
a+δt +
Πt - g2t Πt -q Π2t + qt = 0,
δt
δt
где qt = (b + σtgt)2(1/δt + σ2t Πt)-1 и lim supt→∞(qtt) < ∞. Как можно заме-
тить, функцияΠt ≥ 0 появляется в результате оптимального управления в
системе
(
)
dxt = - a + δt + δtδ-1t + g2t /2 xtdt +
√qutdt
с начальным состоянием xt0 = x и функционало
J∞,t0 (u)=
(qtx2ttu2t)dt
t0
(x
некоторая константа). Свойства функций из предположения GD дают
возможность суперэкспоненциальной стабилизации траектории x(0)t управле-
нием u(0)t ≡ 0. При это
J(u(0)) ≤ cx2, откуда следует, чтоΠt-1t также
ограничена сверху. Таким образом, для функции Πt = δt Πt, удовлетворяю-
щей (6), имеет место оценка 0 < lim inft→∞tt) ≤ lim supt→∞tt) < ∞.
Лемма 1 доказана.
Доказательство леммы 2. Рассматривается линейное СДУ с муль-
типликативным шумом
(
)
b(b + σtgtt
dZt = a + δt -
Ztdt + g∗tZtdwt
1+σ2tΠt
106
и неслучайным начальным условием Zt0 = z, z = 0, t0 ≥ 0. Нетрудно заме-
тить, что EZ2t = Φ2(t, t0)z2. Далее, по формуле Ито и из (6) определяется
выражение для дифференциала d(ΠtEZ2t):
(b + σtgt)2Π2t
d(ΠtEZ2t) = -q(EZ2t) -
(EZ2t).
(1 + σ2tΠt)2
В силу выявленных свойств функции Πt (см. лемму 1) и предположения GD
d(ΠtEZ2t) ≤ -2λδttEZ2t) при некоторой константе λ > 0, откуда ΠtEZ2t ≤{
}
{
}
t
t
≤ (Πt0 z2) exp
-
2λδv dv
, и EZ2t ≤ κexp
-
2λδv dv z2 при некоторой
t0
t0
константе κ > 0. По отмеченному ранее EZ2t = Φ2(t, t0)z2. Лемма 2 доказана.
Доказательство леммы 3. Решение (8) представимо в виде, см. [2,
теорема 6.14, с. 47],
(Π.3)
Zt = I(1)t + I(2)t + I(3)t,
t
t
где слагаемые I(1)t = Ytz, I(2)
= -Yt0 Y -1sGsG∗s ds, I(3)
=Yt
Y-1sGs dws,
t
t
0
}
{∫t
t
со случайной функцией Yt = exp
(av - (G∗v)2/2) dv +
G∗vdwv
0
0
Из предположения о коэффициенте G∗t и применения закона повторного
логарифма для стохастических интегралов, см. [20], следует, что
t
{
}
lim sup
It|/ht
< ∞, где
It =
G∗sdws,
t→∞
0
при функции
1/2
t
t
ht = δ∗v dv ln ln  δ∗v dv
0
0
можно оценить как |I(1)t| ≤
}
t
t
≤ c1 exp
10
δ∗v dv при t > t0(ω) и 1 - ǫ < α1 < 1, здесь и далее ǫ > 0
сколь угодно малое число, ci > 0
некоторая {нстанта, i
индек}
t
Для второго слагаемого I(2)t выражение YtY-1s ≤ exp -
δ∗v dv + c(ht + hs)
s
п.н. для t ≥ s ≥ t0(ω) и некоторой константы c > 0. Следовательно, с уче-{
}
t
том (9), |I(2)| ≤ c2 exp
20
δ∗v dv
, где
λ - ǫ < α2 = min(1,λ).
t
Для слагаемого I(3)t из (Π.3) определим квадратическую характеристику 〈Mt
t
t
мартингала Mt =
dws, равную 〈Mt〉 =
ds. При этом для
0
Gs
s
0
Gs{
s
}
t
некоторой константы m > 0 и функцииht = exp m
δ∗v dv выполнено
s
lim supt→∞{〈Mt〉/ht} < ∞. В случае когда 〈Mt〉 → ∞, из закона повторно-
{
}
го логарифма следует, что lim supt→∞
|Mt|(〈Mt〉 ln ln〈Mt〉)-1/2
< ∞, и то-
{
}
t
гда имеет место оценка (I(3)
t
)2 ≤ c3 exp
-2α30
δ∗v dv
, где λ - ǫ < α3 < λ,
107
константа
λ = min(1,λ). В ситуации когда
〈M〉 < ∞, неравенство
lim supt→∞{|Mt|/ht} < ∞ будет справедливо для любой монотонной функ-{
}
t
цииht > 0, такой чтоht → ∞, t → ∞, и поэтому |I(3)| ≤ c3 exp
30
δ∗v dv
t
при
1 - ǫ < α3 < 1 и некоторой константе
c3 > 0. Объединяя получен-
ные выше оценки для трех слагаемых (Π.3), приходим к соотношению{
}
t
lim supt→∞{Z2t/ht} < c < ∞ при ht = exp
-2α
δ∗v dv и константе α > 0,
s
такой что λ - ǫ < α < λ, где λ = min(1,λ), ǫ > 0 сколь угодно малое чис-
ло. Таким образом, решение Zt асимптотически стремится к нулю с вероятно-
стью единица суперэкспоненциальным образом. Для анализа сходимости Zt
в среднем квадратичном выписывается представление
t
t
EZ2t = 2
(t, s))2GsG∗sEZs ds + (Φ(t, s))2G2s ds + (Φ(t, 0))2z2.
0
0
Так как EZt = Φ(t, 0)z, то из приведенных в условии леммы 3 предпо-
ложений относительно функции Φ(t, s), а также требований к коэффици-{
}
t
ентам Gt, G∗t будет следовать, что EZ2t ≤ ĉexp
-2α
δ∗v dv
, t → ∞, при
s
некоторой константе ĉ > 0 и множителе α = λ, где λ = min(1,λ). Лемма 3
доказана.
Доказательство теоремы. Сначала доказывается оптимальность U.
При фиксированном допустимом управлении U ∈ U рассматривается пред-
ставление для разности ожидаемых значений целевых функционалов
T
EJT(U) - EJT(U) = 2exp
v dv
E (xT ΠT X∗T ) -
0
(Π.4)
T
∫t
(
)
− E exp
v dv
qx2t + u2t
dt,
0
0
где переменные xt = Xt - X∗t и ut = Ut - U∗t связаны соотношением
(Π.5)
dxt = axtdt + butdt + (gtxt + σtut)dwt, x0
= 0.
На основании (Π.5) с учетом условий в предположении GD можно выписать
оценку
T
t
∫T
c0
(
)
(Π.6)
exp
v dv
Ex2
≤ E exp
v dv
qx2t + u2t
dt
T
δT
0
0
0
для любого T ≥ 0, c0 > 0 некоторая константа. Тогда, используя (Π.6) и
свойства функции Πt (см. лемму 1), после применения элементарного нера-
108
венства 2AB ≤ A2/c + cB2, справедливого при произвольном c > 0 для лю-
бых чисел A, B, представление (Π.4) оценивается как
T
∫
(Π.7)
EJT(U) - EJT(U) ≤ c1δ3
T
exp
v dv
E[(X∗T )2]
0
при некоторой константе c1 > 0.
}
{∫
T
Далее исследуется процесс
Zt = δ3/2t exp
δv dv X∗t с уравнением ди-
0
намики
Zt = ãt
Ztdt +Gtdwt + g∗tZtdwt при
Z0 = δ3/20x, где коэффициенты
ãt = a + δt + (3/2)δtδ-1t - b(b + σtgt)(1 + σ2tΠt)-1Πt,Gt = δ3/2t√γtG. При этом
}
{∫
t
в силу условия δt2t → 0, t → ∞, для Φ(t, s) = exp
v + (g∗v)2/2)dv спра-
s
ведлива оценка вида (7) сδt =λδt, где 0 <λ < 1 некоторая константа. Тогда
Z2T ≤ cLT , где функция

T
t
T
LT = exp
-
δv dv
1 + exp
δv dv δtγt dt.
0
0
0
Применяя правило Лопиталя, можно показать, что выполнение (12) влечет
T
за собой сходимость LT /
δtγt dt к нулю при T → ∞. Поэтому, переходя к
0
пределу в (Π.7) при T → ∞ и соответствующей нормировке, имеем
EJT(U)
EJT(U)
lim sup
≤ lim sup
,
T→∞
T→∞
δtγt
dt
δtγt dt
0
0
что доказывает оптимальность управления U в (5). При этом по форму-
}
{∫
T
T
ле Ито EJT (U) = Π0x2 - exp
v dv E[(X∗T )]2ΠT + G2
Πtγt dt. Тогда
0
0
величина критерия в (5) на управлении U оценивается как
ΠtγtG2t dt
2
EJT(U)
Π0x
0
0 < limsup
=
+ lim sup
< ∞.
T→∞
T→∞
δtγt dt
δtγt
dt
δtγt dt
0
0
0
Теперь можно перейти к анализу сходимости процесса X∗t при t → ∞.
Для этого используется утверждение леммы 3 с Zt = X∗t. Тогда в уравне-
нии (8) коэффициенты at = a - bΠt(b + σtgt)(1 + σ2tΠt)-1, G∗t = g∗t, Gt = Gt.
При этом отношения att, g∗tt, t ≥ 0, ограничены в силу 2), 3) предполо-
жения GD и результатов лемм 1 и 2. Нетрудно заметить, что условия лем-
мы 3 выполнены с δ∗t =λδt, гдеλ > 1 некоторое число, а величинаλ в
109
условии (9) удовлетворяет неравенствуλ < (1 -λ)/λ, если значение констан-
тыλ из (3) взять таким, чтобы 1 -λ > 0. Соответственно в результате име-
ем асимптотическую суперэкспоненциальную сходимость X∗t в среднем квад-
ратичном и с вероятностью единица к нулю при темпеδt = αδ∗t = αλδt, где
(1 -λ - ǫ) < αλ < (1 -λ). Значение константы λ = αλ > 1, если существует
λ< 0, при котором имеет место соотношение (3), и λ < 1 в противном слу-
чае. Полагая λ = 1 + |λ| и λ = 1 для каждой из указанных выше ситуаций,
получаем, что λ - ǫ < λ < λ при сколь угодно малом числе ǫ > 0. Теорема
доказана.
СПИСОК ЛИТЕРАТУРЫ
1.
Квакернаак X., Сиван P. Линейные оптимальные системы управления. М.: Нау-
ка, 1977.
2.
Yong J., Zhou X.Y. Stochastic controls: Hamiltonian systems and HJB equations.
N.Y.: Springer, 1999.
3.
Mao X. Stochastic Differential Equations and Applications. Second edition. Cam-
bridge: Woodhead publishing, 2011.
4.
Xepapadeas A. Stochastic Analysis: Tools for Environmental and Resource Eco-
nomics Modeling / Research Tools in Natural Resource and Environmental Eco-
nomics. Eds. A.A. Batabyal, P. Nijkamp. Singapore: World Scientific Publishing,
2011. P. 55-88.
5.
Ladde A.G., Ladde G.S. An Introduction to Differential Equations: Stochastic Mod-
eling, Methods and Analysis (V. 2). Singapore: World Scientific Publishing Company,
2013.
6.
Dong L., Wei X., Hu X., Zhang H., Han J. Disturbance Observer-Based Elegant
Anti-Disturbance Saturation Control for a Class of Stochastic Systems // Int. J.
Control. 2019. P. 1-13.
7.
Caraballo T. On the Decay Rate of Solutions of Non-autonomous Differential Sys-
tems // Electronic J. Differential Equations 2001. V. 2001. No. 5. P. 1-17.
8.
Caraballo T., Garrido-Atienza M.J., Real J. Stochastic Stabilization of Differen-
tial Systems with General Decay Rate // Syst. Control Lett. 2003. V. 48. No. 5.
P. 397-406.
9.
Anderson B.D.O., Moore J.B. Linear System Optimisation with Prescribed Degree
of Stability // Proc. IEEE. IET, 1969. V. 116. No. 12. P. 2083-2087.
10.
Khasminskii R. Stochastic stability of differential equations. 2nd ed. N.Y.: Springer,
2012.
11.
Zhang D., Lin X., Raz J., Sowers M. Semiparametric Stochastic Mixed Models for
Longitudinal Data // JASA. 1998. V. 93. No. 442. P. 710-719.
12.
Паламарчук Е.С. Об обобщении логарифмической верхней функции для реше-
ния линейного стохастического дифференциального уравнения с неэкспонен-
циально устойчивой матрицей // Дифференц. уравнения. 2018. Т. 54. № 2.
С. 195-201.
13.
Dragan V., Morozan T., Stoica A.M. Mathematical methods in robust control of
linear stochastic systems. N.Y.: Springer, 2006.
14.
Willems J.L., Willems J.C. Feedback Stabilizability for Stochastic Systems with
State and Control Dependent Noise // Automatica. 1976. V. 12. No. 3. P. 277-283.
110
15. Паламарчук Е.С. Анализ критериев долговременного среднего в задаче стоха-
стического линейного регулятора // АиТ. 2016. № 10. С. 78-92.
Palamarchuk E.S. Analysis of Criteria for Long-run Average in the Problem of
Stochastic Linear Regulator // Autom. Remote Control. 2016. V. 77. No. 10.
P. 1756-1767.
16. Phillis Y.A. Optimal Stabilization of Stochastic Systems // J. Math. Anal. Appl.
1983. V. 94. No. 2. P. 489-500.
17. Тертычный-Даури В.Ю. Оптимальная стохастическая стабилизация адаптив-
ных механических систем // АиТ. 1993. № 1. С. 111-118.
Tertychnyj V.Yu. Stochastic Optimal Stabilization of Adaptive Mechanical Sys-
tems // Autom. Remote Control. 1993. V. 54. No. 1. P. 104-118.
18. Carlson D.A., Haurie A.B., Leizarowitz A. Infinite horizon optimal control: deter-
ministic and stochastic systems. Berlin: Springer, 1991.
19. Loewenstein G., Prelec D. Anomalies in Intertemporal Choice: Evidence and an In-
terpretation // The Quarterly Journal of Economics. 1992. V. 107. No. 2. P. 573-597.
20. Wang J.-g. A Law of the Iterated Logarithm for Stochastic Integrals // Stoch. Proc.
Appl. 1993. V. 47. No. 2. P. 215-228.
Статья представлена к публикации членом редколлегии Б.М. Миллером.
Поступила в редакцию 19.07.2020
После доработки 28.09.2020
Принята к публикации 28.10.2020
111