Автоматика и телемеханика, № 9, 2022
Стохастические системы
© 2022 г. А.В. БОРИСОВ, д-р физ.-мат. наук (ABorisov@frccsc.ru),
А.В. БОСОВ, д-р техн. наук (ABosov@frccsc.ru)
(Федеральный исследовательский центр
“Информатика и управление” РАН, Москва)
ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ РЕШЕНИЯ ЗАДАЧИ
СТАБИЛИЗАЦИИ ЛИНЕЙНОЙ СИСТЕМЫ
СО СКАЧКООБРАЗНЫМ СЛУЧАЙНЫМ ДРЕЙФОМ
ПО КОСВЕННЫМ НАБЛЮДЕНИЯМ1
Исследуются вопросы реализации стратегии оптимального управления,
полученного в [1] и дополненного в [2]. Алгоритм оптимальной стабилиза-
ции линейной стохастической дифференциальной системы в положении,
определяемом кусочно-постоянным марковским дрейфом, опробован на
значительном числе модельных экспериментов. Значение дрейфа наблю-
дается косвенно, т.е. задача управления решается в постановке с неполной
информацией. Практическая реализация осложняется неустойчивостью
численных схем Эйлера-Маруямы, реализующих фильтр Вонэма, кото-
рый является ключевым элементом оптимальной стратегии управления.
Для выполнения расчетов фильтр Вонэма аппроксимируется устойчивы-
ми схемами, основанными на оптимальной фильтрации марковских цепей
по дискретизованным наблюдениям [3]. Эти схемы имеют разную слож-
ность реализации и порядки точности. В статье проведен сравнительный
анализ качества управления для различных устойчивых аппроксимаций
фильтра Вонэма и его типовой реализации с помощью схемы Эйлера-
Маруямы. Помимо этого, выполнено сравнение трех вариантов дискрети-
зованных фильтров и даны финальные рекомендации по их применению в
задаче стабилизации системы со скачкообразно изменяющимся дрейфом.
Ключевые слова: управление линейной дифференциальной системой,
марковская цепь с непрерывным временем, квадратичный функционал
качества, фильтр Вонэма, схема Эйлера-Маруямы, дискретизованный
фильтр.
DOI: 10.31857/S0005231022090069, EDN: AJBXKL
1. Введение
Отправной точкой для постановки задачи, исследованной в работе, явля-
ется один прикладной пример из [4]. Он представляет собой специальный
1 Исследование выполнено за счет гранта Российского научного фонда № 22-28-00588,
https://rscf.ru/project/22-28-00588/. Работа выполнялась с использованием инфраструкту-
ры Центра коллективного пользования “Высокопроизводительные вычисления и большие
данные” (ЦКП “Информатика” ФИЦ ИУ РАН, Москва).
109
случай задачи оптимальной квадратичной стабилизации состояния линей-
ной стохастической дифференциальной системы. Особенность этого примера
состоит в представлении системы в форме “вход-выход”, где вход является
внешним неуправляемым процессом, а задача заключается в стабилизации
выхода. Важнейшим фактором, влияющим на управление в таких задачах,
является наличие или отсутствие полной информации о входных воздействи-
ях. Управление по неполной информации всегда значительно сложнее, но
интереснее с прикладной точки зрения. К обобщениям упомянутой задачи
стабилизации состояния линейной стохастической системы по квадратично-
му критерию на случай неполной информации следует относить статьи [5-7].
В них использовался частный случай критерия, включающий только сла-
гаемые с управлением. Наиболее общий результат получен в [8] для случая
классического квадратичного критерия и произвольных марковских входных
воздействий. Отметим, что упомянутые работы носят чисто теоретический
характер без акцента на практическую реализацию.
Для аналогичной модели в [1, 2] предложена конструктивная интерпрета-
ция входа как воздействия, требующего ответной управляемой реакции. Для
этого в квадратичный функционал включены слагаемые с разностью между
входными и выходными переменными, т.е. дана возможность ставить задачу
слежения за траекторией входа. Постановка с неполной информацией, в ко-
торой процесс выхода представляет наблюдения входного процесса, приводит
к вспомогательной задаче фильтрации. В обсуждаемой модели использова-
ние в качестве входа цепи Маркова с конечным числом состояний привело к
фильтру Вонэма [9]. В сочетании с универсальными свойствами квадратич-
ного критерия для решаемой задачи в [1] удалось доказать теорему разделе-
ния и получить замкнутые уравнения для оптимальной стратегии стабилиза-
ции, обеспечивающей эффективный алгоритм отслеживания изменяющегося
дрейфа линейной системы, а в [2] дополнить решение для случая полной
информации, получив в том числе референсные характеристики управления.
Кроме того, в [1, 2] приведен содержательный прикладной пример использо-
вания предложенной модели для описания простого механического привода.
В численных экспериментах использовалась простая аппроксимация фильтра
Вонэма методом Эйлера-Маруямы [10]. Для иллюстрации результатов была
опубликована лишь небольшая часть выполненных экспериментов. Большин-
ство же экспериментов оказалось не слишком удачным из-за неустойчивости
использованной схемы Эйлера-Маруямы для реализации фильтра Вонэма.
Трудности с практическим применением фильтра Вонэма известны
[11, 12], равно как и способы их преодоления. Пример такого рода кратко об-
суждается в [2] и состоит в использовании численных схем дискретизованных
фильтров [3]. Степень целесообразности и эффективности применения этих
алгоритмов при реализации решения задачи стабилизации требует проведе-
ния масштабных сравнительных экспериментов и анализа их результатов,
который и представлен в статье.
110
2. Модель и оптимальное управление
Кратко сформулируем основной результат статей [1, 2]. На каноническом
вероятностном пространстве с фильтрацией (Ω, F, P, {Ft}) , t ∈ [0, T ], рас-
сматривается задача управления для линейной дифференциальной стохасти-
ческой системы с управляемым вектором выхода zt ∈ Rnz вида
(1)
dzt = atytdt + btztdt + ctutdt + σtdwt, z0
= Z,
и входом, задаваемым марковской цепью yt с конечным числом состояний
{
}
и значениями во множестве
e1,... ,eny
, состоящем из единичных коорди-
натных векторов в евклидовом пространстве Rny . Распределение начального
состояния y0 = Y обозначается как π0, матрица интенсивностей переходов
как Λt. Остальные величины в уравнении (1):
• wt ∈ Rnw стандартный векторный винеровский процесс;
• Z ∈ Rnz гауссовская случайная величина с известными математиче-
ским ожиданием и ковариацией, wt, yt, Y, Z независимы в совокупности;
• ut ∈ Rnu управление случайный процесс с конечным вторым мо-
ментом;
• at ∈ Rnz×ny, bt ∈ Rnz×nz, ct ∈ Rnz×nu, σt ∈ Rnz×nw заданные матрич-
ные функции.
Управление ut выбирается из класса допустимых управлений вида ut =
= Ut (zt), т.е. в форме обратной связи по выходу. Закон управления Ut =
= Ut(z), z ∈ Rnz, является результатом оптимизации функционала качества
вида
T
(
)
(2)
J
UT0
∥Ptyt + Qtzt+Rtut2S
dt + ∥PT yT + QT zT2
,
t
=E
ST
0
где UT0 = {Ut (z) , 0 ≤ t ≤ T }, Pt ∈ RnJ ×ny , Qt ∈ RnJ ×nz , Rt ∈ RnJ ×nu , St
∈ RnJ×nJ, St ≥ 0, St = S′t, 0 ≤ t ≤ T, заданные ограниченные матричные
функции, ∥x∥2S = xSx весовая функция, заданная симметричной неотри-
цательно определенной матрицей S, единичной матрице S соответствует ев-
клидова норма |x|2, x транспонированная матрица, E {y} математиче-
ское ожидание y.
При выполнении стандартных условий для параметров (1), (2) (ограни-
ченность, кусочная непрерывность, невырожденность R′tStRt > 0 и σtσ′t > 0)
решением задачи оптимизации
{
}
(
)
ÛT
=
Ût (z) ,0 ≤ t ≤ T
∈ argmin J
UT
0
0
является стратегия управления ûtt (zt) вида
(
)
1
)-1(
(3)
ût = -
R′tStRt
c′t (2αtzt + βtŷt) + 2R′tSt (Ptŷt + Qtzt)
,
2
111
где
t
(
)
(
)-1
(4)
-
Mαtαt + α′t(Mαt)
+Nαt′tct
R′tStRt
c′tαt = 0, αT = Q′T ST QT ,
dt
t
(5)
+ βtΛ′t + Mβt - Nβt βt = 0, βT = 2Q′TSTPT,
dt
(
)
(
)-1
t = Λ′tŷtdt +
diag (ŷt) - ŷt ŷ′t
a′t
σtσ′t
×
(6)
× (dzt - atŷtdt - btztdt - ctûtdt),
ŷ0 = E {Y } ,
и через zt обозначена оптимальная траектория выхода, т.е. решение (1), от-
вечающее ut = ût.
Соотношения для параметров уравнений (4) и (5):
(
)
(
(
Mαt = Q′tStRt
R′tStRt
)-1c′t, Nαt = Q′t
St - StRt
R′tStRt
)-1RSt Qt,
t
((
)
(
)
)
(
)-1
(
Mβt = 2
a′t - P′tStRt
R′tStRt
c
t
αt + P
t
St - StRt
R′tStRt
)-1R
t
St Qt
,
(
)-1
(
)-1
Nβt = Q′tStRt
R′tStRt
c′t + αtct
R′tStRt
c′t.
Таким образом, оптимальное управление является линейной функцией вы-
хода zt и оценки фильтрации ŷt входа yt, которую определяет фильтр Вонэма
{
}
[9]. Надо отметить, что уравнение (6), записанное для оценки ŷt = E
yt |Fzt
,
имеет такой же вид для любого другого управления ut и соответствующего
ему выхода zt, т.е. ŷt = E {yt | Fzt}. Здесь через Fzt обозначена σ-алгебра, по-
рожденная наблюдаемыми величинами {zτ , 0 ≤ τ ≤ t}, так что Fzt ⊆ Ft ⊆ F,
E {y | F} условное математическое ожидание y относительно σ-алгебры F.
Приведенные соотношения означают, что для практической реализации
оптимальной стратегии стабилизации ût, в частности для проведения ком-
пьютерного моделирования, требуется:
• приближенно решать обыкновенные дифференциальные уравнения (4)
и (5), для чего подойдет любая устойчивая численная схема,
• моделировать траектории цепи yt, для чего достаточно уметь моделиро-
вать экспоненциально распределенные случайные величины с малыми
интенсивностями, что также не представляет трудностей,
• моделировать траектории для решений уравнения Ито (1), здесь вполне
подойдет простая схема метода Эйлера-Маруямы,
• приближенно вычислять решения соответствующего уравнения филь-
тра Вонэма (6).
Именно с последней задачей связаны действительные трудности, с кото-
рыми столкнулись авторы при подготовке численных примеров для статей
[1, 2]. В итоге были выбраны наборы параметров, для которых фильтр Вонэ-
ма успешно аппроксимировался приближенным решением по схеме Эйлера-
Маруямы. Анализу остальных экспериментов и варианту преодоления труд-
ностей численной реализации оптимальной оценки фильтрации в них посвя-
щена данная статья. Используется та же модель. Ее более подробное, чем
в [1, 2], описание приведено в следующем разделе.
112
3. Модель механического привода и результативность управления
Образцом технической системы для предлагаемой модели привода явля-
ется мостовой кран или кран-балка. Приводом обеспечивается перемещение
по рельсу тележки с закрепленным талем для подъема груза. Перемещаемая
тележка обладает значительной инерцией. Размещать ее требуется в конеч-
ном числе определенных положений на рельсе, например напротив линий
погрузки-разгрузки или железнодорожных путей. В модели состояние при-
вода описывается скалярной переменной xt, задающей положение тележки на
балке, и скоростью vt, которая может регулироваться. Скорость определяется
силой, которая линейно зависит от текущих положения и скорости, неконтро-
лируемого входного воздействия yt (номера линии погрузки) и управления ut:
dxt = vtdt, t ∈ (0, T ] ,
(7)
dvt = axtdt + bvtdt - cytdt + hutdt +
√gdwt.
В примерах, рассмотренных в [1, 2], марковская цепь yt имеет три состо-
яния, т.е. ny = 3, yt ∈ {e1, e2, e3}, и является однородной, т.е. Λt = Λ = const,
начальное распределение π0 = (1, 0, 0), т.е. y0 = Y = e1. Все примеры, обсуж-
даемые далее, используют цепь такой же размерности. Скаляры a, b, h, g и
строка (c1, c2, c3)
известные постоянные; wt стандартный винеровский
процесс. Начальные условия x0 и v0 предполагаются независимыми гауссов-
скими случайными величинами с нулевым средним и дисперсиями σ2x = 1 и
σ2v = 1.
Нетрудно видеть, что система (7) является устойчивой, если b < 0 и
(
)
0
1
b2 + 4a < 0, поскольку b и b2 + 4a собственные числа матрицы at =
a b
Принципиальная возможность применения обсуждаемой стратегии стабили-
зации в условиях неустойчивой модели некоторый академический интерес
представляет, но более важны реалистичные модели, поэтому большая часть
расчетов представляется для исходной модели, использованной в [1]. Набор
ее параметров таков:
a = -1; b = -0,5; T = 10; h = 10; g = 0,01;
 -0,5 0,5
0
(8)
(c1,c2,c3) = (1, 0,-1) ; Λ = 0,5
-1
0,5
.
0
0,5
-0,5
Отметим, что однородная цепь yt с такой матрицей интенсивностей яв-
(1
)
1
ляется эргодической и ее предельное распределение π =
,13,
. Ин-
3
3
тегрирование в представленных далее расчетах для системы (7) и соот-
ветствующих уравнений (4) и (5) выполнялось методом Эйлера с шагами
δ = 0,005; 0,001; 0,0001. Дискретная цепь, аппроксимирующая yt, моделиро-
валась независимыми экспоненциальными величинами для 100 интервалов
для каждого интервала интегрирования длины δ, например для δ = 0,001 мо-
делировалась выборка из распределения E (0,00001) . Для моделирования вы-
113
x, v, Cy
x, v, Cy
2
2
1
1
0
5
10
15
20
0
5
10
15
20
t
t
-1
-1
-2
-2
1
2
3
1
2
3
Рис. 1. Характерные траектории для модели привода с “медленным” дрейфом
без управления: 1 положение xt, 2 скорость vt, 3 дрейф Cyt.
ходных переменных xt, vt шаг интегрирования δ также разбивался на 100 ин-
тервалов длиныδ100 .
Для начальной иллюстрации работы привода исключим из набора па-
раметров (8) управление ut, положив ut = 0. Нетрудно видеть, что дан-
ный устойчивый привод будет стремиться стабилизировать положение xt
около направлений дрейфа выхода, определяемых вектором Cyt, где C =
(c
)
1
, а скорость vt
около нуля. Для набора параметров (8) имеем
a
,c2a,
a
C = (-1, 0, 1). Графическая иллюстрация работы такого привода дана на
рис. 1. При этом вместо матрицы интенсивностей из (8) использованы: на
-0,05
0,05
0
первом графике рис. 1 матрица Λ = 0,005
-0,01
0,005
,анавто-
0
0,5
-0,5
-5
5
0
ром графике матрица Λ = 0,005
-1,005
1.0
. Первая матрица Λ
0
0,005
-0,005
обеспечивает большинству траекторий цепи yt на интервале T = 20 длитель-
ное пребывание в начальном состоянии e1 и один скачок из e1 в e2, вторая
матрица Λ обеспечивает два скачка из e1 в e2 и следом в e3 с дальнейшим
длительным пребыванием в e3. Это единственный расчет, выполненный для
горизонта T = 20, который нужен, чтобы дать системе время установиться.
Показанные на рис. 1 траектории vt, реагируя на смену состояния yt, дей-
ствительно направляют xt в сторону дрейфа Cyt. Использованные матрицы
интенсивностей позволяют показать, как завершается каждый промежуточ-
ный переходной процесс.
Работа такого неуправляемого привода может быть сделана более эффек-
тивной с помощью управления ut, если цель управления задать функциона-
лом вида
T
(
)
(
)
(9)
J
UT0
|Cyt - xt|2 + R |ut|2
=E
dt.
0
114
x, v, Cy
x, v, Cy
3
3
2
2
1
1
0
2
4
6
8
10
0
2
4
6
8
10
t
t
-1
-1
-2
-2
-3
-3
1
2
3
1
2
3
Рис. 2. Характерные траектории для модели привода с дрейфом в условиях
обычного и малого штрафа за величину управления: 1 положение xt, 2
скорость vt, 3 дрейф Cyt.
В исходном примере в [1] полагалось R = 0,01. Иллюстрация работы
управляемого в соответствии с целевым функционалом (9) привода для на-
бора параметров (8) показана на первом графике рис. 2. На втором иллю-
стрируется потенциал стратегии стабилизации ût, для чего тот же расчет
выполнен для R = 0,00001 и изображена та же траектория дрейфа.
Как и следовало ожидать, фактическое отсутствие штрафа за управление
делает его очень активным, что позволяет стабилизировать привод значи-
тельно эффективнее.
Основным недостатком использованной в этих расчетах схемы Эйлера-
Маруямы является ее неустойчивость, приводящая к расхождению некото-
рых траекторий оценок фильтрации. В зависимости от величины δ прак-
тически в каждой траектории оценки ŷt присутствовали точки, в которых
нарушались условия неотрицательности (ŷt)1 ≥ 0, (ŷt)2 ≥ 0, (ŷt)3 ≥ 0 и/или
нормировки (ŷt)1 + (ŷt)2 + (ŷt)3 = 1. Число таких точек в разных расчетах
составляло от нескольких штук (5-10) до всех траекторий в моделируемом
пучке. Во многих случаях такие ситуации приводят к взрывной расходимости
оценки и невозможности синтеза управления. Причем чем больше в расчете
таких точек, тем вероятнее расходимость оценки. Если такие ситуации до-
статочно редки, то для борьбы с ними в численную процедуру были внесены
простые эвристические модификации.
В качестве признака расходимости оценки ŷt использовалось условие
|(ŷt)k| > 1 для любого k = 1, 2, 3. При выполнении этого условия оценка филь-
(1
трации ŷt возвращалась в предельное состояние: ŷτ = π =
,13,13
) для мо-
3
мента времени τ, в который были нарушены эти условия. Скорректирован-
ную таким образом оценку схемы Эйлера-Маруямы будем далее обозначать
как ŷlimt, подчеркивая применение предельного распределения π. Второй
прием в такой же ситуации оценку ŷt заменяет оценкой предыдущего ша-
га, т.е. ŷτ = ŷτ-δ. Скорректированную таким образом оценку схемы Эйлера-
Маруямы будем далее обозначать как ŷdelt, подчеркивая ее “запаздывание”.
115
В ряде случаев вычисляемые при этом значения целевого функционала по-
казали, что такие приемы достаточно эффективны. Однако для других ком-
бинаций параметров методы могут оказаться и оказываются нерезультатив-
ными. Этот тезис подробно иллюстрируется в разделе 5. Продемонстрирован-
ная ограниченная применимость предложенных эвристик означает, что для
численной реализации стратегии оптимальной стабилизации ût требуется га-
рантированно устойчивая процедура аппроксимации оценки ŷt. Возможному
решению этой задачи посвящен следующий раздел.
4. Устойчивые фильтры по дискретизованным наблюдениям
В данном разделе представлены использованные далее устойчивые ап-
проксимации фильтра Вонэма [3], адаптированные к исследуемой задаче.
Алгоритм фильтрации, как и алгоритм оптимальной стабилизации, чис-
ленно реализуется с заданным временным шагом. Используется схема дис-
кретизации с постоянным шагом δ, таким что целое и
0 = t0, t1 = t0 + δ,..., ti = ti-1 + δ,... , tT
+δ=tT =T.
-1
δ
δ
Кроме того, без ограничения общности будем считать, что at ≡ const,
bt ≡ const, σt ≡ const на интервалах дискретизации [ti-1,ti]. В противном слу-
чае at, bt, σt должны аппроксимироваться кусочно-постоянными функциями
на интервалах дискретизации, что на цели данной работы не влияет.
Рассмотрим процесс z0t, являющийся неупреждающим преобразованием
исходного наблюдаемого выхода zt:
t
t
z0t = (dzτ - (bτ zτ + cτ uτ ) dτ) = (aτ yτ dτ + στ dwτ ) .
0
0
Процесс z0t может рассматриваться в качестве преобразованных наблюде-
ний, не зависящих от стратегии управления, и в силу тождества
{
}
Fzt = σ {zτ ,0 ≤ τ ≤ t} ≡ σ
z,0 ≤ τ ≤ t
= Fz0t
{
}
выполнено равенство ŷt = E {yt | Fzt} = E yt
Fz0
t
Поскольку управляющие воздействия ut вырабатываются в дискретные
моменты времени ti = iδ, то и оценки марковского дрейфа yt должны вы-
числяться в эти же моменты. Будем использовать для этого новые наблюде-
ния z0t, дискретизованные по времени с шагом δ:
ti
Δz0 =t
(aτ yτ dτ + στ dwτ ) .
i
ti-1
116
Эти наблюдения являются приращениями zt{наинте}валахдискретиза-
= σ Δz0 ,1 ≤ j ≤ i .t
ции, они порождают σ-алгебру FΔz0ti
j
(
)
ti
Если обозначить через µi =
yτ dτ =
случайный вектор,
ti-1
µ1i,... ,µnyi
компоненты которого равны времени пребывания марковской цепи yt в
каждом из возможных состояний на интервале времени (ti-1, ti], а через
N (z; m, σ2) гауссовскую плотность вероятности со средним m и дисперси-{
}
ей σ2, вычисленную в точке z, то оценка ŷti = E yt | FΔz0
находится с по-
ti
мощью следующей рекуррентной процедуры [3]:
(
)
)-1(
(10)
ŷti =
1q′t
ŷti-1
q′t
ŷti-1
,
i
i
где 1 = (1, . . . , 1) ∈ Rny вектор из единиц, начальное условие ŷ0 = π0, мат-
ny
,j
рица qti =
qk
состоит из случайных элементов
ti
k,j=1
{
}
(
)
(11)
qk,jt
=E N
Δz0t; aµi, δσσ
yjt
yti-1 =ek
i
i
i
Условные математические ожидания qk,j представляют собой интегралыt
i
масштабно-сдвиговые смеси гауссиан, где в качестве смешивающего высту-
пает распределение вектора µi. Принципиальной проблемой является то, что
это распределение не является абсолютно непрерывным относительно меры
Лебега и сами интегралы (11) не могут быть вычислены аналитически. Для
аппроксимации оценки ŷti эти интегралы вычисляются приближенно. В дан-
ной статье с этой целью используются и сравниваются между собой следую-
щие схемы вычисления qk,jt
(далее через Δkj обозначен символ Кронекера):
i
(
)
1
(
)
2
qk,jt
qδ
=N
Δz0t;δaek,δσσ
kj + δλkj )
i
ti
i
kj
схема “левых” прямоугольников порядка точности12 ,
(
)
(
)
qk,jt
≈ qδ
kjeλkkδN
Δz0t,δaek,δσσ
+
i
i
ti kj
(
)
δ
+ (1 - Δkj) δλkj e2kkjj )N Δz0t
,
a(ek + ej), δσσ
i
2
схема “средних” прямоугольников порядка точности 1,
(
)
(
)
qk,jt
≈ qδ2
kjeλkkδN
Δz0t,δaek,δσσ
+
i
i
ti kj
(
(
)
3-1)δ
δ
(
3-1)δ
(
3+1)δ
+ (1 - Δkj)
ekkjj)(
2
3
N Δz0t
,
aek +
aej,δσσ
+
i
2
2
3
2
3
(
))
(
3+1)δ
(
3 + 1)δ
(
3 - 1)δ
+ekkjj)
2
3
N Δz0t,
aek +
aej,δσσ
+
i
2
3
2
3
117
(
)
∑ δ2(
δ
δ
λkkii)+δ
+
e6(
6
iijj )N Δz0t
,
a(ek + ei + 4ej), δσσ
+
i
6
6
i:i=ji=k,
(
)
kkii)+δ
δ
+e
3
6
iijj )N Δz0t
,
a(ek + 4ei + ej), δσσ
+
i
6
(
))
δ
+e6kkii)+
3
iijj )N Δz0t
,
a(4ek + ei + ej), δσσ
i
6
схема, основанная на квадратурах Гаусса порядка точности 2.
(
)
1
2
Отметим, что в исследуемой модели привода k, j = 1, 2, 3 и
qδ
=
ti
(
)
13
(
)
(
)
1
(
)
(
)
2
2
=
qδ
=
qδ
=
qδ
= qδ
= qδ2
= 0, так как в матрице ин-
ti
ti
13
ti
31
ti
ti
13
31
31
тенсивностей λ13 = λ31 = 0, что существенно упрощает вычисления в сравне-
нии с записанным общим случаем.
Итак, в сравнительном анализе, представленном в следующем разделе,
1
2
участвуют аппроксимации yδ
,
yδti ,
yδ2 , вычисляемые с помощью алгоритмаt
ti
i
(10), (11), в котором матрицы qti вычисляются приближенно одним из трех
1
2
приведенных способов qδ
,
qδti , qδ2 соответственно.t
ti
i
5. Экспериментальное исследование дискретизованных фильтров
Выполненный практический эксперимент включал большой комплекс рас-
четов, направленных на изучение влияния точности аппроксимации фильтра
Вонэма на итоговое качество управления системой (7). Все расчеты, как ука-
зано в разделе 3 статьи, были выполнены для δ = 0,005; 0,001; 0,0001. Отме-
тим, что в анализе не участвовали модели с δ = 0,01, как это было в исходном
примере в [1], чтобы обеспечить единообразие во всех представляемых расче-
тах и исключить трудности при приближенном вычислении коэффициентов
αt и βt из (4) и (5), которые возникали при δ = 0,01. Кроме того, существенно
детализированы и расширены примеры, представленные в [2].
В каждом расчете моделировалось по 1000 траекторий системы (7) с опти-
мальной стратегией стабилизации uti = ûti из (3), причем наборы случайных
величин, формирующих пучки траекторий, одинаковы во всех расчетах для
заданного δ. Это обеспечивает корректность сравнения качества разных ал-
горитмов. Для иллюстрации некоторых результатов дополнительно рассчи-
тывалось управление uti = u оптимальное решение задачи стабилизацииt
i
для случая полной информации о состоянии цепи yt (в [2] показано, что это
управление определяется тем же соотношением (3) с заменой оценки ŷt на
состояние yt, т.е. имеет место сильное разделение [8]).
Все расчеты, результаты которых представлены в статье, выполнены на
средствах ЦКП “Информатика” ФИЦ ИУ РАН. Для их выполнения исполь-
зовался сервер Huawei XH 622 V3 (2CPU Intel Xeon E5-2683V4 (2.1 GHz,
16 Core), 512 Gb RAM, 210G Ethernet, 216G FibreChannel, Intel Xeon Phi
118
7120P), входящий в состав инфраструктуры Гибридного высокопроизводи-
тельного вычислительного кластера архитектуры Intel x86_64. На данном
сервере использовалась виртуальная среда с гостевой операционной системой
Windows 10, для которой выделялось 32 Gb RAM и до 4 ядер. Программы для
расчетов написаны на языке Python и реализованы в среде PyCharm 2021.2
(Community Edition). Это свободно распространяемое программное обеспече-
ние хорошо зарекомендовало себя в научной среде и очень широко применя-
ется именно в исследовательских целях. Временные ресурсы на проведение
экспериментов на использованном оборудовании оказались не слишком вели-
ки. Расчеты пучка из 1000 траекторий всех алгоритмов фильтрации и управ-
ления на одном ядре для величин δ = 0,005 и 0,001 занимали порядка 10-12
и 35-40 мин соответственно. Для δ = 0,0001 один расчет требовал порядка
6 ч компьютерного времени. Довольно большие временные затраты не долж-
ны вызывать сомнения в практической пригодности исследованных методов
по той причине, что большая часть компьютерного времени (по субъектив-
ной оценке, более 75%) затрачивалась на выгрузку результатов расчетов в
файлы электронных таблиц, с помощью которых выполнялся качественный
и визуальный анализ, в том числе графическими инструментами. Возмож-
ность параллельного применения нескольких ядер использовалась авторами
для ускорения расчетов за счет реализации расчетов для нескольких моде-
лей одновременно. На весь комплекс расчетов, выполненных при подготовке
статьи, в том числе не упомянутых здесь явно, потребовалось не более 1 мес.
Результаты расчетов далее представлены в табличной форме, при необхо-
димости дополнительно даны графические иллюстрации. Для удобства каж-
дая таблица в заголовке содержит набор параметров модели. Кроме того,
наиболее важные результаты выделены полужирным шрифтом. Для харак-
1
2
теризации качества оценок фильтрации ŷti , yδ
,
yδti ,
yδ2 рассчитывались ин-t
(
)
i
(
)
1
(
)
2
D
D
тегральные квадратичные ошибкиD (ŷti ),D
yδ
,
yδti
,
yδ2
для
ti
ti
T
D(yti)=Êδ
(cyti - cyti)2
,
T
i=1
гдеE обозначает усреднение по пучку.
В тех расчетах, когда хотя бы одна траектория оценки ŷti , вычисленной
с помощью схемы Эйлера-Маруямы, оказывалась расходящейся и синтези-
ровать управление с ее помощью было невозможно, использовались оценки
ŷlimt
и ŷdel. Там, где это потребовалось, в таблицы внесена дополнительнаяt
i
i
информация.
Для характеризации качес
(
)
1
(
)
(
)
1
2
2
левые функционал
J (ûti),
J
ŭδ
,
J
ŭδti
,
J
, в которых ûti, ŭδ
,
ŭδ ,t
ti
ŭδ2ti
ti
i
ŭδ2
оптимальные управления, вычисленные с помощью оценок фильтрации
ti
119
1
2
ŷt
, yδti
,
yδti , yδ2 соответственно,t
i
i
∑(
)
J (uti ) = E
δ
(Cyti - xti )2 + R(uti)2
i=1
Результаты первого расчета представлены в табл. 1. Использовалась мо-
дель привода с параметрами (8), т.е. модель исходного примера из [1]. Гра-
фических иллюстраций данный пример не требует, достаточно рис. 2.
Таблица 1
a = -1; b = -0,5; T = 10; h = 10; g = 0,01; R = 0,01;
-0,5
0,5
0
(c1, c2, c3) = (1, 0, -1); Λ =
 0,5
-1
0,5
.
0
0,5
-0,5
D(ŷti)
J(ûti)
(
)
(
)
(
)
(
)
1
(
)
1
(
)
D
2
D
D
2
δ
yδ
yδt
yδ2
J
ŭδ
J
ŭδt
J
ŭδ2
ti
i
ti
ŷti = ŷtimi
ti
i
ti
ŷti = ŷtimi
ŷti = ŷteli
ŷti = ŷtel
i
0,005
0,22689
0,04955 0,04955 0,04955
3,18759
1,59087 1,59126 1,59124
0,39545
4,53704
0,001
0,05386
0,04851 0,04851 0,04851
1,60354
1,55757 1,55756 1,55757
0,04924
1,56307
0,0001
0,04927
0,04923 0,04923 0,04923
1,54318
1,54306 1,54307 1,54307
Результаты в табл. 1 приводят к двум выводам. Во-первых, использова-
ние дискретизованных фильтров действительно дает преимущества, гаранти-
руя устойчивость и высокое качество оценки фильтрации в любых условиях.
И это преимущество тем больше, чем больше шаг δ. Предложенные эвристи-
ческие схемы обеспечения устойчивости простой численной схемы для филь-
тра Вонэма дают вполне предсказуемый результат. Для больших δ, когда
расходящихся траекторий много, результативность обеих эвристик крайне
низкая. С уменьшением δ и, соответственно, сокращением числа “проблем-
ных” траекторий эвристики работают вполне эффективно, но ожидаемо про-
игрывают дискретизованным фильтрам. Для малых δ в смоделированном
пучке вовсе не оказалось расходящихся траекторий, эвристики оказываются
ненужными, а схема Эйлера обеспечивает оценке фильтра Вонэма точность,
совпадающую с точностью дискретизованных фильтров вплоть до четвертого
знака.
Второй вывод из табл. 1 это отсутствие для дискретизованных фильтров
иерархии качества, отвечающей скорости сходимости. Можно считать, что
все три оценки дают один и тот же результат.
Давая оценку этим выводам и результатам расчета в целом, прежде всего
напомним, что даже одной расходящейся траектории достаточно, чтобы вели-
120
чинаD (ŷti ) оказалась сколь угодно большой. Для наименьшего значения δ в
моделируемых пучках расходящихся траекторий не было, но гарантировать,
что так будет для пучка любого размера нельзя. Более того, эксперименты
подтверждают, что при увеличении размера пучка до нескольких десятков
миллионов неустойчивые траектории появляются и для малых δ. При этом
предложенные в разделе 3 эвристические приемы для оценки ŷti успешно
работают.
Чтобы разнообразить условия применения стратегии стабилизации, нуж-
но “ухудшать” модель. В следующем расчете для этого были сделаны два
изменения. Во-первых, сохраняя физическую реализуемость, т.е. устойчиво-
сти модели привода (7), можно уменьшать абсолютные значения параметров
a и b вплоть до нуля. В следующем расчете система рассматривается на гра-
нице устойчивости со значениями a = b = 0. Для этих параметров уже нельзя
(c
)
1
использовать определение для состояний стабилизации C =
. Вос-
a
,c2a,
a
пользуемся этим поводом, чтобы внести в модель второе изменение и изба-
виться от симметрии состояний цепи. Положим c = (-1,5; -0,5; 0,5) и сохра-
ним состояния стабилизации C = (-1, 0, 1). Качество наблюдений остается
как в первом расчете g = 0,01. Результаты выполненного эксперимента при-
ведены в табл. 2.
Таблица 2
a = 0; b = 0; T = 10; h = 10; g = 0,01; R = 0,01;
-0,5
0,5
0
(c1, c2, c3) = (-1,5; -0,5; 0,5); (C1, C2, C3) = (-1, 0, 1); Λ = 0,5
-1
0,5
.
0
0,5
-0,5
D(ŷti)
(
)
(
)
J(ûti)
(
)
(
)
1
(
)
1
(
)
D
2
D
D
2
δ
yδ
yδt
yδ2
J
ŭδ
J
ŭδt
J
ŭδ2
ŷti = ŷtimi
ti
i
ti
ŷti = ŷtimi
ti
i
ti
ŷti = ŷteli
ŷti = ŷtel
i
0,005
0,67763
0,05573
0,05575 0,05572
4,41541
1,66704
1,66719 1,66714
1,13598
5,10793
0,001
0,35003
0,05283 0,05283 0,05283
1,60354
1,61349
1,61354 1,61354
0,07415
1,56307
0,05273
1,61684
0,0001
0,05274
0,05230 0,05230 0,05230
1,61685
1,61581 1,61582 1,61582
0,05273
1,61684
К табл. 2 следует сделать три замечания. Сначала отметим, что исследуе-
мая стратегия стабилизации в модели на границе устойчивости оказывается
столь же эффективной, как и в аналогичном устойчивом варианте табл. 1.
Ни асимметрия состояний цепи yt, ни отсутствие нативной помощи системы
в стабилизации принципиального влияния на эффективность управления не
оказали.
121
cy
а
cy
b
2
2
1
1
0
2
4
6
8
10
0
2
4
6
8
10
t
t
-1
-1
-2
1
2
3
-2
1
2
3
Рис. 3. Траектории эвристических оценок, на которых выполняются условия
1
расходимости схемы Эйлера-Маруямы: a): 1 оценка ŷlimt,
2
оценка yδ
2 ,
i
ti
1
2
3
цепь cyt; b): 1 оценка ŷdelt, 2
оценка yδ
,3
цепь cyt.
i
ti
Второе замечание
это безусловное преимущество дискретизованных
фильтров над любыми вариантами аппроксимаций фильтра Вонэма. И в пер-
вом расчете, и здесь это преимущество растет с ростом δ. В частности, при
“больших” δ = 0,005; 0,001 проигрыш оценки Эйлера-Маруямы с обеими эв-
ристиками ŷlimt
и ŷdel становится катастрофическим. Еще обращает на себяt
i
i
внимание то, что предсказать поведение этих оценок невозможно.
Наконец третье. В этом расчете столкнулись с ситуацией, когда в “хоро-
шем” пучке с “маленьким” δ = 0,0001 все-таки оказалось несколько “плохих”
траекторий оценки ŷti , т.е. таких, для которых хотя бы раз нарушалось упо-
мянутое выше условие |(ŷt)k| > 1. Таких траекторий было пять и существен-
ного влияния на результат они не оказали, но важен сам факт их наличия,
как основание для использования гарантированно устойчивых оценок дис-
кретизованных фильтров, эффективных в любом случае. При этом разницы
1
2
между оценками yδ
,
yδti , yδ2 не выявлено.t
ti
i
Кроме того, данный расчет дал возможность проиллюстрировать поведе-
ние предложенных в разделе 3 эвристических оценок ŷlimt,
ŷdel в случаях,t
i
i
когда они существенно отличаются от оценок дискретизованных фильтров.
В рассматриваемом примере такие случаи есть, например для δ = 0,001, о чем
свидетельствует видимая разница в качестве оценок, вычисленных по схеме
Эйлера-Маруямы, и оценок дискретизованных фильтров, представленных в
1
2
табл. 2. На рис. 3 показаны траектории оценок cŷlimt, cŷdelt, cyδ
и состояние
i
i
ti
цепи cyti , на которых существенно повлияло выполнение условий |(ŷt)k| > 1.
Именно такие траектории внесли основной вклад, обеспечив существенный
проигрыш оценкам Эйлера-Маруямы.
Дополняет рис. 3 следующий рис. 4, на котором показаны траектории по-
ложения для той же реализации системы.
Итак, главный итог третьего расчета это подтверждение эффективности
управления на основе оценок дискретизованных фильтров в задаче стабили-
122
x, Cy
a
x, Cy
b
1,0
1,0
0,5
0,5
0
2
4
6
8
10
0
2
4
6
8
10
t
t
-0,5
-0,5
-1,0
-1,0
1
2
3
1
2
3
Рис. 4. Траектории положения для эвристических оценок, на которых выпол-
няются условия расходимости схемы Эйлера-Маруямы:a): 1 положение xti
1
для управления ûti с оценкой ŷlimt,
2
положение xti для управления ŭδ
2 ,
i
ti
3
дрейф Cyt; b): 1 положение xti для управления ûti с оценкой ŷdel, 2t
i
1
2
положение xti для управления ŭδ
, 3
дрейф Cyt.
ti
зации для модели привода на границе устойчивости. Ясно, что и при суще-
ственном нарушении условий устойчивости, т.е. при положительных a, b, ис-
следуемая стратегия стабилизации будет столь же эффективна. Это подтвер-
ждают и другие выполненные эксперименты, в том числе последний пример
в [2]. Здесь же более важно сравнить оценки дискретизованных фильтров
между собой, поэтому следующим шагом “ухудшения” модели будет суще-
ственное изменение параметров цепи yt.
Еще один вывод из выполненных расчетов отсутствие перспектив даль-
нейшего исследования эвристических оценок ŷlimt,
ŷdel. Нецелесообразностьt
i
i
их использования подтверждена в достаточной степени, поскольку преду-
гадать и избежать ситуаций, аналогичных тем, что проиллюстрированы на
рис. 3 и рис. 4, невозможно.
Усложняя условия работы привода в следующих расчетах, значительно
увеличим интенсивности смены состояний цепью yt. Тем самым будет про-
верено предположение о том, что систематическая разница в качестве оце-
1
2
нок фильтрации yδ
, yδti, yδ2 будет обнаруживаться в моделях, допускающихt
ti
i
возможность реализации непрерывной цепью yt более чем одного скачка на
интервале дискретизации длины δ. Чем вероятнее появление таких реализа-
ций на интервалах (ti-1, ti], тем точнее должны оказываться аппроксимации
1
2
qδ
ti
, qδti, qδ2ti условных математических ожиданий qti. Добиться этого эффекта
можно, увеличивая значения интенсивностей переходов в матрице Λ. Более
частые смены состояния входной цепи yt с точки зрения решаемой задачи ста-
билизации, очевидно, потребуют более активного поведения от управления.
Если при этом штрафовать за активное управление также, как в примерах с
небольшими интенсивностями, то стратегия стабилизации будет вырождать-
ся, стремясь к некоторому постоянному значению, не реагирующему на об-
123
x, Cy
1
0
1
2
3
4
5
6
7
8
9
10
t
-1
1
2
3
Рис. 5. Характерные траектории положения привода для модели с увеличен-
1
ной до 10 интенсивностью скачков: 1 положение xti для управления ŭδ
2 ,
ti
2
положение xti для управления u∗t
, 3
дрейф Cyti .
i
ратную связь. Поэтому в расчетах далее используется R = 0,00001, как в при-
мере из раздела 3, иллюстрирующем работу привода в “идеальных” условиях
(рис. 2).
В табл. 3 и 4 приведены результаты двух расчетов, выполненных с увели-
ченными до 10 и 50 интенсивностями изменения значений дрейфа.
Таблица 3
a = -1; b = -0,5; T = 10; h = 10; g = 0,01; R = 0,00001;
-10
10
0
(c1, c2, c3) = (-1,5; -0,5; 0,5); Λ =
 10
-20
10
.
0
10
-10
(
)
(
)
(
)
(
)
1
(
)
1
(
)
D
2
D
D
2
δ
D(ŷti)
yδ
yδt
J(ûti)
J
ŭδ
J
ŭδt
J
ŭδ2
ti
i
yδ2ti
ti
i
ti
0,005
0,37441 0,37347 0,37333
7,15385 7,11694 7,11460
0,001
0,34302 0,34299 0,34298
6,49080 6,48944 6,48942
0,0001 0,33543
0,33565
0,33565
0,33565
6,30794
6,30954
6,30954
6,30954
Результаты табл. 3 соответствуют ожиданиям. Для δ = 0,005 и δ = 0,001
качество оценок дискретизационных фильтров выстроено в соответствии с их
теоретической скоростью сходимости. Разница, надо заметить, довольно мала
и видна только в третьей-четвертой значащей цифре. Вариант с δ = 0,0001
уже можно считать предельным.
Графическая иллюстрация исследуемой стратегии управления при увели-
чении интенсивности смены состояний цепью yt до 10 приведена на рис. 5.
1
График типовой траектории положения xti приведен для управления ŭδ
2 , но
ti
он такой же, т.е. визуально неотличим, для управлений ŭδti , ŭδ2 . Чтобы оха-t
i
рактеризовать потенциал стабилизации в этом примере, на рис. 5 выведена
траектория положения xti , формируемого управлением u , оптимальным вt
i
постановке с полной информацией [2]. Этот график показывает, что принци-
124
x, Cy
1
0
1
2
3
4
5
6
7
8
9
10
t
-1
1
2
3
Рис. 6. Характерные траектории положения привода для модели с увеличен-
1
ной до 50 интенсивностью скачков: 1 положение xti для управления ŭδ
2 ,
ti
2
положение xti для управления u∗t
, 3
дрейф Cyti .
i
пиальная возможность эффективной стабилизации в рассматриваемой моде-
ли остается за счет увеличения точности оценивания величины входа.
1
В этом расчете удалось проиллюстрировать отличия между оценками yδ
2 ,
ti
yδti , yδ2 , но разница видна только в третьей-четвертой значащей цифре. Пред-t
i
полагая, что эта разница может демонстрировать тенденцию к росту с уве-
личением интенсивности скачков цепи yt, продолжим усложнять условия ра-
боты привода и увеличим интенсивность изменения величин дрейфа до 50.
Параметры и результаты этого расчета приведены в табл. 4, графическая
иллюстрация на рис. 6.
Таблица 4
a = -1; b = -0,5; T = 10; h = 10; g = 0,01; R = 0,00001;
-50
50
0
(c1, c2, c3) = (-1,5; -0,5; 0,5); Λ =
50
-100
50
.
0
50
-50
(
)
(
)
(
)
(
)
1
(
)
1
(
)
D
2
D
D
2
δ
D(ŷti)
yδ
yδt
J (ûti)
J
ŭδ
J
ŭδt
J
ŭδ2
ti
i
yδ2ti
ti
i
ti
0,005
0,75826
0,74700 0,74609
10,70809 10,65900 10,65582
0,001
0,64742
0,64701 0,64699
10,31655 10,31497 10,31494
0,0001 0,62598
0,62768
0,62768 0,62768 10,23954 10,24153 10,24152 10,24152
Представленный в табл. 4 расчет отвечает ожидаемым результатам в той
же степени, что и предыдущий. Для δ = 0,005 разница качества оценок дис-
кретизационных фильтров и соответствующих стратегий стабилизации видна
во второй-третьей значащей цифре. Для δ = 0,001 имеется та же разница и
та же иерархия качества алгоритмов, но уже в третьей-четвертой значащей
цифре. Это значит, что порядок интенсивностей переходов цепи yt для таких
шагов дискретизации обеспечивает достаточно много реализацией более чем
одного скачка на интервале δ, что дает преимущество фильтрам старших по-
125
рядков. Случай δ = 0,0001 видится уже предельным, и разницы в оценках
нет. Преимущество оценки ŷti , напомним, означает, что в смоделированном
пучке не оказалось расходящихся траекторий, которые непременно появятся
в других реализациях. Добившись этого результата, нельзя не отметить, что
согласно рис. 6 эффективность самой стратегии стабилизации даже в случае
полной информации о состоянии цепи yt крайне низка. Это результат ухуд-
шения условий работы привода до совсем нереалистичных параметров.
Как уже говорилось, приведенными результатами не исчерпывается весь
объем выполненного вычислительного эксперимента. Другие модели включа-
ли примеры более выраженной асимметрии состояний цепи yt и направлений
стабилизации Cyt, разные интенсивности возмущений выхода zt, увеличения
размерности цепи ny, увеличение интенсивности ошибок наблюдений g. Эти
расчеты вполне согласуются с представленными результатами и подтвержда-
ют следующие выводы.
6. Выводы
Основным объектом исследования данной статьи являлась задача ста-
билизации простого механического привода с динамически изменяющимся
марковским скачкообразным дрейфом [1, 2], не доступным прямому наблю-
дению. Для рассмотренной задачи верна теорема разделения, поэтому оп-
тимальное управление выражается через оптимальную оценку, задаваемую
фильтром Вонэма. Целью работы являлась выработка рекомендаций по ал-
горитмам численной реализации оптимального управления и использования
в ней устойчивых фильтров [3] вместо неустойчивых численных схем типа
Эйлера-Маруямы. Результаты комплекса разнообразных численных экспери-
ментов позволяют сделать вывод об обоснованности применения устойчивых
дискретизованных фильтров и общей эффективности численной реализации
оптимального управления. Помимо этого основного вывода можно сформу-
лировать ряд практических рекомендаций.
1. Все дискретизованные фильтры демонстрируют корректную работу в
качестве устойчивых аппроксимаций фильтра Вонэма.
2. Выбор схемы устойчивой дискретизованной фильтрации зависит от па-
раметров тройки “оцениваемый марковский дрейф доступные наблюде-
ния штраф за неточность оценивания в критерии”. Если интенсивность
скачков дрейфа умеренная, отношение “сигнал/шум” в наблюдениях доста-
точно велико и вклад ошибок фильтрации в целевой функционал незначите-
лен, рациональнее использовать схемы малого порядка аппроксимации.
3. Расходимость численных аппроксимаций фильтра Вонэма, реализован-
ного “классическими” схемами, нельзя игнорировать. Вполне реальной явля-
ется модель, когда расходятся все траектории фильтра.
4. По совокупности результатов экспериментов для практического приме-
нения предпочтительным является дискретизованный фильтр первого поряд-
ка, основанный на схеме “средних” прямоугольников.
126
СПИСОК ЛИТЕРАТУРЫ
1.
Borisov A., Bosov A., Miller G. Optimal Stabilization of Linear Stochastic System
with Statistically Uncertain Piecewise Constant Drift // Mathematics. 2022. V. 10.
No. 2 (84).
2.
Босов А.В. Стабилизация и слежение за траекторией линейной системы со скач-
кообразно изменяющимся дрейфом // АиТ. 2022. № 4. С. 27-46.
Bosov A.V. Stabilization and Trajectory Tracking of Linear System with Jumping
Drift // Autom. Remote Control. 2022. V. 83. No. 4. P. 1963-1973.
3.
Борисов А.В. L1-оптимальная фильтрация марковских скачкообразных процес-
сов II: численный анализ конкретных схем // АиТ. 2020. № 12. С. 24-49.
Borisov A.V. L1-Optimal Filtering of Markov Jump Processes. II. Numerical Anal-
ysis of Particular Realizations Schemes // Autom. Remote Control. 2020. V. 81.
No. 12. P. 2160-2180.
4.
Athans M., Falb P.L. Optimal Control: An Introduction to the Theory and Its Ap-
plications. N.Y.-Sydney: McGraw-Hill, 1966.
5.
Beneš V. Quadratic Approximation by Linear Systems Controlled from Partial Ob-
servations / Stochastic Analysis. Mayer-Wolf E., Merzbach E., Shwartz A., Eds.;
Academic Press, 1991. P. 39-50.
6.
Helmes K., Rishel R. The Solution of a Partially Observed Stochastic Optimal Con-
trol Problem in Terms of Predicted Miss // IEEE Trans. Autom. Control. 1992.
V. 37. No. 9. P. 1462-1464.
7.
Benes V., Karatzas I., Ocone D., Wang H. Control with Partial Observations and
an Explicit Solution of Mortensen’s Equation // Appl Math Optim. 2004. No. 49.
P. 217-239. https://doi.org/10.1007/s00245-003-0788-0
8.
Rishel R. A Strong Separation Principle for Stochastic Control Systems Driven by
a Hidden Markov Model // SIAM J. Control and Optimization. 1994. V. 32. No. 4.
P. 1008-1020.
9.
Elliott R.J., Aggoun L., Moore J.B. Hidden Markov Models: Estimation and Control.
N.Y.: Springer-Verlag, 1995.
10.
Kloeden P.E., Platen E. Numerical Solution of Stochastic Differential Equations.
Berlin: Springer, 1992.
11.
Yin G., Zhang Q., Liu Y. Discrete-time Approximation of Wonham Filters // J.
Control Theory Applications. 2004. No. 2. P. 1-10.
12.
Кушнер Г.Д. Вероятностные методы аппроксимации в стохастических задачах
управления и теории эллиптических уравнений. М.: Наука, 1985.
Статья представлена к публикации членом редколлегии Б.М. Миллером.
Поступила в редакцию 05.04.2022
После доработки 15.05.2022
Принята к публикации 10.06.2022
127