Автоматика и телемеханика, № 4, 2022
Стохастические системы
© 2022 г. А.В. БОСОВ, д-р техн. наук (ABosov@frccsc.ru)
(Федеральный исследовательский центр
“Информатика и управление” РАН, Москва)
СТАБИЛИЗАЦИЯ И СЛЕЖЕНИЕ ЗА ТРАЕКТОРИЕЙ ЛИНЕЙНОЙ
СИСТЕМЫ СО СКАЧКООБРАЗНО ИЗМЕНЯЮЩИМСЯ ДРЕЙФОМ1
Для управляемой линейной стохастической дифференциальной систе-
мы рассматривается задача слежения за скачкообразно изменяющим-
ся состоянием аддитивного входного воздействия, определяющего теку-
щее направление стабилизации (дрейф). Цель слежения — стабилиза-
ция системы возле изменяющегося дрейфа — формализуется квадратич-
ным функционалом качества. Входное воздействие задает цепь Маркова
с непрерывным временем. Задача рассмотрена в вариантах с полной и
неполной информацией. В обоих случаях для решения используется ди-
намическое программирование. Решение уравнения Беллмана в первом
случае получается благодаря свойствам конечномерной цепи, во втором —
принципу разделения задач управления и оценивания состояния, обеспе-
чиваемому оценкой фильтра Вонэма и свойствам квадратичного крите-
рия качества. Численный эксперимент использует прикладную модель,
описывающую положение простого механического привода. Приводятся
и подробно обсуждаются результаты расчетов, подтверждающие приме-
нимость полученных решений, а также способы преодоления трудностей
их численной реализации.
Ключевые слова: слежение за целью, управление линейной дифферен-
циальной системой, квадратичный функционал качества, динамическое
программирование, фильтр Вонэма, принцип разделения.
DOI: 10.31857/S0005231022040031, EDN: AAGWVY
1. Введение
Важным стимулом для представленного в статье исследования стал один
из примеров задачи управления, рассмотренный в [1, раздел 11.6. Risk-
Sensitive LQG Control]. В этом примере целью управления линейной системой,
часть из координат которой составляет наблюдаемый выход, объявляется сле-
дование этим выходом за некоторой заданной желаемой траекторией (desired
trajectory). Формализуется цель управления с помощью квадратичной функ-
ции, зависящей от разности наблюдаемого выхода и целевой траектории, и в
1 Работа выполнена при поддержке проекта № 075-15-2020-799 Министерства науки и
высшего образования Российской Федерации. Работа выполнялась с использованием ин-
фраструктуры Центра коллективного пользования “Высокопроизводительные вычисления
и большие данные” (ЦКП “Информатика” ФИЦ ИУ РАН, Москва).
27
форме чувствительного к риску критерия, когда квадратичная форма поме-
щается в показатель экспоненты. Рисковая составляющая для дальнейшего
не важна, а вот способ формализации задачи слежения оказался продуктив-
ным. Варианты задач слежения за целью (target tracking) весьма многообраз-
ны [2]. Возможная постановка с хорошими прикладными перспективами со-
стоит в том, чтобы вместо заданной априорно траектории следовать за неко-
торым скачкообразно изменяющимся входом — марковской цепью. Разные
состояния такой цепи могут задавать разные направления дрейфа, которо-
му должна следовать управляемая система, причем эти направления заранее
неизвестны и постоянно меняются.
Поиск публикаций по такого рода тематике показал, что близкие поста-
новки ранее уже привлекали внимание. Наиболее общий результат получен
в [3], где задача поставлена с помощью классического квадратичного крите-
рия, вход описывается произвольным марковским процессом, цепь возможна
как частный случай. Более ранние результаты [4, 5] использовали квадратич-
ный критерий частного вида (см. также [6]), включающий только слагаемые
с управлением. В фокусе внимания всех этих публикаций не столько само
управление, оно получается в форме решения классической линейно-квад-
ратичной задачи, сколько борьба со входом, который интерпретируется как
сложное возмущение и соответственно не наблюдается, т.е. фактически в ци-
тированных публикациях решается задача стабилизации наблюдаемой вы-
ходной переменной в условиях неполной информации о входном воздействии.
Подход к решению обеспечивается общими уравнениями нелинейной филь-
трации [7], а теоретическую проблему составляет выяснение действенности
принципа разделения. Любопытно, что задача с полной информацией не рас-
сматривалась, равно как не обсуждались и возможные приложения резуль-
татов.
Данная статья комбинирует формализацию квадратичной функцией за-
дачи слежения за целью [1] и результат для классического квадратичного
критерия [3]. Но в отличие от [1] желаемая траектория не предполагается
известной, а описывается марковской цепью с непрерывным временем. При
этом в отличие от [3] в критерий включено слагаемое с разностью входа и
выхода, отвечающее за слежение, что дает формально другие уравнения для
оптимального управления. Кроме того, рассмотрена и задача с полной ин-
формацией, т.е. в предположении, что текущее состояние входного процесса
известно.
Большое внимание уделено прикладному примеру и вычислительному экс-
перименту. Предложенная в статье прикладная модель описывает поведение
простого механического привода, целью функционирования которого являет-
ся не простая стабилизация возле нулевого положения, а стабилизация возле
постоянно дрейфующего положения, модель которого задается марковской
цепью. Вопросы численной реализации представлены весьма подробно и ил-
люстрируют не только применимость полученных теоретических результа-
тов, но и сопутствующие реализационные проблемы.
28
2. Модель и постановка задачи
На каноническом вероятностном пространстве (Ω, F, P, Ft) , t ∈ [0, T ], рас-
смотрим линейную дифференциальную стохастическую систему с управляе-
мым вектором выхода zt Rnz :
(1)
dzt = atytdt + btztdt + ctutdt + σtdwt, z0
= Z.
Систематическую составляющую траекториям zt (направление дрейфа)
обеспечивает марковский скачкообразный процесс yt — цепь с конечным чис-
{
}
лом состояний и значениями во множестве
e1,... ,eny
, состоящем из еди-
ничных координатных векторов в евклидовом пространстве Rny . Вероятност-
ные характеристики yt предполагаются известными:
распределение начального состояния y0 = Y обозначается π0;
матрица интенсивностей переходов Λt.
Остальные величины в уравнении (1):
• wtRnw — стандартный векторный винеровский процесс;
• Z ∈ Rnz — гауссовская случайная величина с известными математическим
ожиданием и ковариацией, wt, yt, Y, Z независимы в совокупности;
• utRnu — управление — случайный процесс с конечным вторым момен-
том;
• atRnz×ny, btRnz×nz, ctRnz×nu, σtRnz×nw — заданные матричные
функции.
Система (1) будет рассмотрена для двух случаев. Первый — случай пол-
ной информации, когда наблюдаются и выход zt, и входное воздействие yt.
Второй — случай неполной информации, когда скачкообразный процесс yt
доступен только по косвенным наблюдениям, в роли которых выступает вы-
ход zt.
Управление ut выбирается из класса допустимых управлений, который
для простоты определяется как класс управлений с полной обратной связью
по выходу, что с учетом марковского характера задачи [8] не ограничивает
общности рассуждений. Таким образом, ut = Ut (yt, zt) в постановке с полной
информацией и ut = Ut (zt) в случае косвенных наблюдений за yt. Соответ-
ственно определение закона управления Ut = Ut(y, z) или Ut = Ut(z), y ∈ Rny ,
z ∈ Rnz, является целью оптимизации функционала качества вида
T
(
)
(2)
J
UT0
∥Ptyt + Qtzt+Rtut2S
dt + ∥PT yT + QT zT2
,
=E⎩
t
ST
0
где UT0 = {Ut (y, z) или Ut (z) , 0 ≤ t ≤ T }, Pt RnJ ×ny , Qt RnJ ×nz , Rt
RnJ×nu, StRnJ×nJ, St0, St = S′t, 0 ≤ t ≤ T, — заданные ограниченные
матричные функции, весовая функция ∥x∥2S = xSx для симметричной неот-
рицательно определенной матрицы S, единичной матрице S = 1 соответству-
ет евклидова норма ∥x∥21 = |x|2, x — транспонированная матрица x.
29
Относительно параметров задачи предполагаются выполненными следую-
щие условия:
ограниченность параметров модели выхода: |at| + |bt| + |ct| +t| ≤ C для
всех 0 ≤ t ≤ T обеспечивает существование решения уравнения (1) для
любого допустимого управления ut;
кусочная непрерывность матричных функций Λt, at, bt, ct, σt, Pt, Qt,
Rt, St обеспечит выполнение типовых условий существования решений
обыкновенных дифференциальных уравнений, получаемых далее;
штраф за неограниченные управления обеспечивает обычное условие
невырожденности R′tStRt > 0;
возможность использования выхода zt в качестве наблюдений в постанов-
ке задачи с неполной информацией обеспечивает невырожденность оши-
бок наблюдений, т.е. условие σtσ′t > 0.
Отметим, что принципиальные результаты по оптимизации системы (1)
по классическому квадратичному критерию качества, процитированные во
введении, получены именно для второго случая, задача с полной информа-
цией отдельно не рассматривалась. Возможное объяснение этому видится в
том обстоятельстве, что процесс yt интерпретировался исключительно как
возмущение, с которым надо бороться и исключать его влияние. Для этого
использовался классический функционал качества
T
(
)
(3)
J
UT0
|Qtzt+Rtut|2dt + |QT zt|2
=E⎩
0
Здесь можно напомнить, что представление управляемой системы в форме
вход-выход, предполагающее, что входная переменная является неуправляе-
мой, а задачей является регулирование выхода, используется давно. Одним
из первых было применение специальным образом записанной классической
постановки линейно-квадратичного управления для решения задачи “доведе-
ния выхода до нуля” или, другими словами, для стабилизации выхода около
нуля, описанное в [9]. Рассматриваемая модель (1) исходит из интерпрета-
ции переменной zt в качестве управляемого выхода, а yt — из неуправляе-
мого входа, который может быть как наблюдаемым, так и ненаблюдаемым.
Функционал качества (2) исходит из конструктивного понимания yt как воз-
действия, требующего ответной реакции управляемой системы, изменения
направления движения, выведения на другой координатный уровень, ком-
пенсации изменившегося силового воздействия и т.п. Для этого функциона-
лом (2) обеспечивается возможность включать в критерий слагаемые вида
|zt - Ptyt|2, т.е. ставить задачу слежения за траекторией входа (состояния
стохастической системы наблюдения), слежения за дрейфом выхода, форми-
руемым скачкообразным процессом yt. Эта возможность позволяет в допол-
нение к традиционной стабилизации решать другие практически значимые
задачи маневрирования, в том числе представленную далее задачу управле-
ния механическим приводом.
30
3. Основные утверждения
Приведем сначала решение задачи с полной информацией, т.е. когда в
системе (1), оптимизируемой по критерию (2), допустимые управления от-
носятся к классу Fy,zt-измеримых процессов, где σ-алгебра Fy,zt порождена
наблюдаемыми величинами {yτ , zτ , 0 ≤ τ ≤ t}, так что Fy,zt ⊆ Ft ⊆ F. Реше-
ние задачи представлено в следующем утверждении.
Теорема 1. Решение задачи оптимизации
(
)
(U)T0 = {U∗t (y, z) , 0 ≤ t ≤ T } ∈ argmin J
UT0
(
)
для целевого функционала J
UT0
, заданного в (2), определяется соотноше-
ниями:
1(
)-1 (
)
(4)
U∗t = U∗t(y,z) = -
R′tStRt
c′t (2αtz + βty) + 2R′tSt (Pty + Qtz)
,
2
t
(
)
(
)-1
-
Mαtαt + α′t(Mαt)
+Nαt′tct
R′tStRt
c′tαt = 0,
(5)
dt
αT = Q′T ST QT ,
t
(6)
+ βtΛ′t + Mβt - Nβt βt = 0, βT = 2Q′TSTPT,
dt
где
(
)
(
)-1
(
)-1
Mαt = Q′tStRt
R′tStRt
c′t,
Nαt = Q′t St - StRt
R′tStRt
RSt Qt,
t
((
)
)
(
Mβt = 2
a′t - P′tStRt
R′tStRt
)-1 c )t αt + P(tSt - StRt (R′tStRt)-1 R
t
St Qt
,
(
Nβt = Q′tStRt
R′tStRt
)-1 c′t + αtct (R′tStRt)-1 c′t.
Траекторию оптимального управления далее будем обозначать u∗t =
= U∗t (yt,z∗t ), где через z∗t обозначена оптимальная траектория выхода — ре-
шение (1), отвечающее ut = u∗t.
Формальный вывод соотношений (4)-(6) представлен в [10], а именно: по-
(
)
лучено решение задачи минимизации целевого функционала J
UT0
для вы-
хода zt, заданного уравнением (1), и входного воздействия yt, описываемого
диффузионным уравнением
(7)
dyt = Φt (yt) dt + Σt (yt) dVt, y0
= Y,
где Vt RnV — стандартный векторный винеровский процесс, не зависящий
от wt, Y, Z.
Для решения использовалось уравнение Беллмана [3], получить соотноше-
ния для оптимального управления позволяет предположение о представлении
функции Беллмана
⎨∫T
Vt = Vt(y,z) = inf
∥Psys + Qszs + Rsus2S
ds + ∥PT yT + QT zT2
s
UT
E⎩
ST
t
t
31
в виде
(8)
Vt = zαtz + zBt (y) + Γt
(y) .
Уравнения для Bt(y) уточняются для частного случая линейного сноса
в (7), т.е. линейной функции Φt(y) = ϕty. Функция Bt(y) также оказывается
линейной Bt(y) = βty.
Соотношения (4)-(6) теоремы 1 — это уравнения для αt и βt из [10] с учетом
того, что вместо диффузионного процесса (7) используется мартингальное
представление скачкообразного yt [1]
(9)
dyt = Λ′tytdt + dΛyt, y0
= Y,
где Λyt Ft-согласованный мартингал с квадратичной характеристикой
T
(
)
Λy, Λyt =
diag (Λ′sys) - Λ′s diag (ys) - diag (yss
ds.
0
Соответственно вместо функции сноса Φt (y) = ϕty из (7) используется
Λ′ty, вместо ковариации винеровского процесса — квадратичная характери-
стикаΛy, Λyt, так что с учетом формулы Ито для семимартингалов [11] и
независимости yt и wt, точнее Λyt и wt, уравнение Беллмана, решаемое в [10],
могло бы быть записано в виде
(
}
{
})
∂Vt
1
{2Vt
2Vt
+
tr
Λy, Λyt
+ tr σ
σt
+
∂t
2
∂y2
t ∂z2
(10)
{
}
∂Vt
+ min
yΛt
+ (aty + btz + ctu) ∂Vt
+ ∥Pty + Qtz+Rtu∥2
= 0.
u
∂y
∂z
St
Однако в рассматриваемой задаче модель входа даже проще, чем диффу-
зия Σt(yt)dVt в (7), поскольку цепь yt принимает значения единичных век-
{
}
торов
e1,... ,eny
, что позволяет уточнить функцию Беллмана (8), задав
линейным слагаемое Γt(y) = γty + δt:
(11)
Vt = zαtz + zβty + γty + δt.
Таким образом, уравнение Беллмана для рассматриваемой задачи прини-
мает вид
{
}
∂Vt
1
2Vt
+
tr σ
σt
+
∂t
2
t ∂z2
(12)
{
}
∂Vt
+ min
yΛt
+ (aty + btz + ctu) ∂Vt
+ ∥Pty + Qtz + Rtu∥2
=0
u
∂y
∂z
St
и решается с начальным условием
(13)
VT = ∥PT y + QT z∥2
ST
32
Решить (12) можно непосредственно, подставив в него Vt из (11). После
этой подстановки получается квадратичная форма, минимум которой дости-
гается в U∗t из (4). В итоге (12) примет вид квадратичной формы относи-
тельно z, а соотношения для коэффициентов αt, βt, γt, δt из (11) получаются
приравниванием к нулю коэффициентов при zz, z и z0. Удобнее уравнения
для αt, βt, γt, δt записать, воспользовавшись общим решением из [10]. Для
αt, βt так получаются (5), (6), а уравнения для γt и δt имеют вид
∂γt
+ yΛtΛ′t + Mγt y = 0, γT y = yP′T ST PT y,
∂t
∂δt
{
}
+ tr
σ′tαtσt
= 0, δT = 0,
∂t
(14)
(
)
(
Mγty = Nγt (y) = yβ′t at - ct
R′tStRt
)-1RStPt y +
t
(
)
(
)-1
1
(
+yP′t St - StRt
R′tStRt
RSt Pty -
yβ′tct
R′tStRt
)-1c′tβty.
t
4
Для подтверждения сделанного предположения о линейности Γt (y) =
= γty + δt в (14) должна иметь место линейность Nγt (y). Несмотря на на-
личие множителей yy, это условие выполнено благодаря ограниченной еди-
ничными векторами области значений процесса yt, поскольку имеет место
(
(
))
представление Mγt y =
Nγt (e1) ,... ,Nγt
eny
y. Аналогично равенство γT y =
= yP′T ST PT y, записанное в виде γT y = (e1P′T ST PT e1,... ,e′nyP′T ST PT eny)y,
дает начальное условие для вычисления γt. Отметим, что такое свойство ти-
пично для задач, использующих модель марковской цепи с областью значе-
{
}
ний
e1,... ,eny
. Так, в [12] это свойство обеспечило линейность и целевого
функционала, и функции Беллмана в задаче управления марковским процес-
сом с конечным числом состояний и оптимизируемой матрицей интенсивно-
стей.
Отметим одно интересное свойство рассмотренной задачи (1), (2), (9). По-
лученное решение аналогично решению классической задачи линейно-квад-
ратичного (LQ) управления. Действительно, управляемая система (1), (9)
описывается линейными уравнениями, целевой функционал (2) является
квадратичным по переменным состояния (входа и выхода) и управления, оп-
тимальное управление получается линейным, а функция цены — квадратич-
ной функцией состояния. Нетрудно проверить, что если вместо (9) исполь-
зовать для yt модель с винеровским процессом Vt вместо мартингала Λyt, т.е.
линейный вариант (7) вида dyt = Λ′tytdt + dVt, то получится частный случай
классической LQ задачи. При этом решение этой задачи дает те же соотно-
шения (4)-(6). Но есть и отличие. Функция Беллмана в классическом случае
отличается от полученного представления (11), в ее составе будет еще одно
слагаемое с множителем yy, поскольку цепи нет, а значит, нет и линейно-
сти по y. Соответственно вместо уравнений (14) будут другие уравнения для
трех, а не двух, коэффициентов квадратичной формы по y.
Перейдем к решению задачи с неполной информацией, т.е. будем оптими-
зировать систему (1) по критерию (2), выбирая допустимые управления из
класса Fzt-измеримых процессов, где σ-алгебра Fzt порождена наблюдаемыми
33
y,z
величинами {zτ , 0 ≤ τ ≤ t}, так что Fz
t
⊆Ft
⊆ Ft ⊆ F. Отметим, что в этом
случае выход zt интерпретируется также в качестве косвенных наблюдений
за yt.
Решить задачу для этого случая позволяют два классических результата.
Во-первых, это фильтр Вонэма [1], который позволяет заменить процесс yt,
описываемый уравнением состояния (9), оценкой ŷt = E {yt | Fzt}, описывае-
мой стохастическим дифференциальным уравнением с винеровским процес-
сом. Во-вторых, это теорема разделения [13], условиям которой удовлетворя-
ет квадратичный функционал качества.
Фильтр Вонэма для цепи yt, заданной уравнением (9), и процесса наблю-
дений zt, заданного уравнением (1), имеет вид
(
)
(
)-1/2
t = Λ′tŷtdt +
diag (ŷt) - ŷt ŷ′t
a′t
σtσ′t
×
(15)
(
)
×
σtσ′t
1/2 (dzt - at ŷtdt - btztdt - ctutdt) ,
ŷ0 = E {Y },
где
(
)-1/2
(16)
dWt =
σtσ′t
(dzt - at ŷtdt - btztdt - ctut
dt)
— стохастический дифференциал Fzt-измеримого стандартного векторного
винеровского процесса Wt Rnz . Соответственно (15) и (16) можно записать
в виде
t = Λ′tŷtdt + Σt(ŷt)dWt,
ŷ0 = E {Y },
(17)
dzt = at ŷtdt + btztdt + ctutdt + σtdWt, z0 = Z,
где Σt(y) = (diag (y) - yy) a′t (σtσ′t)-1/2, σt = (σtσ′t)1/2.
Важно отметить здесь, что оценка ŷt согласно (15) не зависит от реализуе-
мого управления ut, что обеспечивает отсутствие в задаче дуального эффек-
та, т.е. влияния закона управления на точность оценивания будущих состоя-
(
)
ний [14]. Благодаря этому можно преобразовать целевой функционал J
UT
0
к виду
T
∥Ptŷt + Qtzt+Rtut2S
dt + ∥PT ŷT + QT zT2
+
t
ST
(
)
0
J
UT0
=E⎪⎪
T
+
∥Pt (yt - ŷt)2S
dt + ∥PT (yt - ŷt)2S
t
T
0
и утверждать, что второй интеграл, содержащий слагаемые, определяемые
точностью фильтра (15), не зависит от реализуемого управления, а значит,
может быть исключен. Таким образом, для системы с полной информаци-
ей (17), эквивалентной системе наблюдения (9), (1) в смысле разделения за-
дач управления и фильтрации, можно применять функционал
T
(
)
(18)
J
UT0
∥Ptŷt + Qtzt + Rtut2S
dt + ∥PT ŷT + QT zT2
t
=E⎩
ST
0
34
Заметим, что здесь имеет место полное (или сильное, как названо в [3])
разделение в том смысле, что в результате разделения остались такими же и
уравнение наблюдений, и выражение целевого функционала.
Выполненные преобразования дают возможность сформулировать сле-
дующее утверждение.
Теорема 2. Решением задачи оптимизации системы (9), (1)
(
)
(U∗∗)T0 = {U∗∗t (z) , 0 ≤ t ≤ T } ∈ argmin J
UT0
(
)
для целевого функционала J
UT0
, заданного в (2), является решение зада-
(
)
чи оптимизации системы (17) для целевого функционала J
UT0
, заданного
в (18).
Данный результат означает, что траектории оптимального управления в
задаче с неполной информацией u∗∗t = U∗∗t (z∗∗t), где через z∗∗t обозначена оп-
тимальная траектория выхода — решение (1), отвечающее ut = u∗∗t, может
быть вычислено как u∗∗t = U∗t (ŷt, z∗∗t) и закон управления U∗t (y, z) определя-
ется теми же соотношениями (4)-(6), т.е., как и предполагает принцип сильно-
го разделения, управление U∗∗t для случая неполной информации получается
из управления U∗t для случая полной информации заменой переменной, соот-
ветствующей состоянию yt, на переменную, соответствующую оптимальной
оценке фильтрации состояния ŷt.
Поскольку состояние ŷt описывается уравнением Ито с винеровским про-
цессом, то задачу управления для (17), (18) можно решать как частный
случай задачи, решенной в [10], причем для варианта с линейным сносом
Φt(y) = ϕty. Единственной особенностью при этом является зависимость воз-
мущений в уравнениях состояния ŷt и наблюдения zt в (17). Нетрудно видеть,
что эта зависимость, точнее равенство, поскольку возмущения в обоих урав-
нениях описываются одним дифференциалом dWt, отражается на уравнении
Беллмана, которое, в отличие от (10), примет вид
{
}
∂Vt
1
2Vt
2Vt
2Vt
+
tr Σ
Σt + σ
σt + 2Σ
σt
+
∂t
2
t ∂z2
t ∂z2
t∂y∂z
(19)
{
}
∂Vt
+ min
yΛt
+ (aty + btz + ctu) ∂Vt
+ ∥Pty + Qtz + Rtu∥2
= 0.
St
u
∂y
∂z
Здесь обозначено Σt = Σt(y) и учтено, что Σt Rny×nz , σt Rnz×nz .
Решение (19) аналогично случаю с независимыми возмущениями находит-
ся в виде
(20)
Vt = zαtz + zβty + Γt
(y)
и отличается тем, что последнее слагаемое Γt(y) упростить не удается. Для
Γt(y) получается уравнение
{
}
Γt
1
2Γt
{
}
Γt
(21)
+
tr Σ
Σt
+ tr
σ′tαtσt + Σ′tβ′tσt
+yΛt
+Nγt
= 0.
∂t
2
t ∂y2
∂y
35
В этом уравнении фигурирует тот же коэффициент Nγt = Nγt(y) из (14),
а упростить его нельзя, во-первых, из-за того, что y здесь принимает про-
извольные значения, а во-вторых, из-за существенно нелинейного характера
Σt(y). Большого значения отличия в выражениях между Γt = Γt(y) из (21) и
Γt(y) = γty из (14) не имеют, так как соотношения и для γt, и для Γt имеют
исключительно академический интерес и не влияют на расчеты при практи-
ческой реализации соответствующих управлений.
Отметим, что полученное решение можно рассматривать как обобщение
результата публикации [3] для критерия (2), т.е. для приложения к задаче
слежения, но терминологические отличия несколько значительнее. В [3] и
более ранних [4, 5] отправной точкой следует считать общие уравнения опти-
мальной фильтрации на основе обновляющих процессов [7], обеспечивающие
возможность разделения задач управления и фильтрации. Рассматриваемая
постановка в большей степени порождена задачей с полной информацией [10]
и конструктивной интерпретацией ненаблюдаемого процесса в качестве со-
стояния системы управления, определяющего цель управления, а не возму-
щения, препятствующего достижению цели. Возможно, по этой причине в
упомянутых публикациях отсутствуют прикладные примеры, а оставшийся
материал статьи посвящен детальному рассмотрению именно такого примера.
4. Модель механического привода и демонстрация
возможностей управления
В качестве технической системы, ставшей источником для используе-
мой модели механического привода, выступил мостовой кран или его более
простой вариант — кран-балка. Моделируется управление перемещением по
рельсу крана тележки с закрепленным талем для подъeма груза. Перемещае-
мая тележка обладает значительной инерцией, а целевых положений для ее
размещения конечное число, например линий погрузки-разгрузки или желез-
нодорожных путей. В модели состояние тележки-привода описывается ска-
лярной переменной xt, задающей положение на балке, и регулируемой скоро-
стью vt, определяемой силой, которая линейно зависит от текущего положе-
ния, текущей скорости, неконтролируемого входного воздействия yt (номера
линии погрузки) и управления ut:
dxt = vtdt, t ∈ (0, T ] ,
(22)
dvt = axtdt + bvtdt + cytdt + hutdt +
√gdwt.
Марковская цепь yt имеет три состояния, т.е. ny = 3, yt ∈ {e1, e2, e3}, и по-
стоянную матрицу интенсивностей Λt = Λ. Во всех расчетах использовалась
модель простого процесса рождения-гибели с матрицей интенсивностей
-1/2
1/2
0
Λ=
1/2
-1
1/2
0
1/2
-1/2
и начальным распределением π = (1, 0, 0), т.е. y0 = Y = e1.
36
x, v
x, v
x, v
2,5
2,5
2,5
2,0
2,0
2,0
1,5
1,5
1,5
1,0
1,0
1,0
0,5
0,5
0,5
0
0
0
0,5
5
10
15
20
0,5
5
10
15
20
0,5
5
10
15
20
1,0
t
1,0
t
1,0
t
1,5
1,5
1,5
1
2
1
2
1
2
2,0
2,0
2,0
2,5
2,5
2,5
Рис. 1. Примеры траекторий для модели привода без внешних воздействий:
1 — положение xt, 2 — скорость vt.
Скаляры a, b, h, g и строка (c1, c2, c3) — известные постоянные; wt — стан-
дартный винеровский процесс. Начальные условия x0 и v0 предполагаются
независимыми гауссовскими случайными величинами с нулевым средним и
дисперсиями σ2x и σ2v соответственно.
Нетрудно видеть, что система (22) является устойчивой, если b < 0 и b2+
(
)
0
1
+ 4a < 0, поскольку b и b2 + 4a — собственные числа матрицы
. Сна-
a b
чала рассмотрим поведение именно устойчивого привода, а в разделе 6 оце-
ним возможность управления неустойчивой системой.
Для первого из рассмотренных примеров выбирались следующие парамет-
ры: a = -0,25, b = -0,5, σ2x = 1, σ2v = 1, c1 = c2 = c3 = 0, h = 0.
Этот набор параметров дает иллюстрацию поведения привода, на ко-
торый не действуют внешние воздействия, помимо начального положе-
ния/скорости и возмущения wt, влияние которого сделаем минимальным, по-
ложив g = 0,001 (это позволит дальше лучше иллюстрировать влияние некон-
тролируемого входа yt).
Интегрирование в этом примере и во всех следующих системы (22) выпол-
нено методом Эйлера с шагом 0,001, неявный метод Эйлера с таким же шагом
использовался для приближенного интегрирования (5) и (6) при вычислении
коэффициентов оптимальных управлений.
На рис. 1 показаны примеры траекторий xt и vt, рассчитанных для T = 20.
Такое значение горизонта для модельного примера несколько избыточно, но
в этом примере лучше иллюстрирует завершение переходного процесса.
Теперь изменим параметры, положив c1 = -1,5, c2 = -0,5, c3 = 0,5.
Чтобы показать влияние на траектории xt и vt значений, принимаемых
цепью yt, на графиках с иллюстрациями расчетов следующего примера по-
(
)
казана траектория процесса Cyt для C =
= (-6, -2, 2).
-c1a,-
a
,-c3a
Именно этот процесс представляет ненулевой дрейф xt, который опреде-
ляет входное воздействие yt. Примеры траекторий показаны на рис. 2.
Показанные на рис. 2 траектории vt, реагируя на смену состояния yt, дей-
ствительно направляют xt в сторону дрейфа Cyt. Если бы цепь yt пребывала
в одном состоянии длительное время, то каждый промежуточный переходной
процесс, связанный со сменой состояния yt, приводил бы к стабилизации xt
около Cyt, а vt — около 0. Можно предполагать, ссылаясь на рис. 1, что такая
37
x, v, Сy
x, v, Сy
x, v, Сy
2,5
2,5
2,5
0,5
0,5
0,5
5
10
15
20
5
10
15
20
5
10
15
20
1,5
1,5
1,5
t
t
t
3,5
3,5
3,5
5,5
5,5
5,5
7,5
1
2
3
7,5
1
2
3
7,5
1
2
3
Рис. 2. Примеры траекторий для модели привода с внешним скачкообразным
воздействием: 1 — положение xt, 2 — скорость vt, 3 — дрейф Cyt.
промежуточная стабилизация достигала бы результата в течение 10-15 с, но
характеристики цепи таковы, что ее динамика дождаться этого результата
не дает, на рис. 2 видна скорее тенденция к слежению за дрейфом Cyt, чем
результативность реагирования на изменяющийся вход.
Теперь сформулированную цель слежения в работе механического привода
можно формализовать в целевой функции управления вида
T
(
)
(
)
(23)
J
UT0
|Cyt - xt|2 + R|ut|2
=E⎩
dt.
0
Использованные в приведенных примерах параметры уточняются значе-
ниями h = 1, R = 0,00001, T = 10.
Модель опять исследуется в некоторых “идеальных” условиях малого воз-
мущения
√gdwt и фактически отсутствующего штрафа за энергию R|ut|2,
затрачиваемую на управление. Вычисление в этих условиях траекторий x∗t,
v∗t, u∗t в соответствии с теоремой 1, т.е. в условиях полной информации о со-
стоянии цепи yt, и траекторий x∗∗t, v∗∗t, u∗∗t в соответствии с теоремой 2, т.е.
использование вместо yt оценки фильтра Вонэма ŷt, покажут потенциал до-
стижения цели слежения за положением xt, выраженной функционалом (23).
Заметим, что формальное нарушение системой (22) условия невырожденно-
сти ошибок наблюдений σtσ′t > 0, требуемое для вычисления оценки филь-
трации по формуле (15), не препятствует расчетам, поскольку в рассматри-
ваемой модели ŷt = E {yt | Fzt} = E {yt | Fvt}, т.е. фильтр Вонэма строится по
одному наблюдению vt.
Иллюстрации траекторий x∗t, x∗∗t и v∗t, u∗t, v∗∗t, u∗∗t приведены на рис. 3 и
рис. 4 соответственно. Представленные реализации целевой траектории Cyt
одинаковы в примерах на обоих рисунках.
Отметим, что если на рис. 3 визуально отличить положения x∗t и x∗∗t, от-
вечающие случаям полной и неполной информации, возможно, то скорости
v∗t, v∗∗t и управления u∗t, u∗∗t визуально неразличимы, поэтому на рис. 4 они
показаны одними “общими” линиями. Также на рис. 4 ограничены величи-
ны, представленные по вертикальной оси, потому что u∗t и u∗∗t в моменты
изменения состояний цепи yt достигают значений порядка ±2000, что, конеч-
но, не имеет практического смысла и объясняется малым штрафом R в (23).
38
x, Сy
x, Сy
2,5
2,5
0,5
0,5
0
1
2
3
4
5
6
7
8
9
10
0
1
2
3
4
5
6
7
8
9
10
1,5
t
1,5
t
3,5
3,5
5,5
5,5
1
2
3
1
2
3
7,5
7,5
Рис. 3. Примеры траекторий положения для модели привода в идеальных
условиях: 1 — положение x∗t, 2 — положение x∗∗t, 3 — дрейф Cyt.
v, u, Сy
v, u, Сy
50
50
40
40
30
30
20
20
10
10
0
0
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
10
10
t
t
20
20
30
30
40
40
50
1
2
3
50
1
2
3
Рис. 4. Примеры траекторий скорости и управления для модели привода в
идеальных условиях: 1 — скорости v∗t, v∗∗t, 2 — управления u∗t, u∗∗t, 3 — дрейф
Cyt.
При этом рисунки ожидаемо показывают, что если оптимальному управле-
нию “не мешать” возмущениями и ограничениями на затраты энергии, то
дрейф, определяемый скачками цепи yt, отслеживается очень эффективно, в
том числе в случае неполной информации при малых ошибках наблюдений
оценка фильтрации очень незначительно ухудшает качество оптимального
управления.
Для качественной оценки результатов расчета в “обычных” условиях, пред-
ставленного в разделе 5, помогут следующие значения, вычисленные путем
моделирования и осреднения по пучку из 1000 траекторий, примеры ко-
(
)
(
)
торых показаны на рис. 2-4: J
UT0 |ut = u∗t
= 10,9, J
|ut =u∗∗t
= 11,3,
0
}
(
)
J
UT0 |ut = 0
= 129,2, дисперсия ошибки фильтрации E
|cyt - cŷt|2 , усред-
ненная по t ≤ T , равна 0,0025.
5. Численный пример. Управление траекторией устойчивой системы
В примере 4 вычисления выполнялись в “идеальных” условиях, поэтому
получился результат, иллюстрирующий потенциал управления для модели
39
x, Сy
x, Сy
2,5
2,5
0,5
0,5
0
1
2
3
4
5
6
7
8
9
10
0
1
2
3
4
5
6
7
8
9
10
1,5
t
1,5
t
3,5
3,5
5,5
5,5
1
2
3
1
2
3
7,5
7,5
Рис. 5. Примеры траекторий положения для модели привода в обычных усло-
виях: 1 — положение x∗t, 2 — положение x∗∗t, 3 — дрейф Cyt.
v, Сy
v, Сy
9
9
7
7
5
5
3
3
1
1
1
1
2
3
4
5
6
7
8
9
10
1
1
2
3
4
5
6
7
8
9
10
3
3
t
t
5
5
7
7
9
9
11
11
13
13
15
15
1
2
3
1
2
3
17
17
Рис. 6. Примеры траекторий скорости для модели привода в обычных усло-
виях: 1 — скорость v∗t, 2 — скорость v∗∗t, 3 — дрейф Cyt.
u, Сy
u, Сy
50
50
40
40
30
30
20
20
10
10
0
0
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
10
10
t
t
20
20
30
30
40
40
1
2
3
1
2
3
50
50
Рис. 7. Примеры траекторий управления для модели привода в обычных усло-
виях: 1 — управление u∗t, 2 — управление u∗∗t, 3- дрейф Cyt.
механического привода (22). В данном разделе модельный расчет выполнен
в более реалистичных предположениях и сравнение формальных характе-
ристик качества управляемой и неуправляемой систем уже более содержа-
тельно.
Параметры предыдущего расчета уточнены величинами g = 0,1, R =
= 0,001, т.е. погрешность наблюдений и штраф за затраты энергии увели-
40
Сy
Сy
1,5
1,5
1,0
1,0
0,5
0,5
0
1
2
3
4
5
6
7
8
9
10
0
1
2
3
4
5
6
7
8
9
10
t
t
0,5
1
2
0,5
1
2
Рис. 8. Примеры траекторий цепи и оценки фильтрации: 1 — процесс cyt, 2
оценкаt.
чены в 100 раз в сравнении с идеальными условиями раздела 4. Остальные
параметры модели и расчета алгоритмов оставлены неизменными. Моделиро-
вание выполнено 1000 раз, т.е. приведенные характеристики качества управ-
ления и фильтрации получены путем осреднения соответствующих величин
по пучку из 1000 траекторий.
Результаты расчета иллюстрируют рис. 5-7, представляющие по два при-
мера типичных траекторий x∗t и x∗∗t, v∗t и v∗∗t, u∗t и u∗∗t соответственно. Оба
набора примеров отвечают одним и тем же траекториям цепи yt, целевой
дрейф Ctyt повторен на каждом из рисунков.
Анализируя приведенные примеры, можно отметить, что:
реализации траекторий положений привода на рис. 5 подтверждают воз-
можность достаточно эффективно отслеживать дрейф Cyt в условиях и
полной, и неполной информации, но во втором случае разница в результа-
тах уже более чувствительна, чем в предыдущем примере в “идеальных”
условиях;
примеры траекторий скоростей привода на рис. 6 объясняют лучшую ре-
зультативность управления по полной информации тем, что оно более ди-
намично отслеживает изменения состояния цепи yt;
примеры траекторий управлений на рис. 7 дополняют предыдущий тезис
тем, что демонстрируют тенденцию компенсации запаздывающей реак-
ции u∗∗t на смену состояния yt более длительным интервалом активного
воздействия; при этом если цепь прибывает в одном состоянии достаточно
долго, то оба управления успевают стабилизировать привод около нуж-
ной величины дрейфа, а управляющие воздействия привести к нулю (это
особенно хорошо видно в начальной фазе второго примера).
Отметим также, что максимальные абсолютные значения принимаются u∗t
в моменты изменения состояний цепи yt и достигают значений порядка ±100,
максимальные значения u∗t меньше, порядка ±30, но их длительность, т.е.
период активного управления, существенно больше.
Завершит анализ этого примера рис. 8, иллюстрирующий работу фильтра
Вонэма для этих же реализаций yt. Заметим, что цепь на рис. 8 представлена
41
сверткой cyt, задающей силовое воздействие согласно (22), а не формируемым
в результате этого воздействия дрейфом Cyt.
Наконец, интегральные характеристики качества управлений в рассмот-
ренном примере:
J (UT0 | ut = u∗t) = 32,5, J(UT0 | ut = u∗∗t) = 43,0, J(UT0 | ut = 0) = 129,6,
{
}
дисперсия ошибки фильтрации E
|cyt - cŷt|2 , усредненная по t ≤ T , равна
0,077.
6. Пример управления траекторией неустойчивой системы
Вопрос этого раздела статьи — можно ли использовать полученное управ-
ление в системе (22), если она неустойчива, т.е. отказавшись от условий
b < 0 и b2 + 4a < 0. Не обсуждая физический смысл отказа от этих усло-
вий, отметим, что формальных трудностей для этого случая нет из-за линей-
ного представления (22). Например, если в рассмотренном примере вместо
a = -0,25, b = -0,5 положить a = 0,25, b = 0,5, то “вернуться” от неустой-
чивой системы с такими a, b к рассмотренному устойчивому варианту мож-
но простой заменой vt на (-vt), остальные переменные изменятся также
зеркально, а значение целевого функционала останется прежним. Это под-
тверждает и практическая проверка — моделирование в условиях разде-
ла 5, но с параметрами a = 0,25, b = 0,5, приводит с учетом зеркалирова-
ния к тем же результатам, что проиллюстрированы на рис. 5-7, оценки кри-
(
)
(
)
териев J
UT0 |ut = u∗t
и J
UT0 |ut = u∗∗t
совпадают. Из-за неустойчивости
системы, как и следует из формальных соображений, существенно увели-
(
)
чивается только J
UT0 |ut = 0
, траектории xt и vt нестабильны, абсолют-
ные значения растут. При этом скорость, с которой “разваливается” систе-
ма не слишком велика, при достижении горизонта T = 10 значения вели-
чин положения и скорости оказываются порядка нескольких сотен, часть
траекторий за время расчета вообще не успевают сформировать тенденцию
к расхождению.
Однако, несмотря на успешное моделирование примера с a = 0,25, b = 0,5,
потенциальные трудности при практической реализации управления неустой-
чивой системой (22) не представляются исчерпанными. Подтверждает это
следующий пример, в котором применены параметры a = 0,25, b = 5, а все
остальные оставлены неизменными. Сохранение величины a обеспечит этому
примеру с учетом знака те же величины c и C, т.е. тот же порядок значений
для целевого функционала, что даст возможность качественного сравнения
этого примера с предыдущим. Выбор значения b = 5 приводит к тому, что
разойтись за время T = 10 успеют все моделируемые траектории, именно:
расчет показал, что по достижении горизонта все смоделированные траекто-
рии положения достигают величин порядка 1020, 1021, все траектории скоро-
сти — величин порядка 1021, 1022. При этом проблем с реализацией оптималь-
ного управления u∗t нет, но возникли проблемы с реализацией управления u∗∗t,
42
Сy
Сy
1,5
1,5
1,0
1,0
0,5
0,5
0
1
2
3
4
5
6
7
8
9
10
0
1
2
3
4
5
6
7
8
9
10
t
t
0,5
0,5
1
2
3
1
2
3
1,0
1,0
Рис. 9. Примеры траекторий цепи и оценки фильтрации: 1 — оценка cyt, 2
оценкаt, 3 — процесс cyt.
численная схема для которого также оказалась неустойчивой. Причиной это-
го оказалась неустойчивость использованной процедуры приближенного рас-
чета оценки фильтра Вонэма ŷt. Вообще при большом объеме расчетов расхо-
димость нескольких траекторий аппроксимаций ŷt методом Эйлера наблюда-
лась и в предыдущих расчетах, но такие траектории носили исключительный
характер и в окончательных расчетах отсутствовали. Действительно, простая
аппроксимация фильтра Вонэма (15) не гарантирует ни неотрицательности
компонентам вектора ŷt, ни выполнения условия нормировки. О необходи-
мости использования устойчивых схем для аппроксимации ŷt хорошо извест-
но [15]. В данной статье использовалось решение, представленное в публика-
циях [16-18], а именно: аналитическая аппроксимация непрерывной системы
наблюдения дискретной с ограничением учитываемого числа скачков и при-
менением для приближения интегралов квадратур Гаусса. Соответствующая
оценка обозначена yt.
Сначала на рис. 9 проиллюстрированы результаты фильтрации.
Поведение траекторий yt на рис. 9 подтверждает применимость выбран-
ного метода в рассматриваемой задаче, а кроме того, иллюстрирует каче-
ственное отличие yt от простой аппроксимации ŷt, состоящее в том, что тра-
ектории yt выглядят гладкими в сравнении с траекториями ŷt, обладающи-
ми характерным “дрожанием”. Вполне удовлетворительна и об{ективная х}
рактеристика качества yt — дисперсия ошибки фильтрации E
|cyt - cyt
|2 ,
усредненная по t ≤ T , равна 0,11, что сопоставимо с погрешностью фильтра
Вонэма в устойчивом случае раздела 5.
Главное, что видно из рис. 9 — это расхождение траекторий фильтра Вонэ-
ма. Примеры на рис. 9 характеризуют поведение всех без исключения смо-
делированных траекторий ŷt. Раньше или позже, но каждая из траекторий
теряет устойчивость и в конечном итоге нарушает условие неотрицательности
и нормировки. В представленном расчете, чтобы не допустить полное расхож-
дение фильтра, выполнение этих условий проверялось дополнительно и при
их нарушении оценке ŷt искусственно присваивалось значение предельного
(1
распределения π =
,13,13
), т.е.t = 0,5. Оказалось, что дальнейшие на-
3
43
x, Сy
x, Сy
6
6
1
2
3
1
2
3
5
5
4
4
3
3
2
2
1
1
0
1
2
3
4
5
6
7
8
9
10
0
1
2
3
4
5
6
7
8
9
10
1
t
1
t
2
2
Рис. 10. Примеры траекторий положения для неустойчивой модели привода:
1 — положение x∗t, 2 — положение x∗∗t, 3 — дрейф Cyt.
блюдения на такую оценку больше не влияют, что на рис. 9 отвечает прямой
линии на заключительной части траектории ŷt — превращение ее в триви-
альную априорную оценку.
Результаты использования управлений u∗t и u∗∗t с заменой в u∗∗t оценки ŷt
на yt иллюстрируют рис. 10.
Визуально эффективность u∗t и u∗∗t с точки зрения влияния на положение
привода представляется аналогичной рассмотренному устойчивому примеру,
т.е. рис. 5. Объективные характеристики качества управлений в рассмотрен-
(
)
ном примере принимают вполне ожидаемые значения: J
UT0 |ut = u∗t
= 35,1,
(
)
(
)
J
UT0 |ut = u∗∗t
= 48,4. Величина J
UT0 |ut = 0
имеет порядок 1041, 1042,
т.е. практически бессмысленна.
7. Заключение
В постановке задачи, рассмотренной в данной статье, используются типо-
вые понятия теории оптимального управления — линейная система управ-
ления, скачкообразный марковский процесс, квадратичный критерий, а при
решении — традиционные методы — динамическое программирование, прин-
цип разделения. Особенность обеспечивается конструктивной интерпретаци-
ей марковской цепи, которая фактически рассматривается как состояние сто-
хастической системы, наблюдаемое прямо или косвенно, а не как сложное
возмущение. Это позволяет придать нетипичное содержание квадратичному
критерию и использовать его для решения задачи слежения. Действенность
и хорошие прикладные перспективы полученных результатов подтверждают-
ся численным экспериментом, использующим практически содержательную
модель функционирования механического привода.
СПИСОК ЛИТЕРАТУРЫ
1. Elliott R.J., Aggoun L., Moore J.B. Hidden Markov Models: Estimation and Control.
N.Y.: Springer-Verlag, 1995.
2. Bar-Shalom Y., Willett P.K., Tian X. Tracking and Data Fusion: a Handbook of
Algorithms. Storrs, Conn.: YBS Publishing, 2011.
44
3.
Rishel R. A Strong Separation Principle for Stochastic Control Systems Driven by
a Hidden Markov Model // SIAM J. Control and Optimization. 1994. V. 32. No. 4.
P. 1008-1020.
4.
Beneš V. Quadratic Approximation by Linear Systems Controlled from Partial
Observations / Stochastic Analysis. Mayer-Wolf E.; Merzbach E.; Shwartz A., Eds.;
Academic Press, 1991. P. 39-50.
5.
Helmes K., Rishel R. The Solution of a Partially Observed Stochastic Optimal
Control Problem in Terms of Predicted Miss // IEEE Trans. Autom. Control. 1992.
V. 37. No. 9. P. 1462-1464.
6.
Benes V., Karatzas I., Ocone D., Wang H. Control with Partial Observations and
an Explicit Solution of Mortensen’s Equation // Appl Math Optim. 2004. No. 49.
P. 217-239. https://doi.org/10.1007/s00245-003-0788-0
7.
Липцер Р.Ш., Ширяев А.Н. Статистика случайных процессов (нелинейная
фильтрация и смежные вопросы). М.: Наука, 1974.
Liptser R.S., Shiryaev A.N. Statistics of random processes. II. Applications. Berlin:
Springer-Verlag, 2001.
8.
Fleming W.H., Rishel R.W. Deterministic and Stochastic Optimal Control. N.Y.:
Springer-Verlag, 1975.
9.
Athans M., Falb P.L. Optimal Control: An Introduction to the Theory and Its
Applications. N.Y.-Sydney: McGraw-Hill, 1966.
10.
Босов А.В. Задача управления линейным выходом нелинейной неуправляемой
стохастической дифференциальной системы по квадратичному критерию //
Изв. РАН. Теория и системы управления. 2021. № 5. С. 52-73.
Bosov A.V. The Problem of Controlling the Linear Output of a Nonlinear Uncon-
trollable Stochastic Differential System by the Square Criterion // J. Computer and
Systems Sciences International. 2021. V. 60. No. 5. P. 719-739.
11.
Липцер Р.Ш., Ширяев А.Н. Теория мартингалов. М.: Наука, 1986.
12.
Миллер Б.М., Миллер Г.Б., Семенихин К.В. Методы синтеза оптимального
управления марковским процессом с конечным множеством состояний при на-
личии ограничений // АиТ. 2011. № 2. С. 111-130.
Miller B.M., Miller G.B., Semenikhin K.V. Methods to Design Optimal Control
of Markov Process with Finite State Set in the Presence of Constraints // Autom.
Remote Control. 2011. V. 72. No. 2. P. 323-341.
13.
Wonham W.M. On the Separation Theorem of Stochastic Control // SIAM J.
Control. 1968. V. 6. No. 2. P. 312-326.
14.
Фельдбаум А.А. Основы теории оптимальных автоматических систем. 2-е изд.,
испр. и доп. М.: Наука, 1966.
15.
Yin G., Zhang Q., Liu Y. Discrete-time Approximation of Wonham Filters // J.
Control Theory Applications. 2004. No. 2. P. 1-10.
16.
Борисов А.В. Численные схемы фильтрации марковских скачкообразных про-
цессов по дискретизованным наблюдениям II: случай аддитивных шумов // Ин-
форм. и еe примен. 2020. Т. 14. № 1. С. 17-23.
17.
Борисов А.В. L1-оптимальная фильтрация марковских скачкообразных процес-
сов II: численный анализ конкретных схем // АиТ. 2020. № 12. С. 24-49.
Borisov A.V. L1-Optimal Filtering of Markov Jump Processes. II. Numerical
Analysis of Particular Realizations Schemes // Autom. Remote Control. 2020. V. 81.
No. 12. P. 2160-2180.
45
18. Borisov A., Sokolov I. Optimal Filtering of Markov Jump Processes Given
Observations with State-Dependent Noises: Exact Solution and Stable Numerical
Schemes // Mathematics. 2020. V. 8. No. 4 (506).
Статья представлена к публикации членом редколлегии Б.М. Миллером.
Поступила в редакцию 25.11.2021
После доработки 22.12.2021
Принята к публикации 30.12.2021
46