Автоматика и телемеханика, № 11, 2020
© 2020 г. А.В. БОСОВ, д-р техн. наук (abosov@frccsc.ru)
(Институт проблем информатики Федерального исследовательского
центра “Информатика и управление” РАН, Москва;
Московский авиационный институт)
ПРИМЕНЕНИЕ УСЛОВНО-ОПТИМАЛЬНОГО ФИЛЬТРА
ДЛЯ СИНТЕЗА СУБОПТИМАЛЬНОГО УПРАВЛЕНИЯ
В ЗАДАЧЕ ОПТИМИЗАЦИИ ВЫХОДА НЕЛИНЕЙНОЙ
ДИФФЕРЕНЦИАЛЬНОЙ СТОХАСТИЧЕСКОЙ СИСТЕМЫ1
Предложено субоптимальное решение задачи управления для диффу-
зионного процесса Ито и линейного управляемого выхода с квадратичным
критерием качества для случая косвенных наблюдений за состоянием.
Используется полученное ранее решение задачи с полной информацией,
концепция разделения задач управления и фильтрации и метод условно-
оптимальной фильтрации В.С. Пугачева. Предлагается альтернатива тра-
диционному практическому подходу к синтезу субоптимального управле-
ния в задаче с неполной информацией, состоящему в формальной замене
в решении состояния на его оценку. Вместо задачи оптимизации выхо-
да, порождаемого исходной моделью дифференциального уравнения, в
качестве состояния используется оценка условно-оптимального фильтра.
Предложен вариант численной реализации предлагаемого алгоритма на
основе метода Монте-Карло и компьютерного моделирования.
Ключевые слова: стохастическое дифференциальное уравнение; стоха-
стическая дифференциальная система; оптимальное управление; стоха-
стическая фильтрация; условно-оптимальная фильтрация; метод Монте-
Карло.
DOI: 10.31857/S0005231020110033
1. Введение
Рассматриваемая в статье задача может быть отнесена к традиционной
задаче оптимального управления дифференциальными стохастическими си-
стемами. Не претендуя на полный обзор, упомянем некоторые результаты и
методы, важные в контексте данной статьи. Заметим, что рассматриваемая
задача в постановке с полной информацией о состоянии решается классиче-
скими методами, так же как и основанными на них приближенными методами
поиска оптимальных управлений (см., например, [1-3]). Наибольшей полно-
той и результативностью обладает задача управления линейно-гауссовскими
стохастическими системами по квадратичному критерию [4]. Классические
модели и методы сохраняют актуальность и составляют источники вполне
1 Работа выполнена при частичной поддержке Российского фонда фундаментальных
исследований (проект 19-07-00187-A).
32
современных исследований. Например, метод динамического программирова-
ния применяется в [5] для сравнительно нового класса логико-динамических
систем, квадратичный критерий для квазилинейных систем используется,
например, в [6], традиционные описания нелинейных систем управления в
пространстве состояний дополняются альтернативными методами, например
спектральным [7].
Существенно меньшее внимание привлекают постановки, в которых до-
ступность состояния ограничивается. Здесь имеются результаты для моде-
лей, в которых известными предполагается лишь часть координат вектора
состояния (пионерская публикация [8], также см., например, [9, 10]). И, конеч-
но, основополагающее значение имеет теорема разделения задач управления
и фильтрации состояния в классической линейно-гауссовской задаче с мини-
мальными обобщениями на функционал [11] (см. также обзор [12]). Следует
упомянуть также о результатах применения принципа разделения в зада-
чах управления пучками траекторий детерминированных систем [13, 14]. Об-
щая теория стохастического управления для случая косвенных наблюдений
основана на уравнении Дункана-Мортенсена-Закаи, описывающего эволю-
цию апостериорной плотности вероятности и уравнение динамического про-
граммирования в вариационных производных [15], развивался этот подход
в [16-18]. Исследования в этой области остаются актуальными - один из при-
меров современных работ в данной области это решение, полученное в [19]
для модели управляемой марковской цепи.
Практически востребованными являются именно задачи с неполной ин-
формацией о состоянии, с косвенными наблюдениями. В этих задачах ключе-
вую роль играют уже методы стохастической фильтрации. Задача фильтра-
ции, конечно, имеет собственное значение как инструмент обработки резуль-
татов экспериментов, идентификации параметров математических моделей.
Но важна и вспомогательная функция фильтров, оценками которых заменя-
ют значения фазовых координат в синтезированных по полной информации
управлениях. Используемые при этом оценки фильтрации, как правило, не
являются оптимальными. Их характеризуют термином “субоптимальность”,
который означает, что эти оценки, хотя и не являются оптимальными, но
обладают точностью, достаточной для решения некоторого класса практиче-
ских задач оценивания. Такой подход к управлению уместно охарактеризо-
вать как применение принципа разделения, т.е. обособленного решения задач
управления и оценивания состояний с последующим объединением решений,
подсказываемого теоремой разделения [11]. При этом понятие субоптималь-
ности оценок фильтрации уместно распространить и на управление. Разде-
ление, однако, далеко не всегда имеет место, и вопрос о потерях качества
при формальном разделении останется, по-видимому, открытым в обозри-
мом будущем. И это обстоятельство делает актуальным любые альтернатив-
ные подходы к синтезу субоптимальных управлений в задачах оптимизации
нелинейных стохастических систем.
Одна из таких задач и альтернативный формальному разделению под-
ход рассматриваются в данной статье. Это задача оптимизации линейного
выхода, порождаемого состоянием, моделью которого является нелинейное
стохастическое дифференциальное уравнение Ито, по квадратичному крите-
33
рию качества. Используемое оптимальное решение этой задачи [20] в данной
статье анализируется в предположении отсутствия информации о состоянии
и интерпретации имеющегося выхода как косвенных наблюдений. Свойства
квадратичного критерия выглядят хорошим основанием для того, чтобы по-
пытаться разделить задачи управления и фильтрации в стиле классического
подхода [11]. Однако структура оценки оптимальной фильтрации [21] этого
сделать не позволяет, что делает логичным отказ от использования уравне-
ний оптимальной фильтрации. Применение же вместо оптимального фильтра
оценки по методу условно-оптимальной фильтрации (УОФ) В.С. Пугачева
[22] позволяет не только получить практически реализуемый подход к син-
тезу субоптимального управления в рассматриваемой постановке на основе
разделения, но и предложить альтернативный подход, заменив исходную за-
дачу задачей оптимизации выхода, порождаемого оценкой УОФ. Описание
соответствующего алгоритма и варианта его численной реализации и состав-
ляют основную цель статьи.
Изложение организовано следующим образом. Используемый результат
решения рассматриваемой задачи управления для случая полной информа-
ции кратко приведен в разделе 3, вопросам разделения и оптимальной филь-
трации в задаче с косвенными наблюдениями посвящен раздел 4, в разделе 5
описан предлагаемый подход к синтезу субоптимального управления на осно-
ве УОФ. В разделе 2 кратко обсуждается предполагаемая область практиче-
ского применения обсуждаемой постановки, в заключении сформулированы
задачи ближайшей перспективы.
2. Перспективная область практического применения
задачи управления выходом
Задачи стохастического оптимального управления изучаются давно и име-
ют множество прикладных интерпретаций. Сравнительно новую область при-
менения обеспечило развитие информационных технологий (ИТ) и исследо-
вания математических моделей для информационно-телекоммуникационных
систем. Прообразом современных исследований можно, видимо, считать пуб-
ликации [23, 24], предложившие модели для описания функционирования те-
лефонных сетей. Эти простые модели можно рассматривать как прототип
для моделей на основе цепей Маркова [25, 19], используемых для описания
процессов пересылки пакетов в компьютерных сетях, управляемых протоко-
лами стека TCP/IP, в том числе и моделей протоколов на основе скачкообраз-
ных марковских процессов [26, 27]. Использование таких моделей существен-
но усложняется с ростом числа возможных состояний, поэтому применение
в этой области нашли диффузионные аппроксимации [28, 29].
Но одними телекоммуникациями область ИТ не исчерпывается. К друго-
му кругу относятся, например, задачи распределения ресурсов программных
систем. Надо отметить, что понятие ИТ-ресурса имеет довольно специфи-
ческое содержание. Так говорят про сайты, базы данных и банки знаний,
наконец, про вычислительные ресурсы, узлы распределенных систем, компо-
ненты центров обработки данных и т.д. Не все такие ресурсы материальны,
часть - виртуальны по сути (программа, сайт, виртуальная машина, банк дан-
34
ных, поисковый запрос и т.п.). Все такие виртуальные ресурсы, как нетрудно
заметить, объединяет то, что реализуются они некоторыми программными
средствами, системами: или сами являются элементами программ или ими
обслуживаются. В рамках таких программных систем процедуры управле-
ния ресурсами реализуются повсеместно. Традиционные примеры - это мене-
джеры задач, оптимизаторы запросов в системах управления базами данных,
системы балансировки нагрузки [30-32]. В качестве моделей для постановки
задач оптимизации функционирования программных систем, конечно, наи-
более естественными представляются системы массового обслуживания, т.е.
уже упомянутые модели на основе цепей Маркова. Аргумент против этих
моделей тот же - большие значения для числа состояний, принимающие в
реальных задачах значения порядка сотен тысяч и более, например, если
речь идет об обработке пользовательских запросов в часы пиковых нагрузок.
К применению альтернативного описания процессов в таких задачах в фор-
ме диффузионной аппроксимации подталкивают хорошо известные класси-
ческие результаты о сходимости марковских процессов к диффузионным [34].
А практическую применимость такого подхода к моделированию процессов в
ИТ показывают, например, уже цитированные публикации [28, 29], иниции-
рованные тем же обстоятельством - значительным ростом числа состояний
цепи из-за роста числа пакетов, обслуживаемых сетевым протоколом.
Таким образом, обозначая распределение ресурсов программной системы
в качестве области для практического применения рассматриваемой в дан-
ной статье задачи оптимизации, можно обоснованно использовать в качестве
модели состояния такой системы (переменой, характеризующей число поль-
зователей, запросов, буферов памяти, процессорного времени и т.п.) диффу-
зионный процесс, описываемый стохастическим дифференциальным уравне-
нием Ито. При этом под объемом ресурсов можно понимать линейное выра-
жение, связывающее состояние и переменную, определяющую активное дей-
ствие программной системы - объем выделенных или освобожденных ресур-
сов. Наконец, надо заметить, что рассматриваемая задача порождена именно
такой практической интерпретацией, представленной в [35] для случая дис-
кретного времени.
3. Постановка и решение задачи управления выходом
Решение рассматриваемой в данной статье задачи управления линейным
выходом стохастической дифференциальной системы по квадратичному кри-
терию качества при наличии полной информации получено в [20] для ска-
лярного случая. Используя здесь этот результат, отметим, что метод УОФ
ограничений на размерности системных переменных не предъявляет, поэто-
му рассмотрение скалярной постановки не ограничит его применимость в
дальнейшем, а для целей данной статьи скалярного случая достаточно. В об-
суждаемой постановке задачи управления выходом используются описывае-
мые уравнениями Ито переменная состояния yt и связанный с ней линейно
выход zt:
(1)
dyt = At (yt) dt + Σt (yt) dvt, y0
= Y,
(2)
dzt = atytdt + btztdt + ctutdt + σtdwt, z0
= Z,
35
где vt, wt
стандартные независимые винеровские процессы, начальные
условия Y , Z независимые друг от друга и от vt, wt случайные величины
с конечным вторым моментом. Предполагается, что функции At, Σt удовле-
творяют условиям Ито [3]
|At (y)| + |Σt (y)| ≤ C (1 + |y|) для всех
0≤t≤T, y∈R1,
|At (y1) - At (y2)| + |Σt (y1) - Σt (y2)| ≤ C|y1 - y2|
для всех
0≤t≤T и y1,y2 ∈R1,
обеспечивающим существование единственного решения уравнения
(1),
функции at, bt, ct, σt являются ограниченными, процесс управления ut - до-
пустимым неупреждающим [3]. Предположение наличия полной информации
о состоянии yt и выходе zt означает, что допустимое управление ищется в
классе Fy,zt-измеримых неупреждающих функций (далее через Fxt обознача-
ется σ-алгебра, порожденная компонентами xs, 0 ≤ s ≤ t), обеспечивающих
существование решения (2).
Оптимизируется квадратичный целевой функционал вида:
T
(
)
(
)
(3) J
UT0
St(styt - gtzt - htut)2 + Gtz2t + Htu2
dt +
t
=E
0
+ ST(sTyT - gTzT)2 + GTz2
,
UT0 = {ut, 0 ≤ t ≤ T},
T
где St, Gt, Ht - неотрицательные ограниченные функции.
Такой функционал отражает практическое содержание обсуждаемой вы-
ше задачи распределения ресурсов. Так, (3) позволяет ставить задачи от-
слеживания выходом состояния (yt - zt)2 или управлением выхода (zt - ut)2,
учитывая при этом расходы на управляющее воздействие u2t и/или значение
выходной переменной z2t.
Решение задачи дает метод динамического программирования. Удается
показать, что функция Беллмана имеет вид Vt (y, z) = αtz2 + βt(y)z + γt(y).
Задача, таким образом, сводится к выводу уравнений для коэффициентов αt,
βt(y), γt(y), который выполнен в [20]. Именно: для коэффициента αt получено
уравнение Риккати, для коэффициентов βt(y), γt(y) - линейные дифференци-
альные уравнения в частных производных второго порядка параболического
типа, при этом оптимальным оказалось управлением с обратной связью
1(
)-1
(4)
u∗t = u∗t(yt,zt) = -
Sth2t + Ht
(ct(2αtzt + βt(yt)) + 2St(styt - gtzt)ht
).
2
Постановка рассматриваемой далее задачи включает те же элементы
(1)-(3) с тем отличием, что допустимыми считаются управления из класса
F zt -измеримых неупреждающих функций, т.е. в отношении переменной со-
стояния yt отсутствует точная информация, а выходная переменная zt ин-
терпретируется как косвенное наблюдение.
36
4. Управление на основе принципа разделения
В данном разделе дополнительно используется обозначение E{ |Fxt} -
условное математическое ожидание относительно Fxt.
Согласно классической теореме разделения в линейно-гауссовской стоха-
стической системе [11] задачу управления можно решать в два этапа: сначала
решить задачу с полной информацией, определившись с законом управления
в форме обратной связи от текущего состояния, затем решить задачу филь-
трации и заменить полученной оценкой состояние в решении задачи управ-
ления по полной информации. В рассматриваемой здесь задаче имеется ре-
зультат для случая полной информации u∗t = u∗t(yt, zt), оценка фильтрации
пусть будет обозначена через yt = E {yt |Fzt }, а соответствующее управление
ust = u∗t(yt,zt) следует интерпретировать как субоптимальное решение рас-
сматриваемой задачи с неполной информацией, полученное согласно принци-
пу разделения (индекс s принят от английского separation). Обозначение yt
для оптимальной оценки вместо традиционного yt использовано здесь с це-
лью сохранить последнее для обозначения оценки УОФ. При этом задача
фильтрации, т.е. вычисления yt, не совсем “отделена” от задачи управления,
так как имеется зависимость оценки yt от реализуемого закона управления,
поскольку ut явно входит в уравнение (2) для zt. Более того, это делает воз-
можным наличие в задаче дуального эффекта [36], т.е. влияния закона управ-
ления на качество оценивания состояния. Этот аспект в задаче оценивания
состояния (1) по наблюдениям (2) требует отдельного обсуждения. В рамках
обсуждения, во-первых, предлагается выполнить замену переменных в (2),
избавляясь от слагаемых btztdt и ctutdt. Для выполнения замены обозначим
t
t
Bt = exp
- bsds
и
zt = Btzt - Bscsusds.
0
0
Учитывая далее, что dBt = -btBtdt, получаем dzt = atBtytdt + σtBtdwt или
(5)
dzt = atytdt + σtdwt
с дополнительными обозначениями at = atBt, σt = σtBt. Выполненные преоб-
разования при этом не {лиют}на решение задачи фильтрации в том смысле,
Fz
что yt = E {yt |Fzt } = E
yt
, поскольку использованная для получения zt
t
замена является линейным невырожденным преобразованием zt.
Таким образом, yt не зависит от ut, и в качестве наблюдений можно исполь-
зовать zt, получая одну и ту же оценку состояния для любого допустимого
управления. Соответственно вместо задачи оценивания состояния по наблю-
дениям zt, зависящим от реализуемого закона управления, можно рассматри-
вать эквивалентную задачу оценивания yt по наблюдениям zt, описываемым
уравнением (5) и не зависящим от ut.
Второй обсуждаемый аспект разделения - это вычисление оптимальной
оценки состояния системы (1) по наблюдениям (5). Наложенные выше огра-
ничения обеспечивают существование этой оценки и принципиальную воз-
можность использования для нее общих уравнений нелинейной фильтрации
37
на основе обновляющих процессов [21], имеющих в рассматриваемом случае
вид
Σt
(6)
dyt
Atdt +
dvt,
y0
= E{Y },
σt
где
{
}
{
}
At = E At (yt)
Fz
t
,
Σt = atE yt (yt - yt)
Fz
t
,
(
)
1
dvt =
dzt - atytdt
σt
Обновляющий процесс vt является стандартным винеровским относитель-
но Fzt.
Разделяя задачи, следует рассматривать (6) как уравнение состояния, учи-
тывая, что наблюдения (5) переписывается в виде
(7)
dzt = atytdt + σtdvt,
z0
= Z.
Таким образом, имеются уравнение состояния (6) для переменной yt и ли-
нейное уравнение наблюдения (7) для переменной zt, которые можно исполь-
зовать для постановки эквивалентной задачи оптимизации линейного выхода
по полной информации. Поддерживает это и возможность представления це-
левого функционала (3) в виде
T
∫
(
)
(
)
J
UT0
St (styt - gtzt - htut)2 + Gtz2t + Htu2
dt+
t
=E
0
+ ST (sT yT - gTzT)2 + GTz2
+
T
∫T
)2
+EStst(yt -yt)2dt+STsT (yt -yT
0
(
)
t
Здесь оставлена без замены переменная zt = B-1t
zt +
Bscsusds , ко-
0
торую не трудно выполнить, дополнив выход вспомогательной переменной,
но главное - это выделено второе слагаемое, определяющее вклад в целевой
функционал ошибки оценивания, который можно исключить из эквивалент-
ной оптимизационной постановки.
Перечисленное исчерпывает обсуждение принципа разделения в рассмат-
риваемой задаче, поскольку, даже сохранив структуру наблюдений и целевого
функционала, получить уравнение оценки в дифференциальной форме (1) не
удастся, а значит, отсутствует главное условие разделения - готовое решение
задачи управления по полной информации. Единственным результатом об-
суждения можно считать предположение о целесообразности использования
38
в рассматриваемой задаче управления оценки фильтрации и если эта оценка
будет неоптимальной, то результат управления будет тем лучше, чем ближе
оценка к оптимальной. В отношении же управления ust остается заметить, что
оно было бы оптимальным для задачи с полной информацией с состоянием yt
вида dyt = At (yt) dt +Σt(yt
dvt, выходом (2) и целевым функционалом (3). Та-
t
кое уравнение состояния можно интерпретировать как нулевое приближение
решения задачи оптимальной фильтрации (6).
5. Управление на основе условно-оптимального фильтра
Основной проблемой реализации принципа разделения в рассматриваемой
задаче все-таки представляются сложности реализации оптимальной оцен-
ки yt. Отказаться от нее предлагается в пользу решения задачи оценивания
методом УОФ В.С. Пугачева [22]. Условно-оптимальная оценка yt состояния
системы (1) по наблюдениям (5), не зависящим от выбора допустимого управ-
ления, ищется в виде
(8)
dyt = αtξt (yt, zt) dt
βtζt (yt, zt)dzt + γtdt,
y0
= E{Y },
где αt,
βt, γt - ограниченные функции времени, выполняющие роль парамет-
ров, функции ξt (y, z) и ζt (y, z) - заданные структурные функции, выбирае-
мые из эмпирических соображений. Будем предполагать, что для обеспечения
условий существования решения (8) на структурные функции ξt, ζt наложены
те же ограничения, что и в (1), т.е.
t (y, z)| + |ζt (y, z)| ≤ C (1 + |y| + |z|) для всех
0≤t≤T, y,z∈R1,
t (y1, z1) - ξt (y1, z1)| + |ζt (y1, z1) - ζt (y2, z2)| ≤ C (|y1 - y2| + |z1 - z2|)
для всех
0≤t≤T и y1,y2,z1,z2 ∈R1.
Рекомендации в части выбора структурных функций для рассматрива-
емой модели наблюдения можно, например, сформулировать на основании
структуры оптимальной оценки (6), а именно положить
Σt (yt)
ξt = At (yt) -
atyt
σ2
t
и
Σt (yt)
ζt =
,
σ2
t
т.е. искать оценку УОФ в виде
(
)
Σt (yt)
Σt (yt)
(9)
dyt = αt At (yt) -
atyt dt +βt
dzt + γtdt,
y0
= E{Y }.
σ2t
σ2
t
При этом коэффициенты αtt, γt УОФ выбираются так, что обеспечива-
ют оценке фильтра (9) несмещенность и гарантированное качество, лучшее
39
на некотором классе допустимых фильтров [22]. Такой выбор структурных
функций обосновывается представлением оценки УОФ (9) в виде
)
)
Σt (yt)
(1(
dyt = (αtAt (yt) + γt) dt +
βtdzt - αtat ytdt
,
σt
σt
воспроизводящем структуру оптимального фильтра (6). Другое представле-
ние (9)
(
)
(
t(yt)
dyt =
αtAt (yt) +
βt - αt
atyt + γt dt +
σ2
t
(10)
(
)
Σt (yt)
1
t
(dzt - at ytdt)
σt
σt
позволяет предложить замену в рассматриваемой задаче управления уравне-
нию состояния, положив
(
)
(
) Σt (yt)
Σt (yt)
(11)
dyt =
αtAt (yt) +
βt - αt
atyt + γt dt +βt
dvt
σ2t
σt
при сохранении выхода (2) и целевого функционала (3) и предполагая нали-
чие полной информации. Такое представление уравнения состояния основано
на аппроксимации процесса dvt =1̃σ
(dzt - atytdt) стандартным винеровским
t
процессом vt. Последнее точно имеет место в случае оптимального филь-
тра yt, а значит, можно рассчитывать на качественную аппроксимацию в
случае, когда оценка УОФ yt близка к оптимальной yt.
Таким образом, по аналогии с управлением ust получается еще один ва-
риант неформального применения принципа разделения - субоптимальное
управление uct вида uct = u∗t(yt, zt), где yt - оценка УОФ (10), u∗t определено
соотношением (4) - решением исходной задачи оптимизации с полной инфор-
мацией для состояния yt, заданного уравнением (11), т.е. в уравнениях для
(
)
коэффициентов αt, βt (y) вместо At (yt) используется αtAt (yt) +
βt - αt
×
×Σt(yt)
atyt + γt, а вместо Σt (yt) используетсяβt(yt) .̃σ
σ2t
t
Нетрудно видеть, что для использования имеющегося решения (4) требу-
ется, чтобы коэффициенты αtt, γt в уравнении (11) были заданы. Соответ-
ствующие соотношения для УОФ приведены в [22]. Соотношения представля-
ют собой комбинации моментных характеристик состояния yt, наблюдений zt,
структурных функций ξt, ζt и не зависят, как показано выше, от реализуе-
мого закона управления ut, т.е. могут быть вычислены заранее, отдельно от
расчетов в целях управления.
6. Численная реализация управления uct
Подведем итог рассуждениям раздела 5, перечислив формальные шаги,
выполняемые для реализации варианта управления uct для субоптимального
40
решения исходной задачи оптимизации, включающей уравнение (1) ненаблю-
даемого состояния, уравнение (2) выхода, псевдонаблюдения (5) и целевой
функционал (3), минимизируемый на классе Fzt-измеримых неупреждающих
управлений.
Шаг 1. Рассматривается вспомогательная задача УОФ для системы на-
блюдения и фильтра вида:
dyt = At (yt) dt + Σt (yt) dvt, y0 = Y,
dzt = atytdt + σtdwt, z0 = Z,
(12)
dyt = αtξt (yt) dt +βtζt (yt)dzt + γtdt,
y0 = E{Y } ,
Σt (yt)
Σt (yt)
ξt (yt) = At (yt) -
at yt, ζt (yt) =
,
σ2t
σ2
t
{
}
t
где обозначено at = atBt, σt = σtBt, Bt = exp
-
bsds
0
Решение - коэффициенты αt
βt, γt УОФ определяются системой урав-
нений (это частный случай решения задачи УОФ для системы наблюдения
общего вида [22])
γt = E {At} - αtE {ξt}
βtatE{yt},
{
}
βt = atE{(yt - yt)ytζt}
σ2tE
ζ2t
,
(
)
∂ξt
1
2ξt
(yt - yt)
+
tζtσt)2
+
∂t
2∂(yt)2
(13)
)
∂ξt (
+ (yt - yt)
E {At} +βtatζtyt
-
E
∂yt
(
)
∂ξt
 -
tζtσt)2 + ξt At
βtatζtyt
∂yt
αt =
{
}
,
E ξtξt - (yt - yt)∂ξtξt
∂ yt
где At = At (yt), At = At - E {At}, ξt = ξt (yt), ξt = ξt - E {ξt}, ζt = ζt (yt),
ζtyt = ζtyt - E{ζtyt}.
В качестве численной реализации вычислений (13) предлагается исполь-
зовать метод Монте-Карло и компьютерное моделирование. Для этого ин-
тервал управления [0, T ] следует разбить на отрезки равной (для просто-
ты) малой длины Δt и смоделировать пучок траекторий для yt и zt, заме-
нив уравнения (12) их разностным аналогом, используя любую (предпочти-
тельно явную) схему численного интегрирования [37]. Для вычисления ко-
эффициентов αt
βt, γt в (13) в правой части использовать уже вычисленные
αt-Δt
βt-Δt, γt-Δt, операции E{ } заменять их статистическим аналогом,
для чего использовать смоделированный пучок траекторий переменных yt, zt
и вычисленные с помощью αt-Δt
βt-Δt, γt-Δt приближенные оценки yt.
41
Шаг 2. Рассматривается вспомогательная задача управления с целевым
функционалом (3), наблюдаемым состоянием и линейным выходом вида
(
)
(
) Σt (yt)
Σt (yt)
dyt =
αtAt (yt) +
βt - αt
atyt + γt dt +βt
dvt,
(14)
σ2t
σt
dzt = atytdt+btztdt + ctutdt + σtdwt,
в которой используются вычисленные на шаге 1 коэффициенты αt
βt, γt.
Решение - коэффициенты αt, βt (y), формирующие закон управления u∗t =
= u∗t(yt,zt) согласно (4) вычисляются любым численным методом [38].
Шаг 3. Формируется расширенная модель для исходной задачи, вклю-
чающая уравнение состояния (1), линейный выход (2) и псевдонаблюде-
ния (6). Предложенный вариант управления uct вычисляется по формуле (4)
uct = u∗t(yt,zt), где используются параметры управления αt, βt (y), вычислен-
ные на шаге 2, и оценка УОФ yt по наблюдениям zt с коэффициентами
αtt, γt, вычисленными на шаге 1.
Заметим, что в [38] имеется значительный иллюстративный материал и
обсуждаются различные практические детали реализации данного алгоритма
в постановке с полной информацией.
7. Заключение
В статье на примере решенной задачи оптимизации линейного выхода
нелинейной дифференциальной системы по квадратичному критерию обсуж-
дается возможность приближенного решения аналогичной задачи для случая
неполной информации о состоянии. На основе концепции разделения задач
управления и фильтрации предложено два варианта субоптимального управ-
ления: путем формального разделения задач и на основании альтернатив-
ного представления переменной состояния, использующего метод условно-
оптимальной фильтрации состояний стохастических дифференциальных си-
стем наблюдения В.С. Пугачева. Любой из предложенных вариантов потре-
бует существенных усилий для численной реализации, детализации и адап-
тации приведенного в статье принципиального алгоритма расчета управле-
ния uct и значительных вычислительных ресурсов. Практическая реализация
описанных алгоритмов и апробация их для оптимизации функционирования
программных систем, хотя бы в рамках модельных экспериментов, - ближай-
шая перспектива.
СПИСОК ЛИТЕРАТУРЫ
1. Kushner H.J., Dupuis P.G. Numerical methods for stochastic control problems in
continuous time. N.Y.: Springer-Verlag, 2001.
2. Bertsekas D.P. Dynamic programming and optimal control. Cambridge: Athena Sci-
entific, 2013.
3. Флеминг У., Ришел Р. Оптимальное управление детерминированными и стоха-
стическими системами / Пер. с англ. М.: Мир, 1978.
Fleming W.H., Rishel R.W. Deterministic and stochastic optimal control. N.Y.:
Springer-Verlag, 1975.
42
4.
Athans M. Editorial on the LQG Problem // IEEE Trans. Automat. Control. 1971.
V. 16. No. 6. P. 528-552.
5.
Бортаковский А.С. Достаточные условия оптимальности управления переклю-
чаемыми системами // Изв. РАН. Теория и системы управления. 2017. № 4.
С. 86-103.
Bortakovskii A.S. Sufficient Optimality Conditions for Controlled Switched Sys-
tems // J. Comput. Syst. Sci. 2017. V. 56. No. 4. P. 636-651.
6.
Хрусталёв М.М., Онегин Е.Е. Необходимые и достаточные условия в задаче
оптимальной стабилизации квазилинейных стохастических систем // АиТ. 2019.
No. 7. С. 89-104.
Khrustalev M.M., Onegin E.E. Necessary and Sufficient Conditions for Optimal Sta-
bilization of Quasi-linear stochastic Systems // Autom. Remote Control. 2019. V. 80.
No. 7. P. 1252-1264.
7.
Пантелеев А.В., Рыбаков К.А. Синтез оптимальных нелинейных стохастиче-
ских систем управления спектральным методом // Информатика и ее примене-
ния. 2011. Т. 5. Вып. 2. С. 69-81.
8.
Fleming W.H. Stochastic Control of Partially Observable Diffusions // SIAM J.
Control. 1968. V. 6. No. 2. P. 194-214.
9.
Хрусталев М.М. Синтез оптимальных и устойчивых управляемых стохастиче-
ских систем при неполной информации о состоянии на неограниченном интер-
вале времени // АиТ. 2011. No. 11. С. 174-190.
Khrustalev M.M. Optimal and Stable Controllable Stochastic Systems Synthesis with
Incomplete State Information on an Unbounded Time Interval // Autom. Remote
Control. 2011. V. 72. No. 11. P. 2379-2394.
10.
Пантелеев А.В., Рыбаков К.А. Приближенный синтез оптимальных непрерыв-
ных стохастических систем управления с неполной обратной связью // АиТ.
2018. No. 1. С. 130-146.
Panteleev A.V., Rybakov K.A. Optimal Continuous Stochastic Control Systems with
Incomplete Feedback: Approximate Synthesis // Autom. Remote Control. 2018.
V. 79. No. 1. P. 103-116.
11.
Wonham W.M. On the Separation Theorem of Stochastic Control // SIAM J. Con-
trol. 1968. V. 6. No. 2. P. 312-326.
12.
Georgiou T.T., Lindquist А. The Separation Principle in Stochastic Control, redux //
IEEE Trans. Automat. Control. 2013. V. 58. No. 10. P. 2481-2494.
13.
Бортаковский А.С., Немыченков Г.И. Оптимальное в среднем управление де-
терминированными переключаемыми системами при наличии дискретных из-
мерений // Изв. РАН. Теория и системы управления. 2019. No. 1. С. 52-77.
Bortakovskii A.S., Nemychenkov G.I. Optimal in the Mean Control of Deterministic
Switchable Systems Given Discrete Inexact Measurements // J. Comput. Syst. Sci.
2019. V. 58. No. 1. P. 50-74.
14.
Давтян Л.Г., Пантелеев А.В. Метод параметрической оптимизации нелиней-
ных непрерывных систем совместного оценивания и управления //Изв. РАН.
Теория и системы управления. 2019. No. 3. С. 34-47.
Davtyan L.G., Panteleev A.V. Method of Parametric Optimization of Nonlinear Con-
tinuous Systems of Joint Estimation and Control // J. Comput. Syst. Sci. 2019. V. 58.
No. 3. С. 360-373.
15.
Mortensen R.E. Stochastic Optimal Control with Noisy Observations // Int. J. Con-
trol. 1966. V. 4. No. 5. P. 455-464.
43
16.
Bensoussan A. Stochastic control of partially observable systems. Cambridge: Cam-
bridge University Press, 1992.
17.
Davis M.H.A., Varaiya P.P. Dynamic Programming Conditions for Partially Ob-
servable Stochastic Systems // SIAM J. Control. 1973. V. 11. No. 2. P. 226-262.
18.
Benes V.E., Karatzas I. On the Relation of Zakai’s and Mortensen’s Equations //
SIAM J. Control Optim. 1983. V. 21. No. 3. P. 472-489.
19.
Миллер Б.М., Авраченков К.Е., Степанян К.В., Миллер Г.Б. Задача оптималь-
ного стохастического управления потоком данных по неполной информации //
Пробл. передачи информ. 2005. Т. 41. No. 2. С. 89-110.
Miller B.M., Avrachenkov K.E., Stepanyan K.V., Miller G.B. The Problem of Opti-
mal Stochastic Data Flow Control Based Upon Incomplete Information // Problems
Inform. Transmission. 2005. V. 41. No. 2. P. 150-170.
20.
Босов А.В., Стефанович А.И. Управление выходом стохастической дифферен-
циальной системы по квадратичному критерию. I. Оптимальное решение мето-
дом динамического программирования // Информатика и ее применения. 2018.
Т. 12. Вып. 3. С. 99-106.
21.
Липцер Р.Ш., Ширяев А.Н. Статистика случайных процессов (нелинейная
фильтрация и смежные вопросы). М.: Наука, 1974.
Liptser R.S., Shiryaev A.N. Statistics of random processes. II. Applications. Berlin:
Springer-Verlag, 2001.
22.
Пугачев В.С., Синицын И.Н. Стохастические дифференциальные системы. Ана-
лиз и фильтрация. М.: Наука, 1990.
Pugachev V.S., Sinitsyn I.N. Stochastic differential systems. Analysis and filtering.
Chichester-N.Y.: Wiley & Sons, 1987.
23.
Gilbert E.N. Capacity of a Burst-noise Channel // Bell Syst. Tech. J. 1960. V. 39.
P. 1253-1265.
24.
Elliott E.O. Estimates of Error Rates for Codes on Burst-noise Channels // Bell
Syst. Tech. J. 1963. V. 42. P. 1977-1997.
25.
Altman E., Avrachenkov K., Barakat C. TCP in Presence of Bursty Losses // Per-
form. Evaluation. 2000. V. 42. P. 129-147.
26.
Borisov A., Bosov A., Miller G. Modeling and Monitoring of RTP Link on the
Receiver Side // Lect. Notes Comput. Sci. 2015. V. 9247. P. 229-241.
27.
Борисов А.В. Применение методов оптимальной фильтрации для оперативно-
го оценивания состояний сетей массового обслуживания // АиТ. 2016. No. 2.
С. 115-141.
Borisov A.V. Application of Optimal Filtering Methods for On-line of Queueing
Network States // Autom. Remote Control. 2016. V. 77. No. 2. P. 277-296.
28.
Whitt W. Stochastic-process limits. An introduction to stochastic-process limits and
their application to queues. N.Y.: Springer, 2002.
29.
Bohacek S. A Stochastic Model of TCP and Fair Video Transmission // 22nd Annual
Joint Conf. of the IEEE Computer and Communications (INFOCOM) Proc. IEEE,
2003. V. 2. P. 1134-1144.
30.
Таненбаум Э.С., Вудхалл А.С. Операционные системы. Разработка и реализа-
ция / Пер. с англ. 3-е изд. СПб.: Питер, 2007.
Tanenbaum A.S., Woodhull A.S. Operating systems: design and implementation.
3rd ed. Upper Saddle River. NJ: Prentice Hall, 2006.
44
31. Дейт К.Дж. Введение в системы баз данных / Пер. с англ. 8-е изд. М.: Вильямс,
2005.
Date C.J. An introduction to database systems. 8th ed. Reading-MA: Addison-
Wesley, 2004.
32. Elsässer R., Monien B., Preis R. Diffusion Schemes for Load Balancing on Hetero-
geneous Networks // Theor. Comput. Syst. 2002. V. 35. No. 3. P. 305-320.
33. Welzl M. Network congestion control. N.Y.: Wiley, 2005.
34. Боровков А.А. Асимптотические методы в теории массового обслуживания. М.:
Наука, 1980.
Borovkov A.A. Asymptotic methods in queuing theory. N.Y.: Wiley, 1984.
35. Босов А.В. Управление линейным выходом дискретной стохастической системы
по квадратичному критерию // Изв. РАН. Теория и системы управления. 2016.
No. 3. С. 19-35.
Bosov A.V. Discrete Stochastic System Linear Output Control with Respect to a
Quadratic Criterion // J. Comput. Syst. Sci. 2016. V. 55. No. 3. P. 349-364.
36. Фельдбаум А.А. Основы теории оптимальных автоматических систем. Изд. 2,
испр. и доп. М.: Наука, 1966.
37. Kloden P.E., Platen E. Numerical solution of stochastic differential equations.
Berlin-Heidelberg: Springer-Verlag, 1992.
38. Босов А.В., Стефанович А.И. Управление выходом стохастической дифферен-
циальной системы по квадратичному критерию. IV. Альтернативное численное
решение // Информатика и ее применения. 2020. Т. 14. Вып. 14. С. 24-30.
Статья представлена к публикации членом редколлегии А.И. Кибзуном.
Поступила в редакцию 02.03.2020
После доработки 20.05.2020
Принята к публикации 09.07.2020
45