Известия РАН. Теория и системы управления, 2023, № 2, стр. 93-107

ОПЕРАТИВНОЕ АБСОЛЮТНО ОПТИМАЛЬНОЕ ДИНАМИЧЕСКОЕ УПРАВЛЕНИЕ СОСТОЯНИЕМ СТОХАСТИЧЕСКОГО ДИФФЕРЕНЦИАЛЬНОГО ОБЪЕКТА ПО ЕГО ВЫХОДУ

Е. А. Руденко a*

a МАИ (национальный исследовательский ун-т)
Москва, Россия

* E-mail: rudenkoevg@yandex.ru

Поступила в редакцию 08.10.2022
После доработки 10.10.2022
Принята к публикации 05.12.2022

Полный текст (PDF)

Аннотация

Рассматривается задача синтеза оптимального в среднем закона управления динамическим объектом, который подвержен действию случайных возмущений, если переменные его состояния измеряются частично или со случайными погрешностями. Используя метод апостериорных достаточных координат, описана сложность построения известного интервально-оптимального регулятора Мортенсена и получен существенно более простой алгоритм нахождения его оперативно-оптимального аналога. Новый регулятор не требует решения в обратном времени соответствующего уравнения Беллмана, так как оптимален в смысле переменного во времени критерия. Это позволяет не учитывать информацию о будущем поведении объекта и сводит процедуру нахождения зависимости управления от достаточных координат к интегрированию в прямом времени уравнения типа Фоккера–Планка–Колмогорова и к решению задачи параметрического нелинейного программирования. Применение полученного алгоритма демонстрируется на примере линейно-квадратично-гауссовской задачи, в результате решения которой сформулирована новая оперативная версия известной теоремы разделения. Она представляет стохастическое устройство управления как соединение линейного фильтра Калмана–Бьюси и линейного оперативно-оптимального позиционного регулятора. Последний отличается от традиционного интервально-оптимального регулятора известностью своего коэффициента усиления и не требует решения в обратном времени соответствующего матричного уравнения Риккати.

Введение. Как известно, решением задачи синтеза управления объектом, оптимального в среднем и на определенном интервале времени, в случае отсутствия точных измерений всех переменных его состояния является динамическое преобразование измерений в управление [16]. Оно состоит из инерционного стохастического фильтра Стратоновича, который накапливает информацию об измерениях, преобразуя их в апостериорную плотность вероятности неизмеряемого вектора состояния объекта, и безынерционного детерминированного регулятора Мортенсена, который в каждый момент времени вычисляет управление по сечению (мгновенному виду) апостериорной плотности в этот момент времени. На такой закон управления никакие ограничения вроде объема используемой памяти и скорости обработки измерений не накладываются. Поэтому будем называть подобные устройства управления абсолютно оптимальными, подчеркивая этим их способность обеспечивать достижение глобального экстремума соответствующего критерия качества управления. Эффективность же других устройств, учитывающих какие-либо ограничения, например конечномерность [7], будет заведомо хуже, но при их лучшей реализуемости.

Однако процедура построения интервально-оптимального регулятора Мортенсена весьма сложна из-за необходимости находить функционал от апостериорной плотности. В этом случае метод динамического программирования приводит к необходимости решать весьма сложное уравнение Беллмана–Мортенсена в вариационных производных Фреше. Только замена апостериорной плотности вероятности соответствующими ей достаточными координатами (статистиками) неизмеряемого состояния объекта в виде всех его условных моментов, квазимоментов или кумулянтов приводит к поиску функции Беллмана из уравнения в частных производных. Хотя эта функция и имеет бесконечное количество аргументов, но, ограничиваясь достаточными координатами только нескольких младших порядков, можно найти некоторое приближение к абсолютно оптимальному регулятору.

Таким способом в частном случае линейно-квадратично-гауссовской (ЛКГ) задачи неограниченного управления удалось доказать теорему (принцип) разделения [3, 4, 6, 8], согласно которой оптимальное устройство управления Стратоновича–Мортенсена распадается на два легко получаемых и реализуемых блока. Первым из них является линейный стохастический фильтр Калмана–Бьюси, оптимальный в смысле минимума среднего квадрата ошибки оценивания в каждый момент времени. Синтез фильтра сводится к решению независимого от измерений прямого (в прямом времени) дифференциального уравнения Риккати для матрицы ковариаций этой ошибки, которое учитывает только параметры управляемой системы. Второй представляет собой линейный позиционный регулятор, оптимальный в смысле детерминированной версии квадратичного критерия качества управления. Построение этого регулятора требует решения своего обратного (в обратном времени) уравнения Риккати, которое учитывает еще и весовые матрицы критерия. Но нарушение любого из четырех довольно жестких условий этой теоремы приводит к необходимости все же решать уравнение Беллмана.

В работе предлагается более простая процедура синтеза абсолютно оптимального безынерционного регулятора, который тоже использует апостериорные достаточные координаты, но оптимален в несколько другом смысле. Традиционный интервальный критерий оптимальности, обеспечивающий управление объектом на всем заранее заданном интервале времени, а потому от времени не зависящий, заменяется похожим критерием, но зависящим от времени. Это позволяет учитывать информацию только о прошлом и текущем состоянии объекта, оперативно меняя закон управления при чем-либо вызванных изменениях его будущего поведения. Кроме того, переменный критерий оптимальности существенно упрощает процедуру синтеза регулятора, позволяя отказаться от решения уравнения Беллмана. В частности, в доказанной ниже оперативной теореме разделения коэффициент усиления соответствующего линейного позиционного регулятора оказывается известным из условий задачи. Подобный эффект от оперативного критерия в нелинейном детерминированном случае продемонстрирован в [9]. Кроме того, процедура синтеза стохастического оперативно-оптимального конечномерного устройства управления, который учитывает требования к скорости обработки измерений, а потому не является абсолютно оптимальным, описана в [7].

1. Постановки задачи. Рассмотрим две задачи управления динамическими объектами в предположении марковости и диффузионности (отсутствия скачков) их векторов состояния, для описания которых будем использовать стохастические дифференциальные уравнения Ито.

Пусть $t \geqslant 0$ – время, ${{X}_{t}}$n-мерный не измеряемый вектор состояния объекта управления, ${{Y}_{t}}$ – m-мерный вектор его измеряемого выхода, ${{U}_{t}}$$l$-мерный вектор кусочно-непрерывного управления из в общем случае ограниченной области $\Omega $, ${{V}_{t}}$k-мерный вектор непрерывных возмущений в виде центрированного и нормированного белого шума.

1.1. Управление по неполным точным измерениям. Эта задача возникает в случае, когда имеет место парная марковская модель объекта управления в виде системы из двух взаимозависимых уравнений для его общего вектора состояния $({{X}_{t}},{{Y}_{t}})$:

(1.1)
$\begin{array}{*{20}{c}} {{{{\dot {X}}}_{t}} = a(t,{{X}_{t}},{{Y}_{t}},{{U}_{t}})\, + B(t,{{X}_{t}},{{Y}_{t}},{{U}_{t}})\,{{V}_{t}},} \\ {{{{\dot {Y}}}_{t}} = c(t,{{X}_{t}},{{Y}_{t}},{{U}_{t}}) + D(t,{{Y}_{t}},{{U}_{t}})\,{{V}_{t}},} \end{array}\quad \left[ {\begin{array}{*{20}{c}} {{{X}_{0}}} \\ {{{Y}_{0}}} \end{array}} \right] \sim {{p}_{0}}(x,y).$

Здесь и далее производные случайных функций по времени t будем понимать как отношение их стохастического дифференциала Ито вроде $d{{X}_{t}}$ к дифференциалу времени, например ${{\dot {X}}_{t}} = {{d{{X}_{t}}} \mathord{\left/ {\vphantom {{d{{X}_{t}}} {dt}}} \right. \kern-0em} {dt}}$. В этом смысле белый шум является производной ${{V}_{t}} = {{d{{W}_{t}}} \mathord{\left/ {\vphantom {{d{{W}_{t}}} {dt}}} \right. \kern-0em} {dt}}$ соответствующего стандартного винеровского процесса ${{W}_{t}}$.

В (1.1) плотность распределения вероятности ${{p}_{0}}(x,y)$ начальных условий ${{X}_{0}}$, ${{Y}_{0}}$ известна не полностью, а лишь с точностью до условной плотности вероятности ${{\rho }_{0}}\left( {x\,{\text{|}}\,y} \right)$ начального значения неизмеряемого вектора X0, тогда как маргинальная (частная) плотность вероятности ${{q}_{0}}(y)$ измеряемого вектора Y0 может быть произвольной:

(1.2)
${{p}_{0}}(x,y) = {{\rho }_{0}}(x\,{\text{|}}\,y){{q}_{0}}(y)\quad \forall {{q}_{0}}(y).$

Требуется найти не упреждающую зависимость управления Ut объектом (1.1), (1.2) от всех предыдущих измерений $Y_{0}^{t} = \left\{ {{{Y}_{\tau }}\,{\text{|}}\,\tau \in [0,t)} \right\}$ и выполненных управлений $U_{0}^{t} = \{ {{U}_{\tau }}\,{\text{|}}\,\tau \in [0,t)\} $ как такой их функционал:

(1.3)
${{U}_{t}} = \vartheta (t,Y_{0}^{t},U_{0}^{t}),$
который обеспечивает минимум некоторому критерию качества управления состоянием объекта. В зависимости от объема располагаемой информации о процессе управления будем различать два вида таких критериев.

Обычно требуется минимизация постоянного во времени критерия оптимальности, задаваемого как среднее значение полученной на всем заданном отрезке времени $t \in [0,T]$ суммы случайных интегральных и терминальных потерь от управления:

(1.4)
$J[\vartheta ( \cdot )] = {\text{M}}\left[ {\int\limits_0^T {\mu (\tau ,{{X}_{\tau }},{{Y}_{\tau }},{{U}_{\tau }})d\tau } + \nu ({{X}_{T}},{{Y}_{T}})} \right] \to \min \quad \forall {{q}_{0}}(y).$

Здесь М – оператор математического ожидания, конечный момент времени Т будем считать, для простоты, фиксированным, а функции потерь являются неотрицательными $\mu (t,x,y,u) \geqslant 0$, $\nu (x,y) \geqslant 0$. Далее такой критерий будем называть интервальным (И-критерий).

Однако получаемое с его помощью управление (1.3) хоть и является не упреждающим, но в каждый текущий момент времени t требует информации о процессе функционирования объекта и в будущем, на интервале времени (t, T]. Это проявляется в использовании при решении задачи предварительного знания функций его уравнений (1.1) на всем интервале управления $[0,T]$, которое наблюдается при применении соответствующих стохастических версий как принципа максимума Понтрягина, так и метода динамического программирования Беллмана. Более того, функции потерь критерия (1.4) штрафуют и возможное будущее поведение объекта управления. Таким образом, использование критерия (1.4) требует полной информации как об уравнениях объекта, так и функциях потерь критерия оптимальности на всем плановом отрезке времени управления $[0,T]$.

В отличие от такой традиционной постановки задачи управления в последнее время усилился интерес к оптимизации переменного во времени критерия [7, 9]

(1.5)
${{I}_{t}}[\vartheta ( \cdot )] = {\text{M}}\left[ {\int\limits_0^t {\varphi (\tau ,{{X}_{\tau }},{{Y}_{\tau }},{{U}_{\tau }})d\tau } + \psi (t,{{X}_{t}},{{Y}_{t}})} \right] \to \min \quad \forall {{q}_{0}}(y),$
с функциями потерь $\varphi (t,x,y,u) \geqslant 0$, $\psi (t,x,y) \geqslant 0$, который будем называть оперативным (О-критерий). В отличие от И-критерия (1.4) он уже не штрафует неизвестное будущее поведение объекта и, как показало исследование его детерминированного аналога [9], получаемое с его помощью управление не использует информации об этом будущем. В результате внезапно возникшие в уравнениях объекта изменения не требуют пересчета всего закона оптимального управления им, а вид функций потерь $\varphi ( \cdot )$, $\psi ( \cdot )$ этого критерия можно, по мере необходимости, изменять со временем без какого-либо их влияния на предыдущее управление. Применение такого критерия в стохастической задаче синтеза конечномерного динамического устройства управления продемонстрировано в [7].

1.2. Управление по измерениям со случайными погрешностями. Такая более популярная задача возникает, если имеет место скрытая марковская модель объекта управления, когда измеряемый выход ${{Y}_{t}}$ не влияет на неизмеряемое состояние ${{X}_{t}}$. В таком случае система уравнений (1.1) распадается на независящее от измерений ${{Y}_{t}}$ уравнение состояния объекта с полностью известным начальным условием

(1.6)
${{\dot {X}}_{t}} = a(t,{{X}_{t}},{{U}_{t}})\, + B(t,{{X}_{t}},{{U}_{t}})\,{{V}_{t}},\quad {{X}_{0}} \sim {{p}_{0}}(x)$
и зависимое только от состояния ${{X}_{t}}$ и управления ${{U}_{t}}$ уравнение измерителя этого состояния
(1.7)
${{\dot {Y}}_{t}} = c(t,{{X}_{t}},{{U}_{t}})\, + D(t,{{U}_{t}})\,{{V}_{t}},\quad {{Y}_{0}} = 0,$
причем его нулевое начальное условие общности измерений не ограничивает.

Тогда для синтеза закона управления (1.3) только состоянием объекта (1.6) И-критерий (1.4) не должен штрафовать сами измерения, поэтому он принимает вид

(1.8)
$J[\vartheta ( \cdot )] = {\text{M}}\left[ {\int\limits_0^T {\mu (\tau ,{{X}_{\tau }},{{U}_{\tau }})d\tau } + \nu ({{X}_{T}})} \right] \to \min .$

Аналогично изменяется и О-критерий (1.5):

(1.9)
${{I}_{t}}[\vartheta ( \cdot )] = {\text{M}}\left[ {\int\limits_0^t {\varphi (\tau ,{{X}_{\tau }},{{U}_{\tau }})d\tau } + \psi (t,{{X}_{t}})} \right] \to \min .$

Формально уравнения (1.6), (1.7) и критерии (1.8), (1.9) отличаются от системы уравнений (1.1) и критериев (1.4), (1.5) лишь независимостью определяющих их функций от переменной выхода $y$. Поэтому и весь алгоритм решения этой задачи может быть получен из результатов решения предыдущей простым удалением из них этой переменной.

2. Апостериорная плотность и достаточные координаты. Синтез абсолютно оптимального закона управления основан на использовании наиболее полной информации о возможных значениях случайного вектора ${{X}_{t}}$, которая получена в результате всех произведенных к моменту времени t измерений $Y_{0}^{t}$ и выполненных управлений $U_{0}^{t}$. Эта информация содержится в случайных значениях $\rho (t,x\,{\text{|}}\,Y_{0}^{t},U_{0}^{t})$ функционала условной плотности вероятности $\rho (t,x\,{\text{|}}\,y_{0}^{t},u_{0}^{t})$, определенной в результате регистрации измерений $Y_{0}^{t} = y_{0}^{t}$ и управлений $U_{0}^{t} = u_{0}^{t}$. Называемая поэтому апостериорной плотностью вероятности (АПВ), случайная функция

$P(t,x) = \rho (t,x\,{\text{|}}\,Y_{0}^{t},U_{0}^{t})$
удовлетворяет сложному стохастическому интегродифференциальному уравнению (ИДУ) Стратоновича–Кушнера. Последнее является уравнением состояния абсолютно оптимального фильтра (АОФ) Стратоновича, который представляет собой динамическое устройство с распределенными параметрами. Поэтому практическое использование АПВ как функции его состояния весьма затруднительно.

Выход состоит в замене АПВ вектором зависящих только от времени t статистик ${{S}_{t}}$ неизмеряемого вектора ${{X}_{t}}$ в виде числовых характеристик АПВ, называемых достаточными координатами (ДК) [1]. Ими могут быть бесконечные последовательности соответствующих условных моментов, квазимоментов или кумулянтов [10, 11]. Каждая из них, являясь функционалом измерений и управлений, определяется по АПВ с помощью определенной производящей вектор-функции $\xi (x)$ как ее апостериорное среднее:

(2.1)
${{S}_{t}} = \hat {\xi }(t,Y_{0}^{t},U_{0}^{t}) = {\rm M}[\xi ({{X}_{t}})|Y_{0}^{t},U_{0}^{t}] = \int {\xi (x){\rm P}(t,x)dx} .$

Например, производящая функция начальных моментов содержит все степени элементов усредняемого вектора $\xi (x) = {{[{{x}_{i}},\,\,{{x}_{i}}{{x}_{j}},\,{{x}_{i}}{{x}_{j}}{{x}_{k}},\, \ldots ]}_{{i,j,k, \ldots = \overline {1,n} }}}$. Далее символом “” над именами и других функций будем отмечать результаты их апостериорного усреднения:

(2.2)
$\hat {\eta }(t,Y_{0}^{t},U_{0}^{t}) = {\rm M}[\eta \left( {t,x,{{Y}_{t}},{{U}_{t}}} \right)|Y_{0}^{t},U_{0}^{t}] = \int {\eta (t,x,{{Y}_{t}},{{U}_{t}}){\rm P}(t,x)dx} ,$
а подобные интегралы считать определенными, берущимися по всему евклидову пространству соответствующей размерности:

$\int {\alpha (x)\,dx} \triangleq \int\limits_{{{\mathbb{R}}^{n}}} {\alpha (x)\,dx} $.

Восстановление АПВ по ДК выполняется по формуле

(2.3)
$\rho (t,x\,{\text{|}}\,Y_{0}^{t},U_{0}^{t}) = \pi (t,x,{{S}_{t}}),$
где в качестве функции $\pi ( \cdot )$ выступает функциональный ряд Эджворта или Грама–Шарлье.

Второе преимущество ДК, кроме их зависмости только от времени, состоит в возможности “урезания” бесконечных последовательностей квазимоментов или кумулянтов волевым обнулением (отбрасыванием) старших из них, начиная с некоторого порядка $L = 3,4, \ldots $ Это позволяет получать приближенные решения задач, улучшая точность за счет увеличения порядка L. Недостатком такой процедуры является факториально быстрый рост размерности урезанного вектора $S_{t}^{{(L)}}$, определяемый по формуле [10]

$\dim S_{t}^{{(L)}} = n + \frac{{n(n + 1)}}{2} + \frac{{n(n + 1)(n + 2)}}{{3!}} + \ldots + \frac{{n(n + 1) \cdots (n + L - 1)}}{{L!}} = \frac{{(n + L)!}}{{n!L!}} - 1,$
где n – размерность вектора Xt.

Приведем уравнения, которым удовлетворяют ДК в двух рассматриваемых случаях.

2.1. Неполные измерения. Если объект управления определяется соотношениями (1.1), (1.2), то АПВ является решением следующего стохастического ИДУ в частных производных [4, 10, 11]:

(2.4)
$\frac{{\partial {\rm P}(t,x)}}{{\partial t}} = K_{x}^{{{{Y}_{t}},{{U}_{t}}}}[{\rm P}] + \left[ {{{{\left( {c - \hat {c}} \right)}}^{{\text{T}}}}{\rm P} - \nabla _{x}^{{\text{T}}}(\Sigma {\rm P})} \right]{{R}^{{ - 1}}}\left( {{{{\dot {Y}}}_{t}} - \hat {c}} \right)$
с известным начальным условием
(2.5)
${\rm P}(0,x) = {{\rho }_{0}}(x\,{\text{|}}\,{{Y}_{0}})$
и с естественными нулевыми граничными условиями на бесконечности для нее самой $\mathop {\lim }\limits_{\left| x \right| \to \infty } {\rm P}(t,x) = 0$ и для вектора потока ее вероятности $\Pi = a{\rm P} - 0.5{{[\nabla _{x}^{{\text{T}}}(Q{\rm P})]}^{{\text{T}}}}$. Здесь $K_{x}^{{y,u}}$ – прямой производящий дифференциальный оператор Фоккера–Планка–Колмогорова (ФПК) управляемого диффузионного процесса ${{X}_{t}}$, в обозначении которого верхние индексы подчеркивают зависимости его коэффициентов от соответствующих переменных, а нижний – переменную, по которой им осуществляется дифференцирование:
$K_{x}^{{y,u}}[{\rm P}(t,x)] = - \nabla _{x}^{{\rm T}}\left[ {a(t,x,y,u){\rm P}(t,x)} \right] + 0.5{\text{tr}}[{{\nabla }_{x}}\nabla _{x}^{{\rm T}}[Q(t,x,y,u){\rm P}(t,x)]],$
тогда как $Q = B{{B}^{{\text{T}}}},$ $R = D{{D}^{{\text{T}}}},$ $\Sigma = B{{D}^{{\text{T}}}}$ – матрицы условных интенсивностей собственных и взаимных возмущений элементов Xt, Yt вектора состояния объекта (1.1). При этом в уравнении (2.4) функции $a( \cdot ),\,\,c( \cdot ),\,\,Q( \cdot ),\,\,\Sigma ( \cdot )$ зависят от аргументов $(t,x,{{Y}_{t}},{{U}_{t}})$, а не зависят от переменной х только функции $\hat {c} = \hat {c}(t,Y_{0}^{t},U_{0}^{t}),\;R = R(t,{{Y}_{t}},{{U}_{t}})$.

Для нахождения соответствующего уравнения для вектора ДК, определяющего состояние АОФ Стратоновича, продифференцируем по времени его связь с АПВ (2.1) и подставим в нее (2.4). Получаем

${{\dot {S}}_{t}} = \int {\xi (x)\left\{ {K_{x}^{{{{Y}_{t}},{{U}_{t}}}}[{\rm P}] + \left[ {{{{(c - \hat {c})}}^{{\text{T}}}}{\rm P} - \nabla _{x}^{{\text{T}}}(\Sigma {\rm P})} \right]{{R}^{{ - 1}}}({{{\dot {Y}}}_{t}} - \hat {c})} \right\}dx} $
или, учитывая независимость сомножителя ${{R}^{{ - 1}}}({{\dot {Y}}_{t}} - \hat {c})$ от переменной интегрирования,

${{\dot {S}}_{t}} = \int {\xi \,K_{x}^{{{{Y}_{t}},{{U}_{t}}}}[{\rm P}]dx} + \left[ {\int {[\xi {{c}^{{\text{T}}}} - \xi {{{\hat {c}}}^{{\text{T}}}}]{\rm P}dx} - \int {\xi \nabla _{x}^{{\text{T}}}(\Sigma {\rm P})dx} } \right]{{R}^{{ - 1}}}({{\dot {Y}}_{t}} - \hat {c}).$

Избавляясь здесь от частных производных АПВ по х вычислением первого и третьего интеграла по частям, с учетом упомянутых выше нулевых граничных условий для АПВ находим

(2.6)
${{\dot {S}}_{t}} = \int {K_{x}^{{*{{Y}_{t}},{{U}_{t}}}}[\xi ]{\rm P}dx} + [(\widehat {\xi {{c}^{{\text{T}}}}} - \hat {\xi }{{\hat {c}}^{{\text{T}}}}) + \int {\left( {{{\xi }_{x}}\Sigma } \right){\rm P}dx} ]{{R}^{{ - 1}}}\left( {{{{\dot {Y}}}_{t}} - \hat {c}} \right),$
где $K_{x}^{{*y,u}}$ – сопряженный к оператору $K_{x}^{{y,u}}$ обратный производящий оператор процесса Xt: причем результат его действия на вектор-функцию $\xi (x) = {{\left[ {{{\xi }^{{(i)}}}(x)} \right]}_{{i = 1,2, \ldots }}}$ следует понимать поэлементно как $K_{x}^{{*{\kern 1pt} y,u}}[\xi ] = {{[K_{x}^{{*y,u}}[{{\xi }^{{(i)}}}]]}_{{i = 1,2, \ldots }}}$, а ${{\xi }_{x}} = {{({{\nabla }_{x}}{{\xi }^{{\text{T}}}})}^{{\text{T}}}}$ – матрица Якоби первых частных производных вектор-функции $\xi (x)$. Поэлементная запись выражения (2.6) имеет вид
$\dot {S}_{t}^{{(i)}} = \int {K_{x}^{{*y,u}}[{{\xi }^{{(i)}}}]{\rm P}dx + \left[ {(\widehat {{{\xi }^{{(i)}}}{{c}^{{\text{T}}}}} - {{{\hat {\xi }}}^{{(i)}}}{{{\hat {c}}}^{{\text{T}}}}) + \int {[\xi {{{_{x}^{{(i)}}}}^{{\text{T}}}}\Sigma ]{\rm P}dx} } \right]{{R}^{{ - 1}}}({{{\dot {Y}}}_{t}} - \hat {c})} ,\quad i = 1,2, \ldots $,
и при отсутствии управления она совпадает с формулой для стохастического дифференциала апостериорного среднего ${{\hat {\xi }}^{{(i)}}}( \cdot )$, непосредственно полученной в [10, с. 401].

Наконец, заменяя АПВ функцией $\pi ( \cdot )$ ее восстановления (2.3) по ДК, получаем, что апостериорное среднее (2.2) из функционала прошлых измерений и управлений превращается в обычную функцию

(2.7)
$\hat {\eta }(t,y,u,s) = \int {\eta (t,x,y,u)\pi (t,x,s)dx} ,$
а соотношение (2.6) принимает вид искомого уравнения состояния АОФ [4]:

(2.8)
${{\dot {S}}_{t}} = h(t{\text{,}}{{Y}_{t}}{\text{,}}{{U}_{t}}{\text{,}}{{S}_{t}}) + \Theta (t{\text{,}}{{Y}_{t}}{\text{,}}{{U}_{t}}{\text{,}}{{S}_{t}})\left[ {{{{\dot {Y}}}_{t}} - \hat {c}\left( {t,{{Y}_{t}}{\text{,}}{{U}_{t}}{\text{,}}{{S}_{t}}} \right)} \right].$

Здесь функция смещения $h( \cdot )$ и коэффициент усиления измерения $\Theta ( \cdot )$ вычисляются по использующим исходные данные (1.1) формулам

$h(t{\text{,}}y,u,s) = \int {K_{x}^{{*y,u}}[\xi (x)]\pi (t,x,s)dx} ,$
$ \Theta (t{\text{,}}y,u,s) = \left[ {(\widehat {\xi {{c}^{{\text{T}}}}} - \hat {\xi }{{{\hat {c}}}^{{\text{T}}}}) + \int {({{\xi }_{x}}\Sigma )\pi (t,x,s)dx} } \right]{{R}^{{ - 1}}}(t{\text{,}}y,u).$

Начальным же условием для уравнения (2.8) является, согласно (2.1), (2.5), случайная величина

(2.9)
${{S}_{0}} = \hat {\xi }({{Y}_{0}}) = \int {\xi (x){{\rho }_{0}}(x\,{\text{|}}\,{{Y}_{0}})dx} .$

В результате уравнение состояния АОФ из интегродифференциального (2.4) преобразовано в дифференциальное (2.8), что существенно облегчает решение задачи управления.

2.2. Стохастические измерения. Пусть теперь объект управления определяется уравнениями (1.6), (1.7). Тогда из-за независимости их функций $a( \cdot ),\,\,B( \cdot ),\,\,c( \cdot ),\,\,D( \cdot ),\,\,{{p}_{0}}( \cdot )$ от вектора измерений ${{Y}_{t}}$ уравнение состояния АОФ (2.8) и его начальное условие (2.9) упрощаются соответственно:

(2.10)
${{\dot {S}}_{t}} = h(t{\text{,}}{{U}_{t}}{\text{,}}{{S}_{t}}) + \Theta (t{\text{,}}{{U}_{t}}{\text{,}}{{S}_{t}})\left[ {{{{\dot {Y}}}_{t}} - \hat {c}(t,{{U}_{t}}{\text{,}}{{S}_{t}})} \right],\quad {{S}_{0}} = {{\hat {\xi }}_{0}} = \int {\xi (x){{p}_{0}}(x)dx} ,$
причем структурные функции этого уравнения определяются по формулам

$h(t{\text{,}}u,s) = \int {K_{x}^{{*u}}\left[ {\xi (x)} \right]\pi (t,x,s)dx} ,$
$ \Theta (t{\text{,}}u,s) = \left[ {(\widehat {\xi {{c}^{{\text{T}}}}} - \hat {\xi }{{{\hat {c}}}^{{\text{T}}}}) + \int {\left( {{{\xi }_{x}}\Sigma } \right)\pi (t,x,s)dx} } \right]{{R}^{{ - 1}}}(t{\text{,}}u),$
$\hat {\eta }(t,u,s) = \int {\eta (t,x,u)\pi (t,x,s)dx} .$

3. Интервально-оптимальный регулятор. Представим основанные на применении ДК известные решения обоих задач оптимального управления с И-критериями [4].

3.1. Неполные измерения. Сначала рассмотрим задачу (1.1)–(1.4). Согласно (2.1), вектор ${{S}_{t}}$ информативно эквивалентен всем прошлым измерениям $Y_{0}^{t}$ и управлениям $U_{0}^{t}$, поэтому текущее управление Ut можно искать не как их инерционный функционал (1.3), а как позиционную версию регулятора Мортенсена в виде безынерционной зависимости управления от последнего измерения и текущего вектора ДК:

(3.1)
${{U}_{t}} = u(t{\text{,}}\,{{Y}_{t}}{\text{,}}{{S}_{t}}).$

Тогда, исключая переменную Ut из уравнений (1.1), (2.8), получим замкнутую систему из трех уравнений Ито:

(3.2)
$\begin{gathered} {{{\dot {X}}}_{t}} = {{a}^{u}}(t{\text{,}}{{X}_{t}}{\text{,}}{{Y}_{t}}{\text{,}}{{S}_{t}}) + {{B}^{u}}(t{\text{,}}{{X}_{t}}{\text{,}}{{Y}_{t}}{\text{,}}{{S}_{t}}){{V}_{t}}, \\ {{{\dot {Y}}}_{t}} = {{c}^{u}}(t{\text{,}}{{X}_{t}}{\text{,}}{{Y}_{t}}{\text{,}}{{S}_{t}}) + {{D}^{u}}(t{\text{,}}{{Y}_{t}}{\text{,}}{{S}_{t}}){{V}_{t}}, \\ {{{\dot {S}}}_{t}} = {{e}^{u}}(t,{{X}_{t}},{{Y}_{t}},{{S}_{t}}) + {{F}^{u}}(t,{{Y}_{t}},{{S}_{t}}){{V}_{t}}. \\ \end{gathered} $

Здесь функции сноса и диффузии третьего уравнения имеют вид

$\begin{gathered} {{e}^{u}}(t,x,y,s) = {{h}^{u}}(t{\text{,}}y,s) + {{\Theta }^{u}}(t{\text{,}}y,s)[{{c}^{u}}(t{\text{,}}x,y,s) - {{{\hat {c}}}^{u}}(t,y,s)], \\ {{F}^{u}}(t,y,s) = {{\Theta }^{u}}(t{\text{,}}y,s){{D}^{u}}(t,y,s), \\ \end{gathered} $
а верхним индексом “$u$” отмечены сложные функции своих аргументов, содержащие функцию выхода $u( \cdot )$ регулятора (3.1), например

(3.3)
${{a}^{u}}(t,x,y,s) = a\left( {t,x,y,u(t,y,s)} \right).$

Из (3.2) следует, что случайный процесс $({{X}_{t}}{\text{,}}{{Y}_{t}}{\text{,}}{{S}_{t}})$ является марковским со следующей вектор-функцией сноса $\omega ( \cdot )$ и матричной функцией диффузии $\Upsilon ( \cdot )$:

${{\omega }^{u}}(t,x,y,s) = \left[ {\begin{array}{*{20}{c}} \begin{gathered} {{a}^{u}}(t,x,y,s) \\ {{c}^{u}}(t,x,y,s) \\ {{e}^{u}}(t{\text{,}}x,y,s) \\ \end{gathered} \end{array}} \right],\quad {{\Upsilon }^{u}}(t,x,y,s) = \left[ {\begin{array}{*{20}{c}} \begin{gathered} {{B}^{u}}(t,x,y,s) \\ {{D}^{u}}(t,y,s) \\ {{F}^{u}}(t{\text{,}}y,s) \\ \end{gathered} \end{array}} \right].$

Его совместная плотность вероятности $r(t,x,y,s)$ удовлетворяет дифференциальному уравнению ФПК:

(3.4)
$\frac{{\partial r(t,x,y,s)}}{{\partial t}} = K_{{xys}}^{u}[r] \triangleq - {{\nabla }^{{\text{T}}}}({{\omega }^{u}}r) + 0.5{\text{tr}}[\nabla {{\nabla }^{{\text{T}}}}({{\Upsilon }^{u}}{{\Upsilon }^{u}}^{{\text{T}}}r)],\quad t \geqslant 0,$
где $\nabla = {{\left( {\nabla _{x}^{{\text{T}}},\nabla _{y}^{{\text{T}}},\nabla _{s}^{{\text{T}}}} \right)}^{{\text{T}}}}$ – оператор общего градиента, или соответствующему интегродифференциальному тождеству ФПК [12, 13]:
(3.5)
$\frac{d}{{dt}}\iiint {\eta rdxdyds} = \iiint {\left( {\frac{{\partial \eta }}{{\partial t}} + K_{{xys}}^{{*u}}[\eta ]} \right)rdxdyds}\quad \forall \eta (t,x,y,s) \in {{\mathbb{C}}^{{1,2,2,2}}},$
в котором сопряженный к $K_{{xys}}^{u}$ обратный производящий оператор $K_{{xys}}^{{*u}}$ этого же процесса определим более подробным выражением:

(3.6)
$\begin{gathered} K_{{xys}}^{{*u}}[\eta ] = {{a}^{u}}^{{\text{T}}}{{\eta }_{x}} + {{c}^{u}}^{{\text{T}}}{{\eta }_{y}} + {{e}^{u}}^{{\text{T}}}{{\eta }_{s}} + 0.5{\text{tr}}[{{Q}^{u}}\,{{\eta }_{{xx}}}] + 0.5\,{\text{tr}}[2{{\Sigma }^{u}}^{{\text{T}}}{{\eta }_{{xy}}} + {{R}^{u}}{{\eta }_{{yy}}}]{\text{ + }} \\ + 0.5\,{\text{tr}}[2{{\Theta }^{u}}{{\Sigma }^{u}}^{{\text{T}}}{{\eta }_{{xs}}} + 2{{\Theta }^{u}}{{R}^{u}}{{\eta }_{{ys}}} + {{\Theta }^{u}}{{R}^{u}}{{\Theta }^{u}}^{{\text{T}}}{{\eta }_{{ss}}}]. \\ \end{gathered} $

Начальное значение совместной плотности $r( \cdot )$, согласно (1.2), (2.9), задано частично:

(3.7)
$r(0,x,y,s) = {{\rho }_{0}}(x\,{\text{|}}\,y){{q}_{0}}(y)\delta \left[ {s - \hat {\xi }(y)} \right],$
где $\delta ( \cdot )$ – функция Дирака, а плотность ${{q}_{0}}(y)$ является произвольной.

Подобным соотношениям, но с другим начальным условием удовлетворяет и характеризующая переход этого процесса за интервал времени $[t,\theta ]$ из состояния $({{X}_{t}} = x,{{Y}_{t}} = y,{{S}_{t}} = s)$ в состояние $({{X}_{\theta }} = \tilde {x},{{Y}_{\theta }} = \tilde {y},{{S}_{\theta }} = \tilde {s})$ плотность вероятности перехода $p\left( {\theta ,\tilde {x},\tilde {y},\tilde {s}\,{\text{|}}\,t,x{\text{,}}y{\text{,}}s} \right)$. Она позволяет определить функцию будущих априорных средних потерь $w(t,x{\text{,}}y{\text{,}}s)$ как ту часть минимизируемого И-критерия общих потерь (1.4), которые будут получены за оставшееся время управления $\theta \in [t,T]$ при старте из любого текущего состояния $({{X}_{t}} = x,$ ${{Y}_{t}} = y,$ ${{S}_{t}} = s)$:

$w(t,x{\text{,}}y{\text{,}}s) = \int\limits_t^T {d\theta } \iiint {{{\mu }^{u}}(\theta ,\tilde {x},\tilde {y},\tilde {s})p(\theta ,\tilde {x},\tilde {y},\tilde {s}\,{\text{|}}\,t,x{\text{,}}y{\text{,}}s)d\tilde {x}d\tilde {y}d\tilde {s}} + \iiint {\nu (\tilde {x},\tilde {y})p\left( {T,\tilde {x},\tilde {y},\tilde {s}\,{\text{|}}\,t,x{\text{,}}y{\text{,}}s} \right)d\tilde {x}d\tilde {y}d\tilde {s}}.$

Однако эта функция зависит от значения х неизмеряемого вектора ${{X}_{t}}$. Не зависящим от него является ее апостериорное среднее:

$W(t,y{\text{,}}s) = \hat {w}(t,y{\text{,}}s) = \int {w(t,x{\text{,}}y{\text{,}}s)\pi (t,x{\text{,}}s)dx} ,$
которое удовлетворяет следующему уравнению Беллмана [4]:
(3.8)
$ - \frac{{\partial W(t,y{\text{,}}s)}}{{\partial t}} = \mathop {min}\limits_{u \in \Omega } \left\{ {\hat {\mu } + {{{\hat {c}}}^{{\text{T}}}}{{W}_{y}} + {{h}^{{\text{T}}}}{{W}_{s}} + 0.5{\text{tr}}\left( {\left[ {\begin{array}{*{20}{c}} {W_{{yy}}^{{}}}&{{{W}_{{ys}}}} \\ {W_{{sy}}^{{}}}&{{{W}_{{ss}}}} \end{array}} \right]\left[ {\begin{array}{*{20}{c}} R&{R{{\Theta }^{{\text{T}}}}} \\ {\Theta R}&{\Theta R{{\Theta }^{{\text{T}}}}} \end{array}} \right]} \right)} \right\},$
с конечным условием в виде апостериорного среднего терминального члена критерия
(3.9)
$W(T,y{\text{,}}s) = \hat {\nu }(T,y{\text{,}}s) = \int {\nu (x{\text{,}}y)\pi (T,x{\text{,}}s)dx} $
и следующими коэффициентами:

$\begin{gathered} \hat {c} = \hat {c}(t,y,u,s) = \int {c(t,x,y,u)\pi (t,x,s)dx} ,\quad R = D(t,y,u){{D}^{{\text{T}}}}(t,y,u), \\ \hat {\mu } = \hat {\mu }(t,y,u,s) = \int {\mu (t,x,y,u)\pi (t,x,s)dx,\quad } h = h(t{\text{,}}y,u,s),\quad \Theta = \Theta (t{\text{,}}y,u,s). \\ \end{gathered} $

Однако, как обычно, процедура применения уравнения Беллмана (3.8) требует выполнения двух весьма сложных операций. Во-первых, необходимо найти частный минимум по переменной u функции $f( \cdot )$ его правой части:

$v(t{\text{,}}\,y{\text{,}}s,W) = \mathop {\arg \,min}\limits_{u \in \Omega } f(t{\text{,}}\,y{\text{,}}s,u,W)\quad \forall t{\text{,}}\,y{\text{,}}s,W.$

Во-вторых, следует решить в обратном времени, учитывая конечное условие (3.9), полученное в результате уравнение в частных производных, найдя тем самым функцию Беллмана $W(t,y{\text{,}}s)$. Наконец, подставляя ее в функцию частного минимума, получим искомую функцию безынерционной версии регулятора Мортенсена:

$u(t{\text{,}}y{\text{,}}s) = v[t{\text{,}}y{\text{,}}s;W(t{\text{,}}y{\text{,}}s)].$

Подчеркнем, что уравнение АОФ Стратоновича (2.8) при синтезе этого регулятора решать не требуется. Оно используется только на следующем этапе реализации оптимального устройства управления, поставляя информацию регулятору Мортенсена (3.1) для получения управления Ut и учитывая это управление в своих структурных функциях $h( \cdot ),$ $\Theta ( \cdot ),$ $\hat {c}( \cdot )$ для соответствующей коррекции своего состояния St.

3.2. Стохастические измерения. Если же имеет место более простая задача управления (1.6)–(1.8), то из-за отсутствия в ней влияния измерения ${{Y}_{t}}$ на состояние Xt объекта и на значение И‑критерия J можно, в отличие от (3.1), искать управление без непосредственного учета измерения как функцию только ДК:

(3.10)
${{U}_{t}} = u(t{\text{,}}\,{{S}_{t}}).$

Тогда, учитывая соответствующее уравнение АОФ (2.10), вместо трех уравненй Ито (3.2) удается ограничиться рассмотрением только двух:

(3.11)
$\begin{gathered} {{{\dot {X}}}_{t}} = {{a}^{u}}(t{\text{,}}{{X}_{t}}{\text{,}}{{S}_{t}}) + {{B}^{u}}(t{\text{,}}{{X}_{t}}{\text{,}}{{S}_{t}}){{V}_{t}},\quad {{X}_{0}} \sim {{p}_{0}}(x), \\ {{{\dot {S}}}_{t}} = {{e}^{u}}(t,{{X}_{t}},{{S}_{t}}) + {{F}^{u}}(t,{{S}_{t}}){{V}_{t}},\quad {{S}_{0}} = {{{\hat {\xi }}}_{0}}, \\ \end{gathered} $
с такими функциями второго из них:

$\begin{gathered} {{e}^{u}}(t,x,s) = {{h}^{u}}(t{\text{,}}s) + {{\Theta }^{u}}(t{\text{,}}s)[{{c}^{u}}(t{\text{,}}x,s) - {{{\hat {c}}}^{u}}(t,s)], \\ {{F}^{u}}(t,s) = {{\Theta }^{u}}(t{\text{,}}s){{D}^{u}}(t,s). \\ \end{gathered} $

Поэтому процесс $({{X}_{t}}{\text{,}}{{S}_{t}})$ марковский, а его плотность вероятности $r(t,x,s)$ удовлетворяет аналогичному (3.5) тождеству ФПК:

(3.12)
$\frac{d}{{dt}}\iint {\eta rdxds} = \iint {\left( {\frac{{\partial \eta }}{{\partial t}} + K_{{xs}}^{{*u}}[\eta ]} \right)r\,dxds}\quad \forall \eta (t,x,s) \in {{\mathbb{C}}^{{1,2,2}}}$
с полностью заданным начальным условием $r(0,x,s) = {{\rho }_{0}}(x)\,\delta \,(s - {{\bar {\xi }}_{0}})$ и с оператором

$K_{{xs}}^{{*u}}[\eta ] = {{a}^{u}}^{{\text{T}}}{{\eta }_{x}} + {{e}^{u}}^{{\text{T}}}{{\eta }_{s}} + 0.5{\text{tr}}[{{Q}^{u}}{{\eta }_{{xx}}}] + 0.5{\text{tr}}[2{{\Theta }^{u}}{{\Sigma }^{u}}^{{\text{T}}}{{\eta }_{{xs}}} + {{\Theta }^{u}}{{R}^{u}}{{\Theta }^{u}}^{{\text{T}}}{{\eta }_{{ss}}}].$

В результате уравнение Беллмана (3.8) и его конечное условие (3.9) тоже принимают более простой вид

(3.13)
$ - \frac{{\partial W(t,s)}}{{\partial t}} = \mathop {min}\limits_{u \in \Omega } \left\{ {\hat {\mu } + {{h}^{{\text{T}}}}{{W}_{s}} + 0.5{\text{tr}}[{{W}_{{ss}}}\Theta R{{\Theta }^{{\text{T}}}}]} \right\},\quad W(T,s) = \hat {\nu }(T,s).$

Однако процедура его решения остается по-прежнему весьма сложной. Аналитически оно решено только в весьма частном случае ЛКГ-задачи неограниченного управления, которая будет рассмотрена в разд. 5.

4. Оперативно-оптимальный регулятор. Приступим теперь к решению двух новых задач синтеза аналогов регулятора Мортенсена, оптимальных в смысле изменяющихся во времени О-критериев качества (1.5) или (1.9).

4.1. Неполные измерения. Снова рассмотрим парную марковскую модель объекта управления (1.1) с начальными условиями (1.2):

$\begin{array}{*{20}{c}} {{{{\dot {X}}}_{t}} = a(t,{{X}_{t}},{{Y}_{t}},{{U}_{t}}) + B(t,{{X}_{t}},{{Y}_{t}},{{U}_{t}})\,{{V}_{t}},} \\ {{{{\dot {Y}}}_{t}} = c(t,{{X}_{t}},{{Y}_{t}},{{U}_{t}}) + D(t,{{Y}_{t}},{{U}_{t}})\,{{V}_{t}},} \end{array}\quad \left[ {\begin{array}{*{20}{c}} {{{X}_{0}}} \\ {{{Y}_{0}}} \end{array}} \right] \sim {{\rho }_{0}}(x\,{\text{|}}\,y){{q}_{0}}(y),$
для которой уравнение АОФ имеет вид (2.8) с начальным условием (2.9). Для этого объекта также будем искать уравнение безынерционного регулятора (3.1):
(4.1)
${{U}_{t}} = u(t{\text{,}}\,{{Y}_{t}}{\text{,}}{{S}_{t}}),$
но от последнего потребуем оптимальности в смысле О-критерия (1.5), который в результате подстановки в него выражения (4.1) принимает вид

(4.2)
${{I}_{t}} = {\text{M}}\left[ {\int\limits_0^t {{{\varphi }^{u}}(\tau ,{{X}_{\tau }},{{Y}_{\tau }},{{S}_{\tau }})d\tau } + \psi (t,{{X}_{t}},{{Y}_{t}})} \right].$

В таком случае вместо метода динамического программирования приходится использовать метод припасовывания, состоящий в последовательной оптимизации сначала стартового значения критерия

${{I}_{0}} = {\text{M}}\left[ {\psi (0,{{X}_{0}},{{Y}_{0}})} \right] = \int {\psi (0,x,y){{\rho }_{0}}(x\,{\text{|}}\,y){{q}_{0}}(y)dxdy} ,$
которое в данном случае от выбора управления не зависит, а затем и приращения этого критерия за каждый сколь угодно малый промежуток времени $[t,t + \Delta t]$, $\Delta t \downarrow 0$. Последнее, как показано в [7, 13], сводится к минимизации скорости изменения этого функционала в любой момент времени:
(4.3)
${{\dot {I}}_{t}} \to \mathop {\min }\limits_{u( \cdot )} ,\quad \forall t \geqslant 0,$
что известно как условие локальной оптимальности. Заметим, что вследствие неотрицательности самого критерия ${{I}_{t}} \geqslant 0$ эта скорость ограничена снизу ${{\dot {I}}_{t}} > - \infty $, так что ее минимум существует.

Для нахождения зависимости ${{\dot {I}}_{t}}$ от искомой функции регулятора $u( \cdot )$ представим критерий (4.2) через плотность вероятности $r(t,x,y,s)$ случайных аргументов усредняемых в нем функций потерь:

(4.4)
${{I}_{t}} = \int\limits_0^t {\langle {{\varphi }^{u}}(\tau ,x,y,s),r(\tau ,x,y,s)\rangle d\tau } + \left\langle {\psi (t,x,y),r(t,x,y,s)} \right\rangle .$

Здесь для краткости символом $\left\langle {\eta ,r} \right\rangle $ обозначен интеграл от произведения функций $\eta ( \cdot )$ и $r( \cdot )$, который в данном случае имеет смысл математического ожидания (среднего значения) первой из них:

(4.5)
$\left\langle {\eta ,r} \right\rangle = \iiint {\eta (t,x,y,s)r(t,x,y,s)\,dxdyds = {\rm M}\,[\eta (t,{{X}_{t}},{{Y}_{t}},{{S}_{t}})]}\,.$

Дифференцируя равенство (4.4) по времени, имеем ${{\dot {I}}_{t}} = \langle {{\varphi }^{u}},r\rangle + d{{\left\langle {\psi ,r} \right\rangle } \mathord{\left/ {\vphantom {{\left\langle {\psi ,r} \right\rangle } {dt}}} \right. \kern-0em} {dt}}$ или, используя во втором слагаемом этой суммы тождество ФПК (3.5), находим вид производной критерия:

${{\dot {I}}_{t}} = \left\langle {{{\varphi }^{u}} + \frac{{\partial \psi }}{{\partial t}} + K_{{xys}}^{{*u}}[\psi ],\;r} \right\rangle .$

Искомая функция входит в это выражение только в виде ее сечения $u(t, \cdot )$ при фиксированном t. Так как слагаемое $\left\langle {{{\partial \psi } \mathord{\left/ {\vphantom {{\partial \psi } {\partial t}}} \right. \kern-0em} {\partial t}},\;r} \right\rangle $ от него не зависит, то, согласно (4.3), достаточно минимизировать функционал

${{\Xi }_{t}}[u(t, \cdot )] = \langle {{\varphi }^{u}} + K_{{xys}}^{{*u}}[\psi ],r\rangle \to \mathop {\min }\limits_{u(t, \cdot )} ,\quad \forall t \geqslant 0.$

Учитывая в нем вид (3.6) оператора $K_{{xys}}^{{*u}}$ и независимость дифференцируемой им функции текущих потерь $\psi (t,x,y)$ от переменной s, получаем явное выражение

(4.6)
${{\Xi }_{t}}[u(t, \cdot )] = \left\langle {{{\varphi }^{u}} + {{a}^{u}}^{{\text{T}}}{{\psi }_{x}} + {{c}^{u}}^{{\text{T}}}{{\psi }_{y}} + 0.5{\text{tr}}\left[ {{{Q}^{u}}{{\psi }_{{xx}}}} \right] + 0.5\,{\text{tr}}\left[ {2{{\Sigma }^{u}}^{{\text{T}}}{{\psi }_{{xy}}} + {{R}^{u}}{{\psi }_{{yy}}}} \right],\;r} \right\rangle .$

Так как искомая функция $u(t,y,s)$ от одной из трех переменных интегрирования не зависит, то этот функционал можно упростить, заменив совместную плотность вероятности $r( \cdot )$ случайного процесса $({{X}_{t}}{\text{,}}{{Y}_{t}}{\text{,}}{{S}_{t}})$ произведением маргинальной (частной) плотности $q( \cdot )$ случайных величин ${{Y}_{t}},{{S}_{t}}$ на соответствующую условную плотность $\rho ( \cdot )$:

(4.7)
$r(t,x,y,s) = q(t,y,s)\,\rho (t,x\,{\text{|}}\,y,s),\quad q(t,y,s) = \int {r(t,x,y,s)\,dx} .$

Действительно, представляя тройной интеграл совместного среднего (4.5) в виде повторного, состоящего из внутреннего интеграла усреднения по условной плотности и внешнего интеграла усреднения по маргинальной плотности

$\left\langle {\eta ,r} \right\rangle = \iint {\left[ {\int {\eta (t,x,y,s)\,\rho (t,x\,{\text{|}}\,y,s)dx} } \right]\,q(t,y,s)\,dy\,ds},$
получаем, что функционал (4.6) принимает вид маргинального среднего
${{\Xi }_{t}}[u(t, \cdot )] = \iint {\zeta \,[t,y,z;u(t,y,s)]\,q(t,y,s)dy\,ds\,}$
от следующей подинтегральной функции условного среднего:

(4.8)
$\zeta (t,y,s;\;u) = \int {(\varphi + {{a}^{{\text{T}}}}{{\psi }_{x}} + {{c}^{{\text{T}}}}{{\psi }_{y}} + 0.5{\text{tr[}}Q{{\psi }_{{xx}}}{\text{]}} + 0.5{\text{tr}}[2{{\Sigma }^{{\text{T}}}}\,{{\psi }_{{xy}}} + R\,{{\psi }_{{yy}}}])\rho dx} .$

Тогда из свойства монотонности операции интегрирования и неотрицательности плотности вероятности $q( \cdot ) \geqslant 0$ следует [7, 13], что для отыскания минимума функционала (4.6) достаточно найти минимум его маргинально усредняемой функции условного среднего $\zeta ( \cdot )$ по одному из ее аргументов при любых значениях других:

(4.9)
$u(t,y,s) = \mathop {\arg \min }\limits_{v \in \Omega \subset {{\mathbb{R}}^{l}}} \zeta (t,y,s;v),\quad \forall t,\,\,y,\,\,s.$

Однако минимизируемая здесь функция (4.8) требует знания условной плотности вероятности $\rho ( \cdot )$. Хотя она формулами (4.7) и выражается через совместную плотность $r( \cdot )$, которая определяется как решение задачи Коши (3.4), (3.7) для уравнения ФПК или соответствующего ему тождества (3.5), но частичная неопределенность начальных условий (1.2) объекта управления (1.1) делает нахождение плотности $r( \cdot )$ в общем случае невозможным.

Поэтому при неопределенности плотности вероятности ${{q}_{0}}(y)$ начального измерения ${{Y}_{t}}$ следует решать, вместо уравнения ФПК, полностью определенную задачу Коши для ИДУ относительно условной плотности $\rho ( \cdot )$ [13]. Оно получено декомпозицией уравнения ФПК (3.4) на независимое уравнение для плотности $\rho ( \cdot )$ и зависящее от нее уравнение для маргинальной плотности $q( \cdot )$. В рассматриваемом здесь случае это уравнение и его начальное условие имеют вид

(4.10)
$\frac{{\partial \rho (t,x\,{\text{|}}\,y,s)}}{{\partial t}} = - \nabla _{x}^{{\rm T}}({{a}^{u}}\rho ) + 0.5{\text{tr}}[{{\nabla }_{x}}\nabla _{x}^{{\rm T}}({{Q}^{u}}\,\rho )] - L_{{ys}}^{{*u}}[\rho ],\quad \rho \left( {0,x\,{\text{|}}\,y,s} \right) = {{\rho }_{0}}(x\,{\text{|}}\,y),$
причем в коэффициенты его оператора
$L_{{ys}}^{{*u}}[\rho ] = \rho _{y}^{{\rm T}}{{\bar {c}}^{u}} + \rho _{s}^{{\rm T}}{{\bar {e}}^{u}} + 0.5{\text{tr}}[{{R}^{u}}{{\rho }_{{yy}}}] + 0.5{\text{tr}}[2\Theta {{R}^{u}}{{\rho }_{{ys}}} + \Theta {{R}^{u}}{{\Theta }^{{\rm T}}}{{\rho }_{{ss}}}],$
входят интегральные функции условного среднего ${{\bar {c}}^{u}},\,\,{{\bar {e}}^{u}}$, обозначенные, в отличие от (2.7), чертой сверху:

$\bar {\eta }(t,y,u,s) = \int {\eta (t,x,y,u)\rho (t,x\,{\text{|}}\,y,s)dx} .$

Таким образом, синтез оперативно-оптимального регулятора (4.1) сведен к задаче параметрического нелинейного программирования (4.9), но минимизируемая в ней функция $\zeta ( \cdot )$ с течением времени изменяется не только из-за нестационарности исходных функций объекта управления (1.1) и оперативного критерия (1.5), но и благодаря изменению условной плотности $\rho ( \cdot )$. Динамика последней определяется задачей Коши (4.10), которая функцию $u( \cdot )$ использует. Оперативность этой процедуры, в отличие от решения уравнения Беллмана (3.8), состоит в неиспользовании информации о будущем поведении объекта.

4.2. Стохастические измерения. Теперь рассмотрим скрытую марковскую модель объекта управления (1.6), (1.7):

${{\dot {X}}_{t}} = a(t,{{X}_{t}},{{U}_{t}})\, + B(t,{{X}_{t}},{{U}_{t}})\,{{V}_{t}},\quad {{X}_{0}} \sim {{p}_{0}}(x),$
${{\dot {Y}}_{t}} = c(t,{{X}_{t}},{{U}_{t}})\, + D(t,{{U}_{t}})\,{{V}_{t}},\quad {{Y}_{0}} = 0.$

Снова будем искать закон управления (3.10):

${{U}_{t}} = u(t{\text{,}}\,{{S}_{t}}),$
но оптимальный в смысле О-критерия (1.9)

${{I}_{t}}[\vartheta ( \cdot )] = {\text{M}}\left[ {\int\limits_0^t {\varphi (\tau ,{{X}_{\tau }},{{U}_{\tau }})d\tau } + \psi (t,{{X}_{t}})} \right] \to \min .$

В этом случае уравнение состояния АОФ имеет вид (2.10), а тождество ФПК для совместной плотности вероятности $r(t,x,s)$ – (3.12).

Тогда, повторяя рассуждения из разд. 4.1, из (4.8), (4.9) получаем, что построение О-регулятора также сводится к параметрической минимизации:

(4.11)
$u(t,s) = \mathop {\arg \min }\limits_{v \in \Omega \subset {{\mathbb{R}}^{l}}} \zeta (t,s;v),\quad \forall t,\,\,s,$
но более простой функции условного среднего:

(4.12)
$\zeta (t,s;\;u) = \int {(\varphi + {{a}^{{\text{T}}}}{{\psi }_{x}} + 0.5\,{\text{tr[}}Q{{\psi }_{{xx}}}{\text{]}})\rho dx} .$

Здесь условная плотность $\rho ( \cdot )$ определяется либо по получаемой решением задачи Коши для тождества ФПК (3.12) совместной плотности $r( \cdot )$ как отношение

$\rho (t,x\,{\text{|}}\,s) = {{r(t,x,s)} \mathord{\left/ {\vphantom {{r(t,x,s)} {\int {r(t,x,s)\,dx} }}} \right. \kern-0em} {\int {r(t,x,s)\,dx} }},$
либо находится из своего уравнения, которое является частным случаем (4.10) и имеет вид [13]

(4.13)
$\begin{gathered} \frac{{\partial \rho (t,x\,{\text{|}}\,s)}}{{\partial t}} = - \nabla _{x}^{{\rm T}}({{a}^{u}}\rho ) + 0.5{\text{tr}}[{{\nabla }_{x}}\nabla _{x}^{{\rm T}}({{Q}^{u}}\,\rho )] - L_{s}^{{*u}}[\rho ],\quad \rho (0,x\,{\text{|}}\,s) = {{p}_{0}}(x), \\ L_{s}^{{*u}}[\rho ] = \rho _{s}^{{\rm T}}{{{\bar {e}}}^{u}} + 0.5{\text{tr}}[\Theta {{R}^{u}}{{\Theta }^{{\rm T}}}{{\rho }_{{ss}}}]. \\ \end{gathered} $

5. Пример ЛКГ-задачи. Ограничимся более простым вариантом случайных измерений. Пусть уравнения объекта (1.6) и измерителя (1.7) линейные:

(5.1)
${{\dot {X}}_{t}} = A(t){{X}_{t}} + K(t){{U}_{t}} + B(t){{V}_{t}},\quad {{X}_{0}} \sim N(x\,{\text{||}}\,m_{0}^{x},D_{0}^{x}),$
(5.2)
${{\dot {Y}}_{t}} = C(t){{X}_{t}} + M(t){{U}_{t}} + D(t)d{{V}_{t}},\quad {{Y}_{0}} = 0,$
начальное состояние объекта X0 гауссовское с плотностью вероятности нормального закона распределения $N( \cdot )$ при математическом ожидании $m_{0}^{x}$ и ковариации $D_{0}^{x}$, управление не ограничено ${{U}_{t}} \in \Omega = {{\mathbb{R}}^{l}}$, а критерии его оптимальности (1.8), (1.9) являются квадратическими:
(5.3)
$J = \frac{1}{2}{\text{M}}\left\{ {\int\limits_0^T {\left[ {X_{\tau }^{{\text{T}}}{\rm X}(\tau ){{X}_{\tau }} + U_{\tau }^{{\text{T}}}\Phi (\tau ){{U}_{\tau }}} \right]d\tau } + X_{T}^{{\text{T}}}\Pi {{X}_{T}}} \right\} \to \min ,$
(5.4)
${{I}_{t}} = \frac{1}{2}\,{\text{M}}\left\{ {\int\limits_0^t {\left[ {X_{\tau }^{{\text{T}}}{\rm X}(\tau ){{X}_{\tau }} + U_{\tau }^{{\text{T}}}\Phi (\tau ){{U}_{\tau }}} \right]d\tau } + X_{t}^{{\text{T}}}\Upsilon (t){{X}_{t}}} \right\} \to \min $
с весовыми матрицами $\Phi (t),\Upsilon (t) > 0$, ${\rm X}(t),\Pi \geqslant 0$.

Исходные соотношения этой задачи отличаются от общих выражений линейностью функций сноса объекта и измерителя $a(t,x,u) = A(t)x + K(t)u$, $с(t,x,u) = C(t)x + M(t)u$, зависимостью интенсивностей шумов только от времени $Q(t,x,u) = Q(t)$, $R(t,u) = R(t)$, $S(t,x,u) = S(t)$, гауссовостью начальной плотности вероятности ${{p}_{0}}(x) = N\left( {x\,{\text{||}}\,m_{0}^{x},D_{0}^{x}} \right)$, а также квадратичностью интегрантов и терминантов обоих критериев:

$\mu (t,x,u) = \varphi (t,x,u) = 0.5[{{x}^{{\text{T}}}}{\rm X}(t)\,x + {{u}^{{\text{T}}}}\Phi (t)u],\quad \nu (x) = 0.5{{x}^{{\text{T}}}}\Pi x,\quad \psi (t,x) = 0.5{{x}^{{\text{T}}}}\Upsilon (t)x.$

Далее очевидные зависимости параметров системы и критериев от времени t будем опускать.

5.1. Линейный фильтр Калмана–Бьюси. Из-за линейности уравнений (5.1), (5.2) и гауссовости как начального состояния X0, так и белого возмущения ${{V}_{t}}$, АПВ (2.3) является гауссовской $\pi (t,x,{{S}_{t}}) = N(x\,{\text{||}}\,{{\hat {X}}_{t}},{{P}_{t}})$, так что вектор кумулянтных или квазимоментных ДК состоит только из двух компонент ${{S}_{t}} = ({{\hat {X}}_{t}},{{P}_{t}})$. При этом случайная оценка ${{\hat {X}}_{t}}$ состояния Xt определяется управляемым стохастическим уравнением Ито:

(5.5)
${{\dot {\hat {X}}}_{t}} = A{{\hat {X}}_{t}} + K{{U}_{t}} + ({{P}_{t}}{{C}^{{\text{T}}}} + \Sigma ){{R}^{{ - 1}}}[{{\dot {Y}}_{t}} - (C{{\hat {X}}_{t}} + M{{U}_{t}})],\quad {{\hat {X}}_{0}} = m_{0}^{x},$
а детерминированная матрица ковариаций ошибки оценивания ${{P}_{t}} = \operatorname{cov} ({{X}_{t}} - {{\hat {X}}_{t}})$ находится из не зависящего ни от оценки ${{\hat {X}}_{t}}$, ни от управления ${{U}_{t}}$ прямого уравнения Риккати:

(5.6)
${{\dot {P}}_{t}} = A{{P}_{t}} + {{P}_{t}}{{A}^{{\text{T}}}} + Q - [{{P}_{t}}{{C}^{{\text{T}}}} + \Sigma ]{{R}^{{ - 1}}}[C{{P}_{t}} + {{\Sigma }^{{\text{T}}}}],\quad {{P}_{t}} = D_{0}^{x}.$

Последнее обстоятельство делает матрицу ${{P}_{t}}$ заранее известной функцией времени. Это позволяет исключить ее из состава ДК, считая теперь ${{S}_{t}} = {{\hat {X}}_{t}}$, и искать управление вместо (3.10) как функцию только от оценки

(5.7)
${{U}_{t}} = u(t{\text{,}}\,{{\hat {X}}_{t}}).$

При этом уравнением состояния фильтра (2.10) становится только уравнение для оценки (5.5), так что далее

$h\left( {t{\text{,}}u{\text{,}}\hat {x}} \right) = A\hat {x} + Ku,\quad \Theta \left( {t{\text{,}}u{\text{,}}\hat {x}} \right) = \Theta (t) = ({{P}_{t}}{{C}^{{\text{T}}}} + \Sigma ){{R}^{{ - 1}}}.$

5.2. Интервальная теорема разделения. Приведем известный результат [4, 8]. Оптимизируем функцию (5.7) по квадратическому И-критерию (5.3), для чего воспользуемся уравнением Беллмана (3.13). Оно теперь принимает вид

(5.8)
$ - \frac{{\partial W(t,\hat {x})}}{{\partial t}} = \mathop {min}\limits_{u \in {{\mathbb{R}}^{l}}} \{ \hat {\mu } + {{h}^{{\text{T}}}}{{W}_{{\hat {x}}}} + 0.5{\text{tr}}[{{W}_{{\hat {x}\hat {x}}}}\Theta R{{\Theta }^{{\text{T}}}}]\} ,\quad W(T,\hat {x}) = \hat {\nu }(T,\hat {x}),$
в котором

$\hat {\mu }(t,u,\hat {x}) = 0.5\int {({{x}^{{\text{T}}}}{\rm X}x + {{u}^{{\text{T}}}}\Phi u)N(x\,{\text{||}}\,\hat {x},{{P}_{t}})dx} = 0.5(tr[{\rm X}({{P}_{t}} + \hat {x}{{\hat {x}}^{{\text{T}}}})] + {{u}^{{\text{T}}}}\Phi u),$
$\hat {\nu }(T,\hat {x}) = 0.5\int {{{x}^{{\text{T}}}}\Pi xN(x\,{\text{||}}\,\hat {x},{{P}_{T}})dx} = 0.5tr[\Pi ({{P}_{T}} + \hat {x}{{\hat {x}}^{{\text{T}}}})].$

В уравнении (5.8) минимизируемая по переменной $u \in {{\mathbb{R}}^{l}}$ функция является квадратической:

$f(t{\text{,}}\,\hat {x},u,W) = 0.5{{u}^{{\text{T}}}}\Phi \,u\, + {{u}^{{\text{T}}}}{{K}^{{\text{T}}}}{{W}_{{\hat {x}}}} + {\text{invar}}(u)$
и (так как $\Phi > 0$) достигает минимума в точке

(5.9)
$u = - {{\Phi }^{{ - 1}}}{{K}^{{\text{T}}}}{{W}_{{\hat {x}}}}.$

Подставляя это в (5.8), имеем обратную задачу Коши для уравнения в частных производных:

(5.10)
$\begin{gathered} - \frac{{\partial W(t,\hat {x})}}{{\partial t}} = 0.5(tr[{\rm X}({{P}_{t}} + \hat {x}{{{\hat {x}}}^{{\text{T}}}})] + {{W}_{{\hat {x}}}}^{{\text{T}}}K{{\Phi }^{{ - 1}}}{{K}^{{\text{T}}}}{{W}_{{\hat {x}}}}) + {{(A\hat {x} - K{{\Phi }^{{ - 1}}}{{K}^{{\text{T}}}}{{W}_{{\hat {x}}}})}^{{\text{T}}}}{{W}_{{\hat {x}}}} + 0.5{\text{tr}}[{{W}_{{\hat {x}\hat {x}}}}\Theta R{{\Theta }^{{\text{T}}}}], \\ W(T,\hat {x}) = 0.5(tr[\Pi {{P}_{T}}] + {{{\hat {x}}}^{{\text{T}}}}\Pi \hat {x}). \\ \end{gathered} $

Покажем, что его решением является смещенная по времени квадратическая форма

$W(t,\hat {x}) = 0.5[\sigma (t) + {{\hat {x}}^{{\text{T}}}}L(t)\hat {x}],$
а формула (5.9) принимает вид

(5.11)
$u = - {{\Phi }^{{ - 1}}}{{K}^{{\text{T}}}}L\,\hat {x}.$

Действительно, подставляя производные ${{\partial W} \mathord{\left/ {\vphantom {{\partial W} {\partial t}}} \right. \kern-0em} {\partial t}} = 0.5[\dot {\sigma } + {{\hat {x}}^{{\text{T}}}}\dot {L}\hat {x}],$ ${{W}_{{\hat {x}}}} = L\hat {x},$ ${{W}_{{\hat {x}\hat {x}}}} = L$ в равенство (5.10) и приводя в нем подобные члены, получаем два алгебраических тождества:

$\begin{gathered} - \dot {\sigma } - {{{\hat {x}}}^{{\text{T}}}}\dot {L}\hat {x} = tr[{\rm X}{{P}_{t}}] + {{{\hat {x}}}^{{\text{T}}}}({\rm X} - {{L}^{{\text{T}}}}K{{\Phi }^{{ - 1}}}{{K}^{{\text{T}}}}L)\hat {x} + 2{{{\hat {x}}}^{{\text{T}}}}({{A}^{{\text{T}}}}L)\hat {x} + {\text{tr}}[L\Theta R{{\Theta }^{{\text{T}}}}], \\ \sigma (T) + {{{\hat {x}}}^{{\text{T}}}}L(T)\hat {x} = tr[\Pi {{P}_{T}}] + {{{\hat {x}}}^{{\text{T}}}}\Pi \hat {x}, \\ \end{gathered} $
которые справедливы при любых значениях переменной $\hat {x}$. Приравнивая в них свободные члены, находим уравнение для величины смещения $\sigma (t)$:
$ - \dot {\sigma } = tr[{\rm X}{{P}_{t}}] + {\text{tr}}[L\Theta R{{\Theta }^{{\text{T}}}}],\quad \sigma (T) = tr[\Pi {{P}_{T}}],$
а из равенства квадратичных форм, представив одну из них в симметрическом виде $2{{\hat {x}}^{{\text{T}}}}({{A}^{{\text{T}}}}L)\hat {x} = {{\hat {x}}^{{\text{T}}}}({{A}^{{\text{T}}}}L)\hat {x} + {{\hat {x}}^{{\text{T}}}}{{({{A}^{{\text{T}}}}L)}^{{\text{T}}}}\hat {x}$, имеем известное обратное уравнение Риккати для матрицы коэффициентов $L(t)$:

(5.12)
$ - \dot {L} = {{A}^{{\text{T}}}}L + LA\, + {\rm X} - {{L}^{{\text{T}}}}K{{\Phi }^{{ - 1}}}{{K}^{{\text{T}}}}L,\quad L(T) = \Pi .$

В результате из (5.7), (5.11) следует, что интервально-оптимальным в рассматриваемой ЛКГ-задаче является линейный регулятор

(5.13)
${{U}_{t}} = - F(t){{\hat {X}}_{t}},\quad F(t) = {{\Phi }^{{ - 1}}}(t){{K}^{{\text{T}}}}(t)L(t),$
часть $L(t)$ матрицы коэффициентов которого $F(t)$ вычисляется заранее путем решения в обратном времени уравнения (5.12). Для этого на всем плановом отрезке управления $t \in [0,T]$ должны быть известны матрицы $A(t),K(t)$ уравнения состояния объекта (5.1) и весовые матрицы $\Phi (t)$, ${\rm X}(t)$ квадратичного критерия (5.3), а также его терминальная матрица $\Pi $.

Отметим, что матрица усиления $F(t)$ оценки ${{\hat {X}}_{t}}$ в (5.13) совпадает с таковой у позиционного регулятора ${{u}_{t}} = u(t,{{x}_{t}})$, оптимального в детерминированной линейно-квадратической задаче:

(5.14)
${{\dot {x}}_{t}} = A{{x}_{t}} + K{{u}_{t}},\quad {{x}_{0}} = m_{0}^{x},$
с соответствующим (5.3) интервальным критерием оптимальности
$J = \frac{1}{2}\,\left\{ {\int\limits_0^T {\left[ {x_{\tau }^{{\text{T}}}{\rm X}(\tau ){{x}_{\tau }} + u_{\tau }^{{\text{T}}}\Phi (\tau ){{u}_{\tau }}} \right]d\tau } + x_{T}^{{\text{T}}}\Pi {{x}_{T}}} \right\} \to \min ,$
так как в этом случае ${{u}_{t}} = - F(t){{x}_{t}}$. Это обстоятельство и позволило называть инерционный закон стохастического управления (5.5), (5.13) термином “разделенный”. Итак, справедливо следующее утверждение.

Теорема 1 [8]. В интервальной ЛКГ-задаче (5.1)–(5.3) абсолютно оптимальное устройство управления (1.3) разделяется на линейный фильтр Калмана–Бьюси (5.5) с параметром, оперативно получаемым по (5.6), и интервально-оптимальный линейный детерминированный регулятор (5.13), настраиваемый на весь отрезок управления по (5.12).

5.3. Оперативная теорема разделения. Если же оптимизировать функцию (5.7) по квадратическому О-критерию (5.4), то достаточно найти частный минимум (4.11) функции условного среднего (4.12). В данном случае она имеет вид

$\zeta (t,\hat {x};\;u) = \int {(0.5({{x}^{{\text{T}}}}{\rm X}x + {{u}^{{\text{T}}}}\Phi u) + {{{(Ax + Ku)}}^{{\text{T}}}}\Upsilon x + 0.5{\text{tr[}}Q\Upsilon {\text{]}})\,\rho (t,x|\hat {x})\,dx} ,$
в котором от переменной $u \in {{\mathbb{R}}^{l}}$ зависят только два слагаемых:
$\zeta (t,\hat {x};\;u) = 0.5{{u}^{{\text{T}}}}\Phi u + {{u}^{{\text{T}}}}{{K}^{{\text{T}}}}\Upsilon \bar {x}(t,\hat {x}) + {\text{invar}}(u),$
где $\bar {x}(t,\hat {x}) = \int {x\rho (t,x\,{\text{|}}\,\hat {x})dx} $ – условное среднее. Так как и здесь $\Phi > 0$, то минимум этой квадратической функции достигается в точке

(5.15)
$u(t,\hat {x}) = - {{\Phi }^{{ - 1}}}{{K}^{{\text{T}}}}\Upsilon \,\bar {x}(t,\hat {x}).$

При этом из линейности уравнений объекта (5.1), измерителя (5.2) и фильтра (5.5), а также из гауссовости их возмущения и начальных условий следует, что совместная плотность вероятности $r(t,x,\hat {x})$ является гауссовской:

$r(t,x,\hat {x}) = N\left( {x,\hat {x}\,{\text{||}}\,m_{t}^{x},m_{t}^{{\hat {x}}},D_{t}^{x},D_{t}^{{\hat {x}}},D_{t}^{{x\hat {x}}}} \right),$
а ее параметры могут быть определены из уравнений метода моментов Пугачева–Дункана. Тогда по теореме о нормальной корреляции [14] гауссова и условная плотность
$\rho (t,x\,{\text{|}}\,\hat {x}) = N\,[x\,{\text{||}}\,\bar {x}(t,\hat {x}),\Gamma (t)],$
а ее среднее и ковариация находятся по известным формулам
$\bar {x}\left( {t,\hat {x}} \right) = m_{t}^{x} + D_{t}^{{x\hat {x}}}D{{_{t}^{{\hat {x}}}}^{ \oplus }}(\hat {x} - m_{t}^{{\hat {x}}}),\quad \Gamma (t) = D_{t}^{x} - D_{t}^{{x\hat {x}}}D{{_{t}^{{\hat {x}}}}^{ \oplus }}D_{t}^{{\hat {x}x}},$
где $ \otimes $ – символ псевдообращения матрицы по Муру–Пенроузу. Используя здесь известные свойства несмещенности оценки ${\rm M}[{{\hat {X}}_{t}}] = {\rm M}[{{X}_{t}}]$ и ее ортогональности к ошибке оценивания $\operatorname{cov} ({{X}_{t}} - {{\hat {X}}_{t}},{{\hat {X}}_{t}}) = 0$ [13, 15], имеем равенства $m_{t}^{{\hat {x}}} = m_{t}^{x}$, $D_{t}^{{x\hat {x}}} = D_{t}^{{\hat {x}}}$. В результате предыдущие общие соотношения существенно упрощаются:
$\bar {x}(t,\hat {x}) = \hat {x},\quad \Gamma (t) = D_{t}^{x} - D_{t}^{{\hat {x}}},$
формула (5.15) принимает вид $u(t,\hat {x}) = - {{\Phi }^{{ - 1}}}{{K}^{{\text{T}}}}\Upsilon \,\hat {x}$, а из (5.7) окончательно получаем

(5.16)
${{U}_{t}} = - G(t){{\hat {X}}_{t}},\quad G(t) = {{\Phi }^{{ - 1}}}(t){{K}^{{\text{T}}}}(t)\Upsilon (t).$

Таким образом оперативно-оптимальным в ЛКГ-задаче тоже является линейный регулятор, но матрица его коэффициентов полностью известна из исходных данных. Действительно, сравнивая полученное соотношение (5.16) с (5.13), видим, что место определяемой из уравнения Риккати (5.12) матрицы $L(t)$ здесь заняла заданная весовая матрица $\Upsilon (t)$ терминального члена О-критерия (5.4). В этом состоит принципиальное отличие данного оперативно-оптимального случая от рассмотренного выше интервально-оптимального, когда для синтеза регулятора еще нужно решать и обратное уравнение Риккати (5.12), используя для этого дополнительную информацию о будущем.

Остается отметить, что в детерминированной задаче при управлении линейным объектом (5.14) по соответствующему (5.4) О-критерию

${{I}_{t}} = \frac{1}{2}\left\{ {\int\limits_0^t {\left[ {x_{\tau }^{{\text{T}}}{\rm X}(\tau ){{x}_{\tau }} + u_{\tau }^{{\text{T}}}\Phi (\tau ){{u}_{\tau }}} \right]d\tau } + x_{t}^{{\text{T}}}\Upsilon (t){{x}_{t}}} \right\} \to \min $
оптимальным является подобный (5.16) закон позиционного управления ${{u}_{t}} = - G(t){{x}_{t}}$ [9]. Итак, доказано следующее утверждение.

Теорема 2. В оперативной ЛКГ-задаче (5.1), (5.2), (5.4) абсолютно оптимальное устройство управления (1.3) разделяется на линейный фильтр Калмана–Бьюси (5.5), (5.6) и оперативно-оптимальный линейный детерминированный регулятор (5.16) с известной матрицей усиления.

Заключение. Поставлена и решена новая задача синтеза оперативно получаемого закона оптимального в среднем управления нелинейным стохастическим динамическим объектом по его измеряемому выходу. Она обобщает задачу синтеза локально-оптимального управления детерминированным объектом по измерениям его состояния [9]. При этом также применяется переменный во времени критерий оптимальности, который минимизирует потери, накопленные к текущему моменту времени, и не учитывает их будущие значения. Это позволяет не принимать во внимание и возможные в будущем изменения параметров и структуры управляемого объекта.

Для получения управления используется абсолютно вся статистическая информация о его случайном состоянии, которую дают проведенные измерения. Сосредоточенная в известном векторе апостериорных достаточных координат, получаемых с помощью инерционного нелинейного фильтра Стратоновича, она позволяет искать управление в виде функции этих координат. Следовательно, задача оптимизации управления сводится к синтезу такого безынерционного регулятора. Но построение традиционного интервально-оптимального регулятора, который обеспечивает минимизацию всех потерь на заданном плановом отрезке времени как прошлых так и будущих, требует априорного синтеза регулятора путем решения в обратном времени уравнения Беллмана.

Показано, что синтез предлагаемого регулятора может быть выполнен оперативно, в темпе со временем, решением задачи Коши для уравнения типа ФПК и задачи нелинейного программирования. Процедура синтеза продемонстрирована на примере ЛКГ-задачи, в результате чего доказана новая оперативная версия известной теоремы разделения.

Список литературы

  1. Стратонович Р.Л. К теории оптимального управления. Достаточные координаты // АиТ. 1962. № 7. С. 910–917.

  2. Mortensen R.E. Stochastic Optimal Control with Noisy Observations // Int. J. Control. 1966. V. 4. № 5. P. 455–466.

  3. Davis M.H.A., Varaiya P.P. Dynamic Programming Conditions for Partially Observable Stochastic Systems // SIAM J. Control. 1973. V. 11. № 2. P. 226–262.

  4. Параев Ю.И. Введение в статистическую динамику процессов управления и фильтрации. М.: Сов. радио, 1976.

  5. Benes V.E., Karatzas I. On the Relation of Zakai’s and Mortensen’s Equations // SIAM J. Control and Optimization. 1983. V. 21. № 3. P. 472–489.

  6. Bensoussan A. Stochastic Control of Partially Observable Systems. Cambridge: Cambridge University Press, 1992.

  7. Руденко Е.А. Оперативно-оптимальный конечномерный динамический регулятор состояния стохастического дифференциального объекта по его выходу. I. Общий нелинейный случай // Изв. РАН. ТиСУ. 2022. № 5. С. 23–39.

  8. Wonham W.M. On the Separation Theorem of Stochastic Control // SIAM J. Control. 1968. V. 6. № 2. P. 312–326.

  9. Верба В.С., Меркулов В.И., Руденко Е.А. Линейно-кубическое локально-оптимальное управление линейными системами и его применение для наведения летательных аппаратов // Изв. РАН. ТиСУ. 2020. № 5. С. 129141.

  10. Пугачев В.С., Синицын И.Н. Стохастические дифференциальные системы. Анализ и фильтрация. М.: Наука, 1985.

  11. Синицын И.Н. Фильтры Калмана и Пугачева. М.: Логос, 2007.

  12. Пантелеев А.В., Руденко Е.А., Бортаковский А.С. Нелинейные системы управления: описание, анализ и синтез. М.: Вузовская книга, 2008.

  13. Руденко Е.А. Оптимальная структура непрерывного нелинейного фильтра Пугачева пониженного порядка // Изв. РАН. ТиСУ. 2013. № 6. С. 25–51.

  14. Ширяев А.Н. Вероятность. М.: Наука, 1980.

  15. Браммер К., Зиффлинг Г. Фильтр Калмана–Бьюси / Пер. с англ. М.: Наука, 1982.

Дополнительные материалы отсутствуют.