Известия РАН. Теория и системы управления, 2023, № 4, стр. 59-74

ОПТИМАЛЬНЫЙ КОНЕЧНОМЕРНЫЙ РЕГУЛЯТОР СОСТОЯНИЯ СТОХАСТИЧЕСКОГО ДИФФЕРЕНЦИАЛЬНОГО ОБЪЕКТА ПО ЕГО ВЫХОДУ. I. НЕПОЛНЫЕ ТОЧНЫЕ ИЗМЕРЕНИЯ

Е. А. Руденко *

МАИ (национальный исследовательский ун-т)
Москва, Россия

* E-mail: rudenkoevg@yandex.ru

Поступила в редакцию 26.01.2023
После доработки 10.02.2023
Принята к публикации 03.04.2023

Полный текст (PDF)

Аннотация

Рассматривается известная задача синтеза оптимального в среднем и на заданном интервале времени инерционного закона управления непрерывным стохастическим объектом, если точно измеряется только часть его переменных состояния. Из-за практической нереализуемости ее классического бесконечномерного решения Стратоновича–Мортенсена предлагается ограничиться оптимизацией структуры конечномерного динамического регулятора, порядок которого выбирает пользователь. Эта конечномерность позволяет использовать усеченную версию апостериорной плотности вероятности, которая удовлетворяет детерминированному интегродифференциальному уравнению в частных производных. С помощью принципа расширения Кротова получены достаточные условия оптимальности структурных функций регулятора и уравнения Лагранжа–Понтрягина для нахождения их экстремалей. Показано, что в частных случаях отсутствия измерений, полных измерений и учета только значений неполных измерений предлагаемый регулятор оказывается статическим (безынерционным), а соотношения для его синтеза совпадают с известными. Для динамического регулятора приведены алгоритмы нахождения каждой из его структурных функций.

Введение. Известна принципиальная сложность классического подхода к решению задачи оптимального, в смысле минимума среднего значения интегрально-терминального функционала качества, управления нелинейным стохастическим объектом по вектору его измеряемого выхода, не совпадающему с вектором состояния [16]. Она состоит в чрезмерно высокой сложности получаемого в результате ее решения динамического (инерционного) регулятора Стратоновича–Мортенсена, который накапливает информацию об измерениях. Этот оптимальный регулятор имеет распределенные параметры, так как задается уравнениями в частных и вариационных производных, что практически не позволяет реализовать необходимые вычисления в требуемом реальном масштабе времени, т.е. в темпе с поступлением измерений.

Основной способ борьбы с этим недостатком состоит в применении метода достаточных координат (статистик), который позволяет заменить распределенный регулятор на сосредоточенный, но имеющий бесконечное число переменных состояния [1, 4, 6]. Тогда, ограничиваясь конечным числом этих переменных в виде набора из нескольких достаточных координат младших порядков, которыми являются апостериорные моменты, кумулянты или квазимоменты неизмеряемого вектора состояния, можно получить его реализуемые субоптимальные приближения.

Обычно применяют приемлемые по скорости вычислений ковариационные приближения к регулятору, ограничиваясь учетом достаточных координат первого и второго порядков. При этом для восстановления вектора состояния объекта в качестве инерционной части регулятора используют обобщенный (extended) фильтр Калмана, более точный фильтр нормальной аппроксимации, а также занимающие промежуточное положение между ними кубатурный, нечувствительный (unscented) и т.п. фильтры Калмана. Тогда безынерционная часть субоптимального регулятора определяется как функция вектора оценки состояния объекта и матрицы ковариаций его ошибки, получаемая решением соответствующего “стохастического” уравнения Беллмана.

Другой способ борьбы с нереализуемостью оптимального инерционного регулятора возможен в случае точного измерения части вектора состояния объекта. Он состоит в отказе от накопления информации о неизмеряемой части переменных состояния. В результате получены различные версии частично позиционного регулятора, легко реализуемые вследствие их безынерционности (статичности). Это версия централизованная, с зависимостью всех компонент вектора управления от всего измеряемого вектора [7, 8], или децентрализованная, когда определенные компоненты вектора управления зависят лишь от некоторых элементов измеряемой части вектора состояния [9]. Однако этот отказ приводит к очевидному ухудшению возможного качества управления, увеличивая получаемое в итоге значение минимизируемого функционала.

Только в частной линейно-квадратично-гауссовской задаче стохастического управления справедлива теорема (принцип) разделения [10], согласно которому регулятор Стратоновича–Мортенсена распадается на два легко реализуемых блока: оптимально обрабатывающий измерения линейный фильтр Калмана и оптимально вырабатывающий управление по получаемой оценке вектора состояния линейный позиционный регулятор. Этот удобный факт дает возможность, например, строить более быстрый субоптимальный регулятор для нелинейной системы, применяя условно-оптимальный фильтр Пугачева [11], или управлять линейным объектом при измеряемом негауссовском возмущении [12].

В настоящей работе рассматривается строго оптимальный подход, позволяющий и в общем случае получить точный алгоритм динамического управления любого желаемого порядка. Этот порядок выбирается с учетом располагаемой мощности реализующего его вычислителя. Используя известное уравнение в частных производных для соответствующей усеченно-апостериорной (условной) плотности вероятности, исходная стохастическая задача сводится к эквивалентной ей детерминированной. Решение последней выполняется путем получения с помощью принципа расширения Кротова достаточных условий оптимальности предлагаемого регулятора, а также уравнений для нахождения его экстремальной версии. Все они проверяются на примере синтеза статической версии регулятора.

Способ построения конечномерного регулятора для зависящего от времени оперативного критерия качества предложен в [13].

1. Постановка задачи при неполных измерениях. 1.1. Объект управления и критерий оптимальности. Рассмотрим парную (двойную) марковскую модель подверженного случайным воздействиям объекта управления в виде системы из двух стохастических дифференциальных уравнений, понимаемых в смысле Ито:

(1.1)
$\begin{array}{*{20}{c}} {d{{X}_{t}} = a(t,{{X}_{t}},{{Y}_{t}},{{U}_{t}})dt\, + B(t,{{X}_{t}},{{Y}_{t}},{{U}_{t}})\,d{{W}_{t}},} \\ {d{{Y}_{t}} = c(t,{{X}_{t}},{{Y}_{t}},{{U}_{t}})dt\, + D(t,{{X}_{t}},{{Y}_{t}},{{U}_{t}})\,d{{W}_{t}},} \end{array}\quad t \in [0,T],\quad \left[ {\begin{array}{*{20}{c}} {{{X}_{0}}} \\ {{{Y}_{0}}} \end{array}} \right] \sim {{p}_{0}}(x,y).$

Здесь ${{X}_{t}} \in {{\mathbb{R}}^{n}}$, ${{Y}_{t}} \in {{\mathbb{R}}^{m}}$ – не измеряемая и измеряемая точно части случайного вектора состояния объекта соответственно, ${{U}_{t}} \in \Omega \subset {{\mathbb{R}}^{l}}$ – случайное кусочно-непрерывное ограниченное управление, ${{W}_{t}} \in {{\mathbb{R}}^{k}}$ – центрированный и нормированный винеровский процесс. Последний не зависит от случайных начальных условий X0, Y0, имеющих плотность вероятности ${{p}_{0}}(x,y)$. При этом закон распределения начального значения неизмеряемого вектора X0 определяется известной условной плотностью вероятности ${{\rho }_{0}}(x\,{\text{|}}\,y)$, тогда как маргинальная (частная) плотность вероятности ${{q}_{0}}(y)$ измеряемого вектора Y0 может быть произвольной, так что

(1.2)
${{p}_{0}}(x,y) = {{\rho }_{0}}(x\,{\text{|}}\,y){{q}_{0}}(y)\quad \forall {{q}_{0}}(y).$

Отметим, что вектор-функции сноса (смещения) $a(t,x,y,u) \in {{\mathbb{R}}^{n}}$, $c(t,x,y,u) \in {{\mathbb{R}}^{m}}$ двухкомпонентного диффузионного марковского процесса $({{X}_{t}},{{Y}_{t}})$ задают детерминированное поведение (траекторию) объекта управления, тогда как матричные функции диффузии $B(t,x,y,u) \in {{\mathbb{R}}^{{n \times k}}}$, $D(t,x,y,u) \in {{\mathbb{R}}^{{m \times k}}}$ определяют влияние на нее случайного возмущения в виде одного и того же гауссовского белого шума ${{V}_{t}} = {{d{{W}_{t}}} \mathord{\left/ {\vphantom {{d{{W}_{t}}} {dt}}} \right. \kern-0em} {dt}}$. Независимость шумов каждого из двух уравнений (1.1) обеспечивается условием $B( \cdot ){{D}^{{\text{T}}}}( \cdot ) \equiv 0$ [13].

Пусть начальные условия X0, Y0 имеют конечные вторые моменты ${\rm M}{{\left| {{{X}_{0}}} \right|}^{2}} + {\rm M}{{\left| {{{Y}_{0}}} \right|}^{2}} < \infty $, где M – оператор математического ожидания, а измеримые по Борелю функции сноса $a( \cdot )$, $c( \cdot )$ и диффузии $B( \cdot )$, $D( \cdot )$ удовлетворяют достаточным условиям существования и единственности непрерывного по времени потраекторного решения уравнений Ито [14]. Эти условия гарантируют конечность вторых моментов случайных векторов ${{X}_{t}},\;{{Y}_{t}}$ и в любой другой момент времени ${\rm M}{{\left| {{{X}_{t}}} \right|}^{2}} + {\rm M}{{\left| {{{Y}_{t}}} \right|}^{2}} < \infty $ $\forall t \geqslant 0$.

Требуется найти такую неупреждающую зависимость управления Ut от всех предыдущих измерений

(1.3)
${{U}_{t}} = \vartheta (t,Y_{0}^{t}),\quad Y_{0}^{t} = \{ {{Y}_{\tau }}\,{\text{|}}\,\tau \in [0,t]\} ,$
которая при любом распределении ${{q}_{0}}(y)$ вектора ${{Y}_{0}}$ обеспечивает минимум критерия качества управления (1.3) объектом (1.1) в виде среднего значения случайного функционала Больца:

(1.4)
$I{\kern 1pt} '[\vartheta ( \cdot )] = {\text{M}}\left[ {\int\limits_0^T {\mu {\kern 1pt} '(t,{{X}_{t}},{{Y}_{t}},{{U}_{t}})dt} + \nu {\kern 1pt} '({{X}_{T}},{{Y}_{T}})} \right] \to \min \quad \forall {{q}_{0}}(y).$

Конечный момент времени T будем считать фиксированным, а заданные функции потерь $\mu {\kern 1pt} '(t,x,y,u)$, $\nu {\kern 1pt} '(x,y)$ – неотрицательными.

1.2. Известный закон управления. Как отмечено во Введении, классическое решение задачи (1.1)–(1.4) ищется как функционал ${{U}_{t}} = \chi \,[t,p(t, \cdot \,{\text{|}}\,Y_{0}^{t})]$ мгновенного случайного значения апостериорной плотности вероятности $p(t,x\,{\text{|}}\,y_{0}^{t})$. Этот функционал $\chi \,[ \cdot ]$ можно получить методом динамического программирования с помощью решаемого в обратном времени, от $t = T$ до $t = 0$, уравнения Беллмана–Мортенсена в вариационных производных Фреше [24]. Апостериорная же плотность находится путем интегрирования в прямом времени, от $t = 0$ до $t = T$, стохастического интегродифференциального уравнения Стратоновича–Кушнера (Дункана–Мортенсена–Закаи) с начальным условием $p{{{\text{|}}}_{{t = 0}}} = {{q}_{0}}(x\,{\text{|}}\,{{Y}_{0}})$. В это уравнение входит то же управление ${{U}_{t}}$, в чем проявляется известная дуальность оптимального стохастического управления. Тем самым оптимальный закон управления по выходу (1.3) оказывается инерционным, а реализующее его устройство управления состоит из управляемого стохастического фильтра Стратоновича и безынерционного регулятора Мортенсена.

Такой закон управления обычно слишком сложен для его практической реализации, поэтому ограничиваются приближенным конечномерным решением задачи методом достаточных координат [1, 4], приводящим лишь к субоптимальным динамическим регуляторам. К тому же их порядок (число дифференциальных уравнений состояния) весьма быстро растет с повышением желаемой точности аппроксимации апостериорной плотности отрезками гауссовоподобных рядов Эджворта (по кумулянтам) или Грама–Шарлье (по квазимоментам) из-за факториально быстрого роста количества элементов старших апостериорных статистик неизмеряемого вектора состояния ${{X}_{t}}$ [15].

1.3. Предлагаемый регулятор и более общий критерий. С целью гарантированной реализации инерционного закона управления в темпе со временем ограничим класс функционалов (1.3) предыдущих наблюдений. Вместо использования для управления бесконечномерного фильтра Стратоновича будем искать конечномерный регулятор с вектором состояния ${{Z}_{t}} \in {{\mathbb{R}}^{p}}$ произвольной размерности $p = 0,1,2, \ldots $, задавая его дифференциальным уравнением состояния:

(1.5)
$d{{Z}_{t}} = f(t,{{Y}_{t}},{{Z}_{t}})dt + G(t,{{Y}_{t}},{{Z}_{t}})d{{Y}_{t}},\quad {{Z}_{0}} = h({{Y}_{0}}),$
а значение управления ${{U}_{t}}$ в момент времени t определим как функцию последнего измерения ${{Y}_{t}}$ и полученного к этому моменту состояния регулятора, задавая формулу выхода регулятора:

(1.6)
${{U}_{t}} = u(t,{{Y}_{t}},{{Z}_{t}}).$

Этот регулятор при ненулевой размерности (порядке) $p = 1,2, \ldots $ вектора его состояния ${{Z}_{t}}$ является динамическим (инерционным), а при нулевой p = 0, когда переменная ${{Z}_{t}}$ и уравнение (1.5) исчезают, он становится статическим (безинерционным) и определяется только формулой выхода ${{U}_{t}} = u(t,{{Y}_{t}})$.

Замечание 1. Заданный уравнением (1.5) p-мерный вектор ${{Z}_{t}}$ является функционалом всех проведенных до момента времени t измерений ${{Z}_{t}} = \theta (t,Y_{0}^{t})$, он накапливает в себе информацию о них. Поэтому он представляет собой массив оперативной памяти об измерениях, и чем больше размерность p этого вектора, тем более эффективным будет получаемый из (1.6) закон конечномерного управления ${{U}_{t}} = u[t,{{Y}_{t}},\theta (t,Y_{0}^{t})]$, все более приближаясь к бесконечномерному закону управления Стратоновича–Мортенсена.

Определяющие нелинейную структуру регулятора (1.5), (1.6) неизвестные функции его начального состояния $h(y) \in {{\mathbb{R}}^{p}}$, смещения $f(t,y,z) \in {{\mathbb{R}}^{p}}$, усиления $G(t,y,z) \in {{\mathbb{R}}^{{p \times m}}}$ и выхода $u(t,y,z) \in \Omega \subset {{\mathbb{R}}^{l}}$ должны быть найдены из условия оптимальности управления (1.4). При этом в связи с появлением новой переменной Zt добавим в функции потерь критерия оптимальности (1.4) возможную их зависимость и от состояния регулятора. На решениях уравнений (1.1), (1.5), (1.6) будем минимизировать более общий критерий качества всей замкнутой системы управления:

(1.7)
$I[u( \cdot ),f( \cdot ),G( \cdot ),h( \cdot )] = {\text{M}}\left[ {\int\limits_0^T {\mu (t,{{X}_{t}},{{Y}_{t}},{{U}_{t}},{{Z}_{t}})dt} + \nu ({{X}_{T}},{{Y}_{T}},{{Z}_{T}})} \right] \to \min \quad \forall {{q}_{0}}(y)$
с неотрицательными функциями потерь $\mu (t,x,y,u,z) \geqslant 0,$ $\nu (x,y,z) \geqslant 0$, что позволяет накладывать условия и на желаемую эффективность регулятора. Например, можно так доопределить целевые функции $\mu {\kern 1pt} '( \cdot ),\,\,\nu {\kern 1pt} '( \cdot )$ критерия $I{\kern 1pt} '$ до функций $\mu ( \cdot ),$ $\nu ( \cdot )$ критерия $I$, чтобы p-мерный вектор ${{Z}_{t}}$ был в определенном смысле еще и некоторой “оценкой” неизмеряемого n-мерного вектора ${{X}_{t}}$. Отметим, что функционал (1.7) при любых его аргументах ограничен снизу:

$I[u,f,G,h] \geqslant 0\quad \forall u,f,G,h.$

Предлагаемые уравнения регулятора (1.5) обеспечивают совместную марковость его случайного состояния ${{Z}_{t}}$ вместе с компонентами ${{X}_{t}},$ ${{Y}_{t}}$ вектора состояния объекта. Действительно, исключая управление ${{U}_{t}}$ из уравнений (1.1) с помощью формулы (1.6) и добавляя к ним (1.5), получим систему из трех уравнений Ито:

(1.8)
$\begin{gathered} d{{X}_{t}} = {{a}^{u}}(t,{{X}_{t}},{{Y}_{t}},{{Z}_{t}})dt\, + {{B}^{u}}(t,{{X}_{t}},{{Y}_{t}},{{Z}_{t}})\,d{{W}_{t}}, \hfill \\ d{{Y}_{t}} = {{c}^{u}}(t,{{X}_{t}},{{Y}_{t}},{{Z}_{t}})dt\, + {{D}^{u}}(t,{{X}_{t}},{{Y}_{t}},{{Z}_{t}})\,d{{W}_{t}}, \hfill \\ d{{Z}_{t}} = {{e}^{u}}(t,{{X}_{t}},{{Y}_{t}},{{Z}_{t}})dt\, + {{F}^{u}}(t,{{X}_{t}},{{Y}_{t}},{{Z}_{t}})\,d{{W}_{t}}. \hfill \\ \end{gathered} $

Здесь функции сноса и диффузии третьего уравнения имеют вид

$\begin{gathered} {{e}^{u}}(t,x,y,z) = f(t,y,z) + G(t,y,z){{c}^{u}}(t,x,y,z), \\ {{F}^{u}}(t,x,y,z) = G(t,y,z){{D}^{u}}(t,x,y,z), \\ \end{gathered} $
а верхним индексом u отмечены сложные функции, содержащие функцию выхода регулятора $u( \cdot )$, например

(1.9)
${{a}^{u}}(t,x,y,z) = a\left( {t,x,y,u(t,y,z)} \right).$

Поэтому допустимыми функциями двух уравнений регулятора $f( \cdot )$, $G( \cdot )$, $u( \cdot )$ являются те, которые вместе с функциями объекта $a( \cdot )$, $B( \cdot )$, $c( \cdot )$, $D( \cdot )$ удовлетворяют условиям существования и единственности решения системы (1.8). Таковыми, например, являются условия липшицевой непрерывности этих функций по переменным $x,\;y,\;z$ и ограниченной скорости их роста при $\left| x \right| + \left| y \right| + \left| z \right| \to \infty $. Они вместе с условием конечности второго момента начального состояния регулятора ${\rm M}{{\left| {{{Z}_{0}}} \right|}^{2}} = {\rm M}{{\left| {h({{Y}_{0}})} \right|}^{2}} < \infty $ дают конечность вторых моментов всех трех случайных векторов в любой момент времени ${\rm M}{{\left| {{{X}_{t}}} \right|}^{2}} + {\rm M}{{\left| {{{Y}_{t}}} \right|}^{2}} + {\rm M}{{\left| {{{Z}_{t}}} \right|}^{2}} < \infty $ $\forall t \geqslant 0$.

2. Сведение задачи к детерминированной. Подставляя формулу выхода регулятора (1.6) также и в функционал (1.7), операцию усреднения М в нем запишем через совместную плотность вероятности $r(t,x,y,z)$ всех элементов случайного вектора состояния ${{\Xi }_{t}} = {{(X_{t}^{{\text{T}}},Y_{t}^{{\text{T}}},Z_{t}^{{\text{T}}})}^{{\text{T}}}}$ замкнутой системы управления (1.8):

(2.1)
$I = \int\limits_0^T {\left\langle {{{\mu }^{u}}(t,x,y,z),r(t,x,y,z)} \right\rangle dt} + \left\langle {\nu (T,x,y,z),r(T,x,y,z)} \right\rangle \to \min \quad \forall {{q}_{0}}(y).$

Здесь угловыми скобками $\left\langle {\eta ,r} \right\rangle $ для краткости обозначен интеграл усреднения функции $\eta (t, \cdot )$ с весом в виде этой плотности $r(t, \cdot )$:

$\left\langle {\eta ,r} \right\rangle = {\rm M}\,[\eta (t,{{X}_{t}},{{Y}_{t}},{{Z}_{t}})] = \iiint {\eta (t,x,y,z)r(t,x,y,z)\,dxdydz}.$

При этом интегралы по переменным $x,y,z$ берутся по всему евклидову пространству соответствующей размерности, например

$\int {\alpha (x)\,dx} \triangleq \int\limits_{\,{{\mathbb{R}}^{n}}}^{} {\alpha (x)\,dx} .$

Из (1.8) следует [14, 16], что при заданных функциях регулятора $u( \cdot )$, $f( \cdot )$, $G( \cdot )$, $h( \cdot )$ и известной начальной плотности ${{p}_{0}}( \cdot )$ случайный вектор ${{\Xi }_{t}}$ является диффузионным марковским процессом. Его совместная плотность вероятности $r( \cdot )$ при определенных условиях дифференцируемости функций сноса ${{\omega }^{{ufG}}}( \cdot )$ и диффузии ${{\Sigma }^{{uG}}}( \cdot )$ всей системы

${{\omega }^{{ufG}}}(t,x,y,z) = \left[ {\begin{array}{*{20}{c}} \begin{gathered} {{a}^{u}}(t,x,y,z) \\ {{c}^{u}}(t,x,y,z) \\ f(t,y,z) + G(t,y,z){{c}^{u}}(t,x,y,z) \\ \end{gathered} \end{array}} \right],\;\,\,\,\,\,\,\,{{\Sigma }^{{uG}}}(t,x,y,z) = \left[ {\begin{array}{*{20}{c}} \begin{gathered} {{B}^{u}}(t,x,y,z) \\ {{D}^{u}}(t,x,y,z) \\ G(t,y,z){{D}^{u}}(t,x,y,z) \\ \end{gathered} \end{array}} \right]$
определяется как дифференцируемое один раз по t и дважды по $x,y,z$ решение уравнения Фоккера–Планка–Колмогорова (ФПК):
(2.2)
$\frac{{\partial r(t,x,y,z)}}{{\partial t}} = K_{{xyz}}^{{ufG}}[r(t,x,y,z)],\quad t \in [0,T],$
где $K_{{xyz}}^{{ufG}}$ – прямой производящий оператор этого процесса:

$K_{{xyz}}^{{ufG}}[r] = - {{\nabla }^{{\text{T}}}}({{\omega }^{{ufG}}}\,r) + 0.5\,{\text{tr}}[\nabla {{\nabla }^{{\text{T}}}}({{\Sigma }^{{uG}}}{{\Sigma }^{{uG}}}^{{\,{\text{T}}}}r)].$

Здесь tr – след матрицы,$\nabla = {{(\nabla _{x}^{{\text{T}}},\nabla _{y}^{{\text{T}}},\nabla _{z}^{{\text{T}}})}^{{\text{T}}}}$ – оператор градиента. В подробной форме записи этот оператор имеет вид

$\begin{gathered} K_{{xyz}}^{{ufG}} = - \nabla _{x}^{{\text{T}}}{{a}^{u}} - \nabla _{y}^{{\text{T}}}{{c}^{u}} - \nabla _{z}^{{\text{T}}}(f + G{{c}^{u}}) + 0.5{\text{tr}}[{{\nabla }_{x}}\nabla _{x}^{{\text{T}}}{{Q}^{u}}] + {\text{tr}}[{{\nabla }_{x}}\nabla _{y}^{{\text{T}}}{{S}^{{u{\text{T}}}}} + 0.5{{\nabla }_{y}}\nabla _{y}^{{\text{T}}}{{R}^{u}}] + \\ \, + {\text{tr}}[{{\nabla }_{x}}\nabla _{z}^{{\text{T}}}G{{S}^{{u{\text{T}}}}} + {{\nabla }_{y}}\nabla _{z}^{{\text{T}}}G{{R}^{u}} + 0.5{{\nabla }_{z}}\nabla _{z}^{{\text{T}}}G{{R}^{u}}{{G}^{{\text{T}}}}], \\ \end{gathered} $
где сгруппированы следы от матриц одинаковых порядков $n \times n$, $m \times m$, $p \times p$, а через ${{Q}^{u}},{{R}^{u}},{{S}^{u}}$ обозначены коэффициенты диффузии исходного процесса ${{(X_{t}^{{\text{T}}},Y_{t}^{{\text{T}}})}^{{\text{T}}}}$:

${{Q}^{u}} = {{B}^{u}}{{B}^{u}}^{{\text{T}}},\quad {{R}^{u}} = {{D}^{u}}{{D}^{u}}^{{\text{T}}},\quad {{S}^{u}} = {{B}^{u}}{{D}^{u}}^{{\text{T}}}.$

Начальным для уравнения (2.2) является условие

(2.3)
$r(0,x,y,z) = {{\rho }_{0}}(x|y)\,{{q}_{0}}(y)\,\delta \,[z - h(y)]\,,$
где $\delta ( \cdot )$ – функция Дирака. Граничные же условия на бесконечности для плотности $r( \cdot )$ и вектора потока вероятности $\pi = {{\omega }^{{ufG}}}r - 0.5\,{{[{{\nabla }^{{\text{T}}}}({{\Sigma }^{{uG}}}{{\Sigma }^{{uG}}}^{{\text{T}}}r)]}^{{\text{T}}}}$ будут нулевыми.

Такие граничные условия приводят к справедливости для любой функции $\eta (t,\xi )$, дважды непрерывно дифференцируемая по переменной $\xi = (x,y,z)$, формулы интегрирования по частям [4]

(2.4)
$\left\langle {\eta ,K_{\xi }^{{ufG}}[r]} \right\rangle = \left\langle {K_{\xi }^{{*ufG}}[\eta ],r} \right\rangle ,$
где $K_{\xi }^{{*ufG}}$ – обратный (сопряженный к $K_{\xi }^{{ufG}}$) производящий оператор процесса:

$K_{\xi }^{{*ufG}} = {{\omega }^{{ufG}}}^{{\text{T}}}\nabla + 0.5\,{\text{tr[}}{{\Sigma }^{{uG}}}{{\Sigma }^{{uG}}}^{{\text{T}}}\nabla {{\nabla }^{{\text{T}}}}{\text{]}}{\text{.}}$

В подробной форме записи результат его действия на пробную функцию $\eta ( \cdot )$ имеет вид

(2.5)
$\begin{gathered} K_{{xyz}}^{{*ufG}}[\eta ] = {{a}^{u}}^{{\text{T}}}{{\eta }_{x}} + {{c}^{u}}^{{\text{T}}}{{\eta }_{y}} + {{(f + G{{c}^{u}})}^{{\text{T}}}}{{\eta }_{z}} + 0.5\,{\text{tr[}}{{Q}^{u}}\,{{\eta }_{{xx}}}{\text{]}} + {\text{tr[}}{{S}^{u}}^{{\text{T}}}{{\eta }_{{xy}}} + 0.5{{R}^{u}}{{\eta }_{{yy}}}{\text{] + }} \\ \, + {\text{tr[}}G{{S}^{u}}^{{\text{T}}}{{\eta }_{{xz}}} + G{{R}^{u}}{{\eta }_{{yz}}} + 0.5G{{R}^{u}}{{G}^{{\text{T}}}}{{\eta }_{{zz}}}]. \\ \end{gathered} $

Здесь одинарными или двойными нижними индексами обозначены столбцы первых и матрицы вторых частных производных скалярной функции $\eta ( \cdot )$ соответственно. Например ${{\eta }_{x}} = {{\nabla }_{x}}\eta $ есть n-мерный столбец, тогда как матрица ${{\eta }_{{xy}}} = {{\nabla }_{x}}\nabla _{y}^{{\text{T}}}\eta $ имеет порядок $n \times m$.

В случае отсутствия требуемой дифференцируемости функций сноса ${{\omega }^{{ufG}}}( \cdot )$ и диффузии ${{\Sigma }^{{uG}}}( \cdot )$ системы (1.8) по переменным $x,y,z$ плотность вероятности $r( \cdot )$ тоже может быть негладкой. Это заставляет понимать решение уравнения (2.2) в обобщенном смысле, как удовлетворяющее справедливому для любой достаточно гладкой пробной функции

$\eta (t,x,y,z) \in {{\mathbb{C}}^{{1,2,2,2}}}$
интегродифференциальному тождеству [15, 17]
(2.6)
$\frac{d}{{dt}}\left\langle {\eta ,r} \right\rangle = \left\langle {\frac{{\partial \eta }}{{\partial t}} + K_{{xyz}}^{{*ufG}}\left[ \eta \right],r} \right\rangle ,\quad \forall \eta ( \cdot )$
с начальным условием

$\left\langle {\eta ,r} \right\rangle \left| {_{{t = 0}}} \right. = \iint {\eta [0,x,y,h(y)]{{\rho }_{0}}(x\,{\text{|}}\,y){{q}_{0}}(y)dxdy}.$

Однако неопределенность в этом начальном условии, как и в (2.3), плотности вероятности ${{q}_{0}}(y)$ начального измерения Y0 и функции $h(y)$ начального состояния регулятора Z0 приводит к неопределенности совместной плотности вероятности $r(t,x,y,z)$ и при $t > 0$. Представляя же ее в виде произведения маргинальной плотности вероятности $q(t,y,z)$ только случайных величин ${{Y}_{t}}$, ${{Z}_{t}}$ на соответствующую ей плотность $\rho (t,x|y,z)$ распределения вероятности случайной величины ${{X}_{t}}$ при условиях ${{Y}_{t}} = y$, ${{Z}_{t}} = z$:

(2.7)
$r(t,x,y,z) = q(t,y,z)\,\rho (t,x\,{\text{|}}\,y,z),\quad q(t,y,z) = \int {r(t,x,y,z)\,dx} ,$
можно показать [17], что эта неопределенность касается только плотности $q( \cdot )$, тогда как условная плотность вероятности $\rho ( \cdot )$ полностью определяется некоторым уравнением. Для их компактной записи операцию условного усреднения функции будем обозначать чертой над ней:

(2.8)
$\bar {\eta }(t,y,z) = \int {\eta (t,x,y,z)\,\rho (t,x\,{\text{|}}\,y,z)\,dx} .$

Повторяя приведенные в [17] доказательства этого факта применительно к рассматриваемому здесь управляемому объекту (1.1) добавлением в них переменной ${{U}_{t}}$ и функции $u(t,y,z)$, аналогичным образом легко получим следующие утверждения.

Лемма 1 [17]. Если маргинальная плотность вероятности $q(t,y,z)$ дифференцируема по времени, то она удовлетворяет аналогичному (2.6) линейному интегродифференциальному тождеству

(2.9)
$\frac{d}{{dt}}\iint {\xi \,q\,dydz} = \iint {\left( {\frac{{\partial \xi }}{{\partial t}} + L_{{yz}}^{{*ufG}}[\xi ]} \right)\,q\,dydz}\quad \forall \xi (t,y,z) \in {{\mathbb{C}}^{{1,2,2}}}$
с начальным условием $\iint {\xi \,q\,dydz}\left| {_{{t = 0}}} \right. = \int {\xi \,[0,y,h(y)]\,{{q}_{0}}(y)dy} $ и с оператором
$L_{{yz}}^{{*ufG}}[\xi ] = \xi _{y}^{{\rm T}}{{\bar {c}}^{u}} + \xi _{z}^{{\rm T}}(f + G\,{{\bar {c}}^{u}}) + 0.5\,{\text{tr}}[{{\bar {R}}^{u}}{{\xi }_{{yy}}}] + {\text{tr}}[G{{\bar {R}}^{u}}{{\xi }_{{yz}}} + 0.5\,G{{\bar {R}}^{u}}{{G}^{{\rm T}}}{{\xi }_{{zz}}}],$
коэффициенты которого ${{\bar {c}}^{u}}( \cdot )$, ${{\bar {R}}^{u}}( \cdot )$, согласно (2.8), зависят от условной плотности $\rho ( \cdot )$.

Лемма 2 [17]. Если дифференцируемая по времени условная плотность $\rho (t,x|y,z)$ дважды непрерывно дифференцируема по своим переменным y, z, то она полностью определяется известным начальным значением $\rho (0,x|y,z) = {{\rho }_{0}}(x|y)$ и нелинейным интегродифференциальным тождеством

(2.10)
$\frac{\partial }{{\partial t}}\int {\eta \,\rho \,dx} = \int {\left( {\frac{{\partial \eta }}{{\partial t}} + K_{{xyz}}^{{*ufG}}[\eta ]} \right)\,\rho \,dx} - L_{{yz}}^{{*ufG}}\left[ {\int {\eta \,\rho \,dx} } \right]\quad \forall \eta (t,x,y,z) \in {{\mathbb{C}}^{{1,2,2,2}}}.$

Следствие [17]. Пусть условная плотность $\rho (t,x|y,z)$ дифференцируема по t и дважды непрерывно дифференцируема по $x,y,z$, тогда как функции $a( \cdot )$, $B( \cdot )$ из (1.1) непрерывно дифференцируемы по $x$ 1 и 2 раза соответственно. Тогда из (2.10) следует, что эта плотность удовлетворяет интегродифференциальному уравнению в частных производных

(2.11)
$\frac{{\partial \rho }}{{\partial t}} = K_{x}^{u}\left[ \rho \right] - L_{{yz}}^{{*ufG}}[\rho ],\quad K_{x}^{u}\left[ \rho \right] = - \nabla _{x}^{{\rm T}}({{a}^{u}}\,\rho ) + \,0.5\,{\text{tr}}[{{\nabla }_{x}}\nabla _{x}^{{\rm T}}({{Q}^{u}}\,\rho )].$

При этом граничные условия на бесконечности по переменной x для плотности $\rho ( \cdot )$ и ее производных равных нулю, в то время как на их асимптотическое поведение по переменным y, z никаких ограничений не наложено.

Замечание 2. В рассматриваемой задаче синтеза конечномерного регулятора условная плотность $\rho ( \cdot )$ заменяет обычно используемую в классической задаче апостериорную плотность вероятности $p(t,x\,{\text{|}}\,Y_{0}^{t})$. Последняя в каждый момент времени t несет в себе всю информацию о возможных значениях неизмеряемой части вектора состоянии объекта Xt, полученную в результате проведенных изменений. В отличие от этого такой информации в плотности $\rho ( \cdot )$ содержится меньше из-за вносимого уравнением (1.5) сжатия (усечения) всей предыстории измерений $Y_{0}^{t}$ путем помещения ее в вектор состояния регулятора Zt, так как последний является функционалом накопленных измерений ${{Z}_{t}} = \theta (t,Y_{0}^{t})$. Поэтому здесь вместо апостериорной плотности $p(t,x\,{\text{|}}\,Y_{0}^{t})$ используется плотность $\rho [t,x\,{\text{|}}\,{{Y}_{t}},\theta (t,Y_{0}^{t})]$, что позволяет считать ее усечено-апостериорной.

В результате исходная стохастическая задача (1.5)–(1.7) сведена к следующей задаче управления на отрезке времени $t \in [0,T]$ детерминированным объектом (2.11) с распределенными параметрами в виде функций его состояния $\rho ( \cdot )$ и управления $f( \cdot ),G\,( \cdot ),h( \cdot ),u( \cdot )$. Требуется на множестве допустимых функций

${{{\mathbf{D}}}_{\rho }} = \{ u( \cdot ),\,f( \cdot ),\,G( \cdot ),\,h( \cdot ),\,\rho ( \cdot )\} ,$
связанных уравнением (2.11) для условной плотности $\rho ( \cdot )$ или соответствующим тождеством (2.10), найти минимум функционала (2.1):

(2.12)
$I \to \mathop {\min }\limits_{{{{\mathbf{D}}}_{\rho }}} .$

Отметим, что функционал I определен на множестве функций

${{{\mathbf{D}}}_{r}} = \{ u( \cdot ),\,f( \cdot ),\,G( \cdot ),\,h( \cdot ),\,r( \cdot )\} ,$
связанных более общим уравнением ФПК (2.2) для совместной плотности $r( \cdot )$ или ее тождеством (2.6). Из формулы умножения плотностей вероятности (2.7) и лемм 1, 2 следует, что множество ${{{\mathbf{D}}}_{r}}$ шире, чем ${{{\mathbf{D}}}_{\rho }}$, так как содержит и множество маргинальных плотностей $q( \cdot )$, связанных с функциями из ${{{\mathbf{D}}}_{\rho }}$ тождеством (2.9), так что

${{{\mathbf{D}}}_{r}} = {{{\mathbf{D}}}_{\rho }} \cup \{ q( \cdot )\} .$

В результате так как ${{{\mathbf{D}}}_{\rho }} \subset {{{\mathbf{D}}}_{r}}$, то искомый минимум I на ${{{\mathbf{D}}}_{\rho }}$ можно искать его минимизацией на ${{{\mathbf{D}}}_{r}}$ при любых маргинальных плотностях $q( \cdot )$:

$\mathop {\min }\limits_{{{{\mathbf{D}}}_{\rho }}} I = \mathop {\min }\limits_{{{{\mathbf{D}}}_{r}}\forall q} I.$

3. Достаточные условия оптимальности регулятора. Для того чтобы при минимизации критерия (2.1) избавиться от уравнения связи (2.2), образуем функционал Лагранжа

$L = I + \int\limits_0^T {\left\langle {\varphi ,\frac{{\partial r}}{{\partial t}} - K_{{xyz}}^{{ufG}}\left[ r \right]} \right\rangle dt} ,$
где $\varphi (t,x,y,z) \in {{\mathbb{C}}^{{1,2,2,2}}}$ – неопределенный множитель (сопряженная функция) Лагранжа–Кротова. Функционал L определим на более широком, чем Dr, множестве V функций, не связанных уравнением (2.2), причем на нем функция $r( \cdot )$ может иметь разрывы первого рода при t = 0 и t = T. Очевидно, что ${{{\mathbf{D}}}_{r}} \subset {\mathbf{V}}$ и на множестве Dr справедливо равенство $L{{{\text{|}}}_{{{{{\mathbf{D}}}_{r}}}}} = I{{{\text{|}}}_{{{{{\mathbf{D}}}_{r}}\forall q}}}$.

Тогда, согласно принципу расширения Кротова [18, 19], если при любых $q( \cdot )$ минимум функционала $L$ на множестве ${\mathbf{V}}$ достигается на функциях из ${{{\mathbf{D}}}_{\rho }}$, то последние доставляют искомый минимум функционалу I на ${{{\mathbf{D}}}_{\rho }}$, причем

$\mathop {\min }\limits_{{{{\mathbf{D}}}_{\rho }}} \,I = \mathop {\min }\limits_{{\mathbf{V}}\,\forall q} L$.

При этом из неотрицательности I на ${{{\mathbf{D}}}_{\rho }}$ следует и неотрицательность $L$ на ${\mathbf{V}}$:

$L[u,f,G,h,\rho ,q] \geqslant 0\,.$

Производя в выражении для L интегрирование одного из слагаемых по частям:

$\int\limits_0^T {\left\langle {\varphi ,\frac{{\partial r}}{{\partial t}}} \right\rangle dt} = \left. {\left\langle {\varphi ,r} \right\rangle } \right|_{0}^{T} - \int\limits_0^T {\left\langle {\frac{{\partial \varphi }}{{\partial t}},r} \right\rangle dt} ,$
учитывая вид (2.1) критерия I, выражение (2.3) для начального вида плотности $r( \cdot )$ и сопряженность операторов (2.4), получаем

$L = \left\langle {\varphi + \nu ,r} \right\rangle {{{\text{|}}}_{T}} - \int {\varphi [0,x,y,h(y)]{{\rho }_{0}}(x\,{\text{|}}\,y){{q}_{0}}(y)dxdy} - \int\limits_0^T {\left\langle {\frac{{\partial \varphi }}{{\partial t}} + K_{{xyz}}^{{*ufG}}[\varphi ] - {{\mu }^{u}},r} \right\rangle dt} .$

Так как на множестве V функция $r( \cdot )$ допускает разрывы при $t = 0$ и $t = T$, то минимум последнего выражения для L на нем можно находить для каждого из трех слагаемых в отдельности. Используя при этом свойство монотонности операции интегрирования по t, представление (2.7) совместной плотности $r( \cdot )$ как произведения маргинальной $s( \cdot )$ и условной $\rho ( \cdot )$ плотностей, а также неотрицательность плотностей вероятности $q( \cdot ) \geqslant 0$, ${{q}_{0}}(y) \geqslant 0$, находим

(3.1)
$\mathop {\min }\limits_{{\mathbf{V}}\,\forall q( \cdot )} L = \iint {\alpha (y,z)q(T,y,z)}\,dydz - \int {\beta (y){{q}_{0}}(y)dy} - \int\limits_0^T {dt\iint {\gamma (t,y,z)q}(t,y,z)\,dydz} .$

Здесь обозначены

$\alpha (y,z) = \mathop {\min }\limits_{\rho ( \cdot )} \int {(\varphi + \nu )\,\rho \,} dx{{{\text{|}}}_{{t = T}}},$
$\beta (y) = \mathop {\max }\limits_h \int {\varphi (0,x,y,h)\,{{\rho }_{0}}(x\,{\text{|}}\,y)dx} ,$
$\gamma (t,y,z) = \mathop {\max }\limits_{u,f,G,\rho ( \cdot )} \int {\left( {\frac{{\partial \varphi }}{{\partial t}} + K_{{xyz}}^{{*ufG}}[\varphi ] - {{\mu }^{u}}} \right)\rho dx} .$

Кроме этого, благодаря произволу в выборе сопряженной функции $\varphi ( \cdot )$ нетрудно показать, аналогично [7], что функции $\alpha ( \cdot )$ и $\gamma ( \cdot )$ без ограничения общности можно положить равными нулю. Учтем также, что в выражении для $\gamma ( \cdot )$ производная ${{\partial \varphi } \mathord{\left/ {\vphantom {{\partial \varphi } {\partial t}}} \right. \kern-0em} {\partial t}}$ не зависит от оптимизируемых переменных $u,f,G$, а для зависимой от них его части введем обозначение

(3.2)
$H_{{yz}}^{{ufG}}[\varphi ,\rho ] = \int {\left( {K_{{xyz}}^{{*ufG}}[\varphi ] - {{\mu }^{u}}} \right)\rho dx} .$

Этот линейный относительно функций $\varphi ( \cdot ),\,\,\rho ( \cdot )$ функционал H с параметрами $t,y,z,u,f,G$ является условным средним известной из “стохастического” принципа максимума Понтрягина функции Гамильтона. В результате доказано следующее утверждение.

Теорема 1. Достаточным условием оптимальности в смысле (1.7) регулятора (1.5), (1.6) является наличие такой дифференцируемой функции $\varphi (t,x,y,z)$, что экстремумы

(3.3)
$\alpha (y,z) = \mathop {\min }\limits_{\rho ( \cdot )} \int {(\varphi + \nu )\,\rho \,} dx{{|}_{{t = T}}} = 0\quad \forall y,z,$
(3.4)
$\beta (y) = \mathop {\max }\limits_h \int {\varphi (0,x,y,h)\,{{\rho }_{0}}(x\,{\text{|}}\,y)dx} \quad \forall y,$
(3.5)
$\gamma (t,y,z) = \mathop {\max }\limits_{\rho ( \cdot )} \left\{ {\int {\frac{{\partial \varphi }}{{\partial t}}\rho dx} + \mathop {\max }\limits_{u,f,G} H_{{yz}}^{{ufG}}[\varphi ,\rho ]} \right\} = 0\quad \forall t \in (0,T),y,z$
существуют и достигаются на множестве функций Dρ, связанных тождеством (2.10) или соответствующим ему уравнением (2.11). При этом минимальное значение критерия (1.7) находится по функции (3.4)
$\mathop {\min }\limits_{{{{\mathbf{D}}}_{\rho }}} I = \mathop {\min }\limits_{\mathbf{V}} L = - \int {\beta (y){{q}_{0}}(y)dy} ,$
что требует знания плотности ${{q}_{0}}(y)$ распределения начального измерения ${{Y}_{0}}$.

В результате, как следует из (3.5), три оптимальные структурные функции регулятора ${{u}^{o}}( \cdot )$, ${{f}^{o}}( \cdot )$, ${{G}^{o}}( \cdot )$ находятся максимизацией определенного на функциях $\varphi ( \cdot ),\,\,\rho ( \cdot )$ гамильтониана (3.2) по трем его параметрам $u,f,G$ при любых значениях трех других:

(3.6)
$\left\{ {{{u}^{o}}(t,y,z),{{f}^{o}}(t,y,z),{{G}^{o}}(t,y,z)} \right\} = \mathop {\arg \max }\limits_{u \in \Omega \subset {{\mathbb{R}}^{l}},f \in {{\mathbb{R}}^{p}},G \in {{\mathbb{R}}^{{p \times m}}}} H_{{yz}}^{{ufG}}[\varphi ,\rho ]\quad \forall t,y,z.$

Функцию же начального состояния $h(y)$ регулятора получим из (3.4) в результате максимизации условного среднего начального значения функции $\varphi ( \cdot )$:

(3.7)
${{h}^{o}}(y) = \mathop {arg\max }\limits_{h \in {{\mathbb{R}}^{p}}} \int {\varphi (0,x,y,h)\,{{\rho }_{0}}(x\,{\text{|}}\,y)dx} \quad \forall y.$

Теорема 1 позволяет проверить найденные каким-либо образом структурные функции регулятора $u( \cdot ),\,f( \cdot ),\,G( \cdot ),\,h( \cdot )$ и соответствующую им условную плотность $\rho ( \cdot )$ на оптимальность на всем отрезке времени $t \in [0,T]$. Для этого, задавшись подходящей дифференцируемой функцией $\varphi ( \cdot )$, следует убедиться в достижении экстремумов (3.3)–(3.5) на проверяемых функциях. Эта процедура проще исходной вариационной задачи (2.12) на условный экстремум функционала (2.1) тем, что сводится сначала к максимизации двух функций (3.6), (3.7) параметров $u,\,f,\,G$ и $h$ соответственно, а затем к нахождению в (3.3), (3.5) безусловных экстремумов функционалов одного лишь аргумента $\rho ( \cdot )$.

Если результат положительный, то полученные функции являются оптимальными, если же отрицательный, то следует попытаться выбрать другую пробную функцию $\varphi ( \cdot )$. Эта неопределенность полученных достаточных условий требует поиска более регулярной процедуры решения исходной задачи, которую и рассмотрим ниже.

4. Соотношения для экстремалей. Назовем экстремалями регулятора функции $\tilde {u}( \cdot )$, $\tilde {f}( \cdot )$, $\tilde {G}( \cdot )$, получаемые максимизацией гамильтониана (3.2), определенного на порождаемой ими экстремальной плотности $\tilde {\rho }( \cdot )$ и на некоторой соответствующей ей функции $\tilde {\varphi }( \cdot )$:

(4.1)
$\left( {\tilde {u}(t,y,z),\tilde {f}(t,y,z),\tilde {G}(t,y,z)} \right) = \mathop {\arg \max }\limits_{u \in \Omega \subset {{\mathbb{R}}^{l}},f \in {{\mathbb{R}}^{p}},G \in {{\mathbb{R}}^{{p \times m}}}} H_{{yz}}^{{ufG}}[\tilde {\varphi },\tilde {\rho }]\quad \forall t,y,z.$

На этих экстремалях достаточное условие (3.5) принимает вид

$\gamma (t,y,z) = \mathop {\max }\limits_{\rho ( \cdot )} \int {\left( {\frac{{\partial{ \tilde {\varphi }}}}{{\partial t}} + K_{{xyz}}^{{*\tilde {u}\tilde {f}\tilde {G}}}\left[ {\tilde {\varphi }} \right] - {{\mu }^{{\tilde {u}}}}} \right)\rho \,dx} .$

Используем здесь необходимое условие экстремума функционала – равенство нулю его вариационной производной (интегрального ядра вариации функционала). Вследствие линейности этого функционала получаем уравнение для функции $\tilde {\varphi }( \cdot )$:

(4.2)
$ - \frac{{\partial{ \tilde {\varphi }}(t,x,y,z)}}{{\partial t}} = K_{{xyz}}^{{*\tilde {u}\tilde {f}\tilde {G}}}\left[ {\tilde {\varphi }} \right] - {{\mu }^{{\tilde {u}}}}.$

Это равенство также является и условием независимости функции (3.5) от $\rho ( \cdot )$, что гарантирует существование этого экстремума. Аналогичным образом находим необходимое условие минимума и для функционала (3.3):

(4.3)
$\tilde {\varphi }{{{\text{|}}}_{{t = T}}} = - \nu $.

В результате доказано следующее утверждение.

Теорема 2. Соотношения (4.1)–(4.3) вместе с уравнением (2.11) для экстремальной условной плотности

(4.4)
$\frac{{\partial{ \tilde {\rho }}(t,x\,{\text{|}}\,y,z)}}{{\partial t}} = K_{x}^{{\tilde {u}}}\left[ {\tilde {\rho }} \right] - L_{{yz}}^{{*\tilde {u}\tilde {f}\tilde {G}}}[\tilde {\rho }],\quad \tilde {\rho }{{|}_{{t = 0}}} = {{\rho }_{0}}(x\,{\text{|}}\,y)$
или с соответствующим ему тождеством (2.10) образуют двухточечную краевую задачу, решая которую можно найти эти экстремали и функцию $\tilde {\varphi }( \cdot )$. После этого экстремаль $\tilde {h}(y)$ определяется из (3.4):

$\tilde {h}(y) = \mathop {arg\max }\limits_{h \in {{\mathbb{R}}^{p}}} \int {\tilde {\varphi }(0,x,y,h)\,{{\rho }_{0}}(x\,{\text{|}}\,y)dx} \quad \forall y.$

Приведенные здесь соотношения являются аналогом известных уравнений принципа максимума Понтрягина, возникающих в задачах управления детерминированным объектом с распределенными параметрами.

5. Случаи оптимальности статического регулятора. Для проверки правильности полученных соотношений сначала рассмотрим три известных случая статического (безынерционного) оптимального управления объектом (1.1).

5.1. Программное управление. Случай отсутствия наблюдений за состоянием объекта получим удалением из уравнений (1.1) вектора измеряемого выхода ${{Y}_{t}}$, положив его размерность равной нулю: $m = 0$. В результате имеем уравнение объекта управления

(5.1)
$d{{X}_{t}} = a(t,{{X}_{t}},{{U}_{t}})dt\, + B(t,{{X}_{t}},{{U}_{t}})\,d{{W}_{t}},\quad {{X}_{0}} \sim {{p}_{0}}(x)$
с неизмеряемым вектором состояния ${{X}_{t}} \in {{\mathbb{R}}^{n}}$. При этом формула выхода регулятора (1.6) вырождается в зависимость ${{U}_{t}} = u(t,{{Z}_{t}})$, а уравнение его состояния становится независимым:

$d{{Z}_{t}} = f(t,{{Z}_{t}})dt,\quad {{Z}_{{{{t}_{0}}}}} = h.$

Следовательно, ${{Z}_{t}}$ – произвольная функция времени, из-за чего искомое управление оказывается зависящим лишь от времени:

${{U}_{t}} = {{u}_{o}}(t).$

Это позволяет положить порядок регулятора равным нулю: p = 0 и исключить из приведенных выше выражений две переменные y, z вместе с их функциями $f(t,y,z)$, $G(t,y,z)$.

В результате соотношения для экстремалей изменяются следующим образом. Условная плотность превращается в безусловную: $\rho (t,x\,{\text{|}}\,y,z) = p(t,x)$, ее уравнение (4.4) вырождается в уравнение ФПК с известным начальным условием

$\frac{{\partial{ \tilde {p}}(t,x)}}{{\partial t}} = K_{x}^{{{{{\tilde {u}}}_{o}}}}[\tilde {p}] = - \nabla _{x}^{{\text{T}}}\left( {a(t,x,{{{\tilde {u}}}_{o}}(t))\tilde {p}} \right) + 0.5\,{\text{tr}}[{{\nabla }_{x}}\nabla _{x}^{{\text{T}}}\left( {Q(t,x,{{{\tilde {u}}}_{o}}(t))\tilde {p}} \right)],\quad \tilde {p}{{{\text{|}}}_{0}} = {{p}_{0}}(x),$
а соотношения (4.2), (4.3) дают уравнение и конечное условие для сопряженной функции

$\frac{{\partial \varphi (t,x)}}{{\partial t}} + {{a}^{{\text{T}}}}(t,x,{{\tilde {u}}_{o}}(t)){{\varphi }_{x}} + 0.5{\text{tr}}\left[ {Q(t,x,{{{\tilde {u}}}_{o}}(t)){{\varphi }_{{xx}}}} \right] = {{\mu }^{{{{{\tilde {u}}}_{o}}}}},\quad \varphi {{{\text{|}}}_{T}} = - \nu (x).$

Гамильтониан (3.2) в этом случае принимает более простой вид

$H_{{}}^{u}[\varphi ,p] = \int {(K_{x}^{{*u}}\left[ \varphi \right] - {{\mu }^{u}})pdx} = \int {({{a}^{{\text{T}}}}(t,x,u){{\varphi }_{x}} + 0.5\,{\text{tr[}}Q(t,x,u){{\varphi }_{{xx}}}{\text{]}} - \mu (t,x,u))} \,p\,dx$
и, согласно (4.1), достигает на экстремали $\tilde {p}( \cdot )$ максимума по переменной u:

${{\tilde {u}}_{o}}(t) = \arg \mathop {\max }\limits_{u \in \,\Omega } H_{{}}^{u}[\varphi ,\tilde {p}].$

Эти выражения для экстремалей совпадают с известными необходимыми условиями “стохастического” принципа максимума Понтрягина [4, 15] и позволяют найти программное управление ${{\tilde {u}}_{o}}(t)$, оптимальное только для заданной плотности вероятности ${{p}_{0}}(x)$ начального состояния объекта (5.1).

5.2. Позиционное управление. Случай полных измерений всего вектора состояния объекта управления получим удалением из уравнений (1.1) неизмеряемого вектора Xt, положив его размерность равной нулю: n = 0. В результате имеем уравнение объекта управления

(5.2)
$d{{Y}_{t}} = c(t,{{Y}_{t}},{{U}_{t}})dt\, + D(t,{{Y}_{t}},{{U}_{t}})\,d{{W}_{t}},\quad {{Y}_{0}} \sim {{q}_{0}}(y),$
с полностью измеряемым вектором состояния ${{Y}_{t}} \in {{\mathbb{R}}^{m}}$.

Тогда в найденных выше соотношениях переменная х вместе с ее условной плотностью $\rho (t,x\,{\text{|}}\,y,z)$ пропадают, так что $\int {\eta \rho dx} = \eta $, а совместная плотность совпадает с маргинальной $r(t,x,y,z) = q(t,y,z)$. Поэтому достаточные условия (3.3)–(3.5) с независящей теперь от переменной х функцией $\varphi ( \cdot )$ принимают вид

(5.3)
$\frac{{\partial \varphi (t,y,z)}}{{\partial t}} + \mathop {\max }\limits_{u,f,G} H[t,y,z,u,f,G;\varphi ] = 0,$
(5.4)
$\varphi (T,y,z) = - \nu (y,z),$
(5.5)
$\beta (y) = \mathop {\max }\limits_h \varphi (0,y,h).$

При этом операция интегрирования в гамильтониане (3.2) исчезает:

(5.6)
$H_{{yz}}^{{ufG}}[\varphi ] = K_{{yz}}^{{*ufG}}[\varphi ] - {{\mu }^{u}},$
где, согласно (2.5),

(5.7)
$K_{{yz}}^{{*ufG}}[\varphi ] = {{c}^{u}}^{{\text{T}}}{{\varphi }_{y}} + {{(f + G{{c}^{u}})}^{{\text{T}}}}{{\varphi }_{z}} + 0.5\,{\text{tr[}}{{R}^{u}}{{\varphi }_{{yy}}}{\text{]}} + \,{\text{tr[}}G{{R}^{u}}{{\varphi }_{{yz}}} + 0.5G{{R}^{u}}{{G}^{{\text{T}}}}{{\varphi }_{{zz}}}].$

Частная максимизация в (5.3) гамильтониана (5.6) при любых $u,G$ только по переменной  f из-за его линейности по ней дает условие ${{\varphi }_{z}} = 0$ независимости функции $\varphi (t,y,z)$ и от переменной z. Поэтому имеем $\varphi = \varphi (t,y)$, выражение (5.7) упрощается:

$K_{y}^{{*u}}[\varphi ] = {{c}^{u}}^{{\text{T}}}{{\varphi }_{y}} + 0.5\,{\text{tr[}}{{R}^{u}}{{\varphi }_{{yy}}}{\text{],}}$
так что гамильтониан (5.6) оказывается не зависящим от параметров f, G:
(5.8)
$H_{{yz}}^{u}[\varphi ] = K_{y}^{{*u}}[\varphi (t,y)] - {{\mu }^{u}}(t,x,y,z),$
а из (5.5) получаем, что $\beta (y) = \varphi (0,y)$ и не зависит от выбора h. В результате достаточные условия (5.3)–(5.5) с гамильтонианом (5.8) принимают вид

(5.9)
$\frac{{\partial \varphi (t,y)}}{{\partial t}} + \mathop {\max }\limits_u H_{{yz}}^{u}[\varphi ] = 0,$
(5.10)
$\varphi (T,y,z) = - \nu (y,z),$
$\beta (y) = \varphi (0,y).$

В эти соотношения функции $f( \cdot )$, $G( \cdot )$, $h( \cdot )$ уравнения состояния регулятора не входят, а потому могут быть выбраны любыми. Это приводит, согласно (1.5), к произвольности состояния регулятора ${{Z}_{t}}$ для любых $t \geqslant 0$, что можно учесть выбором управления (1.6) в виде его статической (безынерционной) зависимости от полного вектора состояния объекта (5.2):

${{U}_{t}} = {{u}^{o}}(t,{{Y}_{t}}),$
т.е. также считать порядок регулятора p = 0. В результате переменную z следует опустить везде, и тогда достаточные условия (5.9), (5.10) оказываются такими

(5.11)
$\frac{{\partial \varphi (t,y)}}{{\partial t}} + \mathop {\max }\limits_{{{u}^{o}} \in \,\Omega } \{ {{c}^{{\text{T}}}}(t,y,{{u}^{o}}){{\varphi }_{y}} + 0.5\,{\text{tr}}\,{\text{[}}R(t,y,{{u}^{o}}){{\varphi }_{{yy}}}{\text{]}} - \mu (t,y,{{u}^{o}})\} = 0,\quad \varphi (T,y) = - \nu (y).$

Это решаемое в обратном времени уравнение с точностью до знака и типа экстремума совпадает с известным “стохастическим” уравнением Беллмана [4, 15] для объекта (5.2) с полностью измеряемым состоянием ${{Y}_{t}}$. Действительно, положив $\psi (t,y) = - \varphi (t,y)$, вместо (5.11) получаем более привычный вид уравнения Беллмана

$\frac{{\partial \psi (t,y)}}{{\partial t}} + \mathop {\min }\limits_{{{u}^{o}} \in \,\Omega } \{ {{c}^{{\text{T}}}}(t,y,{{u}^{o}}){{\psi }_{y}} + 0.5\,{\text{tr}}\,{\text{[}}R(t,y,{{u}^{o}}){{\psi }_{{yy}}}{\text{]}} + \mu (t,y,{{u}^{o}})\} = 0,\quad \psi (T,y) = \nu (y).$

Оно позволяет в обратном времени найти управление с полной обратной связью ${{u}^{o}}(t,y)$, которое оптимально при любых распределениях ${{q}_{0}}(y)$ начального состояния объекта (5.2).

5.3. Частично позиционное управление. Если для управления парной моделью объекта (1.1) ограничиться нахождением только статического (безынерционного) закона управления

${{U}_{t}} = u(t,{{Y}_{t}}),$
то в регуляторе (1.5), (1.6) размерность вектора состояния регулятора ${{Z}_{t}}$ достаточно также выбрать равной нулю: p = 0. Тогда во всех соотношениях для экстремалей (3.2), (4.1)–(4.4) пропадает переменная z и связанные с ней функции $f( \cdot )$, $G( \cdot )$, $h( \cdot )$. В частности, теперь

${{a}^{u}}(t,x,y) = a\left( {t,x,y,u(t,y)} \right).$

В результате для урезанных удалением аргумента z экстремальной условной плотности $\tilde {\rho }(t,x\,{\text{|}}\,y)$ и соответствующей ей сопряженной функции $\tilde {\varphi }(t,x,y)$ из (4.1)(4.4) имеем такую систему уравнений на отрезке управления $t \in [0,T]$:

(5.12)
$\frac{{\partial{ \tilde {\rho }}(t,x\,{\text{|}}\,y)}}{{\partial t}} = K_{x}^{{\tilde {u}}}[\tilde {\rho }] - L_{y}^{{*\tilde {u}}}[\tilde {\rho }],\quad \tilde {\rho }{{|}_{0}} = {{\rho }_{0}}(x\,{\text{|}}\,y),$
(5.13)
$\frac{{\partial \varphi (t,x,y)}}{{\partial t}} + K_{{xy}}^{{*\tilde {u}}}[\varphi ] = {{\mu }^{{\tilde {u}}}}(t,x,y),\quad \varphi {{|}_{T}} = - \nu (x,y){\kern 1pt} {\kern 1pt} ,$
где оператор $K_{x}^{u}[\rho ]$ задан в (2.11), тогда как два других определяются выражениями
$L_{y}^{{*u}}[\rho ] = \rho _{y}^{{\rm T}}{{\bar {c}}^{u}} + 0.5\,{\text{tr[}}{{\bar {R}}^{u}}{{\rho }_{{yy}}}{\text{]}}{\kern 1pt} {\kern 1pt} ,$
$K_{{xy}}^{{*u}}[\varphi ] = {{a}^{u}}^{{\text{T}}}{{\varphi }_{x}} + {{c}^{u}}^{{\text{T}}}{{\varphi }_{y}} + 0.5\,{\text{tr[}}{{Q}^{u}}\,{{\varphi }_{{xx}}}{\text{]}} + \,{\text{tr[}}{{S}^{u}}^{{\text{T}}}{{\varphi }_{{xy}}} + 0.5{{R}^{u}}{{\varphi }_{{yy}}}{\text{]}},$
а входящая в них функция управления $\tilde {u}(t,y)$ находится как частный максимум
(5.14)
$\tilde {u}(t,y) = \mathop {\arg \max }\limits_{u \in \Omega } H_{y}^{u}[\varphi ,\tilde {\rho }]$
упрощенной версии гамильтониана (3.2):

(5.15)
$H_{y}^{u}[\varphi ,\tilde {\rho }] = \int {\left( {K_{{xy}}^{{*u}}[\varphi ] - {{\mu }^{u}}} \right)\tilde {\rho }dx} .$

Полученные соотношения (5.13)(5.14) совпадают с известными из [7, 8], отличаясь от них лишь обозначениями неизмеряемой $x = {{x}_{{(2)}}}$ и измеряемой $y = {{x}_{{(1)}}}$ частей вектора состояния объекта (1.1), его функций сноса ${{[{{a}^{{\text{T}}}}( \cdot ),{{c}^{{\text{T}}}}( \cdot )]}^{{\text{T}}}}$ и диффузии ${{[{{B}^{{\text{T}}}}( \cdot ),{{D}^{{\text{T}}}}( \cdot )]}^{{\text{T}}}}$ как $f( \cdot )$ и $\sigma ( \cdot )$ соответственно, а оператора $K_{{xy}}^{{*u}}[\varphi ]$ – как ${\text{A}}_{{u( \cdot )}}^{*}\varphi $. Однако использование здесь уравнения (5.12) для условной плотности $\tilde {\rho }(t,x\,{\text{|}}\,y)$ вместо применявшегося в [7, 8], в предположении о полностью известной начальной плотности (1.2), уравнения ФПК для совместной плотности $p(t,x,y)$ и формул ее пересчета в $\tilde {\rho }(t,x\,{\text{|}}\,y)$ делает найденные здесь соотношения справедливыми для любых плотностей вероятности ${{q}_{0}}(y)$ начального измерения ${{Y}_{0}}$.

6. Оптимальная структура динамического регулятора. Конкретизируем теперь процедуры получения функций $f( \cdot ),G( \cdot ),\,h(y),u( \cdot )$ уравнения состояния (1.5) и формулы выхода (1.6) регулятора при его порядке $p \ne 0$. Как следует из (3.6), первые три из них определяются нахождением частного максимума по параметрам $u,f,G$ гамильтониана (3.2) при любых значениях трех других его аргументов $t,y,z$. Функция же $h(y)$ определяется из (3.7).

Выражение (3.2), используя вид оператора (2.5), запишем подробнее:

(6.1)
$H_{{yz}}^{{ufG}}[\varphi ,\rho ] = \int {\left( \begin{gathered} - \,{{\mu }^{u}} + {{a}^{u}}^{{\text{T}}}{{\varphi }_{x}} + {{c}^{u}}^{{\text{T}}}{{\varphi }_{y}} + {{(f + G{{c}^{u}})}^{{\text{T}}}}{{\varphi }_{z}} + 0.5\,{\text{tr[}}{{Q}^{u}}{{\varphi }_{{xx}}}{\text{]}} + \\ + \,{\text{tr[}}{{S}^{u}}^{{\text{T}}}{{\varphi }_{{xy}}} + 0.5{{R}^{u}}{{\varphi }_{{yy}}}{\text{]}}\,{\text{ + }}\,{\text{tr[}}G({{S}^{u}}^{{\text{T}}}{{\varphi }_{{xz}}} + {{R}^{u}}{{\varphi }_{{yz}}}) + 0.5G{{R}^{u}}{{G}^{{\text{T}}}}{{\varphi }_{{zz}}}] \\ \end{gathered} \right)} \,\rho dx.$

Здесь уже верхний индекс u у ряда функций просто подчеркивает их зависимость от этой переменной. Так, в отличие от (1.9), теперь ${{a}^{u}} = a(t,x,y,u)$. Видно, что гамильтониан (6.1) линеен по переменной $f \in {{\mathbb{R}}^{p}}$, квадратичен по $G \in {{\mathbb{R}}^{{p \times m}}}$ и нелинеен по $u \in \Omega \subset {{\mathbb{R}}^{l}}$. Поэтому, снова применяя принцип сечений

(6.2)
$\mathop {\max }\limits_{u,f,G} H_{{yz}}^{{ufG}}[\varphi ,\rho ] = \mathop {\max }\limits_u \left[ {{{{\left. {\mathop {\max }\limits_G \left( {{{{\left. {\mathop {\max }\limits_f H_{{yz}}^{{ufG}}[\varphi ,\rho ]} \right|}}_{{\forall u,G}}}} \right)} \right|}}_{{\forall u}}}} \right]\,,$
последовательно, от нахождения простого экстремума к сложному, получим следующее.

6.1. Функция смещения. Максимизируем сначала функцию (6.1) по векторному параметру $f \in {{\mathbb{R}}^{p}}$ при любых допустимых $u,G$. Выделяя в ней слагаемые, зависящие только от  f, имеем задачу на экстремум линейной функции

$H_{{yz}}^{{ufG}}[\varphi ,\rho ] = {{f}^{{\text{T}}}}\int {{{\varphi }_{z}}\rho dx} + {\text{invar (}}f) \to \mathop {max}\limits_f \quad \forall u,G,$
где ${\text{invar (}}f)$ – не зависящие от  f  инвариантные слагаемые. Ее решением является требуемое для существования этого экстремума условие независимости H от  f:

(6.3)
$\overline {{{\varphi }_{z}}} = \int {{{\varphi }_{z}}(t,x,y,z)\,} \rho (t,x\,{\text{|}}\,y,z)dx = 0.$

В результате гамильтониан оказывается инвариантен к функции $f( \cdot )$ смещения регулятора

$H_{{yz}}^{{ufG}}[\varphi ,\rho ] = {\text{invar (}}f),$
т.е. ее выбор на его значение никак не влияет.

Выражение для функции смещения найдем дифференцированием равенства (6.3) по времени. Используя при этом тождество (2.10), линейность входящих в него операторов $K_{{xyz}}^{{*ufG}}$, $L_{{yz}}^{{*ufG}}$ по функции $f( \cdot )$ и ее независимость от переменной интегрирования х, получим

(6.4)
$f(t,y,z) = - {{\left( {\overline {{{\varphi }_{{zz}}}} } \right)}^{{ - 1}}}\int {\left( {\tfrac{\partial }{{\partial t}}{{\varphi }_{z}} + K_{{xyz}}^{{*u0G}}[{{\varphi }_{z}}]} \right)\,\rho \,dx} .$

Здесь чертой сверху по-прежнему отмечено условное среднее (2.8), а действие оператора $K_{{xyz}}^{{*u0G}}$ на вектор-функцию ${{\varphi }_{z}}$ осуществляется поэлементно:

$K_{{xyz}}^{{*u0G}}[{{\varphi }_{z}}] = {{[K_{{xyz}}^{{*u0G}}[{{\varphi }_{{{{z}_{i}}}}}]]}_{{i = \overline {1,p} }}}.$

Значением же этого первого частного максимума гамильтониана является функция

$H_{{yz}}^{{u0G}}[\varphi ,\rho ] = \mathop {\max }\limits_f H_{{yz}}^{{ufG}}[\varphi ,\rho ]{{|}_{{\forall u,G}}}.$

Таким образом, доказано следующее утверждение.

Теорема 3. Если выполняется условие инвариантности (6.3), то частный максимум гамильтониана H по f существует, а соответствующий вид функции смещения определяется формулой (6.4).

6.2. Функция усиления. Теперь в серии частных экстремумов (6.2) найдем максимум по G полученной функции $H_{{yz}}^{{u0G}}[\varphi ,\rho ]$ при любых допустимых u. В результате определим частично оптимальную (парциальную) функцию усиления регулятора:

(6.5)
${{G}^{u}}(t,y,z) = {{G}_{p}}(t,y,z;u) = \,\mathop {\arg \max }\limits_{G \in {{\mathbb{R}}^{{p \times m}}}} H_{{yz}}^{{u0G}}[\varphi ,\rho ]\quad \forall t,y,z,u$
и соответствующее ей значение второго частного максимума гамильтониана:
(6.6)
$H_{{yz}}^{u}[\varphi ,\rho ] = H_{{yz}}^{{u0{{G}^{u}}}}[\varphi ,\rho ] = {{\left. {\mathop {\max }\limits_G H_{{yz}}^{{u0G}}[\varphi ,\rho ]{\kern 1pt} } \right|}_{{\forall u}}}$
для его последующей максимизации по переменной u. Оптимальную же функцию усиления $G( \cdot )$ найдем только после определения функции выхода $u(t,y,z)$, подставляя последнюю в частично оптимальную функцию (6.5):

(6.7)
$G(t,y,z) = {{G}^{{u(t,y,z)}}}(t,y,z) = {{G}_{p}}\left( {t,y,z;u(t,y,z)} \right).$

Выделяя в (6.1) слагаемые, зависящие только от G, и используя матричное равенство ${{(G{{c}^{u}})}^{{\text{T}}}}{{\varphi }_{z}} = {\text{tr}}\,[G{{c}^{u}}\varphi _{z}^{{\text{T}}}]$, получим

$H_{{yz}}^{{u0G}}[\varphi ,\rho ] = \int {{\text{tr}}[G\Delta _{{xyz}}^{u}[\varphi ] + 0.5\,G{{R}^{u}}{{G}^{{\text{T}}}}{{\varphi }_{{zz}}}]} {\kern 1pt} {\kern 1pt} \rho dx + {\text{invar}}(G) \to \mathop {max}\limits_G \quad \forall u,$
где $\Delta _{{xyz}}^{u}[\varphi ]$ – не зависящая от G функция

$\Delta _{{xyz}}^{u}[\varphi ] = {{c}^{u}}\varphi _{z}^{{\text{T}}} + {{S}^{u}}^{{\text{T}}}{{\varphi }_{{xz}}} + {{R}^{u}}{{\varphi }_{{yz}}}.$

Максимум этого гамильтониана, квадратичного по переменной $G \in {{\mathbb{R}}^{{p \times m}}}$, найдем с помощью необходимых и достаточных условий экстремума. Используя известные формулы матричного дифференцирования [15]

$\frac{\partial }{{\partial G}}{\text{tr}}(G\Delta ) = {{\Delta }^{{\text{T}}}},\quad \frac{\partial }{{\partial G}}{\text{tr}}(GR{{G}^{{\text{T}}}}{{\varphi }_{{zz}}}) = {{\varphi }_{{zz}}}GR + \varphi _{{zz}}^{{\text{T}}}G{{R}^{{\text{T}}}}$
и учитывая симметричность матриц R и ${{\varphi }_{{zz}}}$, получим уравнение и неравенство
$\frac{{\partial H}}{{\partial G}} = \int {\left( {\Delta _{{xyz}}^{{u{\text{T}}}}[\varphi ] + {{\varphi }_{{zz}}}G{{R}^{u}}} \right)\rho \,dx} = 0,\quad \frac{{{{\partial }^{2}}H}}{{\partial {{G}^{2}}}} = \int {({{\varphi }_{{zz}}} \otimes {{R}^{u}})\,\rho \,dx} < 0,$
где $ \otimes $ – символ прямого (внешнего, кронекерова) произведения матриц

${{\varphi }_{{zz}}} \otimes {{R}^{u}} = [{{\varphi }_{{{{z}_{i}}{{z}_{j}}}}}R_{{kl}}^{u}]_{{i,j = \overline {1,p} }}^{{k,l = \overline {1,m} }}.$

Так как искомая функция (6.5) не зависит от переменной интегрирования x, то полученное уравнение для нее является алгебраическим и может быть записано, используя обозначение условного среднего (2.8), в многомерном матричном виде

$\bar {\Lambda }_{z}^{u}[\varphi ] * * \,G = - \bar {\Delta }_{{xyz}}^{{u{\text{T}}}}[\varphi ].$

Его коэффициент $\bar {\Lambda }_{z}^{u}[\varphi ]$ и свободный член $\bar {\Delta }_{{xyz}}^{{u{\text{T}}}}[\varphi ]$ определяются по формулам

(6.8)
$\bar {\Lambda }_{z}^{u}[\varphi ] = \int {({{\varphi }_{{zz}}} \otimes {{R}^{u}})\,\rho \,dx} ,\quad \bar {\Delta }_{{xyz}}^{u}[\varphi ] = \int {({{c}^{u}}\varphi _{z}^{{\text{T}}} + {{S}^{u}}^{{\text{T}}}{{\varphi }_{{xz}}} + {{R}^{u}}{{\varphi }_{{yz}}})\rho \,dx} ,$
а символом $ * * \,$ отмечена операция двойного умножения (свертки по двум индексам) попарно симметрической четырехмерной $p \times p \times m \times m$-матрицы (тензора) его коэффициентов $\bar {\Lambda }_{z}^{u}$ на двумерную (плоскую) $p \times m$-матрицу $G$, которая дает другую $p \times m$-матрицу:

$\Lambda * * \,G = \left[ {\sum\limits_{j = 1}^p {\sum\limits_{l = 1}^m {{{\Lambda }_{{ijkl}}}{{G}_{{jl}}}} } } \right]_{{i = \overline {1,p} }}^{{k = \overline {1,m} }},\quad {{\Lambda }_{{ijkl}}} = {{\Lambda }_{{jikl}}} = {{\Lambda }_{{jilk}}} = {{\Lambda }_{{ijlk}}}.$

При этом для выполнения достаточного условия ${{{{\partial }^{2}}H} \mathord{\left/ {\vphantom {{{{\partial }^{2}}H} {\partial {{G}^{2}}}}} \right. \kern-0em} {\partial {{G}^{2}}}} < 0$ искомого максимума (6.6) при условии невырожденности в (1.1) шума изменения ${{R}^{u}}( \cdot ) = {{D}^{u}}( \cdot ){{D}^{u}}^{{\text{T}}}( \cdot ) > 0$ и при очевидной неотрицательности условной плотности $\rho ( \cdot ) \geqslant 0$ требуется отрицательная определенность матрицы ${{\varphi }_{{zz}}}( \cdot ) < 0$. Тогда в точках с ненулевыми значениями плотности $\rho ( \cdot ) \ne 0$ функция $H_{{yz}}^{{u0G}}[\varphi ,\rho ]$ при любых $u$ достигает частного максимума по G. Таким образом, доказано следующее утверждение.

Теорема 4. Если шум измерителя не вырожден, т.е. ${{R}^{u}}( \cdot ) > 0$, а матричная функция ${{\varphi }_{{zz}}}( \cdot )$ отрицательно определена, то частично-оптимальная функция усиления (6.5) является единственным решением линейного матричного уравнения

$\bar {\Lambda }_{z}^{u}[t,y,z;\varphi ] * * \,{{G}^{u}}(t,y,z) = - \bar {\Delta }_{{xyz}}^{{u{\text{T}}}}[t,y,z;\varphi ]\quad \forall t,y,z,u,$
с матрицами (6.8), а соответствующее максимальное значение гамильтониана (6.6) имеет вид

(6.9)
$H_{{yz}}^{u}[\varphi ,\rho ] = \int {\left( \begin{gathered} - {{\mu }^{u}} + {{a}^{u}}^{{\text{T}}}{{\varphi }_{x}} + {{c}^{u}}^{{\text{T}}}{{\varphi }_{y}} + 0.5\,{\text{tr[}}{{Q}^{u}}\,{{\varphi }_{{xx}}}{\text{]}} + \\ + \,{\text{tr[}}{{S}^{u}}^{{\text{T}}}{{\varphi }_{{xy}}} + 0.5{{R}^{u}}{{\varphi }_{{yy}}}{\text{]}} + \,{\text{tr[}}{{G}^{u}}\Delta _{{xyz}}^{u}[\varphi ] + 0.5{{G}^{u}}{{R}^{u}}{{G}^{u}}^{{\text{T}}}{{\varphi }_{{zz}}}] \\ \end{gathered} \right)\rho dx} .$

6.3. Функция выхода. Согласно (6.2), остается максимизировать функцию (6.9) по переменной $u \in \Omega \subset {{\mathbb{R}}^{l}}$. Вследствие неопределенного пока конкретного вида этой зависимости ограничимся следующим очевидным утверждением.

Теорема 5. Если функция (6.9) выпукла по переменной u, то оптимальная функция выхода регулятора $u(t,y,z)$ определяется как единственное решение задачи параметрического нелинейного программирования:

$u(t,y,z) = \mathop {\arg \max }\limits_{u \in \Omega \subset {{\mathbb{R}}^{l}}} H_{{yz}}^{u}[\varphi ,\rho ],\quad \forall t,y,z.$

После этого из (6.7) становится известной и оптимальная функция усиления регулятора $G( \cdot )$.

6.4. Функция начального состояния. Для нахождения максимали (3.7) также используем необходимые и достаточные условия экстремума, в результате чего легко получаем такое утверждение.

Теорема 6. Оптимальная функция $h(y)$ определяется из условий

$\int {{{\varphi }_{z}}(0,x,y,h)\,{{\rho }_{0}}(x\,{\text{|}}\,y)dx} = 0\;\forall y,\quad \int {{{\varphi }_{{zz}}}(0,x,y,h)\,{{\rho }_{0}}(x\,{\text{|}}\,y)dx} < 0\;\forall y,h,$
первое из которых есть алгебраическое уравнение относительно переменной $h$, а второе гарантирует наличие соответствующего максимума.

Заключение. С целью ускорения практической реализации инерционного процесса оптимального в среднем и на отрезке времени $t \in [0,T]$ управления стохастическим объектом по его измеряемому выходу предложен способ синтеза конечномерного динамического регулятора состояния объекта. Этот регулятор учитывает всю предысторию измерений, но не требует восстановления вектора состояния объекта. В отличие от различных конечномерных приближений к использующему апостериорную плотность вероятности оптимальному регулятору Стратоновича–Мортенсена, получаемых методом достаточных координат, он является точным. Его размерность не требуется изменять большими скачками, как при учете очередной группы многомерных апостериорных моментов следующего порядка. Более того, размерность регулятора, влияющая на скорость обработки измерений, может быть выбрана не только много меньше порядка наиболее простого ковариационного приближения к регулятору Стратоновича–Мортенсена, в котором участвуют различные нелинейные обобщения фильтра Калмана, но даже и меньше порядка самого объекта управления.

Синтез предлагаемого регулятора основан на использовании, благодаря его конечномерности, усеченной версии апостериорной плотности вероятности, которая удовлетворяет детерминированному интегродифференциальному уравнению в частных производных. Оно позволило получить достаточные условия оптимальности структурных функций регулятора и уравнения для нахождения их экстремалей. Для случая синтеза статической версии регулятора они проверены сравнением с тремя известными результатами. Приведены и алгоритмы нахождения каждой из структурных функций динамического регулятора.

В второй части статьи планируется рассмотреть случай стохастических измерений состояния объекта и на примере линейно-квадратично-гауссовской задачи проверить полученные здесь алгоритмы синтеза регулятора сравнением их результатов с известной теоремой разделения.

Список литературы

  1. Стратонович Р.Л. К теории оптимального управления. Достаточные координаты // АиТ. 1962. № 7. С. 910–917.

  2. Mortensen R.E. Stochastic Optimal Control with Noisy Observations // Int. J. Control. 1966. V. 4. № 5. P. 455–466.

  3. Davis M.H.A., Varaiya P P. Dynamic Programming Conditions for Partially Observable Stochastic Systems // SIAM J. Control. 1973. V. 11. № 2. P. 226–262.

  4. Параев Ю.И. Введение в статистическую динамику процессов управления и фильтрации. М.: Сов. радио, 1976.

  5. Benes V.E., Karatzas I. On the Relation of Zakai’s and Mortensen’s Equations // SIAM J. Control and Optimization, 1983. V. 21. № 3. P. 472–489.

  6. Bensoussan A. Stochastic Control of Partially Observable Systems. Cambridge: Cambridge University Press, 1992. 364 p.

  7. Пантелеев А.В., Семенов В.В. Оптимальное управление нелинейными вероятностными системами по неполному вектору состояния // АиТ. 1984. № 1. С. 91–100.

  8. Пантелеев А.В., Рыбаков К.А. Приближенный синтез оптимальных непрерывных стохастических систем управления с неполной обратной связью // АиТ. 2018. № 1. С. 130–146.

  9. Хрусталев М.М. Условия равновесия по Нэшу в стохастических дифференциальных играх при неполной информированности игроков о состоянии // Изв. РАН. ТиСУ. 1995. № 6. С. 194–208.

  10. Wonham W.M. On the Separation Theorem of Stochastic Control // SIAM J. Control. 1968. V. 6. № 2. P. 312–326.

  11. Босов А.В. Применение условно-оптимального фильтра для синтеза субоптимального управления в задаче оптимизации выхода нелинейной дифференциальной стохастической системы // АиТ. 2020. № 11. С. 32–45.

  12. Босов А.В. Задача управления линейным выходом нелинейной неуправляемой стохастической дифференциальной системы по квадратичному критерию // Изв. РАН. ТиСУ. 2021. № 5. С. 52–73.

  13. Руденко Е.А. Оперативно-оптимальный конечномерный динамический регулятор состояния стохастического дифференциального объекта по его выходу. I. Общий нелинейный случай // Изв. РАН. ТиСУ. 2022. № 5. С. 1228.

  14. Гихман И.И., Скороход А.В. Введение в теорию случайных процессов. М.: Наука, 1977.

  15. Пантелеев А.В., Руденко Е.А., Бортаковский А.С. Нелинейные системы управления: описание, анализ и синтез. М.: Вузовская книга, 2008.

  16. Тихонов В.И., Миронов М.А. Марковские процессы. М.: Сов. радио, 1977.

  17. Руденко Е.А. Оптимальная структура непрерывного нелинейного фильтра Пугачева пониженного порядка // Изв. РАН. ТиСУ. 2013. № 6. С. 25–51.

  18. Кротов В.Ф., Гурман В.И. Методы и задачи оптимального управления. М.: Наука, 1973.

  19. Гурман В.И. Принцип расширения в задачах управления. М.: Наука, 1997.

Дополнительные материалы отсутствуют.