Известия РАН. Теория и системы управления, 2021, № 2, стр. 35-46

ОБ ИНВАРИАНТНОСТИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ В ЗАДАЧЕ СИНТЕЗА СТОХАСТИЧЕСКОГО ЛИНЕЙНОГО РЕГУЛЯТОРА С ДИНАМИЧЕСКИМ МАСШТАБИРОВАНИЕМ КОЭФФИЦИЕНТОВ

Е. С. Паламарчук *

Центральный экономико-математический ин-т РАН
Москва, Россия

* E-mail: e.palamarchuck@gmail.com

Поступила в редакцию 18.02.2020
После доработки 27.04.2020
Принята к публикации 27.07.2020

Полный текст (PDF)

Аннотация

Рассматривается задача синтеза стохастического линейно-квадратического регулятора на бесконечном интервале времени при динамическом масштабировании коэффициентов в уравнении состояния и целевом функционале. Динамическое масштабирование означает домножение коэффициентов на положительную функцию времени. Используемые критерии оптимальности представляют собой обобщения долговременного среднего и потраекторного долговременного среднего. При этом в качестве нормировки целевых функционалов применяется интеграл от масштабирующей функции. Показано, что вид оптимального управления инвариантен по времени и может быть получен на основе установившейся оптимальной стратегии, известной для автономной системы.

Введение. Линейные управляемые системы, изменение состояния которых подвержено влиянию аддитивных шумовых воздействий, широко применяются при моделировании динамики объектов в различных областях приложений, в частности для механики и управления движением, например [15]. Следует отметить весомый вклад отечественных исследователей в разработку данного направления, начиная с работ А.М. Летова [68], также см. обзорную статью В.А. Якубовича [9] для стохастического случая и изложенное в монографиях [4, 5, 10, 11]. При этом в задачах долгосрочной оптимизации часто используется предположение о постоянстве во времени параметров соответствующих моделей, см. [1214]. Как следствие, оказывается возможным применение хорошо известных методов теории оптимального управления, разработанных для случая автономных уравнений и стационарных процессов [9]. Вместе с тем ряд аспектов функционирования систем и специфики принятия решений не учитывается при такой постановке. Например, к таким особенностям можно отнести несинхронность временных шкал течения процессов и осуществления наблюдений [15, 16], а также наличие субъективного времени [17]. Для рассматриваемой в данной работе линейной модели динамики состояния такое предположение приводит к возникновению масштабирования параметров. Масштабирование является динамическим, т.е. масштабирующие функции зависят от времени. Динамическое масштабирование коэффициентов оказывается необходимым при переходе от “внутренного” (субъективного) времени к реальной (физической) временной шкале функционирования системы управления. Стратегия управления выбирается с целью стабилизации системы в долгосрочном периоде, а используемый в оценке функционал имеет интегральный квадратичный вид. Долговременная оптимизация в таких задачах основана на построении установившегося закона управления [18, разд. 3.4] и определении подходящего критерия оптимальности на бесконечном интервале времени. Известно, что установившийся закон управления имеет вид линейной обратной связи по состоянию и соответствует предельной форме оптимальных стратегий, найденных при конечном горизонте планирования. В случае постоянных параметров структура установившейся стратегии содержит решение алгебраического уравнения Риккати, что является преимуществом с точки зрения ее реализации. В данной работе будет показано, что инвариантность оптимальной стратегии может также возникнуть и при переменных коэффициентах. Основная цель проводимого исследования – анализ задачи синтеза стохастического линейного регулятора с динамическим масштабированием коэффициентов. Далее статья организована следующим образом. В разд. 1 проводится описание исследуемой системы управления и осуществляется постановка задачи. Раздел 2 содержит результаты об оптимальном управлении в системе с масштабированием, а также включает необходимые сведения по оптимальности в задаче синтеза стохастического линейного регулятора с постоянными коэффициентами. В разд. 3 рассматривается пример скалярной системы управления и проводится анализ ключевых предположений на параметры. Раздел 4 посвящен изучению примера задачи динамической стабилизации в макроэкономике, где возможно применение полученных результатов. Основные выводы работы, а также информация о возможных направлениях дальнейших исследований представлены в Заключении.

1. Описание системы управления и постановка задачи. Пусть на полном вероятностном пространстве $\{ \Omega ,F,{\mathbf{P}}\} $ задан n-мерный случайный процесс Xt, $t \geqslant 0$, описываемый уравнением

(1.1)
$d{{X}_{t}} = {{\alpha }_{t}}A{{X}_{t}}dt + {{\alpha }_{t}}B{{U}_{t}}dt + \sqrt {{{\alpha }_{t}}} Gd{{W}_{t}},\quad {{X}_{0}} = x,$
где начальное состояние x неслучайно, Wt, $t \geqslant 0$, – d-мерный стандартный винеровский процесс, Ut, $t \geqslant 0$, – допустимое управление или k-мерный случайный процесс, согласованный с фильтрацией ${{\{ {{F}_{t}}\} }_{{t \geqslant 0}}}$, ${{F}_{t}} = \sigma \{ {{W}_{s}},s \leqslant t\} $ (${\kern 1pt} \sigma {\kern 1pt} ( \cdot )$ – обозначение $\sigma $-алгебры), такой, что уравнение (1.1) имеет решение; $A$, $B$, $G$ – постоянные матрицы соответствующих размерностей, $G \ne 0$. Множество допустимых управлений обозначим через $U$. Отметим, что управление в виде обратной связи (называемое также синтезом или управлением по замкнутому циклу), т.е. зависящее от значений $\left\{ {{{X}_{s}},0 \leqslant s \leqslant t} \right\}$ (точнее, ${{U}_{t}}$ измеримо относительно $\sigma \{ {{X}_{s}},{\kern 1pt} s \leqslant t\} $), входит в множество $U$. В уравнении (1.1) ${{\alpha }_{t}} > 0$ – масштабирующая функция, при этом использование $\sqrt {{{\alpha }_{t}}} $ при масштабировании аддитивных шумовых воздействий $d{{W}_{t}}$ обусловлено тем, что $\sqrt {{{\alpha }_{t}}} d{{W}_{t}}$ имеет порядок ${{\alpha }_{t}}dt$ в среднем квадратичном, т.е. ${\kern 1pt} E{\kern 1pt} {{(\sqrt {{{\alpha }_{t}}} d{{W}_{t}})}^{2}} = {{\alpha }_{t}}dt$ (${\kern 1pt} E{\kern 1pt} ( \cdot )$ обозначает взятие математического ожидания).

Уравнение вида (1.1) ранее рассматривалось в различных приложениях при частичном масштабировании коэффициентов. Например, детерминированная версия (1.1), где изменялась только матрица ${{\alpha }_{t}}A$, возникала в процессе решения задачи стабилизации класса нелинейных систем, известных как неголономные [19], с функцией ${{\alpha }_{t}}$ в качестве характеристики устойчивости. Динамика (1.1) для A = 0 и $G \ne 0$ изучалась в рамках исследований когнитивных процессов [20], при этом ${{\alpha }_{t}}$ определяла силу воздействия внешнего импульса, влияющего также и на коэффициент диффузии. В работах [2123] класс процессов вида (1.1) со степенной масштабирующей функцией ${{\alpha }_{t}}$ был введен с целью эконометрического моделирования передачи сигналов, а также изменения ряда экономических переменных.

Для каждого T > 0 в качестве целевого функционала определим случайную величину

(1.2)
${{J}_{T}}(U) = \int\limits_0^T {{{\alpha }_{t}}(X_{t}^{{\text{T}}}Q{{X}_{t}} + U_{t}^{{\text{T}}}R{{U}_{t}})dt,} $
где $U \in U$ – допустимое управление на интервале $[0,T]$ (см. также характеристику допустимых управлений и множества $U$ при задании (1.1)); $Q \geqslant 0$, $R > 0$ – симметричные матрицы ($^{{\text{T}}}$ – знак транспонирования, запись $A \geqslant B$ для матриц означает, что разность AB положительно полуопределена). При наличии монотонной функции ${{\alpha }_{t}} > 0$ в (1.2) ${{\alpha }_{t}}$ можно придать смысл дисконтирующей. Положительное дисконтирование возникает для убывающей ${{\alpha }_{t}}$, а отрицательное имеет место в случае, когда ${{\alpha }_{t}}$ возрастает [24]. Возникновение соответствующей терминологии обусловлено знаком ставки дисконтирования ${{\phi }_{t}}$, определяемой как ${{\phi }_{t}} = - {{\dot {\alpha }}_{t}}{\text{/}}{{\alpha }_{t}}{\kern 1pt} $ ($ \cdot $ – производная функции по времени).

Обращаясь к анализу (1.1)–(1.2) в ситуации масштабирования, отметим, что если функция ${{\alpha }_{t}}$ является монотонной и ${{\alpha }_{0}} = 1$, то при ${{\alpha }_{t}} > 1$ имеем инфляцию (рост абсолютных значений) коэффициентов, случай ${{\alpha }_{t}} \to \infty ,{\kern 1pt} $ $t \to \infty $, аналогичен “гиперинфляции”. Ситуация ${{\alpha }_{t}} \equiv 1$ означает отсутствие масштабирования, постоянство коэффициентов во времени и соответствует автономной системе управления. Если же ${{\alpha }_{t}} < 1$, то происходит дефлирование параметров, что в предельном случае ${{\alpha }_{t}} \to 0,{\kern 1pt} $ $t \to \infty ,{\kern 1pt} $ приводит к вырождению матриц.

Далее формулируются предположения, в рамках которых будут получены основные результаты работы.

Предположение $A$. Масштабирующая функция ${{\alpha }_{t}} > 0$ при $t > 0$ является интегрируемой и

$\int\limits_0^t {{{\alpha }_{s}}ds} \to \infty \quad {\text{при}}\quad t \to \infty .$

Условие в предположении $A$, в частности, означает, что масштабирование сохраняет асимптотически неограниченный (при $T \to \infty $) рост общей дисперсии интегральных шумовых воздействий на систему. Действительно, если определить

${{{\text{Z}}}_{T}} = \int\limits_0^T {\sqrt {{{\alpha }_{s}}} d{{W}_{t}}} $
и
$E(Z_{T}^{{\text{T}}}{{Z}_{T}}) = {\text{||}}G{\text{|}}{{{\text{|}}}^{2}}\int\limits_0^T {{{\alpha }_{t}}dt} ,$
то $E(Z_{T}^{{\text{T}}}{{Z}_{T}}) \to \infty $ при $T \to \infty $ ($\left\| {} \right\|$ – матричная норма).

Предположение $B$. Пара матриц (A, B) – стабилизируема, пара матриц $(A,\sqrt Q )$ – выявляема (обнаруживаема).

Стабилизируемость пары (A, B) (выявляемость пары $(A,\sqrt Q )$) означает существование матрицы K (матрицы L), такой что матрица $A + BK$ ($A + L\sqrt Q $) является экспоненциально устойчивой [25, с. 167–168]. Хорошо известно [18, теорема 3.7, с. 275], что при условии выполнения предположения $B$ существует так называемый оптимальный установившийся закон управления $U{\kern 1pt} *$, имеющий вид $U_{t}^{*} = - {{R}^{{ - 1}}}{{B}^{{\text{T}}}}\bar {\Pi }X_{t}^{*}$, где матрица $\bar {\Pi } \geqslant 0$ – решение алгебраического уравнения Риккати $\bar {\Pi }A + A\bar {\Pi } - \bar {\Pi }B{{R}^{{ - 1}}}{{B}^{{\text{T}}}}\bar {\Pi } + Q = 0$. В автономной системе управления, т.е. при ${{\alpha }_{t}} \equiv 1$, стратегия U* оказывается решением задачи управления на бесконечном интервале времени с критерием долговременного среднего, например [25, теорема 5.4.3, с. 169]:

(1.3)
$\mathop {\lim \sup }\limits_{T \to \infty } \frac{{E{{J}_{T}}(U)}}{T} \to \mathop {inf}\limits_{U \in {\text{U}}} .$

Кроме того, $U{\kern 1pt} *$ выступает в качестве оптимальной стратегии при использовании более сильного вероятностного критерия потраекторного среднего (потраекторного эргодического) [26], когда рассматривается задача

(1.4)
$\mathop {\lim \sup }\limits_{T \to \infty } \frac{{{{J}_{T}}(U)}}{T} \to \mathop {inf}\limits_{U \in {\text{U}}} \quad c\;вероятностью\;\;{\text{1}}{\text{.}}$

Как было показано в [27], приведенные критерии адекватно отражают воздействие фактора неопределенности на оценку качества управления только для случая системы (1.1)–(1.2) с ограниченными коэффициентами и невырожденной матрицей диффузии. В рассматриваемой ситуации динамического масштабирования параметров для сравнения стратегий управления при T → ∞ будут использоваться понятия обобщенного долговременного среднего и обобщенного стохастического (потраекторного) долговременного среднего, введенные в [28] для переменной ${{G}_{t}}{\kern 1pt} $, когда вместо T в (1.3) и (1.4) используется нормировка

$\int\limits_0^T {{{{\left\| {{{G}_{t}}} \right\|}}^{2}}dt} .$

В (1.1) матрица диффузии ${{G}_{t}} = \sqrt {{{\alpha }_{t}}} G$. Цель данной работы состоит в нахождении управления U*, являющегося оптимальным в задачах

$\mathop {\lim \sup }\limits_{T \to \infty } \frac{{E{{J}_{T}}(U)}}{{\int\limits_0^T {{\alpha }_{t}}dt}} \to \mathop {inf}\limits_{U \in {\text{U}}} \quad {\text{и}}\quad \mathop {\lim \sup }\limits_{T \to \infty } \frac{{{{J}_{T}}(U)}}{{\int\limits_0^T {{\alpha }_{t}}dt}} \to \mathop {inf}\limits_{U \in {\text{U}}} \quad c\;вероятностью\;\;{\text{1}}{\text{.}}$

В работе будет показано, что вид оптимального управления U* оказывается инвариантен при переходе от автономной системы управления к системе с динамическим масштабированием.

2. Инвариантность оптимального управления в системе с динамическим масштабированием. Как было сказано ранее, при анализе проблемы оптимального управления на бесконечном интервале времени системой с динамическим масштабированием важную роль играет рассмотрение ситуации ${{\alpha }_{t}} \equiv 1$ в (1.1)–(1.2), т.е. постоянства коэффициентов. Для этого случая соответствующие результаты являются известными и будут приведены в данном разделе. При описании элементов такой автономной системы управления вводятся отдельные обозначения, что связано с последующей процедурой по замене времени. Состояние системы ${{\tilde {X}}_{\tau }}{\kern 1pt} ,{\kern 1pt} \tau \geqslant 0,{\kern 1pt} $ описывается уравнением

(2.1)
$d{{\tilde {X}}_{\tau }} = A{{\tilde {X}}_{\tau }}d\tau + B{{\tilde {U}}_{\tau }}d\tau + Gd{{\tilde {W}}_{\tau }},\quad {{\tilde {X}}_{0}} = x{\kern 1pt} .$

Целевой функционал на $[0,\tilde {T}]$ имеет вид

(2.2)
${{\tilde {J}}_{{\tilde {T}}}}(\tilde {U}) = \int\limits_0^{\tilde {T}} {(\tilde {X}_{\tau }^{{\text{T}}}Q{{{\tilde {X}}}_{\tau }} + \tilde {U}_{\tau }^{{\text{T}}}R{{{\tilde {U}}}_{\tau }})d\tau .} $

Оптимальный установившийся закон управления $\tilde {U}{\kern 1pt} *$ в системе (2.1)–(2.2) находится как

(2.3)
$\tilde {U}_{\tau }^{*} = - {{R}^{{ - 1}}}{{B}^{{\text{T}}}}\bar {\Pi }\tilde {X}_{\tau }^{*},$
где симметричная матрица $\bar {\Pi }$ – единственное неотрицательно определенное решение алгебраического уравнения Риккати:
(2.4)
$\bar {\Pi }A + A\bar {\Pi } - \bar {\Pi }B{{R}^{{ - 1}}}{{B}^{{\text{T}}}}\bar {\Pi } + Q = 0,$
процесс $\tilde {X}_{\tau }^{*},\tau \geqslant 0,$ является оптимальной траекторией и задается уравнением

(2.5)
$d\tilde {X}_{\tau }^{*} = (A - B{{R}^{{ - 1}}}{{B}^{{\text{T}}}}\bar {\Pi })\tilde {X}_{\tau }^{*}dt + Gd{{\tilde {W}}_{\tau }}{\kern 1pt} ,\quad \tilde {X}_{0}^{*} = x{\kern 1pt} .$

Основные результаты об оптимальности $\tilde {U}_{\tau }^{*}$ известны [25, теорема 5.4.3, с. 169; 26, теорема 2; 18, теорема 3.7, с. 275] и приводятся в следующей ниже теореме.

Теорема 1. Пусть выполнено предположение $B$. Тогда закон управления $\tilde {U}{\kern 1pt} *$, найденный в (2.3)–(2.5), будет решением следующих задач:

$\mathop {\lim \sup }\limits_{\tilde {T} \to \infty } \frac{{E{{{\tilde {J}}}_{{\tilde {T}}}}(\tilde {U})}}{{\tilde {T}}} \to \mathop {inf}\limits_{\tilde {U} \in {\text{U}}} ,$
$\mathop {\lim \sup }\limits_{\tilde {T} \to \infty } \frac{{{{{\tilde {J}}}_{{\tilde {T}}}}(\tilde {U})}}{{\tilde {T}}} \to \mathop {inf}\limits_{\tilde {U} \in {\text{U}}} \quad c\;вероятностью\;\;{\text{1}}{\text{.}}$

Оптимальные значения обоих критериев совпадают:

$\mathop {\lim \sup }\limits_{\tilde {T} \to \infty } \frac{{E{{{\tilde {J}}}_{{\tilde {T}}}}(\tilde {U}{\kern 1pt} *)}}{{\tilde {T}}} = \mathop {\lim \sup }\limits_{\tilde {T} \to \infty } \frac{{{{{\tilde {J}}}_{{\tilde {T}}}}(\tilde {U}{\kern 1pt} *)}}{{\tilde {T}}} = {\text{tr}}({{G}^{{\text{T}}}}\bar {\Pi }G)$
(${\text{tr}}( \cdot )$ – след матрицы, т.е. сумма ее диагональных элементов). При этом матрица $\tilde {A}{\kern 1pt} {\text{*}}$ = A – ‒ $B{{R}^{{ - 1}}}{{B}^{{\text{T}}}}\bar {\Pi }$ экспоненциально устойчива.

Помимо изучения характеристик оптимальности $\tilde {U}_{\tau }^{*}$ также возникает вопрос оценки поведения траекторий процесса $\tilde {X}_{\tau }^{*}{\kern 1pt} ,\tau \geqslant 0,{\kern 1pt} $ из уравнения (2.5). Далее формулируется лемма, основанная на утверждениях [24, теорема 2; 29, лемма A.2].

Лемма 1. Пусть верны условия теоремы 1. Тогда для траекторий процесса $\tilde {X}_{\tau }^{*},\tau \geqslant 0$, задаваемого (2.5), справедливы следующие соотношения:

1) ${{c}_{1}} \leqslant E{\text{||}}\tilde {X}_{\tau }^{*}{\text{|}}{{{\text{|}}}^{2}} \leqslant {{c}_{2}}$ для $\tau \geqslant 0$ при некоторых константах ${{c}_{1}},{{c}_{2}} > 0{\kern 1pt} $ [24];

2) cуществует неслучайная константа $\bar {c} > 0$, такая, что с вероятностью 1 выполняется неравенство [29]

$\mathop {\lim \sup }\limits_{\tau \to \infty } \frac{{{\text{||}}\tilde {X}_{\tau }^{*}{\text{|}}{{{\text{|}}}^{2}}}}{{ln\tau }} < \bar {c} < \infty {\kern 1pt} .$

Известно, что для линейных нестационарных систем распространенным подходом, помогающим устранить их неоднородность по времени, является преобразование переменных [30, 31]. В рассматриваемом же случае наличие управления в уравнении динамики, а также связанного с ним квадратичного функционала (1.2) не позволяет применить указанную выше технику. Однако при помощи замены времени

$\tau = \int\limits_0^t {{{\alpha }_{s}}ds} $
система управления (1.1)–(1.2) с динамическим масштабированием может быть приведена к автономной системе (2.1)–(2.2).

Лемма 2. Пусть

(2.6)
$\tau = \int\limits_0^t {{\alpha }_{s}}{\kern 1pt} ds{\kern 1pt} .$

Тогда системы управления (1.1)–(1.2) и (2.1)–(2.2) связаны следующим соотношением:

${{X}_{t}} = {{\tilde {X}}_{\tau }}{\kern 1pt} ,\quad {{U}_{t}} = {{\tilde {U}}_{\tau }},\quad {{J}_{T}}(U) = {{\tilde {J}}_{{\tilde {T}}}}(\tilde {U}),$
где $\tilde {T} = \int\limits_0^T {{\alpha }_{t}}{\kern 1pt} dt$.

Доказательство леммы 2. Пусть τ определено в (2.6). Используется соответствующее (2.1) интегральное представление:

${{\tilde {X}}_{\tau }} = x + \int\limits_0^\tau A{{\tilde {X}}_{s}}{\kern 1pt} ds + \int\limits_0^\tau B{{\tilde {U}}_{s}}{\kern 1pt} ds + \int\limits_0^\tau Gd{{\tilde {W}}_{s}}{\kern 1pt} .$

При изменении переменной времени $t$ определяются дифференциалы

$d\left( {\int\limits_0^\tau {A{{{\tilde {X}}}_{s}}ds} } \right) = A{{\tilde {X}}_{\tau }}d\tau = {{\alpha }_{t}}A{{\tilde {X}}_{\tau }}dt,\quad d\left( {\int\limits_0^\tau {B{{{\tilde {U}}}_{s}}ds} } \right) = B{{\tilde {U}}_{\tau }}d\tau = {{\alpha }_{t}}B{{\tilde {U}}_{\tau }}dt.$

Для стохастического интеграла применяется известный результат о замене времени, см. [32, следствие 8.5.4, с. 188], когда

$\int\limits_0^\tau {d{{{\tilde {W}}}_{s}}} = {{\tilde {W}}_{\tau }} = \int\limits_0^t {\sqrt {{{\alpha }_{s}}} d{{W}_{s}}} $
и, следовательно,

$d\left( {\int\limits_0^\tau {d{{{\tilde {W}}}_{s}}} } \right) = \sqrt {{{\alpha }_{t}}} d{{W}_{t}}.$

Поэтому

$d{{\tilde {X}}_{\tau }} = {{\alpha }_{t}}A{{\tilde {X}}_{\tau }}dt + {{\alpha }_{t}}B{{\tilde {U}}_{\tau }}dt + \sqrt {{{\alpha }_{t}}} Gd{{W}_{t}},\quad {{\tilde {X}}_{0}} = x{\kern 1pt} .$

Сравнивая приведенное выше уравнение с уравнением динамики (1.1) для Xt, видим, что Xt = ${{\tilde {X}}_{\tau }}$, ${{U}_{t}} = {{\tilde {U}}_{\tau }}$. Используя полученные соотношения, целевой функционал (1.2) можно преобразовать при τ из (2.6) путем замены переменных в подынтегральном выражении:

${{J}_{T}}(U) = \int\limits_0^T {{{\alpha }_{t}}(X_{t}^{{\text{T}}}Q{{X}_{t}} + U_{t}^{{\text{T}}}R{{U}_{t}})dt = } \int\limits_0^{\tilde {T}} {(\tilde {X}_{\tau }^{{\text{T}}}Q{{{\tilde {X}}}_{\tau }} + \tilde {U}_{\tau }^{{\text{T}}}R{{{\tilde {U}}}_{\tau }})d\tau ,} \quad {\text{где}}\quad \tilde {T} = \int\limits_0^T {{{\alpha }_{t}}dt} .$
Таким образом, ${{J}_{T}}(U) = {{\tilde {J}}_{{\tilde {T}}}}(\tilde {U})$. Утверждение доказано.

Соотношение, полученное в лемме 2, также может дать представление о возникновении системы управления с динамическим масштабированием. Если исходная система управления (2.1)–(2.2) автономна, но непосредственно доступен только процесс ${{X}_{t}} = {{\tilde {X}}_{\tau }},{\kern 1pt} $ где τ задано в (2.6), например, в силу несинхронности временных шкал протекающего процесса и наблюдателя (реализующего управляющее воздействие) [16], то управление (2.1)–(2.2) осуществляется на основе изменения (1.1) с функционалом (1.2).

По предположению $A$ функция

$\int\limits_0^T {{\alpha }_{t}}{\kern 1pt} dt \to \infty $
при T → ∞, а значит, и $\tilde {T} \to \infty $ в автономной системе (2.1)–(2.2) с измененным временем τ по (2.6). Тогда результаты теоремы 1 об оптимальном управлении очевидным образом могут быть использованы и для системы с динамическим масштабированием.

В условиях предположения $B$ определим оптимальный установившийся закон управления:

(2.7)
$U_{t}^{*} = - {{R}^{{ - 1}}}{{B}^{{\text{T}}}}\bar {\Pi }X_{t}^{*},$
где процесс $X_{t}^{*},t \geqslant 0,$ является оптимальной траекторией и задается уравнением
(2.8)
$dX_{t}^{*} = {{\alpha }_{t}}(A - B{{R}^{{ - 1}}}{{B}^{{\text{T}}}}\bar {\Pi })X_{t}^{*}dt + \sqrt {{{\alpha }_{t}}} Gd{{W}_{t}}{\kern 1pt} ,\quad X_{0}^{*} = x{\kern 1pt} ,$
а матрица $\bar {\Pi } \geqslant 0$ определяется как решение алгебраического уравнения Риккати (2.4).

Из соотношений, установленных в лемме 2, и утверждения теоремы 1 следует справедливость приводимого ниже результата.

Теорема 2. Пусть выполнены предположения $A$ и $B$. Тогда закон управления U*, задаваемый (2.7)–(2.8), является оптимальным по критериям обобщенного долговременного среднего и потраекторного обобщенного долговременного среднего в системе с динамическим масштабированием, т.е. решением задач

(2.9)
$\mathop {\lim \sup }\limits_{T \to \infty } \frac{{E{{J}_{T}}(U)}}{{\int\limits_0^T {{\alpha }_{t}}dt}} \to \mathop {inf}\limits_{U \in {\text{U}}} ,$
(2.10)
$\mathop {\lim \sup }\limits_{T \to \infty } \frac{{{{J}_{T}}(U)}}{{\int\limits_0^T {{\alpha }_{t}}{\kern 1pt} dt}} \to \mathop {inf}\limits_{U \in {\text{U}}} \quad с{\kern 1pt} \;\;вероятностью\;\;1.$

Значения критериев на оптимальном управлении U* равны

$\mathop {\lim \sup }\limits_{T \to \infty } \frac{{E{{J}_{T}}(U{\kern 1pt} *)}}{T} = \mathop {\lim \sup }\limits_{T \to \infty } \frac{{{{J}_{T}}(U{\kern 1pt} *)}}{T} = {\text{tr}}({{G}^{{\text{T}}}}\bar {\Pi }G).$

Установленный в теореме 2 результат показывает инвариантность вида оптимального управления при рассмотрении задач оптимизации в системе с динамическим масштабированием коэффициентов. Действительно, U* в форме $U_{t}^{*} = - {{R}^{{ - 1}}}{{B}^{{\text{T}}}}\bar {\Pi }X_{t}^{*}$ известен как оптимальный установившийся закон для автономного стохастического линейного регулятора на бесконечном интервале времени (см. (2.3) и теорему 1). Вместе с тем следует отметить различие в используемых критериях оптимальности. Динамическое масштабирование параметров функцией αt приводит к необходимости модификации долговременных средних из (1.3), (1.4) в направлении их обобщения путем применения нормировки $\int_0^T {{{\alpha }_{t}}dt} $ (см. (2.9) и (2.10)).

Следующее далее замечание характеризует стабилизирующие свойства управления U* и его оптимальность в детерминированной системе (1.1)–(1.2), т.е. для G = 0. При этом предполагаются выполненными условия теоремы 1.

Замечание 1. Матрица $A{\kern 1pt} * = {{\alpha }_{t}}(A - B{{R}^{{ - 1}}}{{B}^{{\text{T}}}}\bar {\Pi })$ в (2.7) является асимптотически устойчивой с темпом ${{\delta }_{t}} = \lambda {{\alpha }_{t}}$ ($\lambda > 0$ – некоторая константа), т.е. соответствующая $A_{t}^{*}$ фундаментальная матрица $\Phi (t,s)$ допускает оценку

$\left\| {\Phi (t,s} \right\| \leqslant \kappa exp\left( { - \lambda \int\limits_s^t {{{\alpha }_{v}}dv} } \right),\quad s \leqslant t,{\kern 1pt} $
при некоторой константе $\kappa > 0$. Данный факт следует из указанного в теореме 1 свойства экспоненциальной устойчивости матрицы $\tilde {A}{\text{*}} = A - B{{R}^{{ - 1}}}{{B}^{{\text{T}}}}\bar {\Pi }$, а также соотношений
$A_{t}^{*} = {{\alpha }_{t}}\tilde {A}{\kern 1pt} *\quad {\text{и}}\quad \Phi (t,s) = exp\left\{ {\tilde {A}{\kern 1pt} *\int\limits_s^t {{{\alpha }_{v}}dv} } \right\},$
см. [30]. Для детерминированной системы управления (1.1)–(1.2) стратегия U* является решением задачи $\mathop {\lim \sup }\nolimits_{T \to \infty } {{J}_{T}}(U)$${{\inf }_{{U \in {\text{U}}}}},$ а значение $\mathop {\lim \sup }\nolimits_{T \to \infty } {{J}_{T}}(U{\kern 1pt} *)$ = ${{x}^{{\text{T}}}}\bar {\Pi }x$.

Приводимые ниже результаты относительно оценки асимптотического поведения оптимальной траектории $X_{t}^{*}$ в среднем квадратичном, а также в смысле почти наверное формулируются на основе леммы 1 с соответствующей корректировкой по замене времени.

Замечание 2. Существуют константы ${{c}_{1}},{{c}_{2}} > 0,$ такие, что ${{c}_{1}} \leqslant E{\text{||}}X_{t}^{*}{\text{|}}{{{\text{|}}}^{2}} \leqslant {{c}_{2}}$ для $t \geqslant 0$. Такая равномерная ограниченность процесса в среднем квадратичном аналогична результату, известному для оптимальной траектории в задаче синтеза автономного стохастического линейного регулятора [24].

Замечание 3. Существует неслучайная константа $\bar {c} > 0$, такая, что с вероятностью 1 выполнено соотношение

$\mathop {\lim \sup }\limits_{t \to \infty } \frac{{{\text{||}}X_{t}^{*}{\text{|}}{{{\text{|}}}^{2}}}}{{ln\left( {\int\limits_0^t {{\alpha }_{s}}ds} \right)}} < \bar {c} < \infty .$

Подобная верхняя оценка является обобщением логарифмической верхней функции, известной для случая ${{\alpha }_{t}} \equiv 1$ при анализе асимптотического поведения квадрата нормы оптимальной траектории процесса в автономной системе [29].

К важным характеристикам оптимального закона управления $U{\kern 1pt} *$ (2.6)–(2.7) относится его взаимосвязь с решениями задач оптимизации при конечном T. Известно (например [18, теорема 3.9, с. 301]), что стратегия $U_{t}^{{*T}} = - {{R}^{{ - 1}}}{{B}^{{\text{T}}}}\Pi _{t}^{T}X_{t}^{*}$ оптимальна в задаче ${\kern 1pt} E{\kern 1pt} {{J}_{T}}(U) \to \mathop {inf}\nolimits_{U \in U} $ (здесь индекс $^{T}$ означает решение для конечного T), функция $\Pi _{t}^{T} \geqslant 0$ удовлетворяет уравнению Риккати $\dot {\Pi }_{t}^{T}$ + ${{\alpha }_{t}}\Pi _{t}^{T}A$ + ${{\alpha }_{t}}{{A}^{{\text{T}}}}\Pi _{t}^{T} - {{\alpha }_{t}}\Pi _{t}^{T}B{{R}^{{ - 1}}}{{B}^{{\text{T}}}}\Pi _{t}^{T} + {{\alpha }_{t}}Q = 0$ с граничным условием $\Pi _{T}^{T} = 0$, $X_{t}^{{*T}}$ – соответствующий процесс, определяемый по (1.1) при $t \leqslant T$. При сформулированных предположениях существует ${{\lim }_{{T \to \infty }}}\Pi _{t}^{T} = \bar {\Pi },{\kern 1pt} $ где матрица $\bar {\Pi } \geqslant 0$ – решение алгебраического уравнения Риккати (2.4). Ключевым условием здесь является

$\int\limits_0^t {{{\alpha }_{s}}ds \to \infty } $
при $t \to \infty $ (см. предположение ${\text{A}}$), что можно проследить, рассмотрев ниже пример управления скалярным процессом.

3. Пример задачи управления скалярным процессом и анализ условий оптимальности. Рассмотрим систему управления (1.1)–(1.2) в скалярном случае:

(3.1)
$d{{X}_{t}} = {{\alpha }_{t}}a{{X}_{t}}dt + {{\alpha }_{t}}b{{U}_{t}}dt + \sqrt {{{\alpha }_{t}}} gd{{W}_{t}},\quad {{X}_{0}} = x,\quad g \ne 0.$
(3.2)
${{J}_{T}}(U) = \int\limits_0^T {{\alpha }_{t}}(qX_{t}^{2} + rU_{t}^{2})dt,\quad q \geqslant 0,\quad r > 0.$

Нетрудно заметить, что выполнение предположения $B$ возможно в следующих ситуациях ограничений на параметры: 1) a – любое, $b \ne 0$, $q > 0$, 2) $a < 0$, $b = 0$, $q > 0$, 3) $a < 0$, b = 0, q = 0. Случай 3) тривиален, так как влечет $\bar {\Pi } = 0$ в (2.4) и в дальнейшем не рассматривается. Алгебраическое уравнение Риккати (2.4) $2a\bar {\Pi } - ({{b}^{2}}{\text{/}}r){{\bar {\Pi }}^{2}}$ + q = 0 имеет решения ${{\bar {\Pi }}^{{(1)}}}$ = (a + $\sqrt {{{a}^{2}} + q{{b}^{2}}{\text{/}}r} )(r{\text{/}}{{b}^{2}})$, ${{\bar {\Pi }}^{{(2)}}} = - q{\text{/}}(2a)$ для 1) и 2) соответственно. Решения дифференциального уравнение Риккати

$\dot {\Pi }_{t}^{T} + 2{{\alpha }_{t}}a\Pi _{t}^{T} - {{\alpha }_{t}}({{b}^{2}}{\text{/}}r)(\Pi _{t}^{T}{{)}^{2}} + q{{\alpha }_{t}} = 0$
с граничным условием $\Pi _{T}^{T} = 0$ могут быть получены на основе замены времени (лемма 2) и результатов для регулятора с постоянными коэффициентами [33, с. 147]:

(3.3)
$\Pi _{t}^{{(1)T}} = {{\bar {\Pi }}^{{(1)}}} - \frac{{2\beta (r{\text{/}}{{b}^{2}})}}{{[(\beta - a){\text{/}}(\beta + a)]exp\left\{ {2\beta \int\limits_t^T {{\alpha }_{s}}ds} \right\} + 1}},$
$\beta = {{\bar {\Pi }}^{{(1)}}}({{b}^{2}}{\text{/}}r) - a > 0,$
(3.4)
$\Pi _{t}^{{(2)T}} = {{\bar {\Pi }}^{{(2)}}} - {{\bar {\Pi }}^{{(2)}}}exp\left\{ {2a\int\limits_t^T {{\alpha }_{s}}ds} \right\}.$

Из соотношений (3.3) и (3.4) очевидно, что ${{\lim }_{{T \to \infty }}}\Pi _{t}^{{(1)T}} = {{\bar {\Pi }}^{{(1)}}}{\kern 1pt} $ и ${{\lim }_{{T \to \infty }}}\Pi _{t}^{{(2)T}} = {{\bar {\Pi }}^{{(2)}}}$ только при условии

$\int\limits_0^t {{{\alpha }_{s}}ds} \to \infty ,{\kern 1pt} \quad t \to \infty .$

В противном случае, когда

$\int\limits_0^\infty {{{\alpha }_{t}}dt} < \infty ,{\kern 1pt} $
предел ${{\lim }_{{T \to \infty }}}\Pi _{t}^{T}$ не является решением алгебраического уравнения Риккати, и инвариантность управления U* по времени уже не будет иметь место, что обусловлено отсутствием перехода к автономному стохастическому линейному регулятору на бесконечном временном интервале при управлении системой с динамическим масштабированием.

4. Анализ задачи динамической стабилизации для макроэкономики. Далее приводится пример задачи макроэкономической стабилизации, в которой используются результаты теоремы 2, замечаний 2, 3 и примера из разд. 3. При этом за основу берется модель из [34], а класс функций ${{\alpha }_{t}}$ степенного вида определяется по [23]. Отметим, что под динамической задачей макроэкономической стабилизации понимается поддержание траектории системы (набора экономических переменных) вблизи заданного уровня [35, Pt III] в течение планового периода с учетом возникающих издержек по управлению. Управление осуществляется при помощи выбора инструментов (также экономических переменных) и часто формулируется в виде задачи синтеза линейного регулятора на бесконечном интервале времени [36, 37]. В данном примере рассматривается корректировка уровня безработицы. Акцент делается на фрикционную и структурную составляющие безработицы (структурная безработица связана с изменением структуры экономики со стороны производства и потребления, фрикционная – с добровольной сменой места работы ввиду переезда и т.д.). В качестве инструмента управления используются государственные расходы на так называемую активную политику на рынке труда (затраты на переобучение, инфраструктуру центров занятости, информационную поддержку, повышение мобильности населения и т.д., в отличие от “пассивной политики” изменения минимального размера оплаты труда и пособий по безработице). Таким образом, будет рассматриваться скалярный процесс вида (1.1) (см. также (3.1)). При этом предполагается, что состояние Xt и управление Ut описывают отклонение соответствующих экономических переменных от своих плановых уровней:

(4.1)
$d{{X}_{t}} = {{\left( {1 + t} \right)}^{p}}( - \gamma ){{X}_{t}}dt - {{\left( {1 + t} \right)}^{p}}\beta {{U}_{t}}dt + {{\left( {1 + t} \right)}^{{p/2}}}gd{{W}_{t}},\quad {{X}_{0}} = x,\quad g \ne 0,$
где константа $\gamma > 0$ задает скорость стремления безработицы к своему плановому естественному уровню в долгосрочном периоде при отсутствии управляющих воздействий и внешних шоков; константа $\beta > 0$ характеризует мультипликатор влияния государственных расходов на динамику безработицы; $g > 0$ – степень воздействия неопределенности; функция ${{\alpha }_{t}} = {{\left( {t + 1} \right)}^{p}}$, $p \geqslant - 1$. Модель вида (4.1) при ${{U}_{t}} \equiv 0$ ранее рассматривалась в [34], возникновение масштабирующей функции ${{\alpha }_{t}}$ было обусловлено наличием “операционного” (т.е. внутреннего) времени развития системы. Функция ${{\alpha }_{t}}$ степенного вида использовалась в работе [23] при эконометрическом моделировании безработицы (в частности, по данным для США была получена оценка p = 10). В задаче стабилизации целевой функционал имеет интегральный квадратичный вид (3.2) и учитывает потери из-за отклонения переменных состония и управления от своих плановых значений с учетом фактора времени и приоритета издержек. Точнее,

(4.2)
${{J}_{T}}(U) = \int\limits_0^T {{(1 + t)}^{p}}(\lambda X_{t}^{2} + (1 - \lambda )U_{t}^{2})dt,\quad 0 < \lambda < 1.$

Если $p < 0$ в (4.2), то значимость фактора времени наступления потерь уменьшается при $t \to \infty $ и возникает так называемое “гиперболическое” дисконтирование (термин используется в экономике и когнитивных науках [38]). При p > 0, наоборот, будущим затратам придается больший вес, что, как известно из теории управления, способствует усилению стабилизирующих свойств оптимальной стратегии [39, Section 3.5], а также [24], и такие функционалы носят название взвешенных по времени интегральных квадратичных критериев качества, применяемых в инженерных приложениях [40, 41]. Для p = 0 имеет место нейтральность ко времени возникновения потерь и стандартная автономная система управления. Константа $0 < \lambda < 1$ задает приоритет одного из двух видов затрат (потерь из-за отклонения состояния или издержек по управлению). Согласно результатам теоремы 2 и примера из разд. 3, будем иметь оптимальный закон управления $U_{t}^{*} = \beta {{(1 - \lambda )}^{{ - 1}}}\bar {\Pi }X_{t}^{*}$, где

$\bar {\Pi } = - \gamma {{\beta }^{{ - 2}}}(1 - \lambda ) + {{\beta }^{{ - 2}}}\sqrt {{{\gamma }^{2}}{{{(1 - \lambda )}}^{2}} + {{\beta }^{2}}\lambda (1 - \lambda )} .$

Динамика оптимальной траектории будет иметь вид

(4.3)
$dX_{t}^{*} = {{\left( {1 + t} \right)}^{p}}( - \sqrt {{{\gamma }^{2}} + {{\beta }^{2}}\lambda {{{(1 - \lambda )}}^{{ - 1}}}} )X_{t}^{*}dt + {{\left( {1 + t} \right)}^{{p/2}}}gd{{W}_{t}},\quad {{X}_{0}} = x.$

Обозначим $\mu (\lambda ) = \sqrt {{{\gamma }^{2}} + {{\beta }^{2}}\lambda {{{(1 - \lambda )}}^{{ - 1}}}} $. При этом “коэффициент усиления” $k(\lambda )$ в законе управления $U_{t}^{*} = k(\lambda )X_{t}^{*}$, где $k(\lambda ) = - \gamma {{\beta }^{{ - 1}}} + {{\beta }^{{ - 1}}}\sqrt {{{\gamma }^{2}} + {{\beta }^{2}}\lambda {{{(1 - \lambda )}}^{{ - 1}}}} $, возрастает по $\lambda $. Таким образом, чем выше значимость стабилизации самой траектории экономической переменной в формировании целевого функционала, тем больший показатель устойчивости (в терминах множителя μ(λ) для (4.3)) будет обеспечивать соответствующая оптимальная стратегия управления. Тогда, согласно замечанию 2, отклонение уровня безработицы от своего планового значения будет поддерживаться в фиксированных пределах (в среднеквадратичной метрике). Для самих же траекторий процесса безработицы (см. замечание 3) динамическая оценка их долгосрочных колебаний может быть выражена в виде логарифмической функции времени при $p > - 1$ и дважды логарифмической, если p = –1.

Заключение. Полученный в работе результат (см. теорему 2) характеризует инвариантность решения задачи управления системой с масштабированием на бесконечном интервале времени. Вид управления U* совпадает с оптимальной стратегией, найденной для случая автономной системы. Значения соответствующих критериев оптимальности при использовании U* также сохраняются. При этом меняется вид самих критериев – вместо длины интервала планирования T в качестве нормировки целевых функционалов применяется функция $\int_0^T {{{\alpha }_{t}}} dt$ интегрального масштабирования. Следует отметить, что подобная инвариантность в задачах синтеза стохастических линейных регуляторов с переменными параметрами может возникнуть и при других предположениях, например, в работе [42], где рассматривалась система с асимптотически постоянными матрицами ${{A}_{t}} \to A,{\kern 1pt} $ ${{B}_{t}} \to B,{\kern 1pt} $ ${{G}_{t}} \to G,{\kern 1pt} $ ${{Q}_{t}} \to Q,{\kern 1pt} $ ${{R}_{t}} \to R,{\kern 1pt} $ в предположении о достаточно быстрой сходимости, точнее

$\int\limits_0^\infty {{\text{||}}{{A}_{t}} - A{\text{||}}dt} < \infty $
и т.д. Это условие позволило использовать решение алгебраического, а не дифференциального уравнения Риккати для построения оптимальной стратегии в рамках обычного критерия долговременного среднего. В данной статье также было показано применение полученных результатов в динамической задаче макроэкономической стабилизации со степенной масштабирующей функцией. В качестве направления дальнейших исследований следует выделить рассмотрение ситуации, когда для масштабирующей функции

$\int\limits_0^\infty {{{\alpha }_{t}}{\kern 1pt} dt} < \infty .$

Изучение простого скалярного примера показывает, что при таком предположении инвариантность оптимального управления уже не имеет места и требуется привлечение других методов анализа, основанных на асимптотиках решений дифференциальных уравнений Риккати.

Список литературы

  1. Zhong W.X. Duality System in Applied Mechanics and Optimal control. N.Y.: Springer, 2006.

  2. Arora J.S. (Ed.) Optimization of Structural and Mechanical Systems. Singapore: World Scientific, 2007.

  3. Tewari A. Aeroservoelasticity: Modeling and Control. N.Y.: Springer, 2015.

  4. Лебедев А.А., Бобронников В.Т., Красильщиков М.Н., Малышев В.В. Статистическая динамика управляемого полета. М.: Машиностроение, 1978.

  5. Малышев В.В. Методы оптимизации в задачах системного анализа и управления: Учеб. пособие. М.: МАИ, 2010.

  6. Летов А.М. Аналитическое конструирование регуляторов I // АиТ. 1960. Т. 21. № 4. С. 436–441.

  7. Летов А.М. Аналитическое конструирование регуляторов II // АиТ. 1960. Т. 21. № 5. С. 561–568.

  8. Летов А.М. Аналитическое конструирование регуляторов III // АиТ. 1960. Т. 21. № 6. С. 661–665.

  9. Якубович В.А. Оптимизация и инвариантность линейных стационарных систем управления // АиТ. 1984. № 8. С. 5–45.

  10. Казаков И.Е., Гладков Д.И. Методы оптимизации стохастических систем. М.: Наука, 1987.

  11. Кибзун А.И. Стохастическое управление динамическими системами: Учеб. пособие. М.: МАИ, 1991.

  12. Carlson D.A., Haurie A.B., Leizarowitz A. Infinite Horizon Optimal Control: Deterministic and Stochastic Systems. N.Y.: Springer, 2012.

  13. Wu J.C., Yang J.N. Control of Lateral-Torsional Motion of Nanjing TV Transmission Tower // Computational Mechanics in Structural Engineering: Recent Developments. N.Y.: Elsevier, 1999. P. 43–56.

  14. Tan Z., Bainum P.M. Optimal Linear Quadratic Gaussian Digital Control of an Orbiting Tethered Antenna/Reflector system // J. Guidance, Control, and Dynamics. 1994. V. 17. № 2. P. 234–241.

  15. Lamperski A., Cowan N.J. Time-changed Linear Quadratic Regulators // Control Conf. (ECC), 2013 European. N.Y.: IEEE, 2013. P. 198–203.

  16. Singh R., Gupta V. On LQR Control with Asynchronous Clocks // Decision and Control and Europ. Control Conf. (CDC-ECC), 50th IEEE Conf. N.Y.: IEEE, 2011. P. 3148–3153.

  17. Aadland D., Shaffer S. Time Compression and Saving Rates // J. Neuroscience, Psychology, and Economics. 2015. V. 8. № 4. P. 217–240.

  18. Квакернаак X., Сиван P. Линейные оптимальные системы управления. М.: Наука, 1977.

  19. Karafyllis I., Tsinias J. Non-uniform in Time Stabilization for Linear Systems and Tracking Control for Non-holonomic Systems in Chained Form // Intern. J. Control. 2003. V. 76. № 15. P. 1536–1546.

  20. Smith P.L., Ratcliff R., Sewell D.K. Modeling Perceptual Discrimination in Dynamic Noise: Time-Changed Diffusion and Release from Inhibition // J. Mathematical Psychology. 2014. V. 59. P. 95–113.

  21. Jiang H., Gray H.L., Woodward W.A. Time-frequency Analysis – G (λ)-stationary Processes // Computational Statistics & Data Analysis. 2006. V. 51. № 3. P. 1997–2028.

  22. Vijverberg C.P.C. Time Deformation, Continuous Euler Processes and Forecasting // J. Time Series Analysis. 2006. V. 27. № 6. P. 811–829.

  23. Vijverberg C.P.C. A Time Deformation Model and its Time-varying Autocorrelation: an Application to US Unemployment Data // Intern. J. Forecasting. 2009. V. 25. № 1. P. 128–145.

  24. Паламарчук Е.С. Стабилизация линейных стохастических систем с дисконтированием: моделирование долгосрочных эффектов применения оптимальных стратегий управления // Мат. моделирование. 2015. Т. 27. № 1. С. 3–15.

  25. Дэвис М.Х.А. Линейное оценивание и стохастическое управление. М.: Наука, 1984.

  26. Palamarchuk E. On Infinite Time Linear-Quadratic Gaussian Control of Inhomogeneous Systems // Control Conf. (ECC), 2016 European. N.Y.: IEEE, 2016. P. 2477–2482.

  27. Паламарчук Е.С. Анализ критериев долговременного среднего в задаче стохастического линейного регулятора // АиТ. 2016. № 10. С. 78–92.

  28. Белкина Т.А., Паламарчук Е.С. О стохастической оптимальности для линейного регулятора с затухающими возмущениями // АиТ. 2013. № 4. С. 110–128.

  29. Белкина T.A., Кабанов Ю.М., Пресман Э.Л. О стохастической оптимальности для линейно-квадратического регулятора // Теория вероятностей и ее применения. 2003. Т. 48. № 4. С. 661–675.

  30. Wu M.-Y., Sherif A. On the Commutative Class of Linear Time-Varying Systems // Intern. J. Control. 1976. V. 23. № 3. P. 433–444.

  31. Каленова В.И., Морозов В.М. Об управлении линейными нестационарными системами специального вида // Изв. РАН. ТиСУ. 2013. № 3. С. 6–15.

  32. Оксендаль Б. Стохастические дифференциальные уравнения. Введение в теорию и приложения. М.: Мир, АСТ, 2003.

  33. Lewis F.L., Vrabie D., Syrmos V.L. Optimal control. N.Y.: John Wiley & Sons, 2012.

  34. Stock J.H. Hysteresis and the Evolution of Postwar US and UK Unemployment // Economic Complexity: Chaos, Sunspots, Bubbles, and Nonlinearity: Proceedings of the Fourth International Sympos. in Economic Theory and Econometrics / Eds W.A. Barnett, J. Geweke, K. Shell. Cambridge, MA: Cambridge University Press, 1989. P. 361–382.

  35. Turnovsky S.J. Macroeconomic Analysis and Stabilization Policy. Cambridge, MA: Cambridge University Press, 1977.

  36. Sengupta J.K. Optimal Stabilization Policy with a Quadratic Criterion Function // The Review of Economic Studies. 1970. V. 37. № 1. P. 127–145.

  37. Sack B. Does the Fed Act Gradually? A VAR analysis // J. Monetary Economics. 2000. V. 46. № 1. P. 229–256.

  38. Loewenstein G., Prelec D. Anomalies in Intertemporal Choice: Evidence and an Interpretation // The Quarterly J. Economics. 1992. V. 107. № 2. P. 573–597.

  39. Anderson B.D.O., Moore J.B. Optimal Control: Linear Quadratic Methods. Courier Corporation, 2007.

  40. Bonkas E.K., Liu Z.K. Suboptimal Design of Regulators for Jump Linear System with Time-multiplied Quadratic Cost // IEEE Transactions on Automatic Control. 2001. V. 46. № 1. P. 131–136.

  41. Xie X., Lam J., Fan C. Robust Time-weighted Guaranteed Cost Control of Uncertain Periodic Piecewise Linear Systems // Information Sciences. 2018. V. 460. P. 238–253.

  42. Czornik A. On Time-varying LQG // IFAC Proceedings Volumes. 1998. V. 31. № 18. P. 411–415.

Дополнительные материалы отсутствуют.