Известия РАН. Теория и системы управления, 2022, № 5, стр. 14-22

ИГРОВОЕ УПРАВЛЕНИЕ СЛУЧАЙНОЙ СКАЧКООБРАЗНОЙ СТРУКТУРОЙ ОБЪЕКТА В СМЕШАННЫХ СТРАТЕГИЯХ

В. А. Болдинов a*, В. А. Бухалев a, А. А. Скрынников a

a Московский научно-исследовательский телевизионный ин-т МАИ (национальный исследовательский ун-т), ГНЦ ФАУ “ГосНИИАС”
Москва, Россия

* E-mail: victorboldinov@mail.ru

Поступила в редакцию 13.12.2021
После доработки 23.01.2022
Принята к публикации 28.03.2022

Полный текст (PDF)

Аннотация

Рассматривается задача оптимального управления случайной скачкообразной структурой объекта в условиях противодействия. Смена состояний структуры объекта наблюдается противоборствующими сторонами с помощью индикаторов, работающих с ошибками. Критерием оптимальности управлений является некоторый функционал состояния объекта, который один из противников стремится минимизировать, а другой – максимизировать. Игроки управляют структурой объекта в смешанных стратегиях, применяя случайным образом управление. Оптимальные управления находятся в классе детерминированных зависимостей вероятностей управлений от результатов наблюдений, предшествующих текущему моменту. Приводится пример решения задачи оптимизации управления структурой объекта с двумя состояниями методами теории систем со случайной скачкообразной структурой в игровой постановке.

Введение. В работе [1] рассматривалась задача игрового управления случайной скачкообразной структурой (ССС) [18] некоторого динамического объекта в чистых стратегиях.

Структура объекта имеет конечное множество состояний, переходы которых из одного в другое происходят в случайные моменты времени и управляются двумя противоборствующими сторонами, преследующими строго противоположные цели.

При этом каждый из противников (“игроков”) располагает конечным числом возможных стратегий (управлений) и руководствуется некоторым своим априорным представлением об управляемом объекте и информацией, которую он получает от своего индикатора структуры, регистрирующего с ошибками текущее состояние структуры объекта.

Как показано в [1], задача представляет собой игру с ненулевой суммой и не имеет седловой точки. Основная причина этого – неодинаковая информированность игроков о состоянии структуры.

Согласно теореме фон Нейманна–Моргенштерна [9, 10], переход от управления в чистых стратегиях к управлению в смешанных стратегиях приводит к появлению седловой точки игры в задачах с полной информацией о состоянии управляемого объекта.

В задачах с неполной информацией при различной информированности игроков о состоянии объекта седловой точки игры в общем случае не должно быть. Однако следует ожидать определенного сближения верхней и нижней цены игры при переходе от управления в чистых стратегиях к управлению в смешанных стратегиях.

В статье рассматривается задача построения информационно-управляющих алгоритмов противников (“игроков”), состоящая в нахождении оптимальных вероятностей случайных управлений в текущий момент времени k в классе детерминированных зависимостей от показаний индикаторов структуры на отрезке времени от начального момента до текущего k.

Для решения задачи используются теория систем ССС [14], теория игр [5, 7, 915], теория стохастического динамического программирования [16, 17] на основе метода динамического программирования Беллмана [18], байесовская обработка информации [14, 9, 16, 17] и марковские математические модели [14, 9, 16, 17, 19]. Применение этих методов позволяет построить алгоритмы, сочетающие точность решения с простотой реализации. Их достоинствами являются: обратная связь управляющих сигналов с состоянием объекта, комплексирование априорной и апостериорной информации о состоянии объекта и рекуррентная форма алгоритмов, не требующая запоминания всей совокупности наблюдений на отрезке времени, предшествующих текущему моменту. Это особенно важно для систем с ограниченной памятью цифровых вычислительных систем (ЦВС), в бортовых ЦВС систем навигации и наведения летательных аппаратов [4, 20].

1. Постановка задачи. Дано: рассматривается объект ССС, управляемый двумя игроками – A и B, преследующими строго противоположные цели. Структура ${{s}_{k}}$ описывается управляемой марковской цепью с конечным числом возможных состояний ${{s}_{k}} = \overline {1,{{n}^{{(s)}}}} $, где k – текущий момент времени: $k = \overline {0,n} $.

Априорная и текущая информированности игроков о состоянии структуры неодинаковы:

(1.1)
$q_{k}^{A}({{s}_{{k + 1}}}\,{\text{|}}\,{{s}_{k}},{{\Theta }_{k}},{{\vartheta }_{k}});\quad q_{k}^{B}({{s}_{{k + 1}}}\,{\text{|}}\,{{s}_{k}},{{\Theta }_{k}},{{\vartheta }_{k}});\quad p_{0}^{A}({{s}_{0}});\quad p_{0}^{B}({{s}_{0}}),$
(1.2)
$\pi _{{k + 1}}^{A}({{r}_{{k + 1}}}\,{\text{|}}\,{{r}_{k}},{{s}_{{k + 1}}},{{\Theta }_{k}},{{\vartheta }_{k}});\quad \pi _{{k + 1}}^{B}({{\rho }_{{k + 1}}}\,{\text{|}}\,{{\rho }_{k}},{{s}_{{k + 1}}},{{\Theta }_{k}},{{\vartheta }_{k}}),$
${{s}_{k}} = \overline {1,{{n}^{{(s)}}}} ;\quad {{\Theta }_{k}} = \overline {1,{{n}^{{(\Theta )}}}} ;\quad {{\vartheta }_{k}} = \overline {1,{{n}^{{(\vartheta )}}}} ;\quad {{r}_{k}} = \overline {1,{{n}^{{(r)}}}} ;\quad {{\rho }_{k}} = \overline {1,{{n}^{{(\rho )}}}} ,$
где $q_{k}^{A}( \cdot )$, $q_{k}^{B}( \cdot )$ – вероятности переходов структуры из состояния ${{s}_{k}}$ в состояние ${{s}_{{k + 1}}}$ при фиксированных управлениях: Θk – игрока A, ${{\vartheta }_{k}}$ – игрока $B$; $p_{0}^{A}({{s}_{0}})$, $p_{0}^{B}({{s}_{0}})$ – начальные вероятности состояний структуры; $\pi _{{k + 1}}^{A}( \cdot )$, $\pi _{{k + 1}}^{B}( \cdot )$ – вероятности переходов индикаторов структуры, описывамых управляемыми условными марковскими цепями, из состояния ${{r}_{k}}$ в состояние ${{r}_{{k + 1}}}$ – для игрока A и из ${{\rho }_{k}}$ в ${{\rho }_{{k + 1}}}$ – для игрока B при фиксированных ${{s}_{k}}$, ${{\Theta }_{k}}$, ${{\vartheta }_{k}}$.

Другими словами, индикаторы структуры регистрируют с ошибками состояния структуры ${{s}_{{k + 1}}}$, обладают некоторой инерционностью (зависимость от ${{r}_{k}}$, ${{\rho }_{k}}$) и зависят от управлений ${{\Theta }_{k}}$ ${{\vartheta }_{k}}$. Зависимость $\pi _{{k + 1}}^{A}( \cdot )$ от ${{\vartheta }_{k}}$ означает, что игрок B может управлять характеристикой индикатора своего противника, осуществляя, таким образом, информационное противодействие игроку A. Аналогичный смысл имеет зависимость $\pi _{{k + 1}}^{B}( \cdot )$ от Θk.

Игроки управляют структурой объекта в смешанных стратегиях, применяя случайным образом управление ${{\Theta }_{k}} = i$, $i = \overline {1,{{n}^{\Theta }}} ,$ с вероятностями ${{\alpha }_{k}}({{\Theta }_{k}})$ и ${{\vartheta }_{k}} = j$, $j = \overline {1,{{n}^{\vartheta }}} $, с вероятностями ${{\beta }_{k}}({{\vartheta }_{k}})$.

Показатели качества игры JA и JB аналогичны для обеих игроков. Разница между ними состоит в использовании различной информации, которую каждый из противников получает от своего индикатора структуры: ${{r}_{{\overline {0,n} }}}$ для игрока A и ${{\rho }_{{\overline {0,n} }}}$ для игрока $B$:

(1.3)
${{J}^{A}}({{\alpha }_{{\overline {0,n - 1} }}},{{\beta }_{{\overline {0,n - 1} }}},{{r}_{{\overline {0,n - 1} }}}) \triangleq \sum\limits_{k = 1}^n {\text{M}}[{{W}_{k}}({{s}_{k}},{{\theta }_{{k - 1}}},{{\vartheta }_{{k - 1}}}){\text{|}}{\kern 1pt} {{r}_{{\overline {0,k - 1} }}}],$
(1.4)
${{J}^{B}}({{\alpha }_{{\overline {0,n - 1} }}},{{\beta }_{{\overline {0,n - 1} }}},\:{{\rho }_{{\overline {0,n - 1} }}}) \triangleq \sum\limits_{k = 1}^n {\text{M}}[{{W}_{k}}({{s}_{k}},{{\theta }_{{k - 1}}},{{\vartheta }_{{k - 1}}}){\text{|}}{{\rho }_{{\overline {0,k - 1} }}}],$
где ${{W}_{k}}( \cdot )$ – заданная текущая функция потерь. При этом

(1.5)
${\text{M}}[{{W}_{k}}({{s}_{k}},{{\theta }_{{k - 1}}},{{\vartheta }_{{k - 1}}})\,{\text{|}}\,{{r}_{{\overline {0,k - 1} }}}] = \sum\limits_{{{s}_{k}}} {\sum\limits_{{{\theta }_{{k - 1}}}} {\sum\limits_{{{\vartheta }_{{k - 1}}}} {{{W}_{k}}({{s}_{k}},{{\theta }_{{k - 1}}},{{\vartheta }_{{k - 1}}})p_{k}^{A}({{s}_{k}}\,{\text{|}}\,{{\theta }_{{k - 1}}},{{\vartheta }_{{k - 1}}}){{\alpha }_{{k - 1}}}} ({{\theta }_{{k - 1}}}){{\beta }_{{k - 1}}}({{\vartheta }_{{k - 1}}})} } ,$
(1.6)
${\text{M}}[{{W}_{k}}({{s}_{k}},{{\theta }_{{k - 1}}},{{\vartheta }_{{k - 1}}})\,{\text{|}}\,{{\rho }_{{\overline {0,k - 1} }}}] = \sum\limits_{{{s}_{k}}} {\sum\limits_{{{\theta }_{{k - 1}}}} {\sum\limits_{{{\vartheta }_{{k - 1}}}} {{{W}_{k}}({{s}_{k}},{{\theta }_{{k - 1}}},{{\vartheta }_{{k - 1}}})p_{k}^{B}({{s}_{k}}\,{\text{|}}\,{{\theta }_{{k - 1}}},{{\vartheta }_{{k - 1}}}){{\alpha }_{{k - 1}}}} ({{\theta }_{{k - 1}}}){{\beta }_{{k - 1}}}({{\vartheta }_{{k - 1}}})} } .$

Здесь функции $p_{k}^{A}( \cdot ) \triangleq {\text{P}}[{{s}_{k}}\,{\text{|}}\,{{\theta }_{{k - 1}}},{{\vartheta }_{{k - 1}}},r{{{\kern 1pt} }_{{\overline {0,k - 1} }}}]$, $p_{k}^{B}( \cdot ) \triangleq {\text{P}}[{{s}_{k}}\,{\text{|}}\,{{\theta }_{{k - 1}}},{{\vartheta }_{{k - 1}}},\rho {{{\kern 1pt} }_{{\overline {0,k - 1} }}}]$ являются вероятностями состояний структур для игроков А и В;${\text{M}}[ \cdot ]$, ${\text{P}}[ \cdot ]$ и $ \triangleq $ – символы соответственно математического ожидания, вероятности и равенства по определению.

Критерии оптимальности управлений игроков отражают диаметральную противоположность их интересов и описывается формулами

(1.7)
$J_{{}}^{{A*}}(r{{{\kern 1pt} }_{{\overline {0,n - 1} }}}) = \mathop {\min }\limits_{\alpha {{{\kern 1pt} }_{{\overline {0,n - 1} }}}} \mathop {\max }\limits_{{{\beta }_{{\overline {0,n - 1} }}}} {{J}^{A}}(\alpha {{{\kern 1pt} }_{{\overline {0,n - 1} }}},\beta {{{\kern 1pt} }_{{\overline {0,n - 1} }}},r{{{\kern 1pt} }_{{\overline {0,n - 1} }}}),$
(1.8)
$J_{{}}^{{B*}}(\rho {{{\kern 1pt} }_{{\overline {0,n - 1} }}}) = \mathop {\max }\limits_{{{\beta }_{{\overline {0,n - 1} }}}} {\kern 1pt} \mathop {\min }\limits_{\alpha {{{\kern 1pt} }_{{\overline {0,n - 1} }}}} {{J}^{B}}(\alpha {{{\kern 1pt} }_{{\overline {0,n - 1} }}},\beta {{{\kern 1pt} }_{{\overline {0,n - 1} }}},\rho {{{\kern 1pt} }_{{\overline {0,n - 1} }}}),$
т.е. игрок A выбирает оптимальную стратегию на отрезке $[0,n - 1]$, добиваясь минимума показателя качества ${{J}^{A}}( \cdot )$ и предполагая, что его противник будет придерживаться стратегии, максимизирующей этот показатель. Противоположным образом действует игрок $B$, который максимизирует показатель качества ${{J}^{B}}( \cdot )$ в расчете на стратегию игрока A, минимизирующего этот показатель.

Требуется найти: алгоритмы оптимального управления структурой для обоих игроков в виде детерминированных зависимостей вероятностей ${{\alpha }_{k}}$, ${{\beta }_{k}}$ от показателей индикаторов структуры $r{{{\kern 1pt} }_{{\overline {0,k} }}}$, ${{\rho }_{{\overline {0,k} }}}$.

2. Алгоритм игрокa A. 2.1. Регулятор структуры. Найдем уравнения регулятора структуры (блока управления), связывающие оптимальные вероятности управлений с вероятностью состояния структуры.

С учетом спекцифики поставленной задачи применим метод динамического программирования Р. Беллмана, обобщенный и модифицированный для синтеза оптимальных управлений с обратной связью по состоянию объекта в стохастических системах [1, 2, 4, 16, 17].

Введем понятие “функция оставшихся потерь” $J_{k}^{A}$, которую определим формулами

(2.1)
$J_{k}^{A}(\alpha {{{\kern 1pt} }_{{\overline {k - 1,n - 1} }}},\beta {{{\kern 1pt} }_{{\overline {k - 1,n - 1} }}},r{{{\kern 1pt} }_{{\overline {0,k - 1} }}}) \triangleq \sum\limits_{i = k}^n {W_{i}^{A}({{\alpha }_{{i - 1}}},{{\beta }_{{i - 1}}},r{{{\kern 1pt} }_{{\overline {0,k - 1} }}})} ,$
(2.2)
$W_{i}^{A}({{\alpha }_{{i - 1}}},{{\beta }_{{i - 1}}},r{{{\kern 1pt} }_{{\overline {0,k - 1} }}}) \triangleq M[{{W}_{i}}({{s}_{i}},{{\theta }_{{i - 1}}},{{\vartheta }_{{i - 1}}})\,{\text{|}}\,r{{{\kern 1pt} }_{{\overline {0,k - 1} }}}].$

Представив $J_{k}^{A}( \cdot )$ в виде суммы двух слагаемых $W_{i}^{A}( \cdot )$ и оставшейся части суммы из (2.1), (2.2), получаем

(2.3)
$\begin{gathered} J_{k}^{A}(\alpha {{{\kern 1pt} }_{{\overline {k - 1,n - 1} }}},\beta {{{\kern 1pt} }_{{\overline {k - 1,n - 1} }}},r{{{\kern 1pt} }_{{\overline {0,k - 1} }}}) = W_{k}^{A}({{\alpha }_{{i - 1}}},{{\beta }_{{i - 1}}},r{{{\kern 1pt} }_{{\overline {0,k - 1} }}}) + \sum\limits_{i = k + 1}^n {W_{i}^{A}({{\alpha }_{{i - 1}}},{{\beta }_{{i - 1}}},r{{{\kern 1pt} }_{{\overline {0,k - 1} }}}) = } \\ \, = W_{k}^{A}({{\alpha }_{{i - 1}}},{{\beta }_{{i - 1}}},r{{{\kern 1pt} }_{{\overline {0,k - 1} }}}) + \sum\limits_{{{r}_{k}}} {J_{{k + 1}}^{A}(\alpha {{{\kern 1pt} }_{{\overline {k,n - 1} }}},\beta {{{\kern 1pt} }_{{\overline {k,n - 1} }}},{{r}_{k}},r{{{\kern 1pt} }_{{\overline {0,k - 1} }}})\gamma _{k}^{A}({{r}_{k}}),} \\ \end{gathered} $
где

(2.4)
$\gamma _{k}^{A}({{r}_{k}}) \triangleq P[{{r}_{k}}\,{\text{|}}\,{{r}_{{\overline {0,k - 1} }}}] = \sum\limits_{{{s}_{k}}} {\sum\limits_{{{\theta }_{{k - 1}}}} {\sum\limits_{{{\vartheta }_{{k - 1}}}} {\pi _{k}^{A}({{r}_{k}}\,{\text{|}}\,{\kern 1pt} {{r}_{{k - 1}}},{{s}_{k}},{{\theta }_{{k - 1}}},{{\vartheta }_{{k - 1}}})p_{k}^{A}({{s}_{k}}\,{\text{|}}\,{{\theta }_{{k - 1}}},{{\vartheta }_{{k - 1}}}){{\alpha }_{{k - 1}}}} ({{\theta }_{{k - 1}}}){{\beta }_{{k - 1}}}({{\vartheta }_{{k - 1}}})} } ,$
(2.5)
$p_{k}^{A}({{s}_{k}}\,{\text{|}}\,{{\theta }_{{k - 1}}},{{\vartheta }_{{k - 1}}}) = \sum\limits_{{{s}_{{k - 1}}}} {q_{{k - 1}}^{A}({{s}_{k}}\,{\text{|}}\,{{s}_{{k - 1}}},{{\theta }_{{k - 1}}},{{\vartheta }_{{k - 1}}})} \hat {p}_{{k - 1}}^{A}({{s}_{{k - 1}}}\,{\text{|}}\,{{\theta }_{{k - 1}}},{{\vartheta }_{{k - 1}}}).$

Здесь $\hat {p}_{{k - 1}}^{A}({{s}_{{k - 1}}}\,{\text{|}}\,{{\theta }_{{k - 1}}},{{\vartheta }_{{k - 1}}}) \triangleq P[{{s}_{{k - 1}}}|{{\theta }_{{k - 1}}},{{\vartheta }_{{k - 1}}},r{{{\kern 1pt} }_{{\overline {0,k - 1} }}}]$ – апостериорная вероятность состояния структуры.

Так как в силу марковских свойств вероятность ${{\hat {p}}_{{k - 1}}}({{s}_{{k - 1}}}\,{\text{|}}\,{{\theta }_{{k - 1}}},{{\vartheta }_{{k - 1}}})$ не зависит от ${{\theta }_{{k - 1}}}$, ${{\vartheta }_{{k - 1}}}$, то формула (2.5) принимает вид

(2.6)
$p_{k}^{A}({{s}_{k}}\,{\text{|}}\,{{\theta }_{{k - 1}}},{{\vartheta }_{{k - 1}}}) = \sum\limits_{{{s}_{{k - 1}}}} {q_{{k - 1}}^{A}({{s}_{k}}\,{\text{|}}\,{{s}_{{k - 1}}},{{\theta }_{{k - 1}}},{{\vartheta }_{{k - 1}}})} \hat {p}_{{k - 1}}^{A}({{s}_{{k - 1}}}).$

Оптимизируем функцию оставшихся потерь $J_{k}^{A}( \cdot )$ по минимаксному критерию:

(2.7)
$\begin{gathered} J_{k}^{{A*}}(r{{{\kern 1pt} }_{{\overline {0,k - 1} }}}) = \mathop {\min }\limits_{\alpha {{{\kern 1pt} }_{{\overline {k - 1,n - 1} }}}} \mathop {\max }\limits_{{{\beta }_{{\overline {k - 1,n - 1} }}}} J_{k}^{A}(\alpha {{{\kern 1pt} }_{{\overline {k - 1,n - 1} }}},\beta {\kern 1pt} {{{\kern 1pt} }_{{\overline {k - 1,n - 1} }}},r{{{\kern 1pt} }_{{\overline {0,k - 1} }}}) = \\ \, = \mathop {\min }\limits_{\alpha {{{\kern 1pt} }_{{\overline {k - 1,n - 1} }}}} \mathop {\max }\limits_{{{\beta }_{{\overline {k - 1,n - 1} }}}} \left[ {W_{k}^{A}(\alpha {{{\kern 1pt} }_{{k - 1}}},{{\beta }_{{k - 1}}},r{{{\kern 1pt} }_{{\overline {0,n - 1} }}}) + \sum\limits_{{{r}_{k}}} {J_{{k + 1}}^{A}} (\alpha {{{\kern 1pt} }_{{\overline {k,n - 1} }}},\beta {\kern 1pt} {{{\kern 1pt} }_{{\overline {k,n - 1} }}},r{{{\kern 1pt} }_{{\overline {0,k} }}})\gamma _{k}^{A}({{r}_{k}})} \right] = \\ \, = \mathop {\min }\limits_{\alpha {{{\kern 1pt} }_{{k - 1}}}} \mathop {\max }\limits_{\beta {{{\kern 1pt} }_{{k - 1}}}} \mathop {\min }\limits_{\alpha {{{\kern 1pt} }_{{\overline {k,n - 1} }}}} \mathop {\max }\limits_{{{\beta }_{{\overline {k,n - 1} }}}} \left[ {W_{k}^{A}(\alpha {{{\kern 1pt} }_{{k - 1}}},{{\beta }_{{k - 1}}},r{{{\kern 1pt} }_{{\overline {0,k - 1} }}}) + \sum\limits_{{{r}_{k}}} {J_{{k + 1}}^{A}} (\alpha {{{\kern 1pt} }_{{\overline {k,n - 1} }}},\beta {\kern 1pt} {{{\kern 1pt} }_{{\overline {k,n - 1} }}},r{{{\kern 1pt} }_{{\overline {0,k} }}})\gamma _{k}^{A}({{r}_{k}})} \right]{\kern 1pt} . \\ \end{gathered} $

Так как $W_{k}^{A}( \cdot )$ в (2.7) от $\alpha {{{\kern 1pt} }_{{k - 1}}}$, ${{\beta }_{{k - 1}}}$ не зависит, а

$\mathop {\min }\limits_{\alpha {{{\kern 1pt} }_{{\overline {k,n - 1} }}}} \:\mathop {\max }\limits_{{{\beta }_{{\overline {k,n - 1} }}}} \sum\limits_{{{r}_{k}}} {J_{{k + 1}}^{A}} (\alpha {{{\kern 1pt} }_{{\overline {k,n - 1} }}},\beta {\kern 1pt} {{{\kern 1pt} }_{{\overline {k,n - 1} }}},r{{{\kern 1pt} }_{{\overline {0,k} }}})\gamma _{k}^{A}({{r}_{k}}) = \sum\limits_{{{r}_{k}}} {J_{{k + 1}}^{{A*}}} (r{{{\kern 1pt} }_{{\overline {0,k} }}})\gamma _{k}^{A}({{r}_{k}}),$,
то из (2.7) следует рекуррентное уравнение для $J_{k}^{{A*}}( \cdot )$:

(2.8)
$\begin{gathered} J_{k}^{{A*}}(r{{{\kern 1pt} }_{{\overline {0,k - 1} }}}) = \mathop {\min }\limits_{\alpha {{{\kern 1pt} }_{{k - 1}}}} \mathop {\max }\limits_{\beta {{{\kern 1pt} }_{{k - 1}}}} \left[ {W_{k}^{A}(\alpha {{{\kern 1pt} }_{{k - 1}}},{{\beta }_{{k - 1}}},r{{{\kern 1pt} }_{{\overline {0,k - 1} }}}) + \sum\limits_{{{r}_{k}}} {J_{{k + 1}}^{{A*}}} (\alpha {{{\kern 1pt} }_{{k - 1}}},{{\beta }_{{k - 1}}},r{{{\kern 1pt} }_{{\overline {0,k} }}})\gamma _{k}^{A}({{r}_{k}})} \right], \\ k = n,n - 1, \ldots ,1;\quad J_{{n + 1}}^{{A*}} \equiv 0. \\ \end{gathered} $

Пара минимаксных смешанных стратегий, согласно (2.8), определяется формулой

(2.9)
$(\alpha _{{k - 1}}^{*},\beta _{{k - 1}}^{A}) = \arg \mathop {\min }\limits_{{{\alpha }_{{k - 1}}}} \mathop {\max }\limits_{{{\beta }_{{k - 1}}}} {\kern 1pt} \left[ {W_{k}^{A}({{{\hat {p}}}_{{k - 1}}}({{s}_{{k - 1}}}),{{\alpha }_{{k - 1}}},{{\beta }_{{k - 1}}}) + \sum\limits_{{{r}_{k}}} {J_{{k + 1}}^{{A*}}({{{\hat {p}}}_{{k - 1}}}({{s}_{{k - 1}}}),\alpha {{{\kern 1pt} }_{{k - 1}}},{{\beta }_{{k - 1}}})\gamma _{k}^{A}({{r}_{k}})} } \right],$
где $\alpha _{{k - 1}}^{*}$ – оптимальная стратегия игрока A, а $\beta _{{k - 1}}^{A}$ – предполагаемая игроком $A$ оптимальная стратегия игрока $B$, основанные на показаниях индикатора структуры $r{{{\kern 1pt} }_{{\overline {0,k - 1} }}}$, принадлежащего игроку A.

Рекуррентные уравнения (2.8), (2.9) описывают алгоритм регулятора структуры игрока A. Выходными сигналами регулятора являются стратегии $\alpha _{k}^{*}({{\theta }_{k}})$, $\beta _{k}^{A}({{\vartheta }_{k}})$ – вероятности управлений игроков ${{\theta }_{k}}$, ${{\vartheta }_{k}}$, а входным сигналом – апостериорная вероятность состояния структуры $\hat {p}_{k}^{A}({{s}_{k}})$, которая определяется классификатором структуры.

2.2. Классификатор структуры. Апостериорная вероятность состояния структуры $\hat {p}_{k}^{A}({{s}_{k}})$, согласно формуле Байеса, обобщенной на класс систем ССС [14], и формуле полной вероятности, определяется рекуррентными уравнениями

$\hat {p}_{{k + 1}}^{A}({{s}_{{k + 1}}}) = [\gamma _{{k + 1}}^{A}({{r}_{{k + 1}}}{{)]}^{{ - 1}}} \times \sum\limits_{{{\Theta }_{k}}} \sum\limits_{{{\vartheta }_{k}}} \pi _{{k + 1}}^{A}({{r}_{{k + 1}}}|{\kern 1pt} {{r}_{k}},{{s}_{{k + 1}}},{{\theta }_{k}},{{\vartheta }_{k}})p_{{k + 1}}^{A}({{s}_{{k + 1}}}\,{\text{|}}\,{{\theta }_{k}},{{\vartheta }_{k}})\alpha _{k}^{*}({{\theta }_{k}})\beta _{k}^{A}({{\vartheta }_{k}}),$
(2.10)
$\begin{gathered} p_{{k + 1}}^{A}({{s}_{{k + 1}}}\,{\text{|}}\,{{\theta }_{k}},{{\vartheta }_{k}}) = \sum\limits_{{{s}_{k}}} {q_{k}^{A}({{s}_{{k + 1}}}\,{\text{|}}\,{{s}_{k}},{{\theta }_{k}},{{\vartheta }_{k}})} \hat {p}_{k}^{A}({{s}_{k}}), \\ \gamma _{{k + 1}}^{A}({{r}_{{k + 1}}}) = \sum\limits_{{{s}_{{k + 1}}}} {\sum\limits_{{{\theta }_{k}}} {\sum\limits_{{{\vartheta }_{k}}} {\pi _{{k + 1}}^{A}({{r}_{{k + 1}}}\,{\text{|}}\,{{r}_{k}},{{s}_{{k + 1}}},{{\theta }_{k}},{{\vartheta }_{k}})p_{{k + 1}}^{A}({{s}_{{k + 1}}}\,{\text{|}}\,{{\theta }_{k}},{{\vartheta }_{k}})\alpha _{k}^{*}} ({{\theta }_{k}})\beta _{k}^{A}({{\vartheta }_{k}})} } , \\ \end{gathered} $
$k = \overline {0,n - 1} ;\quad {{s}_{k}} = \overline {1,{{n}^{{(s)}}}} ;\quad \hat {p}_{0}^{A}({{s}_{0}}) = p_{0}^{A}({{s}_{0}}).$

В целом, оптимальный минимаксный информационно-управляющий алгоритм игрока $A$ описывается замкнутой системой рекуррентных уравнений (2.8)–(2.10), в которой уравнения регулятора (2.8), (2.9) решаются в “обратном” времени $(k = n,n - 1, \ldots ,1)$ при начальных условиях $J_{{n + 1}}^{{A*}} \equiv 0$, а уравнения классификатора (2.10) – в прямом времени $(k = 0,1, \ldots ,n - 1)$ при начальных условиях ${{\hat {p}}_{0}}({{s}_{0}}) = p_{0}^{A}({{s}_{0}})$ (двухточечная краевая задача (ДКЗ)).

При этом оптимальные стратегии определяются как функции апостериорных вероятностей состояния структуры: $\alpha _{k}^{*}(\hat {p}_{k}^{A}({{s}_{k}}))$, $\beta _{k}^{A}(\hat {p}_{k}^{A}({{s}_{k}}))$ и запоминаются в ЦВМ. Таким образом, мы имеем закон управления с обратной связью по состоянию структуры. Для того, чтобы воспользоваться им, необходим второй этап – нахождение апостериорной вероятности $\hat {p}_{k}^{A}({{s}_{k}})$. Эта вероятность находится в результате решения уравнений (2.10) в процессе управления структурой sk. При этом в качестве управляющих воздействий используются запомненные функции $\alpha _{k}^{*}(\hat {p}_{k}^{A}({{s}_{k}}))$, $\beta _{k}^{A}({{s}_{k}})$.

3. Алгоритм игрокa B. Аналогичный информационно-управляющий максиминный алгоритм игрока $B$ описывается уравнениями (2.8)(2.10), в которых производятся следующие замены: $\mathop {min}\limits_{{{\alpha }_{{k - 1}}}} \,\mathop {max}\limits_{{{\beta }_{{k - 1}}}} {{[ \cdot ]}^{A}} \to \mathop {max}\limits_{{{\beta }_{{k - 1}}}} \,\mathop {min}\limits_{{{\alpha }_{{k - 1}}}} {{[ \cdot ]}^{B}}$; индекс $A \to $ индекс B; ${{r}_{k}} \to {{\rho }_{k}}$; $\alpha _{k}^{*}({{\theta }_{k}}) \to \alpha _{k}^{B}({{\Theta }_{k}})$, $\beta _{k}^{A}({{\vartheta }_{k}}) \to \beta _{k}^{*}({{\vartheta }_{k}})$, где $\beta _{k}^{*}({{\vartheta }_{k}})$ – оптимальная стратегия B, а $\alpha _{k}^{B}({{\Theta }_{k}})$ – предполагаемая игроком $B$ оптимальная стратегия его противника A, основанная на показаниях индикатора структуры ${{\rho }_{{\overline {0,k} }}}$, принадлежащего игроку $B$.

Алгоритм имеет следующий вид.

3.1. Регулятор структуры.

(3.1)
$J_{k}^{{B*}} = \mathop {\max }\limits_{{{\alpha }_{{k - 1}}}} \mathop {\min }\limits_{{{\beta }_{{k - 1}}}} [W_{k}^{B}( \cdot ) + \tilde {J}_{{k + 1}}^{{B*}}( \cdot )],$
(3.2)
$\tilde {J}_{{k + 1}}^{{B*}}( \cdot ) \triangleq \sum\limits_{{{\rho }_{k}}} J_{{k + 1}}^{{B*}}({{\rho }_{k}})\gamma _{k}^{B}({{\rho }_{k}}),$
(3.3)
$\gamma _{k}^{B}({{\rho }_{k}}) = \sum\limits_{{{s}_{k}}} \sum\limits_{{{\Theta }_{{k - 1}}}} \sum\limits_{{{\vartheta }_{{k - 1}}}} \pi _{k}^{B}({{\rho }_{k}}\,{\text{|}}\,{{\rho }_{{k - 1}}},{{s}_{k}},{{\Theta }_{{k - 1}}},{{\vartheta }_{{k - 1}}}) \times p_{k}^{B}({{s}_{k}}\,{\text{|}}\,{{\Theta }_{{k - 1}}},{{\vartheta }_{{k - 1}}}){{\alpha }_{{k - 1}}}({{\Theta }_{{k - 1}}}){{\beta }_{{k - 1}}}({{\vartheta }_{{k - 1}}}),$
(3.4)
$W_{k}^{B}( \cdot ) = \sum\limits_{{{s}_{k}}} \sum\limits_{{{\Theta }_{{k - 1}}}} \sum\limits_{{{\vartheta }_{{k - 1}}}} W_{k}^{B}({{s}_{k}}\,{\text{|}}\,{{\Theta }_{{k - 1}}},{{\vartheta }_{{k - 1}}})p_{k}^{B}({{s}_{k}}\,{\text{|}}\,{{\Theta }_{{k - 1}}},{{\vartheta }_{{k - 1}}}){{\alpha }_{{k - 1}}}({{\Theta }_{{k - 1}}}){{\beta }_{{k - 1}}}({{\vartheta }_{{k - 1}}}),$
(3.5)
$p_{k}^{B}({{s}_{k}}\,{\text{|}}\,{{\Theta }_{{k - 1}}},{{\vartheta }_{{k - 1}}}) = \sum\limits_{{{s}_{{k - 1}}}} q_{{k - 1}}^{B}({{s}_{k}}\,{\text{|}}\,{{s}_{{k - 1}}},{{\Theta }_{{k - 1}}},{{\vartheta }_{{k - 1}}})\hat {p}_{{k - 1}}^{B}({{s}_{{k - 1}}}),$
(3.6)
$(\beta _{{k - 1}}^{*},\alpha _{{k - 1}}^{B}) = \arg \mathop {\max }\limits_{{{\beta }_{{k - 1}}}} \mathop {\min }\limits_{{{\alpha }_{{k - 1}}}} [W_{k}^{B}( \cdot ) + \tilde {J}_{{k + 1}}^{{B*}}( \cdot )],$
$k = n,n - 1, \ldots ,1;\quad J_{{n + 1}}^{{B*}} \equiv 0,$

где

$W_{k}^{B}( \cdot ) \triangleq W_{k}^{B}(\hat {p}_{{k - 1}}^{B}({{s}_{{k - 1}}}),{{\alpha }_{{k - 1}}},{{\beta }_{{k - 1}}}),$
$\tilde {J}_{{k + 1}}^{{B*}}( \cdot ) \triangleq \tilde {J}_{{k + 1}}^{{B*}}(\hat {p}_{{k - 1}}^{B}({{s}_{{k - 1}}}),{{\alpha }_{{k - 1}}},{{\beta }_{{k - 1}}}).$

3.2. Классификатор структуры.

(3.7)
$\hat {p}_{{k + 1}}^{B}({{s}_{{k + 1}}}) = [\gamma _{{k + 1}}^{B}({{\rho }_{{k + 1}}}{{)]}^{{ - 1}}} \times \sum\limits_{{{\Theta }_{k}}} \sum\limits_{{{\vartheta }_{k}}} \pi _{{k + 1}}^{B}({{\rho }_{{k + 1}}}\,{\text{|}}\,{{\rho }_{k}},{{s}_{{k + 1}}},{{\Theta }_{k}},{{\vartheta }_{k}})p_{{k + 1}}^{B}({{s}_{{k + 1}}}\,{\text{|}}\,{{\Theta }_{k}},{{\vartheta }_{k}})\alpha _{k}^{B}({{\Theta }_{k}})\beta _{k}^{*}({{\vartheta }_{k}}),$
(3.8)
$\gamma _{{k + 1}}^{B}({{\rho }_{{k + 1}}}) = \sum\limits_{{{s}_{{k + 1}}}} \sum\limits_{{{\Theta }_{k}}} \sum\limits_{{{\vartheta }_{k}}} \pi _{{k + 1}}^{B}({{\rho }_{{k + 1}}}\,{\text{|}}\,{{\rho }_{k}},{{s}_{{k + 1}}},{{\Theta }_{k}},{{\vartheta }_{k}})p_{{k + 1}}^{B}({{s}_{{k + 1}}}\,{\text{|}}\,{{\Theta }_{k}},{{\vartheta }_{k}})\alpha _{k}^{B}({{\Theta }_{k}})\beta _{k}^{*}({{\vartheta }_{k}}),$
(3.9)
$p_{{k + 1}}^{B}({{s}_{{k + 1}}}\,{\text{|}}\,{{\Theta }_{k}},{{\vartheta }_{k}}) = \sum\limits_{{{s}_{k}}} q_{k}^{B}({{s}_{{k + 1}}}\,{\text{|}}\,{{s}_{k}},{{\Theta }_{k}},{{\vartheta }_{k}})\hat {p}_{k}^{B}({{s}_{k}}),$
$k = \overline {0,n - 1} ;\quad {{s}_{k}} = \overline {1,{{n}^{{(s)}}}} ;\quad \hat {p}_{0}^{B} = p_{0}^{B}({{s}_{0}}).$

4. Пример. Рассмотрим задачу оптимизации управления ССС объекта с двумя состояниями в смешанных стратегиях как частный случай общей постановки задачи из разд. 1.

Дано.

1. Матрицы вероятностей переходов: ${{Q}_{k}}$ – из состояния ${{s}_{k}} = 1$ в состояние ${{s}_{k}} = 2$ и ${{G}_{k}}$ – из состояния ${{s}_{k}} = 2$ в состояние ${{s}_{k}} = 1$:

(4.1)
${{Q}_{k}} = \left[ {\begin{array}{*{20}{c}} {\mathop q\nolimits_k^{11} }&{\mathop q\nolimits_k^{12} } \\ {\mathop q\nolimits_k^{21} }&{\mathop q\nolimits_k^{22} } \end{array}} \right];\quad {{G}_{k}} = \left[ {\begin{array}{*{20}{c}} {\mathop g\nolimits_k^{11} }&{\mathop g\nolimits_k^{12} } \\ {\mathop g\nolimits_k^{21} }&{\mathop g\nolimits_k^{22} } \end{array}} \right],$
где

$q_{k}^{{ij}} \triangleq {\text{P}}[{{s}_{{k + 1}}} = 2\,{\text{|}}\,{{s}_{k}} = 1,\;{{\Theta }_{k}} = i,\;{{\vartheta }_{k}} = j],$
$g_{k}^{{ij}} \triangleq {\text{P}}[{{s}_{{k + 1}}} = 1\,{\text{|}}\,{{s}_{k}} = 2,\;{{\Theta }_{k}} = i,\;{{\vartheta }_{k}} = j],\quad i,j = 1,2.$

Индекс k у квадратных скобок у (4.1) означает, что все элементы матриц Qk и Gk зависят от k.

2. Игрок A случайным образом с вероятностью $\alpha _{k}^{i}$ применяет управление ${{{{\theta }}}_{k}} = i$, а игрок $B$ с вероятностью $\beta _{k}^{j}$ применяет управление ${{\vartheta }_{k}} = j$:

$\sum\limits_{i = 1}^2 \alpha _{k}^{i} = \sum\limits_{i = 1}^2 \beta _{k}^{j} = 1.$

3. Стратегии игроков основываются на показаниях индикаторов структуры соответственно ${{r}_{{\overline {0,k} }}}$ и ${{\rho }_{{\overline {0,k} }}}$, которые описываются условно-марковскими цепями, заданными вероятностями переходов $\pi _{{k + 1}}^{A}({{r}_{{k + 1}}}\,{\text{|}}\,{{r}_{k}},{{s}_{{k + 1}}};{{\Theta }_{k}},{{\vartheta }_{k}})$, $\pi _{{k + 1}}^{B}({{\rho }_{{k + 1}}}\,{\text{|}}\,{{\rho }_{k}},{{s}_{{k + 1}}};{{\Theta }_{k}},{{\vartheta }_{k}})$, ${{r}_{k}} = 1,{\kern 1pt} 2$; ${{\rho }_{k}} = 1,{\kern 1pt} 2$; ${{\Theta }_{k}} = 1,{\kern 1pt} 2$; ${{\vartheta }_{k}} = 1,{\kern 1pt} 2$; sk = 1, 2.

4. Критерии оптимальности управлений игроков:

(4.2)
${{J}^{{A*}}} = \mathop {\min }\limits_{{{\alpha }_{{\overline {0,n - 1} }}}} \mathop {\max }\limits_{{{\beta }_{{\overline {0,n - 1} }}}} {{J}^{A}};\quad {{J}^{{B*}}} = \mathop {\max }\limits_{{{\beta }_{{\overline {0,n - 1} }}}} \mathop {\min }\limits_{{{\alpha }_{{\overline {0,n - 1} }}}} {{J}^{B}},$
где ${{\alpha }_{k}} \triangleq (\alpha _{k}^{1},\alpha _{k}^{2})$, ${{\beta }_{k}} \triangleq (\beta _{k}^{1},\beta _{k}^{2})$;

(4.3)
${{J}^{A}} = \sum\limits_{k = 1}^n {\text{M}}[{{W}_{k}}({{s}_{k}})\,{\text{|}}\,{{r}_{{\overline {0,k - 1} }}}{\kern 1pt} ],\quad {{J}^{B}} = \sum\limits_{k = 1}^n {\text{M}}[{{W}_{k}}({{s}_{k}})\,{\text{|}}\,{{\rho }_{{\overline {0,k - 1} }}}{\kern 1pt} ],$
(4.4)
${{W}_{k}}({{s}_{k}}) = \delta ({{s}_{k}},1).$

Здесь JA, JB – показатели качества; ${{W}_{k}}({{s}_{k}})$ – текущая функция потерь; $\delta ({{s}_{k}},1)$ – символ Кронекера:

$\delta ({{s}_{k}},1) = \left\{ \begin{gathered} 1\quad {\text{при}}\quad {{s}_{k}} = 1, \hfill \\ 0\quad {\text{при}}\quad {{s}_{k}} = 2. \hfill \\ \end{gathered} \right.$

Требуется найти: оптимальные алгоритмы управления противников в виде детерминированных зависимостей вероятностей $\alpha _{k}^{*}$, $\beta _{k}^{*}$ от показателей индикаторов структуры ${{r}_{{\overline {0,k} }}}$, ${{\rho }_{{\overline {0,k} }}}$.

Решение

Регулятор структуры игрока $A$. Из (2.2), (2.8), (2.10), (4.3), (4.4) следует

(4.5)
$\begin{gathered} W_{k}^{A}(\hat {p}_{{k - 1}}^{A}({{s}_{{k - 1}}},{{\alpha }_{{k - 1}}},{{\beta }_{{k - 1}}})) = \sum\limits_{{{s}_{k}} = 1}^2 \sum\limits_{i,{\kern 1pt} j = 1}^2 \delta ({{s}_{k}},1)p_{k}^{A}({{s}_{k}}\,{\text{|}}\,i,j)\alpha _{{k - 1}}^{i}\beta _{{k - 1}}^{j} = \\ \, = \sum\limits_{i,{\kern 1pt} j = 1}^2 p_{k}^{A}(1\,{\text{|}}\,i,j)\alpha _{{k - 1}}^{i}\beta _{{k - 1}}^{j} = \tilde {p}_{k}^{A}(1) = \sum\limits_{i,{\kern 1pt} j = 1}^2 [(1 - q_{{k - 1}}^{{ij}})\hat {p}_{{k - 1}}^{A}(1) + g_{{k - 1}}^{{ij}}\hat {p}_{{k - 1}}^{A}(2)]\alpha _{{k - 1}}^{i}\beta _{{k - 1}}^{j} = \\ \, = [1 - {{q}_{{k - 1}}}({{\alpha }_{{k - 1}}},{{\beta }_{{k - 1}}})]\hat {p}_{{k - 1}}^{A}(1) + {{g}_{{k - 1}}}({{\alpha }_{{k - 1}}},{{\beta }_{{k - 1}}})\hat {p}_{{k - 1}}^{A}(2), \\ \end{gathered} $
где
(4.6)
${{q}_{{k - 1}}}({{\alpha }_{{k - 1}}},{{\beta }_{{k - 1}}}) \triangleq \sum\limits_{i,{\kern 1pt} j = 1}^2 \,q_{{k - 1}}^{{ij}}\alpha _{{k - 1}}^{i}\beta _{{k - 1}}^{j},$
(4.7)
${{g}_{{k - 1}}}({{\alpha }_{{k - 1}}},{{\beta }_{{k - 1}}}) \triangleq \sum\limits_{i,{\kern 1pt} j = 1}^2 \,g_{{k - 1}}^{{ij}}\alpha _{{k - 1}}^{i}\beta _{{k - 1}}^{j},$
(4.8)
${{\tilde {p}}_{k}}(1) \triangleq {\text{P}}\;[{{s}_{k}} = 1\,{\text{|}}\,{{r}_{{\overline {0,k - 1} }}}{\kern 1pt} ],$
(4.9)
$J_{{k + 1}}^{{A*}} = \psi _{k}^{A}{\kern 1pt} \hat {p}_{k}^{A}(1) + m_{k}^{A},$
здесь $\psi _{k}^{A}$, $m_{k}^{A}$ – неопределенные коэффициенты.

Из (2.5), (2.7), (4.5), (4.9) вытекает

(4.10)
$\tilde {J}_{{k + 1}}^{{A*}} = \psi _{k}^{A}{\kern 1pt} \tilde {p}_{k}^{A}(1) + m_{k}^{A} = \psi _{k}^{A}\{ [1 - {{q}_{{k - 1}}}({{\alpha }_{{k - 1}}},{{\beta }_{{k - 1}}})]\hat {p}_{{k - 1}}^{A}(1) + {{g}_{{k - 1}}}({{\alpha }_{{k - 1}}},{{\beta }_{{k - 1}}})\hat {p}_{{k - 1}}^{A}(2)\} + m_{k}^{A}.$

Пара минимаксных смешанных стратегий $(\alpha _{{k - 1}}^{*},\beta _{{k - 1}}^{A})$ определяется формулой (2.9). Подставив $(\alpha _{{k - 1}}^{*},\beta _{{k - 1}}^{A})$ в (2.6), (4.5), (4.10) получаем

$\begin{gathered} {{\psi }_{{k - 1}}}{\kern 1pt} \hat {p}_{{k - 1}}^{A}(1) + m_{{k - 1}}^{A} = [1 - {{q}_{{k - 1}}}(\alpha _{{k - 1}}^{*},\beta _{{k - 1}}^{A})]{\kern 1pt} \hat {p}_{{k - 1}}^{A}(1) + {{g}_{{k - 1}}}(\alpha _{{k - 1}}^{*},\beta _{{k - 1}}^{A}){\kern 1pt} \hat {p}_{{k - 1}}^{A}(2) + \\ \, + {{\psi }_{k}}\{ [1 - {{q}_{{k - 1}}}(\alpha _{{k - 1}}^{*},\beta _{{k - 1}}^{A})]{\kern 1pt} \hat {p}_{{k - 1}}^{A}(1) + {{g}_{{k - 1}}}(\alpha _{{k - 1}}^{*},\beta _{{k - 1}}^{A}){\kern 1pt} \hat {p}_{{k - 1}}^{A}(2)\} + m_{k}^{A}, \\ \end{gathered} $
откуда, учитывая, что $\hat {p}_{{k - 1}}^{A}(2) = 1 - \hat {p}_{{k - 1}}^{A}(1)$, следует

(4.11)
$\begin{gathered} {{\psi }_{{k - 1}}}{\kern 1pt} \hat {p}_{{k - 1}}^{A}(1) + m_{{k - 1}}^{A} = (1 + {{\psi }_{k}})\{ [1 - {{q}_{{k - 1}}}(\alpha _{{k - 1}}^{*},\beta _{{k - 1}}^{A}) - \\ \, - {{g}_{{k - 1}}}(\alpha _{{k - 1}}^{*},\beta _{{k - 1}}^{A})]{\kern 1pt} \hat {p}_{{k - 1}}^{A}(1) + {{g}_{{k - 1}}}(\alpha _{{k - 1}}^{*},\beta _{{k - 1}}^{A})\} + m_{k}^{A}. \\ \end{gathered} $

Приравняв коэффициенты при одинаковых степенях $\hat {p}_{{k - 1}}^{A}(1)$ в левой и правой частях уравнения (4.11) и обозначив

(4.12)
$h_{{k - 1}}^{A}(\alpha _{{k - 1}}^{*},\beta _{{k - 1}}^{A}) \triangleq 1 - {{q}_{{k - 1}}}(\alpha _{{k - 1}}^{*},\beta _{{k - 1}}^{A}) - {{g}_{{k - 1}}}(\alpha _{{k - 1}}^{*},\beta _{{k - 1}}^{A}),$
получаем рекуррентные уравнения для $\psi _{k}^{A}$, $m_{k}^{A}$:

(4.13)
$\begin{gathered} \psi _{{k - 1}}^{A} = h_{{k - 1}}^{A}(\alpha _{{k - 1}}^{*},\beta _{{k - 1}}^{A})(1 + \psi _{k}^{A}),\quad m_{{k - 1}}^{A} = m_{k}^{A} + {{g}_{{k - 1}}}(\alpha _{{k - 1}}^{*},\beta _{{k - 1}}^{A}), \\ k = n,n - 1, \ldots ,1;\quad \psi _{n}^{A} \equiv 0. \\ \end{gathered} $

Согласно (2.11), (4.5), (4.9), (4.12), пара $(\alpha _{{k - 1}}^{*},\beta _{{k - 1}}^{A})$ определяется формулой

(4.14)
$\begin{gathered} (\alpha _{{k - 1}}^{*},\beta _{{k - 1}}^{A}) = \arg \mathop {\min }\limits_{{{\alpha }_{{k - 1}}}} \mathop {\max }\limits_{{{\beta }_{{k - 1}}}} \text{[}W_{k}^{A}( \cdot ) + \tilde {J}_{{k + 1}}^{{A*}}( \cdot )] = \\ \, = arg\mathop {\min }\limits_{{{\alpha }_{{k - 1}}}} \mathop {\max }\limits_{{{\beta }_{{k - 1}}}} \{ (1 + {{\psi }_{k}})[h_{{k - 1}}^{A}({{\alpha }_{{k - 1}}},{{\beta }_{{k - 1}}}){\kern 1pt} \hat {p}_{{k - 1}}^{A}(1) + {{g}_{{k - 1}}}({{\alpha }_{{k - 1}}},{{\beta }_{{k - 1}}})] + m_{k}^{A}\} . \\ \end{gathered} $

Так как $\psi _{k}^{A}$, $m_{k}^{A}$ и $\hat {p}_{{k - 1}}^{A}(1)$ не зависят от ${{\alpha }_{{k - 1}}}$, ${{\beta }_{{k - 1}}}$, то из (4.12), (4.14) следует

(4.15)
$\begin{gathered} (\alpha _{{k - 1}}^{*},\beta _{{k - 1}}^{A}) = arg\mathop {\min }\limits_{{{\alpha }_{{k - 1}}}} \mathop {\max }\limits_{{{\beta }_{{k - 1}}}} \text{[} - {{q}_{{k - 1}}}({{\alpha }_{{k - 1}}},{{\beta }_{{k - 1}}}){\kern 1pt} \hat {p}_{{k - 1}}^{A}(1) + {{g}_{{k - 1}}}({{\alpha }_{{k - 1}}},{{\beta }_{{k - 1}}}){\kern 1pt} \hat {p}_{{k - 1}}^{A}(2)] = \\ \, = arg\mathop {\min }\limits_{{{\alpha }_{{k - 1}}}} \mathop {\max }\limits_{{{\beta }_{{k - 1}}}} {{l}_{{k - 1}}}({{\alpha }_{{k - 1}}},{{\beta }_{{k - 1}}}),\quad k = \overline {1,n} , \\ \end{gathered} $
где

(4.16)
${{l}_{{k - 1}}}( \cdot ) \triangleq - {{q}_{{k - 1}}}( \cdot ){\kern 1pt} \hat {p}_{{k - 1}}^{A}(1) + {{g}_{{k - 1}}}( \cdot ){\kern 1pt} \hat {p}_{{k - 1}}^{A}(2).$

Из теории игр известно, что для парной матричной игры 2 × 2 в смешанных стратегиях оптимальная пара $(\alpha _{{k - 1}}^{*},\beta _{{k - 1}}^{A})$ определяется формулами [15]

(4.17)
$\begin{gathered} \alpha _{{k - 1}}^{{1*}} = \frac{{p_{k}^{A}(1\,{\text{|}}\,2,2) - p_{k}^{A}(1\,{\text{|}}\,2,1)}}{{p_{k}^{{{{A}^{\# }}}}}},\quad \beta _{{k - 1}}^{{{{1}^{A}}}} = \frac{{p_{k}^{A}(1\,{\text{|}}\,2,2) - p_{k}^{A}(1\,{\text{|}}\,1,2)}}{{p_{k}^{{{{A}^{\# }}}}}}, \\ \alpha _{{k - 1}}^{{2*}} = 1 - \alpha _{{k - 1}}^{{1*}};\quad \beta _{{k - 1}}^{{{{2}^{A}}}} = 1 - \beta _{{k - 1}}^{{{{1}^{A}}}};\quad k = \overline {1,n} , \\ \end{gathered} $
где

(4.18)
$\begin{gathered} p_{k}^{{{{A}^{\# }}}} \triangleq p_{k}^{A}(1\,{\text{|}}\,1,1) + p_{k}^{A}(1\,{\text{|}}\,2,2) - p_{k}^{A}(1\,{\text{|}}\,1,2) - p_{k}^{A}(1\,{\text{|}}\,2,1), \\ p_{k}^{A}(1\,{\text{|}}\,i,j) = (1 - q_{{k - 1}}^{{ij}}){\kern 1pt} \hat {p}_{{k - 1}}^{A}(1) + g_{{k - 1}}^{{ij}}{\kern 1pt} \hat {p}_{{k - 1}}^{A}(2),\quad i,{\kern 1pt} j = 1,{\kern 1pt} 2. \\ \end{gathered} $

Цена игры $\tilde {p}_{k}^{{A*}}(1)$ и критерий оптимальности находятся по формулам

(4.19)
$\begin{gathered} \tilde {p}_{k}^{{A*}}(1) = \frac{{p_{k}^{A}(1\,{\text{|}}\,1,1)p_{k}^{A}(1\,{\text{|}}\,2,2) - p_{k}^{A}(1\,{\text{|}}\,1,2)p_{k}^{A}(1\,{\text{|}}\,2,1)}}{{p_{k}^{{{{A}^{\# }}}}}}, \\ {{J}^{{A*}}} = \sum\limits_{k = 0}^n \tilde {p}_{k}^{{A*}}(1). \\ \end{gathered} $

Классификатор структуры игрока A. Согласно (2.8), (2.10), (2.12), рекуррентные уравнения классификатора структуры принимают вид

$\hat {p}_{{k + 1}}^{A}(1) = \frac{{\sum\limits_{i,{\kern 1pt} j = 1}^2 \pi _{{k + 1}}^{A}({{r}_{{k + 1}}}\,{\text{|}}\,{{r}_{k}},1,i,j)p_{{k + 1}}^{A}(1\,{\text{|}}\,i,j)\alpha _{k}^{{i*}}\beta _{k}^{{{{j}^{A}}}}}}{{\sum\limits_{{{s}_{{k + 1}}} = 1}^2 \sum\limits_{i,{\kern 1pt} j = 1}^2 \pi _{{k + 1}}^{A}({{r}_{{k + 1}}}\,{\text{|}}\,{{r}_{k}},{{s}_{{k + 1}}},i,j)p_{{k + 1}}^{A}({{s}_{{k + 1}}}\,{\text{|}}\,i,j)\alpha _{k}^{{i*}}\beta _{k}^{{{{j}^{A}}}}}},$
(4.20)
$\hat {p}_{{k + 1}}^{A}(2) = 1 - \hat {p}_{{k + 1}}^{A}(1),$
$p_{{k + 1}}^{A}(1\,{\text{|}}\,i,j) = (1 - q_{k}^{{ij}}){\kern 1pt} \hat {p}_{k}^{A}(1) + g_{k}^{{ij}}\hat {p}_{k}^{A}(2),$
$p_{{k + 1}}^{A}(2\,{\text{|}}\,i,j) = 1 - p_{{k + 1}}^{A}(1\,{\text{|}}\,i,j);\quad k = \overline {0,n - 1} .$

В целом, информационный-управляющий алгоритм игрока A в смешанных стратегиях описывается замкнутой системой рекуррентных уравнений (4.17)–(4.20) относительно $(\alpha _{k}^{*},\beta _{k}^{A})$ в “прямом времени” $(k = 0,1, \ldots ,n)$, где $\alpha _{k}^{*}$ – оптимальная минимаксная стратегия игрока A, а $\beta _{k}^{A}$ – предполагаемая игроком A оптимальная максиминная стратегия игрока $B$, основанные на показаниях индикатора структуры, принадлежащего игроку А.

Регулятор структуры и классификатор структуры игрока $B$. Согласно (3.1)–(3.9) и по аналогии с (4.17)–(4.20) уравнения регулятора и классификатора для игрока $B$ принимают вид

$\alpha _{{k - 1}}^{{{{1}^{B}}}} = \frac{{p_{k}^{B}(1\,{\text{|}}\,2,2) - p_{k}^{B}(1\,{\text{|}}\,2,1)}}{{p_{k}^{{{{B}^{\# }}}}}},\quad \beta _{{k - 1}}^{{1*}} = \frac{{p_{k}^{B}(1\,{\text{|}}\,2,2) - p_{k}^{B}(1\,{\text{|}}\,1,2)}}{{p_{k}^{{{{B}^{\# }}}}}},$
$\alpha _{{k - 1}}^{{{{2}^{B}}}} = 1 - \alpha _{{k - 1}}^{{{{1}^{B}}}};\quad \beta _{{k - 1}}^{{2*}} = 1 - \beta _{{k - 1}}^{{1*}};\quad k = \overline {1,n} ,$
где

$p_{k}^{{{{B}^{\# }}}} \triangleq p_{k}^{B}(1\,{\text{|}}\,1,1) + p_{k}^{B}(1\,{\text{|}}\,2,2) - p_{k}^{B}(1\,{\text{|}}\,1,2) - p_{k}^{B}(1\,{\text{|}}\,2,1),$
(4.21)
$\begin{gathered} p_{k}^{B}(1\,{\text{|}}\,i,j) = (1 - q_{{k - 1}}^{{ij}}){\kern 1pt} \hat {p}_{{k - 1}}^{B}(1) + g_{{k - 1}}^{{ij}}{\kern 1pt} \hat {p}_{{k - 1}}^{B}(2),\quad i,{\kern 1pt} j = 1,{\kern 1pt} 2, \\ \tilde {p}_{k}^{{B*}}(1) = \frac{{p_{k}^{B}(1\,{\text{|}}\,1,1)p_{k}^{B}(1\,{\text{|}}\,2,2) - p_{k}^{B}(1\,{\text{|}}\,1,2)p_{k}^{B}(1\,{\text{|}}\,2,1)}}{{p_{k}^{{{{B}^{\# }}}}}}, \\ \end{gathered} $
${{J}^{{B*}}} = \sum\limits_{k = 0}^n \tilde {p}_{k}^{{B*}}(1);$
$\hat {p}_{{k + 1}}^{B}(1) = \frac{{\sum\limits_{i,{\kern 1pt} j = 1}^2 \pi _{{k + 1}}^{B}({{\rho }_{{k + 1}}}\,{\text{|}}\,{{\rho }_{k}},1,i,j)p_{{k + 1}}^{B}(1\,{\text{|}}\,i,j)\alpha _{k}^{{{{i}^{B}}}}\beta _{k}^{{j*}}}}{{\sum\limits_{{{s}_{{k + 1}}} = 1}^2 \sum\limits_{i,{\kern 1pt} j = 1}^2 \pi _{{k + 1}}^{B}({{\rho }_{{k + 1}}}\,{\text{|}}\,{{\rho }_{k}},{{s}_{{k + 1}}},i,j)p_{{k + 1}}^{B}({{s}_{{k + 1}}}\,{\text{|}}\,i,j)\alpha _{k}^{{{{i}^{B}}}}\beta _{k}^{{j*}}}},$
(4.22)
$\hat {p}_{{k + 1}}^{B}(2) = 1 - \hat {p}_{{k + 1}}^{B}(1),$
$p_{{k + 1}}^{B}(1\,{\text{|}}\,i,j) = (1 - q_{k}^{{ij}}){\kern 1pt} \hat {p}_{k}^{B}(1) + g_{k}^{{ij}}\hat {p}_{k}^{B}(2),$
$p_{{k + 1}}^{B}(2\,{\text{|}}\,i,j) = 1 - p_{{k + 1}}^{B}(1\,{\text{|}}\,i,j);\quad k = \overline {0,n - 1} .$

Информационно-управляющий алгоритм игрока $B$ в смешанных стратегиях описывается замкнутой системой рекуррентных уравнений (4.21), (4.22) относительно $(\alpha _{k}^{B},\beta _{k}^{*})$ в “прямом времени” $(k = 0,1, \ldots ,n)$, где $\beta _{k}^{*}$ – оптимальная максиминная стратегия игрока B, а $\alpha _{k}^{A}$ – предполагаемая игроком B оптимальная минимаксная стратегия игрока A, основанные на показаниях ${{\rho }_{{{\kern 1pt} \overline {0,k} }}}$ индикатора структуры, принадлежащего игроку B.

Заключение. Каждый из игровых информационно-управляющих алгоритмов противоборствующих сторон состоит из двух взаимосвязанных блоков: регулятора структуры и классификатора структуры.

Несмотря на то, что задача решается в смешанных стратегиях, она является, в отличие от классического варианта [9, 1115], игрой с ненулевой суммой и не имеет седловой точки вследствие различной информированности игроков о результатах игры, так как каждый из игроков основывает свою оптимальную стратегию на данных своего индикатора структуры, показания которых в общем случае не совпадают $({{r}_{k}} \ne {{\rho }_{k}})$.

Список литературы

  1. Бухалёв В.А., Болдинов В.А., Скрынников А.А. Игровое управление случайной скачкообразной структурой объекта в чистых стратегиях // Изв. РАН. ТиСУ. 2020. № 4. С. 39–51.

  2. Бухалёв В.А. Распознавание, оценивание и управление в системах со случайной скачкообразной структурой. М.: Наука, 1996. 287 с.

  3. Бухалёв В.А. Оптимальное сглаживание в системах со случайной скачкообразной структурой. М.: Физматлит, 2013. 188 с.

  4. Бухалёв В.А., Скрынников А.А., Болдинов В.А. Алгоритмическая помехозащита беспилотных летательных аппаратов. М.: Физматлит, 2018. 192 с.

  5. Piers B.D., Sworder D.D. Bayes and Minimax Controllers for a Linear Systems for Stochastic Jump Parameters // IEEE Trans. AC-16. 1971. № 4. P. 677–685.

  6. Zhang C., Zhu H., Zhou H., Bin N. Deterministic and Stochastic Differential Games // Non-cooperative Stochastic Differential Game Theory of Generalized Markov Jump Linear Systems. Studies in Systems, Decision and Control. V. 67. Cham: Springer, 2017. 187 p.

  7. Бухалёв А.И. Игровая задача управления в системе со случайной скачкообразной структурой // Изв. АН. Тех. кибернетика. 1993. № 2. С. 122–132.

  8. Moon J. A Sufficient Condition for Linear-Quadratic Stochastic Zero-Sum Differential Games for Markov Jump Systems // IEEE Transactions on Automatic Control. 2019. V. 64. № 4. P. 1619–1626.

  9. Брайсон А.Е., Хо Ю Ши. Прикладная теория оптимального управления. М.: Мир, 1972. 544 с.

  10. Фон Нейманн Дж., Моргенштерн О. Теория игр и экономическое поведение. М.: Наука, 1970. 707 с.

  11. Айзекс Р. Дифференциальные игры. М.: Мир, 1967. 480 с.

  12. Гермейер Ю.Б. Введение в теорию исследований операций. М.: Наука, 1971. 384 с.

  13. Вентцель Е.С. Исследование операций: задачи, принципы, методология. М.: Кнорус, 2013. 192 с.

  14. Оуэн Г. Теория игр. М.: Вузовская книга, 2007. 216 с.

  15. Абчук В.А., Матвейчук Ф.А., Томашевский Л.П. Справочник по исследованию операций / Под ред. Ф.А. Матвейчука. М.: Воениздат, 1979. 368 с.

  16. Фельдбаум А.А. Основы теории оптимальных автоматических систем. М.: Наука, 1966. 623 с.

  17. Аоки М. Оптимизация стохастических систем. М.: Наука, 1971. 424 с.

  18. Беллман Р. Динамическое программирование. М.: Изд-во иностр. лит., 1960. 400 с.

  19. Ховард Р.А. Динамическое программирование и марковские процессы. М.: Сов. радио, 1964.

  20. Себряков Г.Г., Красильщиков М.Н. Управление и наведение беспилотных маневренных летательных аппаратов на основе современных информационных технологий. М.: Физматлит, 2003. 280 с.

Дополнительные материалы отсутствуют.