Автоматика и телемеханика, № 2, 2022
Оптимизация, системный анализ
и исследование операций
© 2022 г. В.А. БУХАЛЁВ, д-р техн. наук (Vadim.Bukhalev@yandex.ru)
(Московский научно-исследовательский телевизионный институт),
А.А. СКРЫННИКОВ, канд. техн. наук (a1260@mail.ru)
(Государственный научно-исследовательский институт
авиационных систем, Москва;
Московский авиационный институт),
В.А. БОЛДИНОВ, канд. техн. наук (ViktorBoldinov@mail.ru)
(Московский авиационный институт)
ИГРОВОЕ МИНИМАКСНОЕ УПРАВЛЕНИЕ ПОЛОСОЙ
ПРОПУСКАНИЯ АВТОМАТИЧЕСКОЙ СИСТЕМЫ В УСЛОВИЯХ
ИНФОРМАЦИОННОГО ПРОТИВОДЕЙСТВИЯ1
Рассматривается задача отыскания алгоритмов управления полосой
пропускания автоматической системы в игровой постановке, когда один
из игроков (основная система управления) старается улучшить качество
переходных процессов, а другой (система информационного противодей-
ствия) ухудшить. Получены приближенно-оптимальные минимаксный
и максиминный информационно-управляющие алгоритмы игроков. При-
веден пример, иллюстрирующий работу алгоритма.
Ключевые слова: игровое управление, минимакс, максимин, случайная
скачкообразная структура, марковская цепь, седловая точка игры.
DOI: 10.31857/S0005231022020106
1. Введение
Выходной сигнал системы автоматического управления, находящейся под
воздействием сильных возмущений и помех, может изменяться в значитель-
ном диапазоне, превосходящем пределы, установленные техническими требо-
ваниями. Если система содержит информационно-управляющий алгоритм,
который может регулировать ее полосу пропускания в ответ на выбросы ам-
плитуды возмущений и помех, то можно достичь удержания выходного сиг-
нала системы в заданных пределах.
Однако положение ухудшается, если система работает в условиях инфор-
мационного противодействия, стремящегося нарушить нормальное функцио-
нирование системы также путем регулирования ее полосы пропускания.
1 Работа выполнена при финансовой поддержке Российского фонда фундаментальных
исследований (проекты №№ 19-08-00502, 19-08-00487) и Российского научного фонда (про-
ект № 22-29-00708).
144
Для построения оптимального информационно-управляющего алгоритма
в этих условиях целесообразно применить теорию дифференциальных игр и
теорию систем со случайной скачкообразной структурой (ССС), что и состав-
ляет содержание задачи, рассматриваемой в настоящей статье.
Теория дифференциальных игр была создана Р. Айзексом [1] примерно
в одно время с теорией управления и независимо от нее. Теория случай-
ных процессов в системах автоматического управления была разработана
В.С. Пугачёвым [2], а основные принципы и методы современной теории опти-
мального стохастического управления в монографиях А.А. Фельдбаума [3]
и М. Аоки [4], а также представлены в ряде других фундаментальных на-
учных трудов, в частности в монографиях А.Е. Брайсона, Хо Ю Ши [5] и
Дж.Н. Саридиса [6].
Характерной особенностью функционирования автоматических систем
в условиях информационного противодействия является резкое внезапное
скрытое изменение их структуры (т.е. состава элементов системы и связей
между ними).
Для исследования таких систем целесообразно применять математические
модели, основанные на теории систем со случайной скачкообразной структу-
рой (ССС).
Игровой подход к оптимизации управления обычно используется там, где
одним и тем же объектом управляют две стороны (противники, конкуренты,
игроки), преследующие строго противоположные цели. Оптимизируя свои
стратегии управления, один по минимаксному, другой по максиминно-
му критериям, в антагонистической игре с нулевой суммой и седловой точ-
кой, игроки ориентируются на самую неблагоприятную для себя стратегию
противника с целью обеспечить гарантированный результат, хуже которого
нельзя ожидать ни при какой стратегии соперника [1, 8-15].
В [9-12] были получены оптимальные и приближенно-оптимальные, ос-
нованные на методе двухмоментной параметрической аппроксимации веро-
ятностных распределений [10-12], игровые минимаксные информационно-
управляющие алгоритмы для следующих классов систем:
в чистых и смешанных стратегиях;
непрерывные и дискретные;
линейные и нелинейные;
с марковской и условно-марковской случайной скачкообразной струк-
турой, включающей в себя: 1) структуру, зависящую от фазовых координат;
2) полумарковскую структуру; 3) структуру со случайными вероятностями
переходов из одного состояния в другое; 4) структуру с неизвестными ве-
роятностями переходов; 5) структуру с состояниями, наблюдаемыми с по-
мощью индикаторов структуры, показания которых подвергаются ошибкам
типа “ложная тревога” и “пропуск сигнала”.
Некоторые частные случаи перечисленных задач рассматривались, напри-
мер, в [14, 15] (дифференциальная игра в линейной системе с марковской слу-
чайной структурой), в [16] (линейные системы со случайной скачкообразной
145
структурой) и в [17] (устойчивость нелинейных систем со случайной струк-
турой).
2. Постановка задачи
Дано:
• объект управления
(1)
x(t) = a(-x(t) + u(t) + v(t) + ξ(s, t)),
M [x(0)] = 0, M[(x(0))2] = R(0);
• измерители
(2)
z(t) = x(t) + ζu
(t),
(3)
y(t) = x(t) + ζv
(t);
• показатель качества
tn
(4)
J = M (αx2(t) + β(s)u2(t) - γ(s)v2(t))dt ;
0
• критерии оптимальности
(5)
Ju = min
max
J,
u0,tn
v0,tn
(6)
Jv = max
min
J,
v0,tn
u0,tn
где x(t) - выходной сигнал объекта управления; u(t), v(t) - управляющие
сигналы игроков U и V соответственно; z(t), y(t) - выходные сигналы изме-
рителей игроков U и V соответственно; ξ(s, t), ζu(t), ζv(t) - центрированные
гауссовские белые шумы с интенсивностями G(s), Qu, Qv соответственно;
t и tn - текущий и конечный моменты времени управления; s(t) - индекс
структуры, s = 1, 2 - условно-марковская цепь с интенсивностями переходов
qij(xu(t), xv(t),t) из состояния s(t) = j в состояние s(t) = i, i = j:
q21(xu(t)) ≜ h(xu(t)), q12(xv(t)) ≜ g(xv(t)) :
{
hmax при |xu(t)| ≤ Δ;
(7)
h(xu(t)) =
hmin при |xu(t)| > Δ;
{
gmin при |xv(t)| ≤ Δ;
(8)
g(xv(t)) =
gmax при |xv(t)| > Δ,
где xu(t) ≜ M[x(t)|zo,t], xv(t) ≜ M[x(t)|yo,t] - оптимальные оценки x(t), осно-
ванные на измерениях z0,t и y0,t на отрезке [0, t].
146
Как видно из формул (7), (8), переход из s = 1 в s = 2 зависит от xu(t),
т.е. управляется игроком U, а переход из s = 2 в s = 1 зависит от xv(t), т.е.
управляется игроком V .
В формулах (1)-(8) a, α, β(1), β(2), γ(1), γ(2), G(1), G(2), Qu, Qv, hmax,
hmin, gmax, gmin, Δ - положительные константы;
β(1) ≪ β(2), γ(1) ≫ γ(2), γ(1), γ(2) ≫ β(1), β(2),
(9)
G(1) < G(2), α > γ(1).
Требуется найти: оптимальные управления игроков u(t), v(t) по кри-
териям (5), (6), детерминированно зависящие от z0,t, y0,t в области u(t),
v(t) ∈ (-∞, ∞), т.е. управления, не ограниченные по абсолютной величине.
3. Содержательный смысл задачи
Показатель качества (4) представляет собой линейную комбинацию трех
частных показателей. Первый из них в сочетании с критериями оптимально-
сти (5), (6) характеризует основные цели управления противников: одного
минимизировать средний квадрат выходного сигнала x(t), другого его мак-
симизировать. При этом каждый из них строит свою стратегию в предполо-
жении, что его противник также выбирает наилучшую для себя стратегию.
Второй и третий частные показатели отражают энергетические затраты иг-
роков по управлениям u(t) и v(t) в процессе достижения поставленной цели.
В теории автоматического управления шириной полосы пропускания ав-
томатической системы обычно принято называть величину диапазона спек-
тра частот, в котором ослабление средней мощности гармонического или слу-
чайного входного сигнала не превышает значений, заданных техническими
требованиями. Ширина полосы пропускания регулируется параметрами си-
стемы, которые в рассматриваемой задаче управляются сигналами u(t) и v(t)
в соответствии с критериями (4), (5).
4. Решение
Как показано в [10-12] для линейной системы ССС, каждый из информа-
ционно-управляющих алгоритмов противоборствующих сторон игроков U
и V состоит их двух взаимосвязанных блоков: блок обработки информа-
ции и блок управления. Блок обработки информации в свою очередь состоит
из следующих взаимосвязанных блоков: классификатор структуры, иденти-
фикатор структуры, фильтр и дисперсиометр. Блок управления состоит из
двух блоков: регулятор полосы пропускания и блок параметров регулятора.
Информационно-управляющие алгоритмы делятся на две категории: оп-
тимальные и приближенно-оптимальные. При выборе алгоритма необходимо
учитывать следующие обстоятельства.
1. Точность вычислений должна соответствовать точности и достоверно-
сти используемой априорной и апостериорной информации, особенно в усло-
147
виях противодействия, например при постановке помех системам связи и
управления автоматических систем.
2. Специфической особенностью оптимальных алгоримов в системах ССС
является многоканальность. Число информационных каналов равно числу
состояний случайной структуры. В каждом канале фильтра (в рассматривае-
мой задаче их два) вычисляется условная оценка xu(s(t)) ≜ M[x(t)|s(t), zo,t]
при фиксированном s(t) и наблюдениях zo,t, s = 1, 2. Аналогично в каж-
дом из двух каналов дисперсиометра вычисляются условные дисперсии
R(s(t)) ≜ M[(x(t) - xu(s(t)))2|s(t), zo,t], s = 1, 2. Безусловные оценки и дис-
персии рассчитываются по формулам
xu(t) =
pu(s(t),t)xu(s(t),t),
s=1
[
]
Ru(t) =
pu(s(t),t)
Ru(s(t),t) + x2u(s(t),t)
- x2u(t).
s=1
3. Другим серьезным недостатком оптимальных алгоритмов в системах
ССС является стохастическая двухточечная краевая задача (СДКЗ). Она
возникает вследствие того, что информационно-управляющий алгоритм опи-
сывается двумя взаимно-связанными системами уравнений. Первая система
определяет зависимость управляющих сигналов от апостериорных вероятно-
стей состояний структуры, а вторая зависимость вероятностей от управ-
ляющих сигналов. При этом первая система задана условиями в конечный
момент времени t = tn, а вторая в начальный момент t = 0.
В итоге реализация оптимальных алгоритмов зачастую требует неоправ-
данно большого объема памяти и высокого быстродействия вычислительных
систем, поскольку высокая точность вычислений бесполезна при низкой точ-
ности априорной и апостериорной информации в условиях противодействия.
Для устранения указанных проблем в статье предлагается приближенно-
оптимальный алгоритм, основанный на двух концепциях: 1) приближенная
замена состояний структуры s(t) его оценкой ŝ(t); 2) использование в урав-
нениях алгоритма установившихся значений вычисляемых параметров.
В результате в соответствии с условиями задачи (1)-(9) уравнения блоков
принимают следующий вид (аргумент t у всех функций, зависящих от него,
опущен для простоты записи):
1. Алгоритм игрока U.
• Классификатор структуры
[
]
pu(1) = - h(xu) + g#(xu) pu(1) + g#(xu),
(10)
pu(2) = 1 - pu(1),
где pu(1), pu(2) - апостериорные вероятности состояний структуры:
[
]
[
]
pu(1) ≜ P s(t) = 1|z0,t ,
pu(2) ≜ P s(t) = 2|z0,t ,
148
P [·] - символ вероятности; g#(xu) - функция g(·), определенная формулой (8),
в которой аргумент xv(t) приближенно заменен аргументом xu(t).
• Идентификатор структуры
{
1
при pu(1) > pпор,
(11)
ŝu =
2
при pu(1) ≤ pпор,
где ŝ(t) - оптимальная оценка состояния структуры; pпор - заданная порого-
вая вероятность.
• Фильтр и дисперсиометр. Согласно уравнениям структурно-адаптивной
одноканальной фильтрации [9, 10] приближенно-оптимальная оценка xu опре-
деляется уравнениями:
(
)
Ruu)
(12)
xu = a
-xu +u +v# -
(z - xu)
,
Qu
(13)
Ruu) = -2aRuu) -Ruu) + a2G(ŝu
),
Qu
где xu - оптимальная оценка x, Ruu) - апостериорная дисперсия ошибки
фильтрации, u(t) - оптимальное минимаксное управление игрока U, а v# -
оптимальное максиминное управление игрока V , предполагаемое игроком U,
оба основанные на оценке xu(t), вычисляемой фильтром U (12), (13).
В установившемся режиме для Ruu), т.е. приRuu) = 0, уравнения (12),
(13) преобразуются к виду:
(14)
xu = a[(r(ŝu) - 1)z - (r(ŝu) + du)xu
],
G(ŝu)
(15)
r(ŝu) =
1+
Qu
• Регулятор полосы пропускания и его параметры. Для линейной систе-
мы ССС с линейно-квадратическим показателем качества и минимаксным
критерием оптимизации [10-12] в соответствии с условиями задачи (1)-(9)
приближенно-оптимальный алгоритм блока управления принимает следую-
щий вид
γudu
(16)
u = -cuxu, cu =
,
γu - βu
где
α(γu - βu)
(17)
du =
1+
− 1,
γuβu
(18)
βu = pu(1)β(1) + pu
(2)β(2),
(19)
γu = pu(1)γ(1) + pu(2)γ(2).
149
Таким образом, приближенно-оптимальный минимаксный алгоритм игро-
ка U описывается замкнутой системой уравнений (7)-(11), (14)-(19) относи-
тельно u(t) c входным сигналом z(t).
2. Алгоритм игрока V .
Приближенно-оптимальный максиминный алгоритм игрока V описыва-
ется уравнениями, аналогичными уравнениям алгоритма U, с той, однако,
принципиальной разницей, что алгоритм V создает в контуре управления
положительную обратную связь, направленную на ухудшение устойчивости
автоматической системы.
Замкнутая система уравнений алгоритма имеет следующий вид:
{
hmax при |xv(t)| ≤ Δ;
h#(xv(t)) =
hmin при |xv(t)| > Δ;
{
gmin при |xv(t)| ≤ Δ;
g(xv(t)) =
gmax при |xv(t)| > Δ,
где h#(xv(t)) - функция h(·), определенная формулой (7), в которой аргу-
мент xu приближенно заменен аргументом xv;
[
]
pv(1) = - h#(xv) + g(xv) pv(1) + g(xv),
pv(2) = 1 - pv(1),
{
1
при pv(1) > pпор,
ŝv =
2
при pv(1) ≤ pпор,
xv = a[(ρ(ŝv) - 1)y - (ρ(ŝv) + dv)xv],
G(ŝv)
(20)
ρ(ŝv) =
1+
,
Qv
βvdv
v = cv xv, cv =
,
γv - βv
βv = pv(1)β(1) + pv(2)β(2),
γv = pv(1)γ(1) + pv(2)γ(2),
α(γv - βv)
dv =
1+
- 1.
γvβv
Структурная схема автоматической системы, состоящей из объекта управ-
ления и двух систем управления основной и системы противодействия,
представлена на рис. 1.
150
Классификатор
структуры
y
a
r - 1
x(s)
x
a
u*
^u
z
-c
u
a
r - 1
zu
Классификатор
r + du
pu
структуры
Рис. 1.
5. Пример
На рис. 2 изображены графики, иллюстрирующие работу алгоритма при
следующих значениях параметров из условия задачи: α = 0,5; β(1) = 0,02;
β(2) = 0,06; γ(1) = 0,3; γ(2) = 0,1; Qu = Qv = Q; G(1)/Q = 3; G(2)/G(1) = 3;
xuk = xvk = xk; a = 1; hmax = 0,18; hmin = 0,02; gmax = 0,12; gmin = 0,06; Δ =
= 3/8. На рис. 2 обозначено: ξ(t) - случайное возмущение; I(t) - индикатор
пересечения модуля выходного сигнала пределов допуска (I(t) = 1 при вы-
ходе за пределы допуска; I(t) = -1 при входе в пределы допуска); |x(t)| -
10
5
0
-5
-10
10
20
30
40
50
60
70
80
90
t, c
1
0
-1
10
20
30
40
50
60
70
80
90
t, c
1,0
0,5
0
-0,5
-1,0
10
20
30
40
50
60
70
80
90
t, c
2
1
10
20
30
40
50
60
70
80
90
t, c
Рис. 2.
151
модуль оценки выходного сигнала; s(t) - индекс состояний структуры; Δ -
граница поля допуска.
Как видно из схемы, уравнений алгоритмов и рисунков, при резком и
значительном увеличении (“выбросе”) случайного возмущения ξ(t) или по-
мехи ζ(t) в канале измерения модуль выходного сигнала |x(t)|, а вслед за
ним и модуль оценки |xu(t)| увеличиваются. Если |xu(t)| выходит за пре-
делы поля допуска |xu(t)| > Δ, то, как следует из алгоритма классифика-
тора, pu(1) > pu(2) и cu → maxcu,
Ĝ≜ [pu(1)G(1) + pu(2)G(2)] → G(1). Уве-
личение cu в цепи отрицательной обратной связи автоматической системы
и уменьшение интенсивности входного возмущений приводят к уменьшению
|x(t)|, |xu(t)|, и если |xu(t)| становится меньше Δ, то pu(1) < pu(2), cu → mincu,
ĜU → G(2) и система переходит в нормальный “экономный” режим, при ко-
тором “энергетические” затраты на поддержание состояния |xu| ≤ Δ мини-
мальны.
Система противодействия, наоборот, на состояние |xv(t)| ≤ Δ реагирует
увеличением коэффициента cv в цепи положительной обратной связи и уве-
личением интенсивности входного возмущения, стремясь ухудшить характе-
ристики устойчивой работы автоматической системы.
Как следует из уравнений алгоритмов, устойчивость работы обеспечива-
ется при выполнении условия γ(1), γ(2) > β(1), β(2). Практически это озна-
чает, что технические, эксплуатационные или какие-нибудь другие характе-
ристики, ограничивающие допустимые энергетические затраты, у основной
системы управления лучше, чем аналогичные характеристики системы про-
тиводействия.
С теоретической точки зрения полученные результаты показывают, что
рассмотренная задача представляет собой антагонистическую дифференци-
альную игру с неполной информацией, ненулевой суммой и без седловой точ-
ки вследствие различной информированности игроков о состоянии игры.
6. Заключение
Решена задача синтеза игрового минимаксно-максиминного алгоритма
управления полосой пропускания автоматической системы. При ее решении
использованы методы теории дифференциальных игр, теории систем со слу-
чайной скачкообразной структурой, теории марковских процессов и байесов-
ское оценивание состояния системы.
Получены приближенно-оптимальные информационно-управляющие ал-
горитмы двух противоборствующих сторон игроков, один из которых стре-
мится улучшить качество переходных процессов системы, другой ухуд-
шить. При этом каждый основывается на показаниях своего датчика инфор-
мации, подверженного помехам. В результате задача управления представ-
ляет собой игру с неполной информацией, ненулевой суммой и без седловой
точки.
152
СПИСОК ЛИТЕРАТУРЫ
1.
Айзекс Р. Дифференциальные игры. М.: Мир, 1967.
2.
Пугачёв В.С. Теория случайных функций и ее применение к задачам автомати-
ческого управления. М.: Физматлит, 1960.
3.
Фельдбаум А.А. Основы теории оптимальных автоматических систем. М.: Нау-
ка, 1966.
4.
Аоки М. Оптимизация стохастических систем. М.: Наука, 1971.
5.
Брайсон А.Е., Хо Ю Ши. Прикладная теория оптимального управления. М.:
Мир, 1972.
6.
Саридис Дж. Н. Самоорганизующиеся стохастические системы управления. М.:
Наука, 1980.
7.
Kazakov Y.E., Artemiev V.M., Bukhalev V.A. Principles of the Construction on
Complex Algoritms for Information Processing and Control in System with Stochas-
tic Exchange Structure // II IFAC Symp. on Stochastic Control. 1986. Part 1.
8.
Piers B.D., Sworder D.D. Bayes and Minimax Controllers for a Linear Systems for
Stochastic Jump Parameters // IEEE Trans. AC-16. 1971. No. 4. P. 677-685.
9.
Бухалёв В.А. Игровая задача управления в системе со случайной скачкооб-
разной структурой // Изв. АН CCCР. Техническая кибернетика. 1993. № 2.
С. 122-132.
10.
Бухалёв В.А. Распознавание, оценивание и управление в системах со случайной
скачкообразной структурой. М.: Наука, 1996.
11.
Бухалёв В.А., Скрынников А.А., Болдинов В.А. Алгоритмическая помехозащи-
та беспилотных летательных аппаратов. М.: Физматлит, 2018.
12.
Бухалёв В.А., Скрынников А.А., Болдинов В.А. Игровое управление системами
со случайной скачкообразной структурой. М.: Физматлит, 2021.
13.
Оуэн Г. Теория игр. М.: Вузовская книга, 2007.
14.
Zhang C., Zhu H., Zhou H., Bin N. Deterministic and Stochastic Differen-
tial Games / Non-cooperative Stochastic Differential Game Theory of Generalized
Markov Jump Linear Systems. Studies in Systems, Decision and Control. V. 67.
Springer, Cham. 2017.
15.
Moon J. A Sufficient Condition for Linear-Quadratic Stochastic Zero-Sum Differen-
tial Games for Markov Jump Systems // IEEE Trans. Autom. Control. 2019. V. 64.
No. 4. P. 1619-1626.
16.
Mariton M. Jump Linear Systems in Automatic Control. Taylor & Francis, 1990.
17.
Kats I.Ya., Martynyuk A.A. Stability and Stabilization of Nonlinear Systems with
Random Structures. CRC Press, 2003.
Статья представлена к публикации членом редколлегии П.В. Пакшиным.
Поступила в редакцию 02.05.2021
После доработки 02.10.2021
Принята к публикации 15.10.2021
153