Автоматика и телемеханика, № 11, 2020
Тематический выпуск
В.С. Пугачев
(25.03.1911
25.03.1998)
© 2020 г. А.И. КИБЗУН, д-р физ.-мат. наук (kibzun@mail.ru)
(Московский авиационный институт
(национальный исследовательский университет)),
И.Н. СИНИЦЫН, д-р техн. наук (sinitsin@dol.ru)
(Федеральное государственное учреждение
“Федеральный исследовательский центр “Информатика и управление”
Российской академии наук” (ФИЦ ИУ РАН), Москва)
СОВРЕМЕННЫЕ ПРОБЛЕМЫ ТЕОРИИ ОПТИМИЗАЦИИ
СТОХАСТИЧЕСКИХ СИСТЕМ1
Приводится обзор статей, посвященных современным проблемам тео-
рии оптимизации стохастических систем. В частности, в ряде статей ис-
следуются задачи оптимального управления стохастическими системами.
В другой группе статей рассматриваются задачи фильтрации и иденти-
фикации. Кроме того, изучаются задачи стохастического программиро-
вания для статических стохастических систем.
Ключевые слова: стохастические задачи, стохастическое оптимальное
управление, теория фильтрации, теория идентификации, стохастическое
программирование.
DOI: 10.31857/S000523102011001X
1 Работа Кибзуна А.И. выполнена при финансовой поддержке Российского фонда фун-
даментальных исследований (проект № 18-07-00617 А).
3
1. Введение
Данный номер посвящен 110-летию со дня рождения (25 марта 1911 г.)
академика В.С. Пугачева, являющегося выдающимся ученым, основополож-
ником статистической теории управляемых систем, автором фундаменталь-
ных работ в области авиационной баллистики и динамики полета, теории
управления и информатики, теории дифференциальных уравнений и теории
вероятностей.
В номер включены статьи известных российских ученых, работающих в
области оптимизации стохастических систем. Все авторы хорошо знали ака-
демика В.С. Пугачева, являясь его коллегами, учениками или учениками уче-
ников.
Статьи отражают современное состояние теории оптимизации стохастиче-
ских систем. В частности, в этих работах большое внимание уделяется по-
становкам, в которых присутствуют одновременно случайные и неопределен-
ные факторы. В номере представлены как чисто теоретические работы, так
и прикладные исследования, направленные на разработку вычислительных
алгоритмов решения поставленных стохастических задач. В частности, иссле-
дуются задачи фильтрации и идентификации, задачи оптимального управ-
ления стохастическими динамическими системами, задачи стохастического
программирования и задачи анализа стохастических систем.
2. Обзор полученных результатов
Рассмотрим основные результаты, полученные в представленных публи-
кациях.
В рамках теории оптимального управления получены следующие резуль-
таты.
В [1] рассматривается задача оптимального управления дискретной сто-
хастической системой с критерием в форме вероятности первого достиже-
ния границ заданной области. Формулируются и доказываются достаточные
условия оптимальности в форме метода динамического программирования.
С помощью поверхностей уровней 1 и 0 функции Беллмана находятся двусто-
ронние оценки функции оптимального значения вероятностного критерия, и
предлагается способ построения субоптимального управления. Формулиру-
ются условия эквивалентности с задачей оптимального управления с вероят-
ностным терминальным критерием. Рассматривается пример.
В [2] рассматривается задача оптимального в среднем управления линей-
ной гибридной системой, непрерывное движение которой чередуется с дис-
кретными изменениями (переключениями) со сменой пространства состоя-
ний. Начальное состояние системы случайное. Качество управления характе-
ризуется средним значением квадратичного функционала качества управле-
ния отдельной траекторией. Моменты переключений и их количество заранее
не заданы. Они определяются в результате минимизации среднего значения
функционала качества управления. Последняя задача минимизации конеч-
номерная и может быть решена многими методами. Для рассматриваемой
задачи классический принцип разделения не выполняется. Принцип разде-
ления позволяет свести задачу оптимального в среднем управления детерми-
4
нированной системой со случайным начальным состоянием к совокупности
двух задач оптимального управления одной траекторией и оптимального
наблюдения. Решением задачи наблюдения служит оценка начального со-
стояния, например его математическое ожидание. Эта оценка используется
в оптимальном позиционном управлении, полученном при решении задачи
управления одной траекторией. Обоснованием такого подхода для линейно-
квадратичных задач (ЛКЗ) управления гибридной системой переменной раз-
мерности (ГСПР) служит доказанный в статье так называемый условный
принцип разделения. По сравнению с обычным принципом разделения, спра-
ведливым для ЛКЗ оптимального в среднем управления непрерывными, дис-
кретными и непрерывно-дискретными системами, условный принцип разде-
ления сложнее с вычислительной точки зрения. Для его применения нуж-
но вычислить и запомнить моментные функции цены, которые зависят от
нарастающего количества моментов переключений. Это существенно повы-
шает требования к вычислительным ресурсам, необходимым для численно-
го решения задачи. Если количество допустимых переключений небольшое
из-за технических ограничений, то решение задачи упрощается. Условный
принцип разделения можно применять и для нелинейных ГСПР. Посколь-
ку принцип разделения для нелинейных систем не выполняется, получаемое
управление не будет оптимальным в среднем. Однако на практике это субоп-
тимальное управление часто оказывается вполне приемлемым. Приводятся
примеры применения условного и классического принципов разделения.
В [3] рассматриваются дискретные линейные системы с переключениями в
повторяющемся режиме. Системы находятся под действием случайных внеш-
них возмущений, и в измерениях присутствуют аддитивные шумы. Предлага-
ются два метода синтеза управления с итеративным обучением. Оба метода
основаны на построении вспомогательной 2D-модели в форме дискретного
повторяющегося процесса. Первый метод основан на установлении условий
диссипативности указанной модели при специальном выборе функций запа-
са и накопления. Такой выбор позволяет затем найти управление, в общем
случае нелинейное, которое гарантирует сходимость процесса обучения. Вто-
рой метод использует линейный закон коррекции управления с итеративным
обучением заданного вида, при этом сходимость процесса обучения гаранти-
руется условиями устойчивости вспомогательной 2D-модели. Оба предложен-
ных закона управления используют в своей структуре стационарный фильтр
Калмана. Для получения условий устойчивости используется дивергентный
метод векторных функций Ляпунова. Приводится пример, демонстрирую-
щий возможности и особенности нового метода. Приведенный пример пока-
зывает, что когда переключения наблюдаемы, управление с переключением
позволяет ускорить сходимость процесса обучения. Дальнейшего исследова-
ния требует вопрос выбора некоторой нелинейной функции в методе синтеза
на основе диссипативности. Открытым остался вопрос о влиянии динамики
фильтра Калмана на скорость сходимости процесса обучения и точность. Зна-
чительный интерес представляют сетевые задачи управления с итеративным
обучением, где переключения являются естественной моделью изменений ин-
формационной структуры сети. Комбинация управления с итеративным обу-
5
чением и управления с обратной связью также представляет интересную за-
дачу для дальнейших исследований.
В [4] сформулированы и доказаны достаточные условия терминальной
инвариантности нелинейных динамических стохастических управляемых си-
стем диффузионно-скачкообразного типа. Скачкообразная компонента имеет
вид интеграла по случайной мере Пуассона. Предполагается, что параметры
меры (интенсивность и распределение величин скачков) меняются со време-
нем. Предлагаются как условия инвариантности по возмущениям при задан-
ной начальной точке, так и условия абсолютной инвариантности, обеспечи-
вающие постоянство значения терминального критерия при любых началь-
ных данных. Применимость результатов продемонстрирована на ряде мо-
дельных примеров, включающих в себя результаты численного моделирова-
ния и аналитическое исследование построенных терминально инвариантных
динамических систем. Теоретические исследования инвариантных по терми-
нальному критерию систем далеки от завершения. Полученные в [4] общие
достаточные условия инвариантности нелинейных стохастических систем в
ряде частных случаев приобретают весьма интересные и неочевидные свой-
ства. Однозначно подлежат внимательному исследованию линейные системы,
а также системы с линейными по состоянию коэффициентами как в непре-
рывном случае, так и при наличии скачков, для которых условия в общем
виде могут быть доведены до простых регулярных выражений. Еще больше
предстоит сделать в практическом плане. Многие математические модели ре-
альных физических процессов в настоящее время содержат случайные пара-
метры, достаточно часто имеющие вид диффузионных или скачкообразных
компонент стохастического уравнения. Условия терминальной инвариантно-
сти позволяют не приближенно, а точно решать на основе таких моделей
множество актуальных прикладных проблем управления. Достаточно ска-
зать, что некоторые модели, рассмотренные ранее, могут быть уточнены за
счет введения параметров, учитывающих случайные внешние воздействия.
Авторы [4] надеются охватить по крайней мере часть из указанных вопросов
в своих дальнейших исследованиях.
В [5] было предложено новое позиционное управление, приближенное к
оптимальному в многошаговой задаче портфельной оптимизации с вероят-
ностным критерием. Критерием оптимальности выступает вероятность до-
стижения и превышения капитала инвестора в терминальный момент вре-
мени некоторого заранее заданного уровня. Соотношения, на основании ко-
торых построено предлагаемое управление, получены с применением фор-
мулы полной вероятности и формирования управления в классе кусочно-
постоянных управлений. На каждом шаге предлагаемое управление полу-
чается исходя из решения ряда задач одномерной условной нелинейной опти-
мизации. В рассмотренном примере продемонстрировано преимущество пред-
лагаемого управления над известными универсальными управлениями. Рас-
смотренный подход и предлагаемое управление можно обобщить на случай
произвольного количества рисковых активов на каждом шаге, не находя при
поиске вероятностной стратегии на каждом шаге детерминированный экви-
валент, как в [5], а, например, используя дискретизацию вероятностной меры,
6
что является предметом дальнейших исследований, как и исследование ста-
тистических свойств предлагаемого управления.
В теории фильтрации и идентификации получены следующие результаты.
В [6] на примере решенной задачи оптимизации линейного выхода нели-
нейной дифференциальной системы по квадратичному критерию обсуждают-
ся практические варианты решения аналогичной задачи для случая непол-
ной информации о состоянии. На основе концепции разделения задач управ-
ления и фильтрации предложено два варианта субоптимального управле-
ния: путем формального разделения задач и на основании альтернатив-
ного представления переменной состояния, использующего метод условно-
оптимальной фильтрации состояний стохастических дифференциальных си-
стем наблюдения В.С. Пугачева. Любой из предложенных вариантов потре-
бует существенных усилий для численной реализации и значительных вы-
числительных ресурсов. Предлагается альтернатива традиционному практи-
ческому подходу к синтезу субоптимального управления в задаче с непол-
ной информацией, состоящему в формальной замене в решении состояния
на его оценку. Вместо задачи оптимизации выхода, порождаемого исходной
моделью дифференциального уравнения, в качестве состояния используется
оценка условно-оптимального фильтра. Предложен вариант численной реа-
лизации предлагаемого алгоритма на основе имитационного компьютерного
моделирования. Практическая реализация описанных алгоритмов и апроба-
ция их для оптимизации функционирования программных систем хотя бы в
рамках модельных экспериментов ближайшая перспектива.
В [7] предлагается новый подход для решения задачи фильтрации в линей-
ных системах по неполным измерениям, где характеристики динамического
шума точно неизвестны, а в измерениях могут присутствовать аномальные
негауссовские ошибки. В основе предлагаемого алгоритма лежит идея сов-
местного использования адаптивного фильтра Калмана и обобщенного мето-
да наименьших модулей. На примерах численного моделирования показано,
что в сравнении с классическим методом оптимальной линейной фильтрации
решение обладает меньшей чувствительностью к кратковременным выбро-
сам в измерениях и обеспечивает быструю настройку параметров динами-
ки системы. Разработан алгоритм робастной фильтрации, который обладает
свойством отказоустойчивости по отношению к аномальным ошибкам в из-
мерениях и адаптивными свойствами по отношению к модели динамического
шума системы. Было проведено численное моделирование решения задачи со-
провождения цели в линейной системе с двукратным резервированием изме-
рений. Результаты моделирования показали, что робастный фильтр повыша-
ет эффективность оценки по сравнению с классическим фильтром Калмана,
когда цель выполняет неучтенные в модели маневры. Одновременно с этим
обеспечивается устойчивость оценки к систематическим ошибкам в одном из
источников измерений, а также к симметричным помехам, распределенным
по закону Коши. Разработанный алгоритм устойчив к импульсным помехам
в более чем 30 % измерений. В другой ситуации, когда в модели не учи-
тывается увеличение дисперсии нормального шума по всем измерениям, эф-
фективность оценки робастного фильтра снижается. В случае когда ошибки
по всем источникам измерений содержат смещенную составляющую, отказо-
7
устойчивость обеспечивается только условно: существует пороговое значение
вероятности появления смещенной ошибки в измерениях, для которой эф-
фективность оценки резко снижается. Разработанный алгоритм неустойчив
к медленному увеличению математического ожидания ошибки в одном из
источников измерений. Для компенсации указанных недостатков может по-
требоваться использование дополнительных источников измерений, что яв-
ляется предметом дальнейших исследований. Другим направлением является
использование разработанного метода в нелинейных системах. Так как раз-
работанный алгоритм относится к классу алгоритмов ¾прогноз-коррекция¿,
для работы с нелинейными системами достаточно заменить шаги прогноза
и коррекции на соответствующие процедуры, например метода псевдоизме-
рений или сигма-точечного фильтра. Разработан алгоритм робастной филь-
трации, который обладает свойством отказоустойчивости по отношению к
аномальным ошибкам в измерениях и адаптивными свойствами по отноше-
нию к модели динамического шума системы. В другой ситуации, когда в
модели не учитывается увеличение дисперсии нормального шума по всем из-
мерениям, эффективность оценки робастного фильтра снижается. В случае
когда ошибки по всем источникам измерений содержат смещенную состав-
ляющую, отказоустойчивость обеспечивается только условно: существует по-
роговое значение вероятности появления смещенной ошибки в измерениях,
для которой эффективность оценки резко снижается. Предлагаемый алго-
ритм может быть использован для решения навигационной задачи на борту
летательных аппаратов или для решения задачи сопровождения цели.
В [8] рассматривается один из возможных способов решения задачи оценки
неизвестных параметров динамических моделей, описываемых дифференци-
ально-алгебраическими уравнениями. Оценка параметров производится по
результатам наблюдений за поведением математической модели. Значения
параметров находятся в результате минимизации критерия, описывающего
суммарное квадратическое отклонение значений координат вектора состоя-
ния от полученных при измерениях точных значений в различные моменты
времени. На значения параметров наложены ограничения параллелепипед-
ного типа. Для решения задачи оптимизации предлагается пакетный метод
адаптивного случайного поиска, использующий идеи алгоритмов машинного
обучения и анализа больших данных. Предложенный метод применен при
решении трех модельных задач, их результаты сравнивались с полученными
при помощи градиентных методов оптимизации, используемых в процеду-
рах машинного обучения, а также метаэвристическими алгоритмами. При-
ведены результаты сравнения эффективности его применения по сравнению
с известными градиентными методами оптимизации в машинном обучении:
SGD, Classical Momentum, NAG, AdaGrad, RMSProp, Adam, Adamax, Nadam
на трех модельных примерах.
В [9] на основе вейвлет канонических разложений (ВЛКР) рассматривают-
ся задачи синтеза линейных оптимальных в среднем квадратическом (с. к.)
фильтров. Разработано вейвлет методическое и инструментальное программ-
ное обеспечение для с. к. оптимального синтеза существенно нестационар-
ных линейных фильтров на основе вейвлет канонических разложений в сре-
де MATLAB. Для стохастических систем в условиях стохастических одно-
8
и многократных ударных воздействий, описываемых каноническими разло-
жениями (КР) и ВЛКР, разработано специальное инструментальное обеспе-
чение для оптимизации фильтров, оценки и идентификации ударных воз-
действий. Эти результаты нашли применение в задачах анализа и модели-
рования, оценки и идентификации ударных воздействий в прецизионных
информационно-управляющих системах. Рассматриваются сложные вибро-
ударные одно- и многомерные виброударные воздействия, представимые с
помощью КР и ВЛКР. Приводится тестовый пример с результатами работы
инструментального программного обеспечения в среде MATLAB.
Статья [4] посвящена разработке класса алгоритмов численного решения
задачи фильтрации состояний марковских скачкообразных процессов по кос-
венным непрерывным наблюдениям в присутствии винеровских шумов. В ка-
честве критерия оптимальности выступает средняя L1-норма ошибки оцен-
ки. Интенсивность шумов в наблюдениях может зависеть от оцениваемого
состояния. Алгоритмы численного решения используют не исходные непре-
рывные, а дискретизованные по времени наблюдения. Особенностью предла-
гаемых алгоритмов является учет вероятности появления нескольких скачков
оцениваемого состояния на интервале дискретизации наблюдений. Основным
результатом являются утверждения о точности приближенного решения за-
дачи фильтрации в зависимости от числа учитываемых скачков оцениваемо-
го состояния, размера шага дискретизации по времени и применяемой схемы
численного интегрирования. Эти утверждения служат теоретической осно-
вой последующего анализа конкретных численных схем реализации решения
задачи фильтрации.
В теории стохастического программирования получены следующие ре-
зультаты.
В [10] рассматривается задача о построении доверительного множества по-
глощения, представляющего собой множество начальных позиций системы,
обеспечивающих с заданной вероятностью непревышение функцией потерь в
терминальный момент времени некоторого фиксированного уровня. Описан-
ная задача аналогична задаче построения множеств уровня функции веро-
ятности в задачах стохастического программирования. Предлагается подход
к построению внешних и внутренних аппроксимаций доверительного мно-
жества поглощения. В [10], по сути, предлагается статистический подход к
построению внутренней и внешней статистических аппроксимаций довери-
тельного множества поглощения. На первом этапе строятся детерминирован-
ные внутренняя и внешняя аппроксимации. Затем полученные аппроксима-
ции уточняются с помощью выборочных оценок. Получены оценки объема
выборки, достаточного для построения указанных аппроксимаций. Получе-
ны теоретические оценки достаточного объема выборки для построения ап-
проксимаций. Отметим, что данный объем выборки одновременно гаранти-
рует с заданной вероятностью то, что два построенных множества являются
внутренней и внешней аппроксимациями истинного доверительного множе-
ства поглощения. Данная оценка улучшается для случая звездчатой функции
потерь. Предлагается алгоритм построения аппроксимаций доверительного
множества поглощения в двумерном случае. На численном примере показа-
но, что указанные аппроксимации строятся при приемлемом объеме выбор-
9
ки. При этом обеспечивается близость внутренней и внешней аппроксимаций
друг к другу. Конечно, для ряда задач достаточный объем выборки может
быть уменьшен. Описание классов таких задач может являться предметом
дальнейших исследований. Полученные аппроксимации применяются в зада-
че планирования производства.
3. Заключение
Составители тематического выпуска АиТ надеются, что читателей журна-
ла заинтересуют все представленные статьи, объединенные общей тематикой,
и они смогут, хотя бы частично, оценить современное состояние теории опти-
мизации стохастических систем.
СПИСОК ЛИТЕРАТУРЫ
1.
Азанов В.М. Оптимальное управление дискретной стохастической системой с ве-
роятностным критерием и нефиксированным временем окончания // АиТ. 2020.
№ 12. С. 3-23.
2.
Бортаковский А.С. Теорема разделения для оптимального в среднем управ-
ления гибридными системами переменной размерности // АиТ. 2020. № 11.
С. 48-91.
3.
Пакшин П.В., Емельянова Ю.П. Управление с итеративным обучением дис-
кретными стохастическими системами с переключениями // АиТ. 2020. № 11.
С. 95-113.
4.
Борисов А.В. L1-оптимальная фильтрация марковских скачкообразных про-
цессов I: точное решение и численные схемы реализации // АиТ. 2020. № 11.
С. 11-33.
5.
Игнатов А.Н. О формировании позиционного управления в многошаговой за-
даче портфельной оптимизации с вероятностным критерием // АиТ. 2020. № 12.
С. 50-66.
6.
Босов А.В. Применение условно-оптимального фильтра для синтеза субопти-
мального управления в задаче оптимизации выхода нелинейной дифференци-
альной стохастической системы // АиТ. 2020. № 11. С. 34-47.
7.
Миллер Б.М., Колосов К.С. Робастное оценивание на основе метода наименьших
модулей и фильтра Калмана // АиТ. 2020. № 11. С. 74-94.
8.
Пантелеев А.В., Лобанов А.В. Минипакетный метод адаптивного случайно-
го поиска для параметрической идентификации динамических систем // АиТ.
2020. № 11. С. 114-137.
9.
Синицын И.Н., Синицын В.И., Корепанов Э.Р., Конашенкова Т.Д. Оптимиза-
ция стохастических систем на основе вейвлет канонических разложений // АиТ.
2020. № 11. С. 138-156.
10.
Кибзун А.И., Иванов С.В. Построение доверительных множеств поглощения с
помощью статистических методов // АиТ. 2020. № 12. С. 82-99.
11.
Хрусталев М.М., Царьков К.А. Достаточные условия терминальной инвариант-
ности стохастических систем диффузионно-скачкообразного типа // АиТ. 2020.
№ 11. С. 157-173.
Статья представлена к публикации членом редколлегии Б.М. Миллером.
Поступила в редакцию 02.03.2020
После доработки 25.05.2020
Принята к публикации 09.07.2020
10