Автоматика и телемеханика, № 9, 2022
Интеллектуальные системы управления,
анализ данных
© 2022 г. Ю.П. ЕМЕЛЬЯНОВА (emelianovajulia@gmail.com),
(Арзамасский политехнический институт (филиал)
Нижегородского государственного технического
университета им. Р.Е. Алексеева)
УПРАВЛЕНИЕ С ИТЕРАТИВНЫМ ОБУЧЕНИЕМ
ДИСКРЕТНОЙ СИСТЕМОЙ С ИЗМЕНЯЕМОЙ ЭТАЛОННОЙ
ТРАЕКТОРИЕЙ В УСЛОВИЯХ НЕОПРЕДЕЛЕННОСТИ1
Рассматривается линейная дискретная система, функционирующая в
повторяющемся режиме, задачей которой является слежение за эталон-
ной траекторией с заданной точностью. Параметры системы точно неиз-
вестны и описываются аффинной моделью неопределенности. Кроме то-
го, на нее действуют случайные возмущения и измерения осуществляются
с шумами. В процессе работы системы через определенное число повто-
рений происходит изменение эталонной траектории. Возникающая при
этом переходная ошибка может приводить к временной потере точности.
Предлагается новый метод синтеза управления с итеративным обучени-
ем, позволяющий компенсировать переходную ошибку. Приведен пример,
демонстрирующий эффективность метода.
Ключевые слова: управление с итеративным обучением, фильтр Калмана,
2D-системы, устойчивость, векторная функция Ляпунова, повторяющие-
ся процессы, неопределенности параметров.
DOI: 10.31857/S0005231022090082, EDN: AJGQJE
1. Введение
В настоящее время огромный интерес как специалистов, так и широкой
общественности вызывает машинное обучение, одним из мощных движущих
факторов которого является создание интеллектуальных производств (ИП).
С учетом возросшей производительности компьютеров и развития робото-
техники такие производства становятся реальностью и являются основной
движущей силой ¾четвертой промышленной революции¿ (Индустрия 4.0).
Системы ИП определяются как системы, способные реагировать в режиме
реального времени на удовлетворение меняющихся требований и условий на
производстве, в сети поставок и в потребностях клиентов в полностью инте-
грированной и совместной форме.
1 Исследование выполнено за счет гранта Российского научного фонда № 21-71-00091,
https://rscf.ru/project/21-71-00091/.
150
Машинное обучение представляет очень обширную область кибернетики и
информатики, содержащую целый ряд крупных направлений. В данной ста-
тье рассматриваются динамические системы, для которых концепция обуче-
ния была определена еще в 60-х годах прошлого века Я.З. Цыпкиным [1]:
¾Под обучением мы будем подразумевать процесс выработки в некоторой си-
стеме той или иной реакции на внешние сигналы путем многократных воз-
действий на систему и внешней корректировки¿.
Управление с итеративным обучением (УИО) полностью соответствует
этому определению. Оно основано на том, что тот или иной показатель ка-
чества системы, которая выполняет одну и ту же задачу многократно, мо-
жет быть улучшен путем обучения на основе информации с предыдущих
выполнений. Характерным примером может служить портальный робот, за-
хватывающий и перемещающий детали по заданной (эталонной) траектории
на конвейер. Показателем качества здесь служит точность воспроизведения
эталонной траектории.
Впервые идея УИО появилась в патенте США [3], а затем в журнальной
публикации 1978 г. [4], написанной на японском языке. Однако эти результаты
оставались невостребованными, пока серия статей в 1984 г. [5-8] не вызвала
всеобщий интерес. С тех пор количество публикаций по УИО стремительно
растет и включает как многочисленные статьи, так и монографии. Отметим
два обзора [2, 9], которые охватывают лишь часть результатов, известных на
сегодняшний день. В стандартной постановке УИО предназначено для си-
стем, которые многократно выполняют одну и ту же операцию в одних и
тех же условиях функционирования и при одинаковых начальных услови-
ях на каждом повторении. Для таких систем управление без обучения дает
одинаковую ошибку слежения на каждом повторении. Сигналы ошибок от
предыдущих повторений содержат существенную информацию, но они не ис-
пользуются при управлении без обучения. Целью УИО является повышение
точности и других показателей за счет включения информации об ошибках
на текущем повторении в алгоритм управления для последующих повторе-
ний. УИО отличается от других стратегий управления с обучением, таких как
адаптивное управление и нейронные сети. Стратегии адаптивного управле-
ния изменяют параметры регулятора, тогда как УИО изменяет только вход-
ной сигнал. Кроме того, адаптивные регуляторы обычно не используют ин-
формацию, содержащуюся в повторяющихся командных сигналах. Точно так
же обучение нейронной сети включает в себя изменение параметров регуля-
тора, а не управляющего сигнала; в этом случае модифицируются большие
сети нелинейных нейронов. Эти большие сети требуют обширных обучающих
данных, и бывает трудно гарантировать быструю сходимость, тогда как ал-
горитмы УИО обычно сходятся адекватно всего за несколько итераций [2] и
список литературы в [2].
Интеллектуальные производства являются киберфизическими системами,
представляющими собой сложную интеграцию управления, сетевых комму-
никаций и вычислений с физическим производственным процессом. В соот-
151
ветствии с этими особенностями ИП, алгоритмы УИО индивидуальной или
сетевой конфигурации должны без потери точности быстро и легко пере-
страиваться в зависимости от изменяющихся условий, а также при инфор-
мационных нарушениях и возможных кибератаках. Применение УИО в ин-
теллектуальных производствах выдвигает новые задачи. В стандартной по-
становке задачи УИО эталонная траектория остается неизменной в процессе
обучения. Однако в интеллектуальных производствах эталонная траектория
и задачи могут оперативно меняться в зависимости от программы, что тре-
бует корректировки управления [10, 11]. Подобная проблема возникает также
в аддитивных производствах, где для послойного создания требуемой трех-
мерной геометрии изделия эталонная траектория должна меняться от слоя
к слою [13, 15]. Такая же проблема возникает в медицинских роботах для ре-
абилитации больных, перенесших инсульт. Робот должен перестраивать эта-
лонную траекторию движения руки или ноги пациента в зависимости от до-
стигнутых им успехов. Таким образом, возникают новые задачи управления
с итеративным обучением реконфигурируемыми системами. Из этих новых
задач в статье ставится задача синтеза УИО системой, функционирующей
в повторяющемся режиме, при условии изменения эталонной траектории в
процессе обучения.
В известных работах [12-17], где рассматривались системы, в которых ре-
конфигурация состояла в изменении опорной траектории, исследования про-
водились в рамках детерминированных моделей, хотя в [12] было отмечено
существенное влияние шумов измерений.
Задача синтеза УИО для стохастической системы с переключаемыми пара-
метрами и с неизменяемой эталонной траекторией изучалась в [18]. В недав-
них работах [20, 21] разработан метод синтеза УИО для системы, в которой
эталонная траектория изменяется между повторениями известным образом,
на систему действуют случайные возмущения и измерения осуществляют-
ся с шумами. В [20], кроме того, известным образом между повторениями
изменяются и параметры системы. Из-за изменения эталонной траектории
возникает переходная ошибка и на определенном числе повторений точность
снижается до недопустимого уровня. Этот эффект компенсируется за счет
специального алгоритма переключения управления, в то время как влияние
шумов удается снизить только за счет предварительной фильтрации.
В данной работе рассматривается задача синтеза управления с итератив-
ным обучением для системы, которая, как и в [20, 21], находится под воздей-
ствием шумов, и эталонная траектория меняется через определенное число
повторений. В отличие от [20, 21] и других указанных выше работ предпола-
гается, что параметры системы точно неизвестны и описываются аффинными
моделями неопределенности. Для решения используется разработанный ра-
нее автором и коллегами дивергентный метод векторных функций Ляпунова,
который дает возможность применения эффективной техники линейных мат-
ричных неравенств.
152
2. Постановка задачи
Рассмотрим линейную дискретную систему с неопределенными парамет-
рами, функционирующую в повторяющемся режиме, которая на k-м повто-
рении описывается следующей моделью в пространстве состояний:
(1)
xk(p + 1) = A(δ(p))xk(p) + B(δ(p))uk(p) + Dνk
(p),
yk(p) = Cxk(p),
yωk(p) = yk(p) + Gωk(p),
0 ≤ p ≤ N - 1, k = 0,1,...,
где на повторении k xk(p) ∈ Rnx вектор состояния, uk(p) ∈ Rnu вектор
управления yk(p) ∈ Rny
вектор выходных переменных, называемый про-
филем повторения, yωk(p) ∈ Rny измеренный выходной вектор, N про-
должительность повторения, νk(p) ∈ Rnν вектор случайных возмущений,
действующих на объект и ωk(p) ∈ Rnω вектор шума измерения, νk(p) и
ωk(p) независимые векторы гауссовских белых шумов с нулевым средним,
такие что E[νk(p)νTk (p)] = Sν , E[ωk(p)ωTk (p)] = Sω, где E оператор матема-
тического ожидания. Предполагается, что νk(p) не зависит от вектора на-
чального состояния.
Модель неопределенности задается следующим образом:
(2)
A(δ(p)) = A + δj (p)Aj , B(δ(p)) = B +
δj(p)Bj,
j=1
j=1
где A и B матрицы номинальной модели, Aj и Bj, (j = 1, 2, . . . , l) посто-
янные матрицы соответствующих размеров и δj (p) ∈ [δj, δj]. Далее повсюду
для компактности записи зависимость δ от p указывать не будем.
Обозначим
{
}
D=
δ = [δ1 ...δl]T, δj ∈ [δj, δj]
,
{
}
Dv =
δ = [δ1 ...δl]T, δj ∈ {δj, δj}
,
где Dv конечное множество из 2l элементов.
Пусть yref (p), 0 ≤ p ≤ N - 1 заданная эталонная траектория (желаемый
профиль повторения). Тогда
(3)
ek(p) = yref(p) - yk
(p)
является ошибкой обучения на повторении k. Кроме того, эталонная траек-
тория изменяется на повторении ks, так что:
{
yref1(p), k < ks,
(4)
yref(p) =
yref2(p), k ≥ ks.
153
Предполагается, что до повторения ks требуемая точность воспроизведения
yref1(p) достигнута. Это реалистичный сценарий для интеллектуальных про-
изводственных систем.
Задача синтеза УИО состоит в том, чтобы построить такую последователь-
ность управлений uk(p), которая обеспечивает достижение заданной точно-
сти воспроизведения эталонной траектории за конечное число повторений.
Формально выразим это в виде выполнения следующих условий сходимости.
Существуют такие числа κ > 0, µ > 0 и 0 < ̺ < 1, что:
(5)
lim
E[||ek(p)||] = E||e||, E[||ek(p)||]2 ≤ κρk + µ, k = ks - 1,
k→∞
lim E[||uk(p)||] = E[||u(p)||],
0 ≤ p ≤ N - 1,
при этом если случайные возмущения, действующие на объект и шумы из-
мерения отсутствуют, то
(6)
lim ||uk(p)|| = ||u
(p)||,
где u(p) ограниченная переменная, обычно называемая обученным управ-
лением.
Условия (5) означают, что ошибка обучения остается ограниченной для
всех k и убывает не медленнее некоторой геометрической прогрессии при
k=ks.
Закон управления с итеративным обучением на повторении k + 1 форми-
руется как управление на предыдущем повторении k плюс коррекция, т.е.
(7)
uk+1(p) = uk(p) + Δuk+1
(p),
где Δuk+1(p) корректирующая поправка, которая должна быть выбрана
так, чтобы обеспечить условия сходимости (5) и ограниченности (6). Заметим,
что при случайных возмущениях E[||e||2] = 0 в отличие от E[||e||], и можно
только пытаться минимизировать это значение.
На повторении k = ks эталонная траектория изменяется, что приведет к
появлению переходной ошибки, которая может привести к потере точности
на некотором числе повторений после повторения ks. Следовательно, задача
состоит в том, чтобы найти корректирующую поправку в (7) (с возможным
переключением в зависимости от изменения эталонной траектории), кото-
рая обеспечит компенсацию переходной ошибки, в том смысле, что значение
||eks ||2 будет в пределах заданного допуска в среднеквадратическом смысле
и будут выполняться условия сходимости (5).
3. Построение 2D модели
Эталонная траектория изменяется между итерациями запланированным и
заранее определенным образом. Следовательно, моменты переключения на-
блюдаемы. Поскольку выходной сигнал измеряется с шумами, его необходимо
154
предварительно обработать. С этой целью используем номинальный фильтр
Калмана
(8)
xk(p + 1) = Axk(p) + Buk(p) + F(yωk(p) - Cx(p)),
xk(0) = Fyωk
(0),
где xk(p)
оценка вектора состояния xk(p), ŷk(p) = C xk(p), A, B
номи-
нальные матрицы.
Замечание 1. Как показывает рассмотренный далее пример, выбор но-
минальной модели для построения фильтра Калмана не является лучшим
решением, поскольку при таком выборе требуемая точность может не обес-
печиваться при заданном разбросе параметров. Этот вопрос требует дальней-
ших исследований, которые выходят за рамки статьи.
Обозначим через xk(p) = xk(p) - xk(p) ошибку оценивания и введем в рас-
смотрение вспомогательные переменные в виде приращения оценки вектора
состояния и ошибки оценивания
(9)
ηk+1(p + 1) = xk+1(p) - xk(p),
ηk+1(p + 1) = xk+1(p) - xk(p).
Поскольку выходной сигнал измеряется с шумом, ошибка обучения ek(p) =
= yref(p) - yk(p) недоступна для формирования корректирующей поправки.
Разумным подходом в этом случае может служить использование оценки
ошибки обучения
êk(p) = yref (p) - C xk(p).
Управляемая динамика в терминах приращений (9) и êk(p) будет иметь вид
ηk+1(p + 1) = (A(δ) - F C)ηk+1(p) + ΔAηk+1(p) + ΔBΔuk+1
(10)
(p - 1) -
- FGΔωk+1(p - 1) + DΔνk+1(p - 1),
ηk+1(p + 1) = F C ηk+1(p) + Aηk+1(p) + BΔuk+1
(11)
(p - 1) +
+ FGΔωk+1(p - 1).
Оценка ошибки обучения при k + 1 = ks в силу (1), (3), (9) опишется уравне-
нием
(12)
êk+1(p) = -CF C ηk+1(p) - CAηk+1(p) + êk(p) -
- CBΔuk+1(p - 1) - CFGΔωk+1(p - 1).
В момент переключения при k + 1 = ks уравнение для оценки ошибки обуче-
ния примет следующий вид:
(13)
êks(p)=-CFCηks(p)-CAηks(p)+êks-1(p)-
- CBΔuks(p - 1) - CFGΔωks(p - 1) + r(p),
где r(p) = yref2 (p) - yref1 (p).
155
Для k + 1 = ks корректирующую поправку зададим в виде
(14)
Δuk+1(p - 1) = K1ηk+1(p) + K2êk
(p).
С учетом (14) уравнения (10)-(13) запишутся следующим образом:
ηk+1(p + 1) = (A(δ) - F C)ηk+1(p) + (ΔA + ΔBK1k+1(p) +
+ ΔBK2êk(p) - FGΔωk+1(p - 1) + DΔνk+1(p - 1)
ηk+1(p + 1) = F C ηk+1(p) + (A + BK1k+1
(15)
(p) +
+ BK2êk(p) + FGΔωk+1(p - 1)
êk+1(p) = -CF C ηk+1(p) - C(A + BK1k+1(p) +
+ (I - CBK2k(p) - CF GΔωk+1(p - 1).
[
Обозначим ηk+1(p) =
ηk+1(p)T
ηk+1(p)T
]T. Тогда уравнения замкнутой си-
стемы (15) в более компактном виде запишутся в стандартной форме линей-
ного дискретного повторяющегося процесса
[
k+1(p + 1)]
A11(δ) A12][ηk+1(p)]
(16)
=
,
êk+1(p)
A21
A22
êk(p)
где
]
[A(δ) - F C ΔA + ΔBK1C
[ΔBK2]
A11(δ) =
,
A12 =
,
FC
A+BK1C
BK2
[
]
-CFC
A21 =
,
A22 = I - CBK2,
-C(A + BK1C)
[
]
ΔA(δ) = δj Aj , ΔB(δ) = δj Bj , K =
K1
K2
j=1
j=1
4. Основной результат
Закон управления с итеративным обучением (7), (14) должен обеспечивать
условия сходимости (5). Чтобы найти матрицы K1 и K2, гарантирующие это
свойство, воспользуемся дивергентным методом векторных функций Ляпу-
нова для переключаемых стохастических повторяющихся процессов [18].
Определение 1. Дискретный повторяющийся процесс (16) называет-
ся устойчивым вдоль повторений по второму моменту, если
(17)
lim
E[||ηk(p)||2 + ||êk(p)||2
] ≤ Γ < ∞,
k,p→∞
где Γ не зависит от N.
Определим векторную функцию Ляпунова вида
[
]
V1(ξ)
(18)
V (ξ, ǫ) =
, ξ∈R2n, ǫ∈Rny,
V2(ǫ)
где V1(ξ) > 0, ξ = 0, V2(ǫ) > 0, ǫ = 0, и V1(0) = 0, V2(0) = 0.
156
Определим дискретный аналог дивергенции (18) следующим образом:
(19) DV (ξ, ǫ) = E[V1k+1(p + 1))|ηk+1(p) = ξ, êk(t) = ǫ] - V1(ξ) +
+ E[V2k+1(p))|ηk+1(p) = ξ, êk(p) = ǫ] - V2(ǫ).
Теорема 1. Если существует векторная функция Ляпунова (18) и по-
ложительные скаляры c1, c2, c3, и γ такие, что
(20)
c1||ξ||2 ≤ V1(ξ) ≤ c2||ξ||2,
(21)
c1||ǫ||2 ≤ V2(ǫ) ≤ c2||ǫ||2,
(22)
DV (ξ,ǫ) ≤ γ - c3(||ξ||2 + ||ǫ||2
),
тогда повторяющийся процесс (16) устойчив вдоль повторений по второму
моменту. Кроме того, для k = ks выполняются условия сходимости (5) и
ограниченности (6).
Доказательство. Следуя схеме доказательства теоремы 1 из
[18] с
учетом, что в рассматриваемом случае V2 не зависит от переключений вместо
оценок (3.16), (3.17), из упомянутого доказательства соответственно получим
γ
1 λk
(23)
E[||ηk+1(p)||2] ≤
λp-1-qE[|V20(q)) +
,
c1
c1(1 - λ)2
q=0
γ
(24)
E[||êk(p - 1)||2] ≤
1 λk
λp-1-qE[|V20(q)) +
,
c1
c1(1 - λ)2
q=0
где 0 < λ < 1. Поскольку величина ê0(q) = yref1(q) - C x0(q) ограничена при
всех 0 ≤ q ≤ N - 1, то существует µ > 0, такое что ||ê0(q)||2 ≤ µ и в соответ-
ствии с (21)
c2 µ
(25)
λp-1-qV2(e0(q)) ≤ c2 µ
λp-1-q =
1-λ
q=0
q=0
Из (23) с учетом (25) cледует (5) c κ =c2 µc
, ρ=λиµ=γ
1(1-λ)
c1(1-λ)2)
Далее заметим, что при отсутствии случайных возмущений, действующих
на объект, и шумов измерений теорема 1 будет справедлива при γ = 0. Тогда,
в соответствии с (23), (24)
E[||ηk+1(p)||2] ≤ E[||ηk+1(p)||2] ≤ κρk, E[||êk(p)||2] ≤ κρk
и с учетом (14) из (7) следует (6). Теорема доказана.
157
В момент изменения опорной траектории за счет появления переходной ошиб-
ки может нарушиться монотонная сходимость и на некотором числе повторе-
ний достигнутая точность слежения может выйти за пределы допуска. Сле-
довательно, закон управления должен быть разработан таким образом, что-
бы при изменении опорной траектории происходила компенсация переходной
ошибки. Поскольку параметры системы неизвестны, используем следующий
подход: на повторении ks переключимся на закон управления, который мини-
мизирует ошибку обучения на этом повторении для системы с номинальны-
ми параметрами в установившемся режиме. Тогда можно ожидать, что при
определенном разбросе неопределенных параметров системы ошибка обуче-
ния останется в пределах допуска.
Полагая k = ks - 1, выберем компоненты векторной функции Ляпунова
(18) в виде квадратичных форм
V1(ξ) = ξTP1ξ, V2(ǫ) = ǫTP2ǫ,
где P1 > 0 и P2 > 0 и вычислим стохастический аналог дивергенции этой
функции в силу (16):
]T
[ξ]
DV (ξ,ǫ) =
T(δ)P Φ(δ) - P )
+ 2(tr[P1S1] + tr[P2S2]),
ǫ
ǫ
где
P =diag[P1 P2], Φ(δ)
A(δ) +B(δ)KH, K = [K1 K2],
A(δ) - F C ΔA(δ)
0
[
]
ΔB(δ)
0
I
0
A(δ) =
 FC
A
0, H =
,
B(δ) = B
,
0
0
I
−CFC
-CA I
-CB
[
]
DSνDT + FGSωGTFT -FTGSωGT
S1 =
-FGSωGT
F GSωGTFT
Введем
A(δ) - F C ΔA(δ)
0
ΔB(δ)
A(δ) =
 FC
A
0,
B(δ) = B
.
−CFC
-CA I
-CB
Пусть матрицы P и K удовлетворяют билинейному матричному неравенству
(26)
A(δ) +B(δ)KH)TP
A(δ) +B
(δ)KH) -
− P + Q + (KH)TRKH ≤ 0, δ ∈ D,
где Q = diag[Q1 Q2] ≻ 0 и R ≻ 0 весовые матрицы, которые подлежат вы-
бору. Они аналогичны весовым матрицам в теории линейно-квадратичного
регулятора, и их выбор осуществляется на основе результатов этой теории.
158
Следуя известным в технике линейных матричных неравенств преобразо-
ваниям [23], получим, что разрешимость неравенства (26) эквивалентна раз-
решимости системы линейных матричных неравенств относительно перемен-
ных X, Y и Z:
X
A(δ)X +¯(δ)Y H)T X (Y H)T
A(δ)X +B(δ)Y H)
X
0
0
 ≥ 0, δ ∈ Dv,
X
0
Q-1
0
YH
0
0
R-1
(27)
HX =ZH,
[
]
X = diag
X1
X2
, X1 = diag[X11 X22].
Если эти ЛМН разрешимы, то P = X-1 и K = Y Z-1.
Следующая теорема служит теоретическим обоснованием конструкции
УИО с переключением.
Теорема 2. Управление с итеративным обучением, обеспечивающее
сходимость ошибки обучения для системы
(1) в смысле (5), (6), опреде-
ляется соотношением (7).
1) При k = ks - 1 корректирующая поправка имеет вид (14), где матри-
цы K1 и K2 находятся в результате решения ЛМН (27).
2) При k = ks - 1 корректирующая поправка определяется по формуле
(28)
Δuks(p - 1) = -(CB)-1[CAηks(p) - êks-1(p) - r(p)]
и обеспечивает минимизацию переходной среднеквадратической ошиб-
ки, вызванной изменением эталонной траектории для системы с
номинальными параметрами в установившемся режиме оценивания
k(p) = 0).
Доказательство.
1) При k = ks - 1, если ЛМН (27) разрешимы, то корректирующая поправ-
ка (14) обеспечивает выполнение условий теоремы 1 при
c1 = minλmin(P1),λmin(P2), c2 = max λmax(P1),λmax(P2),
c3 = λmin(Q + (KHT )RKH) и γ = 2(tr[P1S1] + tr[P2S2]).
2) При k = ks - 1 введем в рассмотрение локальный функционал
(29)
(p) = ξ],
Js = E[||êks ||2ks-1(p) = ǫ, ηks-1
который, следуя принятой концепции, будем минимизировать при усло-
вии, что оценка достаточно близка к установившемуся значению, фор-
159
мально это будет означать ηk(p) = 0. Тогда, в соответствии с (13), êks бу-
дет удовлетворять уравнению:
(30)
(p - 1) -
êks(p)=-CAηks(p)+êks-1(p)-CBΔuks
- CFGΔωks(p - 1) + r(p).
Функционал
(29) характеризует переходную среднеквадратическую
ошибку системы с номинальными параметрами, вызванную изменени-
ем эталонной траектории. Это является мотивацией для нахождения
корректирующей поправки на рассматриваемом повторении из условия
минимума
(29). Решение задачи минимизации
(29) при условии
(30)
дает (28). Прямой подстановкой (28) в (10)-(13) и последующими непо-
средственными вычислениями можно убедиться, что при k + 1 = ks все
переменные остаются ограниченными в среднем квадратическом.
Таким образом, условия сходимости ошибки обучения для системы (1) вы-
полнены. Теорема доказана.
5. Пример
Рассмотрим модель однозвенного манипулятора с гибким звеном [19],
функционирующего в повторяющемся режиме с постоянным периодом по-
вторения. Манипулятор во время первых ks - 1 повторений перемещает груз
одной массы вдоль заданной опорной траектории, а начиная с повторения ks,
начинает перемещать груз другой массы по другой опорной траектории.
Из-за изменения массы транспортируемых грузов момент инерции подвиж-
ной части манипулятора (гибкого звена) также изменяется, и динамика дви-
жения манипулятора в пространстве состояний описывается следующими
уравнениями линейного дифференциального повторяющегося процесса
xk(t) = Ac(δ(t))xk(t) + Bcuk(t) + Dvk(t),
(31)
yk(t) = Cxk(t) + Gwk
(t), t ∈ [0, T ], k = 0, 1, . . . ,
[
]T
где x = θ α
θ
α
угол поворота сервопривода, α угол отклонения
гибкого звена
0
0
1
0
0
0
0
0
1
0
Ks
Beq
1
Ac =
0
-
0
,
Bc =
,
C = [1
0
0
0] ,
Jeq
Jeq
Jeq
Ks(Jl + Jeq) Beq
1
0
-
0
-
JlJeq
Jeq
Jeq
160
a
б
1,6
2,5
1,4
2,0
1,2
1,0
1,5
0,8
1,0
0,6
0,4
0,5
0,2
0
100
200
300
400
500
600
0
100
200
300
400
500
600
t
t
Рис. 1. Желаемая траектория движения гибкого звена а yref1 (до переклю-
чения ks), б yref2 (в момент и после переключения ks).
Beq коэффициент вязкого трения сервопривода, Ks жесткость гибкого
звена, Jl
момент инерции гибкого звена относительно центра масс, Jeq
момент инерции сервопривода. Движение гибкого звена происходит в гори-
зонтальной плоскости, vk(t) внешнее возмущение, действующее на меха-
ническую часть и wk(t) шум измерений. Источником случайного внешнего
возмущения являются высокочастотные промышленные вибрации, действую-
щие на гибкое звено. В рассматриваемом масштабе такие вибрации адекватно
описываются гауссовским белым шумом. Интенсивность внешнего возмуще-
ния будем считать равной Qn, интенсивность шума измерений Rn.
Задача состоит в том, чтобы найти алгоритм управления с итеративным
обучением, при котором выходная переменная y(t) воспроизводила бы эта-
лонную траекторию yref (t) с заданной точностью. Непосредственному изме-
рению доступен только угол θ.
Эталонная траектория задает изменение угла поворота сервопривода θ для
обеспечения захвата и размещения груза за время T . Эта траектория пред-
ставлена на рис. 1 и описывается уравнениями
πt2
πt3
yref1(t) =
-
, k<ks,
6
27
(32)
yref(t) =
t ∈ [0 T].
πt
ref2(t) =
sin
, k≥ks,
y
4
6
Для расчетов и моделирования были приняты следующие значения пара-
метров из [19]: Beq = 0,004 Н·м/(рад/с) , Ks = 1,3 Н·м/рад, Jl = 0,0057 кг·м2,
Jeq = 2,08 × 10-3 кг·м2. Продолжительность цикла повторения T = 3 c. Tре-
буемую точность будем оценивать по предельной величине среднеквадрати-
161
ческой ошибки E(k) = E = 0,05 рад, где E(k) вычисляется по формуле
v
u
u
√1
(33)
E(k) =
||ek(p)||2.
N
p=0
При вычислениях использовался метод дискретизации Эйлера с шагом
Ts = 0,005 c. Дискретизация по времени дифференциальной динамики (31)
дает модель в пространстве состояний (1) для синтеза УИО с A(δ(p)) =
[
]1/2
= (I + Ac(δ(t))Ts), B = BcTs, D =
TsBQnBT
, G = (Rn/Ts)1/2 [22], для
дальнейших расчетов будем считать Qn = 1,6 · 10-5 и Rn = 2 · 10-5.
В данном примере CB = 0, а разработанная теория предполагает, чтобы
CB = 0. С целью обойти это затруднение воспользуемся тем, что для данной
системы
yk = C xk = C1xk,
где C1 = [0
0
1
0] и C1B = 0. Дискретизация по Эйлеру с шагом Ts дает
yk(p + 1) = (C + C1Ts)xk(p)
Cxk(p),
гд
C =C+C1Ts.
Поскольку вектор состояния недоступен измерению, для дальнейшего син-
теза управления используется оценка вектора состояния xk(p), полученная с
помощью фильтра Калмана (8) на повторении k, и тогда
ŷk(p + 1)
Cxk(p)
и вместо ошибки используется оценка ошибки
êk(p + 1) = yref (p + 1)
Cxk(p).
Тогда ошибка обучения при k + 1 = ks опишется уравнением
(34)
êk+1(p + 1) = êk(p + 1)
C[Aηk+1(p) + F C ηk+1(p) +
+ BΔuk+1(p - 1) + FGΔωk+1(p - 1)],
а при k + 1 = ks
(35)
C[Aηks (p) + F C ηks (p) +
êks(p+1)=êks-1(p+1)
+ BΔuks(p - 1) + FGΔωks(p - 1)] + r(p + 1),
где r(p + 1) = yref2 (p + 1) - yref1 (p + 1).
Далее для синтеза УИО можно использовать модель приращений (16) с
учетом того, что ошибка обучения формируется в виде (34), (35).
162
a
б
1,0
1,0
0,9
0,9
0,8
0,8
0,7
0,7
0,6
0,6
0,5
0,5
0,4
0,4
0,3
0,3
0,2
0,2
0,1
0,1
0
10
20
30
40
50
60
70
80
90 100
0
10
20
30
40
50
60
70
80
90 100
k
k
Рис. 2. Среднеквадратическая ошибка обучения E(k) при использовании на
повторении ks = 20 закона управления а без переключения (36), б с пе-
реключением (36), (37). Штрихпунктирной линией обозначено предельно до-
пустимое значение среднеквадратической ошибки E = 0, 05 рад.
Выберем корректирующую поправку в виде
Δuk+1(p - 1) = K1ηk+1(p) + K2êk(p).
Тогда закон УИО при k > ks и k < ks будет иметь вид
(36)
uk(p) = uk-1(p) + K1(xk(p) - xk-1(p)) + K2êk-1(p + 1), k = ks,
а в момент переключения при k = ks
uks(p) = uks-1(p) -
CB)-1
CA(xks (p) - xks-1 (p)) +
CB)-1êks-1
(37)
(p + 1).
Поскольку манипулятор перемещает грузы различных масс, то из-за из-
менения массы грузов момент инерции гибкого звена изменяется, т.е. может
принимать значения от Jl + ΔJl до Jl + ΔJl. В этом случае матрица пара-
метров Ac(δ) будет иметь следующий вид:
Ac(δ) = Ac + Aa(δ), Aa(δ) = δAc, δ = [Jl;Jl].
Для дальнейших расчетов возьмем ΔJl =13 Jl, ΔJl = -13 Jl. Матрица уси-
ления фильтра при заданных ковариационных матрицах шумов находится с
помощью стандартой функции dlqr пакета MATLAB:
F = [0,2220
- 0,1501 3,9983
- 3,0935] .
Замечание 2. Для построения данного фильтра были выбраны пара-
метры нижней границы области неопределенности, поскольку, как показы-
вает моделирование, такой фильтр обеспечивает требуемую точность при за-
данном разбросе неопределенных параметров, в то время как фильтр с но-
минальными параметрами эту точность не обеспечивает.
163
a
б
1,0
1,0
0,9
0,9
0,8
0,8
0,7
0,7
0,6
0,6
0,5
0,5
0,4
0,4
0,3
0,3
0,2
0,2
0,1
0,1
0
10
20
30
40
50
60
70
80
90 100
0
10
20
30
40
50
60
70
80
90 100
k
k
Рис. 3. Среднеквадратическая ошибка обучения E(k) при использовании на
повторении ks = 20 закона управления с переключением (36), (37) при вы-
боре параметров модели а на нижней границе области неопределенности,
б на верхней границе области неопределенности. Штрихпунктирной лини-
ей обозначено предельно допустимое значение среднеквадратической ошибки
E = 0, 05 рад.
a
б
1,0
1,0
0,9
0,9
0,8
0,8
0,7
0,7
0,6
0,6
0,5
0,5
0,4
0,4
0,3
0,3
0,2
0,2
0,1
0,1
0
10
20
30
40
50
60
70
80
90 100
0
10
20
30
40
50
60
70
80
90 100
k
k
Рис. 4. Среднеквадратическая ошибка обучения E(k) при использовании на
повторении ks = 20 закона управления с переключением (36), (37) а
без
ограничения на управление, б
при ограничении на управление. Штрих-
пунктирной линией обозначено предельно допустимое значение среднеквад-
ратической ошибки E = 0, 05 рад.
Pешая неравенства (27) с учетом очевидных изменений матриц A11(δ), A12,
A21, A22, и задавая Q = diag[Q1 Q2], Q1 = 10-5I, Q2 = 108I, R = 1, получим
K1 = [-74,7601 0,9671
- 1,0629
- 0,2729], K2 = 62,4502.
В момент переключения матрицы усиления в (37) имеют следующие значе-
ния:
-
CB)-1
CA = [-83,2000
- 1,3000
- 0,8280 0],
CB)-1 = [83,2000].
164
a
б
3
2,0
1,5
2
1,0
1
0,5
0
0
-0,5
-1
100
100
600
600
50
400
50
400
k
200
p
k
200
p
0
0
Рис. 5. Изменение a
ошибки ek(p) и б
выходной переменной yk(p) в
зависимости от времени p и повторения k при использовании на повторении
ks = 20 закона управления с переключением (36), (37).
a
б
5
5
4
4
3
3
2
2
1
1
0
0
100
100
600
600
50
400
50
400
k
200
k
200
p
p
0
0
Рис. 6. Управление uk(p) a без ограничения, б с ограничением um ≤ 2, 5.
На первом графике рис. 2 показана среднеквадратическая ошибка обуче-
ния (33), когда на повторении ks = 20 (в момент изменения желаемой траек-
тории) применяется закон управления без переключения (36). В этом случае
видны скачкообразное увеличение ошибки и ее выход за пределы допуска.
Результат применения закона управления с переключением (36), (37) пока-
зан на втором графике рис. 2, где скачок ошибки значительно меньше и не
выходит за пределы допуска. Параметры модели в данном случае были взяты
соответствующими верхней границе области неопределенности.
Для проверки робастности алгоритма компенсации сравним процессы на
границах области неопределенности верхней и нижней. На рис. 3,а пред-
ставлена среднеквадратическая ошибка обучения (33) при выборе парамет-
ров модели на нижней границе области неопределенности, на рис. 3,б на
верхней границе. Из графиков видно, что несмотря на то что алгоритм ком-
пенсации построен по номинальной модели, он тем не менее, способен компен-
165
сировать переходную ошибку при рассматриваемом разбросе неопределенных
параметров.
Кроме того, с точки зрения анализа робастности, представляет интерес
оценить эффект ограничения управления. На первом графике рис. 4 пред-
ставлена среднеквадратическая ошибка обучения (33) при использовании на
повторении ks = 20 закона управления с переключением (36), (37) без ограни-
чения на управление. На втором графике рис. 4 при ограничении на управ-
ление um ≤ 2,5. Из графиков видно, что ограничение управления не оказыва-
ет существенно влияния на динамику процесса обучения, что подтверждает
робастность разработанного закона УИО с переключением. В данном случае
рассматривалась модель с параметрами верхней границы неопределенности.
Заметим, что при учете ограничений система становится нелинейной и эти
результаты, не имея теоретического обоснования, носят чисто иллюстратив-
ный характер.
На рис. 5 представлено изменение ошибки ek(p) и выходной переменной
yk(p) в зависимости от времени p и повторения k для случая, рассмотрен-
ного на рис. 2,б. На рис. 6,a представлено управление без ограничения, на
рис. 6,б
с ограничением um ≤ 2, 5 для случая, рассмотренного на рис. 4.
6. Заключение
В данной работе разработан метод синтеза управления с итеративным
обучением системой с неопределенными параметрами, функционирующей в
повторяющемся режиме в условиях изменяемой эталонной траектории при
учете случайных возмущений и шумов измерений. Приведенный пример под-
тверждает работоспособность предложенного закона управления как с точки
зрения скорости сходимости процесса обучения, так и с точки зрения ком-
пенсации переходной ошибки, вызванной изменением эталонной траектории.
Несмотря на это, вопросы выбора модели фильтра и построения алгоритма
переключения с целью компенсации переходной ошибки требуют более глу-
бокого и расширенного изучения, поскольку предложенный в данной работе
подход в решении этих вопросов использует элементы эвристики.
СПИСОК ЛИТЕРАТУРЫ
1. Цыпкин Я.З. Адаптация и обучение в автоматических системах. М.: Наука, 1968.
Tsypkin Ya.Z. Adaptation and Learning in automatic systems. New York: Academic
Press, 1971 (Translated by Z.J. Nikolic).
2. Bristow D.A., Tharayil M., Alleyne A.G. A Survey of Iterative Learning Control:
A Learning-Based Method for High-Performance Tracking Control // IEEE Control
Syst. Magaz. 2006. V. 26. No. 3. P. 96-114.
3. Garden M. Learning control of actuators in control systems, U.S. Patent 3555252,
1971.
4. Uchiyama M. Formation of high-speed motion pattern of a mechanical arm by trial //
Trans. Soc. Instrument Contr. Engineers. 1978. V. 14. 6. P. 706-712.
166
5.
Arimoto S., Kawamura S., Miyazaki F. Bettering Operation of Robots by Learn-
ing // J. Robot. Syst. 1984. V. 1. P. 123-140.
6.
Craig J.J. Adaptive control of manipulators through repeated trials // Proc. Amer.
Contr. Conf. 1984. P. 1566-1573.
7.
Casalino G., Bartolini G. A learning procedure for the control of movements of
robotic manipulators // Proc. IASTED Symp. Robot. Automat. 1984. P. 108-111.
8.
Kawamura S., Miyazaki F., Arimoto S. Iterative learning control for robotic sys-
tems // Proc. Int. Conf. Ind. Electron., Contr. and Instrum. 1984. P. 393-398.
9.
Ahn H-S., Chen Y.Q., Moore K.L. Iterative Learning Control: Survey and Catego-
rization // IEEE Trans. Syst. Man Cybern. Part C: Appl. Rev. 2007. V. 37. No. 6.
P. 1099-1121.
10.
Saez M.A., Maturana F.P., Barton K., Tilbury D.M. Context-Sensitive Modeling
and Analysis of Cyber-Physical Manufacturing Systems for Anomaly Detection and
Diagnosis // IEEE Transaction on Automation Science and Engineering. 2020. V. 17.
No. 1. P. 29-40.
11.
Qamsane Y., Balta E.C., Moyne J., Tilbury D., Barton K. Dynamic rerouting of
cyber-physical production systems in response to disruptions based on SDC frame-
work // Proc. American Control Conference. 2019. P. 3650-3657.
12.
Balta E.C., Tilbury D.M., Barton K. Switch-Based Iterative Learning Control for
Tracking Iteration Varying References // IFAC PapersOnLine. 2020. V. 20. Issue. 2.
P. 1493-1498.
13.
Hoelzle D.J., Alleyne A.G., Johnson A.J.W. Basis task approach to iterative learn-
ing control with applications to micro-robotic deposition. // IEEE Transactions on
Control Systems Technology. 2010. V. 19 (5). P. 1138-1148.
14.
Zundert J., Bolder J., Oomen T. Optimality and flexibility in iterative learning
control for varying tasks // Automatica. 2016. V. 67. P. 295-302.
15.
Altin B., Wang Z., Hoelzle D.J., Barton K. Robust monotonically convergent spatial
iterative learning control: Interval systems analysis via discrete Fourier transform //
IEEE Transactions on Control Systems Technology. 2018. V. 27(6). P. 2470-2483.
16.
Balta E.C., Tilbury D.M., Barton K. Control-oriented modeling and layer-to-layer
stability for fused deposition modeling: a kernel basis approach // Proc. Amer. Con-
trol Conf. (ACC). 2019. P. 4727-4733.
17.
Guo Y., Mishra S. A predictive control algorithm for layer-to-layer ink-jet 3D print-
ing // Proc. Amer. Control Conf. (ACC). 2016. P. 833-838.
18.
Пакшин П.В., Емельянова Ю.П. Управление с итеративным обучением дис-
кретными стохастическими системами с переключениями // АиТ. 2020. № 11.
С. 93-111.
Pakshin P.V., Emelianova J.P. Iterative learning control design for discrete-time
stochastic switched systems // Autom. Remote Control. 2020. V. 81. No. 11. P. 2011-
2025.
19.
Apkarian J., Karam P., Levis M. Workbook on Flexible Link Experiment for Mat-
lab/Simulink Users. Quanser, 2011.
20.
Pakshin P., Emelianova J., Emelianov M. Iterative learning control of stochastic lin-
ear systems under switching of the reference trajectory and parameters // Proc. 29th
Mediterranean Conference on Control and Automation (MED 2021), 2021, P. 1311-
1316, 9480192.
167
21. Pakshin P., Emelianova J., Rogers E., Galkowski K. Iterative Learning Control of
Stochastic Linear Systems with Reference Trajectory Switching // Proc. 60th IEEE
Conference on Decision and Control (CDC) December 13-15, 2021. Austin, Texas,
2021, P. 6565-6570.
22. Franklin G.F., Powell J.D., Workman M.L. Digital Control of Dynamical Systems.
Third edition. Ellis-Kagle Press, 2006.
23. Поляк Б.Т., Хлебников М.В., Щербаков П.С. Управление линейными система-
ми при внешних возмущениях: Техника линейных матричных неравенств. М.:
ЛЕНАНД, 2014.
Статья представлена к публикации членом редколлегии О.Н. Граничиным.
Поступила в редакцию 21.02.2022
После доработки 25.05.2022
Принята к публикации 10.06.2022
168