Доклады Российской академии наук. Математика, информатика, процессы управления, 2022, T. 507, № 1, стр. 22-25

О НЕПОДВИЖНЫХ ТОЧКАХ НЕПРЕРЫВНЫХ ПРЕОБРАЗОВАНИЙ, СВЯЗАННЫХ С ПОСТРОЕНИЕМ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ

Академик В. Б. Бетелин 1*, В. А. Галкин 2**

1 Федеральное государственное учреждение “Федеральный научный центр Научно-исследовательский институт системных исследований Российской академии наук”
Москва, Россия

2 Сургутский филиал Федерального государственного учреждения “Федеральный научный центр Научно-исследовательский институт системных исследований Российской академии наук”
Сургут, Россия

* E-mail: betelin@niisi.msk.ru
** E-mail: val-gal@yandex.ru

Поступила в редакцию 18.07.2022
После доработки 25.07.2022
Принята к публикации 22.09.2022

Полный текст (PDF)

Аннотация

Предложен общий топологический подход для конструирования сходящихся искусственных нейронных сетей (ИНС) на основе настройки алгоритмов принятия решений на последовательности итераций непрерывных отображений (слоев ИНС). Отображения выбираются на основе оптимизационных принципов, составляющих основу “обучения ИНС), а принятие решений по результатам обучения многослойной ИНС соответствует отысканию сходящейся последовательности к неподвижной точке. Выявлена существенная для этого класса задач вычислительная неустойчивость, связанная с явлением динамического хаоса и некорректностью этого класса задач. Предложены методы стабилизации, сходящиеся к устойчивым неподвижным точкам отображений, что является отправной точкой для широкого класса математических исследований по оптимизации обучающих наборов при построении ИНС.

Ключевые слова: искусственные нейронные сети, методы оптимизации, вычислительная неустойчивость, динамический хаос, методы регуляризации, неподвижные точки преобразований

Во многочисленных вычислительных экспериментах по распознаванию образов, обработке акустической, видео и текстовой информации были найдены подходы к созданию программного обеспечения для практического решения ряда трудно формализуемых задач. Эти успехи породили огромный поток работ и интерес к созданию полуэмпирических методов, носящих название Искусственные нейронные сети (ИНС).

Общий подход, лежащий в основе построения ИНС, состоит в принятии гипотезы возможности создания устройства, которое можно обучить на серии примеров принятия решений. Эта размытая формулировка предполагает наличие некоторой связи между выбранными парами объектов $(x,y) \in X \times Y$, определяющей некоторое отношение $R \subset X \times Y$ (гипотетический закон) [1]. Обычно предполагается, что R является функцией (т.е. каждому значению $x \in X$ соответствует ровно одно значение $y \in Y$).

Набор обучающих примеров составляет заданное подмножество $\tilde {R} \subset R$, где отношение R априори неизвестно. Целью создания ИНС является в некотором смысле “оптимальная реконструкция” неизвестного отношения R на основе заданного “обучающего” набора $\tilde {R}$. По своей природе такая постановка задачи является некорректной.

На практике размерность пространства входных данных $X$ существенно больше размерности выходных данных $Y$. Типичное использование ИНС нацелено на “сжатие” обрабатываемого потока больших объемов входных данных (Big Data) с целью их классификации, распознавания объектов, видео и акустической информации и т.п.

Необходимым “элементом построения ИНС служит введение целевого правила (критерия, функционала и т.п.) $F$, на основе применения которого выполняется построение “наилучшего” продолжения заданного отношения $\tilde {R}$ до отношения ${{R}_{F}}$, которое аппроксимирует $R$ (например, посредством минимизации функционала $F$ на некотором множестве параметров). Назовем ${{R}_{F}}$ математической моделью реализации ИНС. Построение этой модели может рассматриваться как задача об отыскании неподвижной точки $\bar {x}$ ($\bar {x}\, = \,f(\bar {x})$) для некоторого отображения $f\,:\,M\, \to \,M$ на множестве данных $M \supset X \cup Y$. Выбор отображения f назовем слоем ИНС. По существу, построение слоя ИНС является этапом построения многослойной ИНС, состоящей из последовательно применяемых преобразований – слоев ${{f}_{n}}:M \to M$, которые последовательно модифицируются пользователем для достижения некоторого “оптимального, идеального для пользователя” результата. Искомый результат представляет собой неподвижную точку некоторого предельного преобразования $f = \mathop {\lim }\limits_{n \to \infty } {{f}_{n}}$. Во многих случаях процесс отыскания $\bar {x}$ основывается на рассмотрении последовательности итераций

(1)
${{x}_{{n + 1}}} = {{f}_{n}}({{x}_{n}}).$

Часто при конкретных реализациях многослойных ИНС слои выбирают одинаковыми, т.е. итерации ${{f}_{n}} \equiv f$. Такой подход к созданию многослойных ИНС, вообще говоря, может не сходиться. А.Н. Шарковским для одномерных итераций ${{x}_{{n + 1}}} = f({{x}_{n}})$ был обнаружен динамический хаос [2]. В частности, примером такой последовательности является логистический процесс, задаваемый отображением

(2)
$f(x) = 4(x - {{x}^{2}}):[0,1] \to [0,1].$

В работе [3] установлено, что за счет выбора начального значения ${{x}_{0}}$ для отображения (2) можно получить любую наперед заданную смену знаков для последовательности ${{x}_{n}} - c$, где c – константа, не зависящая от номера $n$. Типичным свойством преобразования (2) является равномерное распределение значений итераций на отрезке $[0,1]$.

Таким образом, построение цепочки слоев ИНС должно подчиняться модификациям, гарантирующим сходимость итераций.

Ниже рассмотрены алгоритмы, обладающие такими свойствами.

Теорема 1. Пусть $(M,{\kern 1pt} \rho )$полное метрическое пространство, на котором действует последовательность равностепенно сжимающих операторов

${{f}_{n}}:{\kern 1pt} M \to M,\quad n \in \mathbb{N},$
т.е. постоянные сжатия для fn не превосходят величины $0 \leqslant q < 1$. Пусть последовательность неподвижных точек ${{\bar {x}}_{n}},$ $n \in \mathbb{N}$, отображений fn сходится к некоторой точке $\bar {x} \in M$. Тогда точка $\bar {x}$ может быть найдена как предел итераций
(3)
${{x}_{{n + 1}}} = {{f}_{{n + 1}}}({{x}_{n}}),\quad n = 0,\;1, \ldots ,$
где начальная точка ${{x}_{0}} \in M$ выбирается произвольно.

Замечание. Достаточным условием сходимости точек ${{\bar {x}}_{n}}$ является поточечная сходимость отображений fn на M.

Действительно, это является непосредственным следствием того, что предел $f = \mathop {\lim }\limits_{n \to \infty } {{f}_{n}}$ является сжимающим отображением на $(M,{\kern 1pt} \rho )$ (т.к. по условию теоремы операторы fn обладают общей постоянной сжатия $0 \leqslant q < 1$). Обозначим неподвижную точку $\bar {x} = f(\bar {x})$. Тогда

$\begin{gathered} \rho (\bar {x},{{{\bar {x}}}_{n}}) = \rho (f(\bar {x}),{{f}_{n}}({{{\bar {x}}}_{n}})) \leqslant \rho (f(\bar {x}),{{f}_{n}}(\bar {x})) + \\ \, + \rho ({{f}_{n}}(\bar {x}),{{f}_{n}}(\bar {x})) \leqslant \varepsilon + q\rho (\bar {x},{{{\bar {x}}}_{n}}) \\ \end{gathered} $
(последнее неравенство выполнено при достаточно больших значениях $n$). Таким образом, для больших $n$
$\rho (\bar {x},{{\bar {x}}_{n}}) \leqslant \frac{\varepsilon }{{1 - q}},$
что доказывает утверждение.

Доказательство. Справедливы неравенства

$\begin{gathered} \rho ({{x}_{{n + 1}}},\bar {x}) \leqslant \rho ({{f}_{{n + 1}}}({{x}_{n}}),{{{\bar {x}}}_{{n + 1}}}) + \rho ({{{\bar {x}}}_{{n + 1}}},\bar {x}) = \\ \, = \rho ({{f}_{{n + 1}}}({{x}_{n}}),{{f}_{{n + 1}}}({{{\bar {x}}}_{{n + 1}}})) + \rho ({{{\bar {x}}}_{{n + 1}}},\bar {x})\quad n = 0,1, \ldots \\ \end{gathered} $

В силу равностепенной сжатости отображений fn имеем

$\begin{gathered} \rho ({{x}_{{n + 1}}},\bar {x}) \leqslant q\rho ({{x}_{n}},{{{\bar {x}}}_{{n + 1}}}) + \rho ({{{\bar {x}}}_{{n + 1}}},\bar {x}) \leqslant \\ \, \leqslant q\rho ({{x}_{n}},\bar {x}) + (1 + q)\rho ({{{\bar {x}}}_{{n + 1}}},\bar {x}). \\ \end{gathered} $

Выберем номер n достаточно большим, чтобы при $k \geqslant 0$ для произвольного положительного $\varepsilon $ выполнялись неравенства

$(1 + q)\rho ({{\bar {x}}_{{n + k}}},\bar {x}) < \varepsilon .$

Тогда для $k \geqslant 1$ справедливо соотношение

$\rho ({{x}_{{n + k}}},\bar {x}) \leqslant q\rho ({{x}_{{n + k - 1}}},\bar {x}) + \varepsilon .$

Индукцией по номеру $k \geqslant 1$ устанавливаем, что

$\rho ({{x}_{{n + k}}},\bar {x}) \leqslant {{q}^{k}}\rho ({{x}_{n}},\bar {x}) + \varepsilon {{(1 - q)}^{{ - 1}}}.$

При $\varepsilon \to 0$, $k \to \infty $, получаем, что $\rho ({{x}_{n}},\bar {x}) \to 0$ при $n \to \infty $. Теорема доказана.

Приведенная выше теорема связана с построением систем с единственным решением. Практические задачи классификации и распознавания образов связаны с установлением соответствия поступающих данных одному из множества объектов, каждому из которых сопоставляется неподвижная точка многослойной ИНС. То есть для таких отображений неподвижная точка не единственна, поэтому одним из важнейших аспектов создания устойчивых многослойных ИНС является построение алгоритмов, стабилизирующих предельное поведение итераций (3), при отказе от требования теоремы 1, связанного со свойством равномерного сжатия. В частности, хаотическое поведение последовательностей (1), (2) обусловлено наличием подмножества, где отображение (2) является достаточно сильно растягивающим. Аналогичными свойством обладает достаточно широкий класс отображений, в который, естественно, попадают экспериментально создаваемые ИНС. Такое поведение типично для гиперболических динамических систем [4].

С указанными явлениями связано общее свойство неустойчивости поведения высокочастотных гармоник разложения отображений в ряд Фурье, а именно, высоким номерам базисных функций соответствуют большие коэффициенты растяжения, порождающие хаотическое поведение итераций (1).

Устойчивое получение аппроксимации решения x дополнительно требует применения методов регуляризации [5]. В частности, это явление типично для аппаратной цифровой обработки данных на основе частотной фильтрации сигналов $R$ с подавлением высокочастотной компоненты входного сигнала $x \in {{H}_{1}} = {{L}_{2}}[a,b].$ Положим $R(x) = ({{k}_{1}}{{c}_{1}},{{k}_{2}}{{c}_{2}},...,{{k}_{n}}{{c}_{n}}$, ...), где вектор $({{c}_{1}},{{c}_{2}},...,{{c}_{n}},...) \in {{l}_{2}}$ = H2 состоит из коэффициентов разложения в ряд Фурье вектора x по некоторой полной ортонормированной системе в ${{L}_{2}}[a,b]$, а заданная последовательность ${{k}_{n}} \to 0$, ${{k}_{n}} \ne 0$, определяет частотный фильтр входного сигнала x. Очевидно, фильтр $R:{{L}_{2}}[a,b] \to {{l}_{2}}$ является компактным оператором и, соответственно, восстановление исходного образа (сигнала) x на основе решения задачи для приближенных (зашумленных) данных $y \in {{l}_{2}}$ является некорректной задачей, у которой либо решение отсутствует, либо малые погрешности данных приводят к значительным ошибкам решения.

Таким образом, классы задач, основанные на применении ИНС как средства аппроксимации отображений и построения решений обратных задач с компактным оператором, обнаруживают общее математическое свойство – вычислительную неустойчивость при обработке больших массивов данных. Эти проблемы аналогичны также для задач “восстановления” образов по “цифровым двойникам”, поскольку имеют ту же математическую природу.

Для построения многослойных ИНС в задачах с хаотическим поведением итераций на слоях даже при наличии неединственности неподвижной точки эффективные решения связаны с применением процедуры последовательного усреднения аппроксимаций на основе ЗБЧ (закона больших чисел П.Л. Чебышёва), дающего существенное ускорение сходимости частичных сумм в теории тригонометрических рядов Фурье [5]. Аналогичный эффект связан с теоремой Мазура [7], позволяющей за счет процедуры усреднения превратить слабо сходящиеся последовательности в сильно сходящиеся. Близкое явление имеет место в методе Ричардсона ускорения сходимости разностных схем на грубых сетках [8].

Теорема 2. Пусть непрерывное отображение $f$на ${{\mathbb{R}}_{n}}$ оставляет инвариантным ограниченный замкнутый шар $M$. Пусть последовательность итераций (3) определяется формулами

(4)
${{x}_{n}} = f\left( {\frac{1}{n}\sum\limits_{i = 0}^{n - 1} {{{x}_{i}}} } \right).$

Предположим, что почти везде существует предел средних арифметических $\bar {x} = \frac{1}{n}\sum\limits_{i = 0}^{n - 1} {{{x}_{i}}} $. Тогда последовательность итераций (4) сходится к неподвижной точке $\bar {x}$ отображения $f:M \to M$ почти для всех начальных точек ${{x}_{0}} \in M$.

Доказательство. Существование неподвижной точки $\bar {x} = f(\bar {x}) \in M$следует из теоремы Брауэра [9]. (Подчеркнем, что такая точка, вообще говоря, неединственная). Сходимость почти везде средних арифметических $\frac{1}{n}\sum\limits_{i = 0}^{n - 1} {{{x}_{i}}} $ обеспечивает сходимость последовательности итераций (4) к $\bar {x}$, которая является неподвижной точкой отображения $f:M \to M$.

Таким образом, алгоритмы (4) могут быть положены в основу создания классов устойчивых сходящихся ИНС.

Открытым является фундаментальный вопрос о сходимости средних арифметических $\frac{1}{n}\sum\limits_{i = 0}^{n - 1} {{{x}_{i}}} $. Он содержательно решен в рамках эргодической теоремы Биркгофа–Хинчина [10] для отображений $f:M \to M$, сохраняющих меру. Вычислительные эксперименты авторов демонстрируют надежность и вычислительную устойчивость алгоритма (4) для широкого класса непрерывных отображений шара в себя.

ИСТОЧНИК ФИНАНСИРОВАНИЯ

Работа выполнена в рамках государственного задания ФГУ ФНЦ НИИСИ РАН (проведение фундаментальных научных исследований (47 ГП) по теме 0065-2019-0007).

Список литературы

  1. Бетелин В.Б., Галкин В.А. Математические задачи, связанные с искусственным интеллектом и искусственными нейронными сетями. Успехи кибернетики. 2021. Т. 2. № 4. С. 6–14. https://doi.org/10.51790/2712-9942-2021-2-4-1

  2. Крянев А.В. и др. Метрический анализ и обработка данных.

  3. Ly T.Y., Yorke J.A. Period three implies chaos // Amer. Math. Monthly. 1975. V. 82. P. 982–985.

  4. Аносов Д.В. Геодезические потоки на компактных римановых многообразиях // Труды математического института им. В.А. Стеклова. 1967. Вып. 90. № 1. С. 1– 235.

  5. Тихонов А.Н., Арсенин В.Я. Методы решения некорректных задач. М.: Наука, 1986.

  6. Колмогоров А.Н., Фомин С.В. Элементы теории функций и функционального анализа. М.: Наука, 1972.

  7. Данфорд Н., Шварц Дж.Т. Линейные операторы. Общая теория. Т. 1. М.: ИЛ, 1962.

  8. Николаев Е.С., Самарский А.А. Выбор итерационных параметров в методе Ричардсона // ЖВМ и МФ. 1972. Т. 12. С. 960–973.

  9. Александров П.С., Пасынков Б.А. Введение в теорию размерности. М.: Наука, 1973.

  10. Каток А.Б., Хасселблат Б. Введение в теорию динамических систем с обзором последних достижений / Пер. с англ. Под ред. А.С. Городецкого. М.: МЦНМО, 2005. ISBN 5-94057-063-1

Дополнительные материалы отсутствуют.

Инструменты

Доклады Российской академии наук. Математика, информатика, процессы управления