Журнал вычислительной математики и математической физики, 2020, T. 60, № 9, стр. 1453-1461

Метод проекции градиента на матричных многообразиях

М. В. Балашов *

Институт проблем управления РАН им. В.А. Трапезникова
117997 Москва, ул. Профсоюзная, 65, Россия

* E-mail: balashov73@mail.ru

Поступила в редакцию 26.11.2019
После доработки 24.12.2019
Принята к публикации 09.04.2020

Полный текст (PDF)

Аннотация

Рассматривается задача минимизации функции с непрерывным по Липшицу градиентом на проксимально гладком подмножестве конечномерного евклидова пространства. При выполнении условия RSI (Restricted Secant Inequality) метод проекции градиента для рассматриваемой задачи сходится с линейной скоростью. В определенных случаях доказывается линейная скорость сходимости метода проекции градиента на вещественном многообразии Штифеля или Грассмана. Библ. 21.

Ключевые слова: непрерывный по Липшицу градиент, проксимальная гладкость, метод проекции градиента, метрическая проекция, невыпуклая экстремальная задача, Restricted Secant Inequality, многообразие Штифеля, многообразие Грассмана.

1. ВВЕДЕНИЕ И ОСНОВНЫЕ ОБОЗНАЧЕНИЯ

1.1. Введение

Метод проекции градиента (МПГ) (известный также как проекционно-проксимальный метод и др.) для решения задачи

(1)
$\mathop {min}\limits_A f(x)$
был предложен в [1], [2]. Если функция в (1) сильно выпуклая с непрерывным по Липшицу градиентом и множество выпукло и замкнуто, то МПГ сходится со скоростью геометрической прогрессии (или линейной скоростью). МПГ доказал свою эффективность для решения различных экстремальных задач [2], [3].

Примером актуальной невыпуклой задачи (1) является задача минимизации гладкой функции $f$ на некотором матричном многообразии $A$ без края. Например, $A$ может быть многообразием Штифеля или Грассмана [4].

В случае, если множество $A$ в задаче (1) является гладким многообразием, традиционно используются варианты метода проекции градиента с шагами, связанными с локальными геодезическими на многообразии [5]–[9]. Метод Ньютона также находит применение [4], [6] для решения упомянутой задачи, главным образом с квадратичными функциями или ограничениями. Однако метод Ньютона сходится в общем случае локально и существует очень немного работ с явными оценками для его области сходимости в случае невыпуклой задачи (1). Последнее верно и для МПГ.

В данной статье мы планируем сформулировать МПГ для задачи минимизации гладкой невыпуклой в общем случае функции на вещественном многообразии Штифеля или Грассмана. Ключевым в работе является тот факт, что вещественное многобразие Штифеля есть проксимально гладкое множество с константой проксимальной гладкости 1, а вещественное многообразие Грассмана также проксимально гладкое множество с константой $1{\text{/}}\sqrt 2 $. Заметим, что в силу соображений компактности любое компактное гладкое многообразие без края является проксимально гладким. Таким образом, речь идет о нахождении наилучшей (т.е. наибольшей) константы.

Кроме того, в теоремах 2 и 4 работы сформулированы достаточные условия сходимости МПГ с линейной скоростью на многообразиях Штифеля и Грассмана соответственно.

В отличие от упомянутых выше работ, свойства проксимально гладких множеств позволяют предъявить некоторый вариант МПГ с простой и явной оценкой скорости сходимости. Кроме того, наши результаты не зависят от геодезических на многообразиях. Это является еще одним преимуществом предложенного подхода. За это мы платим погружением задачи (1) в евклидово пространство большей (по сравнению с размерностью многообразия) размерности.

1.2. Основные обозначения

Обозначим евклидово пространство размерности $n$ через ${{\mathbb{R}}^{n}}$ и скалярное произведение $( \cdot , \cdot )$. Определим ${{B}_{R}}(a) = \{ x \in {{\mathbb{R}}^{n}}\,|\,\left\| {x - a} \right\| \leqslant R\} $, $a \in {{\mathbb{R}}^{n}}$, $R > 0$. Функция $f:{{\mathbb{R}}^{n}} \to \mathbb{R}$ называется сильно выпуклой с константой $\varkappa > 0$, если функция $f(x) - \tfrac{\varkappa }{2}{{\left\| x \right\|}^{2}}$ выпуклая. Мы будем говорить, что функция $f$ гладкая, если ее градиент Фреше $f{\kern 1pt} {\text{'}}$ непрерывен по Липшицу с константой ${{L}_{1}}$. Для функции $f:{{\mathbb{R}}^{n}} \to \mathbb{R}$ и $\beta \in \mathbb{R}$ определим нижнее множество уровня ${{\mathcal{L}}_{f}}(\beta ) = \{ x \in {{\mathbb{R}}^{n}}\,|\,f(x) \leqslant \beta \} $. Определим функцию расстояния ${{\varrho }_{A}}(x) = \mathop {inf}\limits_{a \in A} \left\| {x - a} \right\|$. Метрическая проекция точки $x \in {{\mathbb{R}}^{n}}$ на множество $A \subset {{\mathbb{R}}^{n}}$ есть

${{P}_{A}}x = \left\{ {a \in A\,|\,\left\| {x - a} \right\| = {{\varrho }_{A}}(x)} \right\}.$
Замкнутое множество $A \subset {{\mathbb{R}}^{n}}$ называется проксимально гладким (или прокс-регулярным, слабо выпуклым) с константой $R$, если функция расстояния ${{\varrho }_{A}}(x)$ непрерывно дифференцируема на множестве ${{U}_{A}}(R) = \{ x \in {{\mathbb{R}}^{n}}\,|\,0 < {{\varrho }_{A}}(x) < R\} $. Свойства таких множеств рассматривались разными авторами [10], [11]. Мы хотим подчеркнуть, что в нашей работе проксимально гладкие множества по определению замкнуты. Для проксимально гладкого множества $A$ и точки $x \in A$ обозначим через $N(A,x)$ конус проксимальных нормалей
$N(A,x) = \{ p \in {{\mathbb{R}}^{n}}\,|\,\exists t = t(p) > 0\;\;{{P}_{A}}(x + tp) = x\} .$
Эквивалентным свойством для проксимальной гладкости замкнутого множества $A$ с константой $R$ является опорный принцип [10], [11]: для любой точки $x \in \partial A$ и всякого единичного вектора нормали $p(x) \in N(A,x)$ мы имеем $A \cap {\text{int}}\;{{B}_{R}}(x + Rp(x)) = \not {0}$. В конечномерном пространстве ${{\mathbb{R}}^{n}}$ последнее эквивалентно единственности метрической проекции ${{P}_{A}}x$ для каждой точки $x \in {{U}_{A}}(R)$, так как одноточечная метрическая проекция в конечномерном пространстве непрерывна [12, Ch. 3, § 1, Proposition 23].

Для проксимально гладкого множества $A \subset {{\mathbb{R}}^{n}}$ с константой $R$ и любых точек ${{x}_{1}},{{x}_{2}} \in A \cup {{U}_{A}}(r)$, $r < R$, для проекций ${{a}_{i}} = {{P}_{A}}{{x}_{i}}$ мы имеем оценку (см. [11])

(2)
$\left\| {{{a}_{1}} - {{a}_{2}}} \right\| \leqslant \frac{R}{{R - r}}\left\| {{{x}_{1}} - {{x}_{2}}} \right\|.$

Скажем, что $x \in A$ является стационарной точкой функции $f$ на проксимально гладком множестве $A \subset {{\mathbb{R}}^{n}}$, если существует число $t > 0$ со свойством ${{P}_{A}}(x - tf{\kern 1pt} {\text{'}}(x)) = x$. Последнее эквивалентно включению $f{\kern 1pt} {\text{'}}(x) \in - N(A,x)$. Данное условие является необходимым условием экстремума с проксимально гладким множеством [13, Appendix 5.1].

Пусть ${{I}_{k}} \in {{\mathbb{R}}^{{k \times k}}}$ – единичная матрица и $O(k)$ есть множество ортогональных матриц размера $k \times k$. Определим скалярное произведение $(X,Y) = {\text{tr}}{{X}^{{\text{т}}}}Y$ для матриц $X,Y \in {{\mathbb{R}}^{{n \times k}}}$. Нормой Фробениуса матрицы $X \in {{\mathbb{R}}^{{n \times k}}}$ называется ${{\left\| X \right\|}_{F}} = \sqrt {\operatorname{tr} {{X}^{{\text{т}}}}X} $. Далее мы будем считать, что $\left\| X \right\| = {{\left\| X \right\|}_{F}}$ для всякой матрицы $X$. Обозначим через ${{S}_{{n,k}}}$ вещественное многообразие Штифеля с натуральными параметрами $n \geqslant k$, т.е. ${{S}_{{n,k}}} = \{ X \in {{\mathbb{R}}^{{n \times k}}}\,|\,{{X}^{{\text{т}}}}X = {{I}_{k}}\} $. Очевидно, что ${{S}_{{n,k}}}$ вложено в пространство ${{\mathbb{R}}^{{n \times k}}}$ матриц с фробениусовой нормой. Обозначим через ${{G}_{{n,k}}}$ вещественное многообразие Грассмана с натуральными параметрами $n \geqslant k$, т.е. множество всех $k$-мерных линейных подпространств в ${{\mathbb{R}}^{n}}$. Известно [14], что ${{G}_{{n,k}}}$ может быть вложено (в определенном смысле изометрично) в евклидово пространство симметричных $n \times n$ матриц ${\text{Sym}}(n)$ размерности $\tfrac{1}{2}n(n + 1)$ с нормой $\tfrac{1}{{\sqrt 2 }}{{\left\| {\, \cdot \,} \right\|}_{F}}$. Следуя [14], мы будем рассматривать указанную реализацию ${{G}_{{n,k}}}$ вида $\{ X{{X}^{{\text{т}}}}\,|\,X \in {{S}_{{n,k}}}\} $ с нормой ${{\left\| {\, \cdot \,} \right\|}_{F}}$. Заметим, что $X{{X}^{{\text{т}}}}$ есть метрический проектор на подпространство ${\text{lin}}\left\{ {{{X}_{1}},\; \ldots ,\;{{X}_{k}}} \right\}$, где ${{X}_{i}}$ есть $i$-й столбец матрицы $X \in {{S}_{{n,k}}}$.

Легко видеть, что для всякой матрицы $X \in {{S}_{{n,k}}}$ имеем

$\left\| {X{{X}^{{\text{т}}}} - \tfrac{k}{n}{{I}_{n}}} \right\| = \sqrt {\tfrac{{k(n - k)}}{n}} $.

Таким образом, константа проксимальной гладкости для ${{G}_{{n,k}}}$ не более чем $\sqrt {\tfrac{{k(n - k)}}{n}} $.

Предложение 1. Для всякой матрицы $X \in {{\mathbb{R}}^{{n \times k}}}$ и $Q \in O(n)$ ($Q \in O(k)$) имеем $\left\| {QX} \right\| = \left\| X \right\|$ ($\left\| {XQ} \right\| = \left\| X \right\|$).

2. МИНИМИЗАЦИЯ ГЛАДКОЙ ФУНКЦИИ НА ПРОКСИМАЛЬНО ГЛАДКОМ МНОЖЕСТВЕ

2.1. Основная теорема о сходимости МПГ в невыпуклом случае

Определение 1. Предположим, что $f:{{\mathbb{R}}^{n}} \to \mathbb{R}$ – дифференцируемая функция, $A \subset {{\mathbb{R}}^{n}}$ – замкнутое подмножество и $\Omega \subset A$, $\Omega \ne \not {0}$, есть множество решений для (1). Будем говорить, что условие Restricted Secant Inequality (RSI) выполняется для функции $f$ на множестве $A$, если существует такое число $\mu > 0$, что для любого $x \in A$ и любого ${{x}_{0}} \in {{P}_{\Omega }}x$ выполняется неравенство

$(f{\kern 1pt} {\text{'}}(x) - f{\kern 1pt} {\text{'}}({{x}_{0}}),x - {{x}_{0}}) \geqslant \mu {{\left\| {x - {{x}_{0}}} \right\|}^{2}}.$

Условие RSI хорошо известно в безусловной оптимизации [15]. Отметим, что указанное свойство выполнено для всякой сильно выпуклой функции с константой сильной выпуклости $\mu $ [15].

Теорема 1. Пусть $A \subset {{\mathbb{R}}^{n}}$проксимально гладкое с константой $R > 0$ множество. Предположим, что функция $f:{{\mathbb{R}}^{n}} \to \mathbb{R}$ удовлетворяет условию RSI на множестве $A$ с константой $\mu > 0$, и $f$ — гладкая функция с константой ${{L}_{1}} > 0$. Положим $L = \mathop {sup}\limits_{x \in A \cap {{\mathcal{L}}_{f}}(\beta )} \left\| {f{\kern 1pt} {\text{'}}(x)} \right\|$ для некоторого $\beta \in \mathbb{R}$. Допустим, что $\tfrac{L}{\mu } < R$ и множество решений $\Omega $ в (1) непусто. Определим

${{t}_{0}} = \frac{{\mu - \tfrac{L}{R}}}{{L_{1}^{2} - \tfrac{{\mu L}}{R}}}$.

Тогда для любой начальной точки ${{x}_{0}} \in A \cap {{\mathcal{L}}_{f}}(\beta )$ и всякого $t \in (0,{{t}_{0}}]$ итерационный процесс ${{x}_{{k + 1}}} = {{P}_{A}}\left( {{{x}_{k}} - tf{\kern 1pt} {\text{'}}({{x}_{k}})} \right)$ сходится к решению задачи (1) с линейной скоростью ${{\varrho }_{\Omega }}({{x}_{k}}) \leqslant {{q}^{k}}(t){{\varrho }_{\Omega }}({{x}_{0}})$, причем $\left\| {{{x}_{{k + 1}}} - {{x}_{k}}} \right\| \leqslant {{q}^{k}}(t)(1 + q(t)){{\varrho }_{\Omega }}({{x}_{0}})$,

$q(t) = \frac{R}{{R - tL}}\sqrt {1 - 2t\mu + {{t}^{2}}L_{1}^{2}} \in (0,1).$
Последовательность ${\text{\{ }}f({{x}_{k}}){\text{\} }}$ нестрого монотонно убывает.

Доказательство. Пусть $x_{k}^{0} \in \Omega $ такая точка, что $\left\| {{{x}_{k}} - x_{k}^{0}} \right\| = {{\varrho }_{\Omega }}({{x}_{k}})$. Используя включения ${{x}_{k}} - tf{\kern 1pt} {\text{'}}({{x}_{k}}) \in {{U}_{A}}(R)$, $x_{k}^{0} - tf{\kern 1pt} {\text{'}}(x_{k}^{0}) \in {{U}_{A}}(R)$ (заметим, что $t < \tfrac{R}{L}$) имеем в силу условия Липшица для метрической проекции (2)

$\left\| {{{P}_{A}}\left( {{{x}_{k}} - tf{\kern 1pt} {\text{'}}({{x}_{k}})} \right) - {{P}_{A}}(x_{k}^{0} - tf{\kern 1pt} {\text{'}}(x_{k}^{0}))} \right\| \leqslant \frac{R}{{R - tL}}\left\| {({{x}_{k}} - tf{\kern 1pt} {\text{'}}({{x}_{k}})) - (x_{k}^{0} - tf{\kern 1pt} '(x_{k}^{0}))} \right\|,$
и в силу условия (RSI) находим
(3)
$\begin{gathered} {{\left\| {{{x}_{{k + 1}}} - x_{{k + 1}}^{0}} \right\|}^{2}} \leqslant {{\left\| {{{x}_{{k + 1}}} - x_{k}^{0}} \right\|}^{2}} = {{\left\| {{{P}_{A}}({{x}_{k}} - tf{\kern 1pt} {\text{'}}({{x}_{k}})) - {{P}_{A}}(x_{k}^{0} - tf{\kern 1pt} {\text{'}}(x_{k}^{0}))} \right\|}^{2}} = \\ = \;\frac{{{{R}^{2}}}}{{{{{(R - tL)}}^{2}}}}\left( {{{{\left\| {{{x}_{k}} - x_{k}^{0}} \right\|}}^{2}} - 2t(f{\kern 1pt} {\text{'}}({{x}_{k}}) - f{\kern 1pt} {\text{'}}(x_{k}^{0}),{{x}_{k}} - x_{k}^{0}) + {{t}^{2}}{{{\left\| {f{\kern 1pt} {\text{'}}({{x}_{k}}) - f{\kern 1pt} {\text{'}}(x_{k}^{0})} \right\|}}^{2}}} \right) \leqslant \\ \leqslant \;{{\left\| {{{x}_{k}} - x_{k}^{0}} \right\|}^{2}}\frac{{{{R}^{2}}}}{{{{{(R - tL)}}^{2}}}}(1 - 2\mu t + {{t}^{2}}L_{1}^{2}). \\ \end{gathered} $
Таким образом, мы получаем оценку
${{\varrho }_{\Omega }}({{x}_{{k + 1}}}) = \left\| {{{x}_{{k + 1}}} - x_{{k + 1}}^{0}} \right\| \leqslant \left\| {{{x}_{k}} - x_{k}^{0}} \right\|q(t) = {{\varrho }_{\Omega }}({{x}_{k}})q(t).$
Используя неравенство треугольника
$\left\| {{{x}_{{k + 1}}} - {{x}_{k}}} \right\| \leqslant \left\| {{{x}_{{k + 1}}} - x_{k}^{0}} \right\| + \left\| {x_{k}^{0} - {{x}_{k}}} \right\|,$
и формулу (3), $\left\| {{{x}_{{k + 1}}} - x_{k}^{0}} \right\| \leqslant q(t)\left\| {{{x}_{k}} - x_{k}^{0}} \right\|$, мы получаем, что
$\left\| {{{x}_{{k + 1}}} - {{x}_{k}}} \right\| \leqslant \left\| {{{x}_{k}} - x_{k}^{0}} \right\|(1 + q(t)) \leqslant \; \ldots \; \leqslant {{q}^{k}}(t)(1 + q(t)){{\varrho }_{\Omega }}({{x}_{0}}).$
Следовательно, ${\text{\{ }}{{x}_{k}}{\text{\} }}$ есть последовательность Коши, которая сходится к некоторой точке ${{x}_{ * }} \in \Omega $.

Из равенства $\left\| {{{x}_{{k + 1}}} - {{x}_{k}} + tf{\kern 1pt} {\text{'}}({{x}_{k}})} \right\| = {{\varrho }_{A}}({{x}_{k}} - tf{\kern 1pt} {\text{'}}({{x}_{k}}))$ и оценки $t \leqslant \tfrac{1}{{{{L}_{1}}}}$ находим

$\begin{array}{*{20}{c}} {\left\| {{{x}_{{k + 1}}} - \left( {{{x}_{k}} - \frac{1}{{{{L}_{1}}}}f{\kern 1pt} {\text{'}}({{x}_{k}})} \right)} \right\| \leqslant \left\| {{{x}_{{k + 1}}} - {{x}_{k}} + tf{\kern 1pt} {\text{'}}({{x}_{k}})} \right\| + \left( {\frac{1}{{{{L}_{1}}}} - t} \right)\left\| {f{\kern 1pt} {\text{'}}({{x}_{k}})} \right\| \leqslant \frac{1}{{{{L}_{1}}}}\left\| {f{\kern 1pt} {\text{'}}({{x}_{k}})} \right\|.} \end{array}$
Используя условие Липшица для $f{\kern 1pt} '$, получаем, что
$\begin{gathered} f({{x}_{{k + 1}}}) \leqslant f({{x}_{k}}) + (f{\kern 1pt} {\text{'}}({{x}_{k}}),{{x}_{{k + 1}}} - {{x}_{k}}) + \frac{{{{L}_{1}}}}{2}{{\left\| {{{x}_{{k + 1}}} - {{x}_{k}}} \right\|}^{2}} = \\ = \;f({{x}_{k}}) + \frac{{{{L}_{1}}}}{2}\left( {\mathop {\left\| {{{x}_{{k + 1}}} - \left( {{{x}_{k}} - \frac{1}{{{{L}_{1}}}}f{\kern 1pt} {\text{'}}({{x}_{k}})} \right)} \right\|}\nolimits^2 - \frac{1}{{L_{1}^{2}}}{{{\left\| {f{\kern 1pt} {\text{'}}({{x}_{k}})} \right\|}}^{2}}} \right) \leqslant f({{x}_{k}}) \leqslant \beta \\ \end{gathered} $
и ${{x}_{{k + 1}}} \in A \cap {{\mathcal{L}}_{f}}(\beta )$. Таким образом, по индукции, ${\text{\{ }}f({{x}_{k}}){\text{\} }}$ монотонно не возрастает и ${{x}_{k}} \in A \cap {{\mathcal{L}}_{f}}(\beta )$ для всех $k$. Теорема доказана.

Теорема 1 была доказана для случая сильно выпуклой функции в [16]. Включение $q(t) \in (0,1)$ для всех $t \in (0,{{t}_{0}}]$ также обосновано в указанной статье.

Если функция $f$ непрерывна по Липшицу на множестве $A$ с константой Липшица $L$, то

$f({{x}_{{k + 1}}}) - \mathop {min}\limits_A f = f({{x}_{{k + 1}}}) - f(x_{{k + 1}}^{0}) \leqslant L\left\| {{{x}_{{k + 1}}} - x_{{k + 1}}^{0}} \right\| \leqslant L{{q}^{k}}(t)\operatorname{diam} A.$

Пусть $A$ – гладкое многообразие без края и ${{T}_{x}}$ – касательное подпространство к $A$ в точке $x \in A$. В этом случае МПГ с промежуточной фазой проектирования на касательное подпространство ${{T}_{{{{x}_{k}}}}}$: ${{x}_{0}} \in A$, ${{z}_{k}} = {{P}_{{{{T}_{{{{x}_{k}}}}}}}}({{x}_{k}} - {{t}_{k}}f{\kern 1pt} {\text{'}}({{x}_{k}}))$, ${{t}_{k}} > 0$, ${{x}_{{k + 1}}} = {{P}_{A}}{{z}_{k}}$, см. [13], в некоторых случаях может быть вычислительно экономичнее, чем алгоритм с прямым проектированием на множество $A$. Например, это выгоднее для матриц малого ранга [17, § 2.3]. С другой стороны, в этом случае мы должны вычислять проекцию ${{z}_{k}}$ точки на подпространство ${{T}_{{{{x}_{k}}}}}$, и это должно приниматься во внимание.

Пример 1. Рассмотрим дифференцируемую функцию $f$ с не равным нулю градиентом $\left\| {f{\kern 1pt} {\text{'}}(x)} \right\|$ на множестве $A$: существует $l > 0$ такое, что $\left\| {f{\kern 1pt} {\text{'}}(x)} \right\| \geqslant l$ для всех $x \in A$. Пусть $\beta \in \mathbb{R}$. Предположим также, что $f$ сильно квазивыпукла с константой $r > 0$ на множестве ${{\mathcal{L}}_{f}}(\beta )$, т.е. для всякого $\alpha \leqslant \beta $ множество уровня ${{\mathcal{L}}_{f}}(\alpha )$ может быть представлено как пересечение замкнутых шаров радиуса $r$ (либо пусто). Допустим также, что множество $A$ есть гладкое и проксимально гладкое с константой $R$ многообразие и $R > \tfrac{{rL}}{l}$. Тогда функция $f$ удовлетворяет условию RSI на множестве $A \cap {{\mathcal{L}}_{f}}(\beta )$ с константой $\mu = \tfrac{1}{2}\left( {\tfrac{l}{r} - \tfrac{L}{R}} \right)$.

Рассмотрим точку $x \in A \cap {{\mathcal{L}}_{f}}(\beta )$ и ${{x}_{0}} \in {{P}_{\Omega }}x$. Тогда в силу опорного принципа для сильно выпуклых множеств [10] имеем

$\left\| {x - \frac{{f{\kern 1pt} {\text{'}}(x)}}{{\left\| {f{\kern 1pt} {\text{'}}(x)} \right\|}}r - {{x}_{0}}} \right\| \leqslant r$
и
$(f{\kern 1pt} {\text{'}}(x),x - {{x}_{0}}) \geqslant \frac{{\left\| {f{\kern 1pt} {\text{'}}(x)} \right\|}}{{2r}}{{\left\| {x - {{x}_{0}}} \right\|}^{2}} \geqslant \frac{l}{{2r}}{{\left\| {x - {{x}_{0}}} \right\|}^{2}}.$
Из включения $ \pm f{\kern 1pt} {\text{'}}({{x}_{0}}) \in N(A,{{x}_{0}})$ ($A$ – гладкое многообразие) мы имеем в силу опорного принципа для проксимально гладких множеств, что
$\left\| {{{x}_{0}} - x + \frac{{f{\kern 1pt} {\text{'}}({{x}_{0}})}}{{\left\| {f{\kern 1pt} {\text{'}}({{x}_{0}})} \right\|}}R{\kern 1pt} } \right\| \geqslant R$
и, следовательно,
$ - (f{\kern 1pt} {\text{'}}({{x}_{0}}),x - {{x}_{0}}) \geqslant - \frac{{\left\| {f{\kern 1pt} {\text{'}}({{x}_{0}})} \right\|}}{{2R}}{{\left\| {x - {{x}_{0}}} \right\|}^{2}} \geqslant - \frac{L}{{2R}}{{\left\| {x - {{x}_{0}}} \right\|}^{2}}.$
Таким образом, для всякой точки $x \in A \cap {{\mathcal{L}}_{f}}(\beta )$ имеем

$(f{\kern 1pt} {\text{'}}(x) - f{\kern 1pt} {\text{'}}({{x}_{0}}),x - {{x}_{0}}) \geqslant \frac{1}{2}\left( {\frac{l}{r} - \frac{L}{R}} \right){{\left\| {x - {{x}_{0}}} \right\|}^{2}}.$

Условие $\tfrac{L}{\mu } < R$ существенно в теореме 1.

Пример 2. Рассмотрим в евклидовой плоскости ${{\mathbb{R}}^{2}}$ функцию $f(x,y) = {{x}^{2}} + {{\left( {y - \tfrac{1}{2}} \right)}^{2}}$ и множество $S = {\text{\{ }}{{x}^{2}} - y = 0{\text{\} }}$. Функция $f$ сильно выпукла с константой $\mu = 2$ и непрерывна по Липшицу в окрестности начала координат с константой $L \geqslant 1$. Минимальный радиус кривизны параболы $S$ равен $\tfrac{1}{2}$ в точке $(0,0)$. Следовательно, $S$ проксимально гладкое множество с константой $R = \tfrac{1}{2}$. Таким образом, условие $\tfrac{L}{\mu } < R$ нарушено.

Выберем начальную точку МПГ ${{a}_{0}} = (\tau ,{{\tau }^{2}})$, где $\tau > 0$. Рассмотрим две функции: ${{y}_{1}} = {{x}^{2}}$ и ${{x}^{2}} + {{\left( {{{y}_{2}} - \tfrac{1}{2}} \right)}^{2}} = {{\tau }^{2}} + {{\left( {{{\tau }^{2}} - \tfrac{1}{2}} \right)}^{2}}$. Тогда $y_{1}^{'} = y_{1}^{'}(\tau ) = 2\tau $,

$2x + 2y_{2}^{'}\left( {{{y}_{2}} - \frac{1}{2}} \right) = 0,\quad y_{2}^{'} = y_{2}^{'}(\tau ) = \frac{{2\tau }}{{1 - 2{{\tau }^{2}}}}.$
Имеем $y_{2}^{'} - y_{1}^{'} \sim 4{{\tau }^{3}}$, $\tau \to + 0$. Последнее означает, что угол $\varphi $ между касательными к графикам $y = {{y}_{1}}$ и $y = {{y}_{2}}$ в точке $(\tau ,{{\tau }^{2}})$ равен $\varphi \sim 4{{\tau }^{3}}$, $\tau \to + 0$. Пусть ${{n}_{0}}$ – единичная нормаль к параболе $y = {{x}^{2}}$ в точке ${{a}_{0}}$ с условием $({{n}_{0}},{{e}_{2}}) > 0$, ${{e}_{2}} = (0,1)$. Для достаточно малых чисел $t > 0$ и для точки ${{a}_{1}} = {{P}_{S}}({{a}_{0}} - tf{\kern 1pt} {\text{'}}({{a}_{0}}))$ получаем, что ${{\varrho }_{S}}({{a}_{1}}) \leqslant t\left\| {f{\kern 1pt} {\text{'}}({{a}_{0}})} \right\| < \tfrac{1}{4}$. Используя (2), получаем
$\left\| {{{a}_{0}} - {{a}_{1}}} \right\| \leqslant \frac{{\tfrac{1}{2}}}{{\tfrac{1}{2} - \tfrac{1}{4}}}\left\| {{{a}_{0}} + t{{n}_{0}} - ({{a}_{0}} - tf{\kern 1pt} {\text{'}}({{a}_{0}}))} \right\| = 2t\left\| {{{n}_{0}} - ( - f{\kern 1pt} {\text{'}}({{a}_{0}}))} \right\| \sim 8t{{\tau }^{3}},\quad \tau \to + 0.$
Таким образом, на $k$-м шаге точка ${{a}_{k}}$ имеет абсциссу больше ${{\tau }_{k}}$, где ${{\tau }_{0}} = \tau $, ${{\tau }_{k}} = {{\tau }_{{k - 1}}} - 8t\tau _{{k - 1}}^{3}$. Последовательность ${\text{\{ }}{{\tau }_{k}}{\text{\} }}$ имеет асимптотику ${{\tau }_{k}} \asymp \tfrac{1}{{\sqrt k }}$. Линейная скорость сходимости отсутствует.

2.2. Сравнение теоремы 1 с известными результатами

Наиболее сильные результаты для линейной скорости сходимости МПГ на гладких многообразиях, известные автору, содержатся в [18, Theorem 2.3]. Однако указанный результат дает только асимптотику для скорости сходимости, но не точную оценку. При этом существенным для сходимости является условие Лежанского–Поляка–Лоясевича [13, § 3.2, Definition 1], которое достаточно трудно проверить.

Сходимость МПГ в теореме 1 локальна. Однако указанная теорема верна не только для гладкого многообразия, но для любого проксимально гладкого множества. Кроме того, в теореме получена гарантированная оценка скорости сходимости, а не асимптотика.

Автору известно крайне мало работ, в которых МПГ рассматривается на произвольном невыпуклом замкнутом множестве, которое не является гладким многообразием.

В работе [19, Theorem 3.3] доказана линейная сходимость МПГ для произвольного замкнутого множества $A$, но с очень сильными ограничениями на функцию $f$, определенную на множестве $A$. Большинство функций не удовлетворяют таким ограничениям.

Наиболее сильные известные автору результаты о МПГ (для множеств, не являющихся обязательно многообразиями) содержатся в работе [20]. Работа [20] изобилует разными результатами, но мы сосредоточимся на основной теоерме 3 из [20] о сходимости МПГ для случая евклидова пространства.

Если переписать для случая евклидова пространства формулу (14) работы [20] в наших обозначениях, то получится, что на множестве $A$ для сходимости алгоритма должно выполняться условие $\tfrac{L}{\mu } < R(1 - {{c}_{0}}) < R$, т.е. в точности условие теоремы 1. Более того, множества из работы [20] являются проксимально гладкими (см. [20, п. 2.3]).

Однако от функции в работе [20] требуется так называемое условие ограниченной сильной выпуклости (RSC), т.е. для некоторого $\alpha > 0$ и любых точек $x,y \in A$ должно выполняться неравенство

$f(y) \geqslant f(x) + (f{\kern 1pt} {\text{'}}(x),y - x) + \frac{\alpha }{2}{{\left\| {y - x} \right\|}^{2}}.$
Легко видеть, что из условия RSC вытекает условие RSI. Обратное очевидно неверно. Более того, легко привести примеры задач, где теорема 1 работает, а [20, Theorem 3] нет.

Рассмотрим пример в ${{\mathbb{R}}^{2}}$. Пусть $a \in \left( {0,\tfrac{1}{4}} \right)$ и $A = \{ (x,y)\,|\,x \in [0,a],\;0 \leqslant y \leqslant {{x}^{2}} + 1\} $. Множество $A$ проксимально гладкое с константой $R = \tfrac{1}{2}$ (это минимальный радиус кривизны параболы $y = {{x}^{2}} + 1$ при $x \in [0,a]$). Рассмотрим $f(x,y) = {{x}^{2}}$. Очевидно, множество решений задачи (1) есть $\Omega = \left\{ {(0,y)\,|\,y \in [0,1]} \right\}$. Функция $f$ не удовлетворяет на множестве $A$ условию RSC, так как она постоянна на вертикальных отрезках. Для точки $(x,y) \in A$ имеем при $y \in [0,\;1]$ ${{P}_{\Omega }}(x,y) = {\text{\{ }}(0,y){\text{\} }}$, при $y > 1$ ${{P}_{\Omega }}(x,y) = {\text{\{ }}(0,\;1){\text{\} }}$. Из соотношений $f{\kern 1pt} {\text{'}}(x,y) = (2x,0)$, $f{\kern 1pt} {\text{'}}(0,y) = (0,0)$ и с учетом неравенства $\left| x \right| \geqslant \left| {y - 1} \right|$ для всех $(x,y) \in A$, $y \geqslant 1$, получаем, что

$(f{\kern 1pt} {\text{'}}(x,y) - f{\kern 1pt} {\text{'}}\left( {{{P}_{\Omega }}(x,y)} \right),(x,y) - {{P}_{\Omega }}(x,y)) = 2{{x}^{2}} \geqslant \mathop {\left\| {(x,y) - {{P}_{\Omega }}(x,y)} \right\|}\nolimits^2 \quad \forall (x,y) \in A,$
т.е. функция удовлетворяет условию RSI с константой $\mu = 1$. В силу выбора $a$ условие $\tfrac{L}{\mu } < R$ также выполнено для функции $f$ и множества $A$.

3. МПГ НА МНОГООБРАЗИИ ШТИФЕЛЯ

В случае многообразия Штифеля мы можем получить наилучшую константу проксимальной гладкости $R$. Следующее предложение можно найти в [21, Proposition 7].

Предложение 2. Пусть ${{X}_{0}} \in {{S}_{{n,k}}}$. Тогда для всякой матрицы $X \in {{\mathbb{R}}^{{n \times k}}}$ такой, что $\left\| {X - {{X}_{0}}} \right\| < {{\sigma }_{k}}({{X}_{0}})$, проекция $X$ на ${{S}_{{n,k}}}$ единственна и имеет вид ${{P}_{{{{S}_{{n,k}}}}}}X = \sum\nolimits_{i = 1}^k {{{U}_{i}}} V_{i}^{{\text{т}}} = U{{I}_{{n,k}}}{{V}^{{\text{т}}}}$, который задается сингулярным разложением матрицы $X = U\Sigma {{V}^{{\text{т}}}}$. Здесь ${{\sigma }_{k}}({{X}_{0}})$ есть наименьшее сингулярное число ${{X}_{0}}$, ${{U}_{i}}$ (${{V}_{i}}$) есть $i$-й столбец $U \in O(n)$ ($V \in O(k)$) и ${{I}_{{n,k}}} = {{({{I}_{k}} \vdots 0)}^{{\text{т}}}} \in {{\mathbb{R}}^{{n \times k}}}$.

Данное предложение позволяет находить значение ${{P}_{{{{S}_{{n,k}}}}}}X$ для матрицы $X \in {{\mathbb{R}}^{{n \times k}}}$ со свойством ${{\varrho }_{{{{S}_{{n,k}}}}}}(X) < {{\sigma }_{k}}({{X}_{0}})$. По какой-то причине авторы [21] не обратили внимание на то, что сингулярные числа любой матрицы ${{X}_{0}} \in {{S}_{{n,k}}}$ равны 1. Следовательно, ${{\sigma }_{k}}({{X}_{0}}) = 1$ и для всякой матрицы $X$ со свойством ${{\varrho }_{{{{S}_{{n,k}}}}}}(X) < 1$ существует ровно одна метрическая проекция на ${{S}_{{n,k}}}$. Таким образом, многообразие Штифеля – проксимально гладкое множество с константой $R = 1$. Рассмотрим матрицу ${{X}_{0}} = [{{e}_{1}} \vdots {{e}_{2}} \ldots {{e}_{k}}] \in {{S}_{{n,k}}}$, где ${\text{\{ }}{{e}_{i}}{\text{\} }}_{{i = 1}}^{n} \in {{\mathbb{R}}^{n}}$ – стандартный ортонормированный базис, а нормаль задана как $P = [{{e}_{1}} \vdots 0\; \ldots \;0]$. Для любого $t \in \left( {1,\;\tfrac{3}{2}} \right)$ имеем ${{P}_{{{{S}_{{n,k}}}}}}({{X}_{0}} - tP) = [ - {{e}_{1}} \vdots {{e}_{2}}\; \ldots \;{{e}_{k}}]$. Следовательно, $R = 1$ наилучшая (наибольшая) константа для всех ${{S}_{{n,k}}}$.

Теорема 2. Пусть $\beta \in \mathbb{R}$ и $n,k \in \mathbb{N}$, $n \geqslant k$. Предположим, что функция $f:{{\mathbb{R}}^{{n \times k}}} \to \mathbb{R}$ – гладкая с константой ${{L}_{1}}$, $f$ удовлетворяет условию RSI с константой $\mu $ (например, $f$ сильно квазивыпуклая) и градиент $f$ ограничен по норме на множестве $A \cap {{\mathcal{L}}_{f}}(\beta )$ константой $L$. Допустим, что $\tfrac{L}{\mu } < 1$. Тогда для всякой точки ${{X}_{0}} \in {{S}_{{n,k}}} \cap {{\mathcal{L}}_{f}}(\beta )$ МПГ (из теоремы 1) сходится к решению задачи $mi{{n}_{{X \in {{S}_{{n,k}}}}}}f(X)$ с линейной скоростью.

Доказательство вытекает из проксимальной гладкости многообразия Штифеля с константой $R = 1$ и теоремы 1.

4. МПГ НА МНОГООБРАЗИИ ГРАССМАНА

Пусть $X \in {{S}_{{n,k}}}$. Тогда $X = U\Sigma {{V}^{{\text{т}}}}$, $U \in O(n)$, $V \in O(k)$, $\Sigma = {{({{I}_{k}} \vdots 0)}^{{\text{т}}}} \in {{\mathbb{R}}^{{n \times k}}}$ (сингулярное разложение матрицы). Таким образом, любой элемент $X{{X}^{{\text{т}}}} \in {{G}_{{n,k}}}$ можно представить в виде

$X{{X}^{{\text{т}}}} = UZ{{U}^{{\text{т}}}}$, $Z = \left( {\begin{array}{*{20}{c}} {{{I}_{k}}}&0 \\ 0&0 \end{array}} \right) \in {{\mathbb{R}}^{{n \times n}}}$.

Теорема 3. Пусть $Y \in {\text{Sym}}(n)$ и $Y = {{W}^{{\text{т}}}}\Lambda W$, $W \in O(n)$, $\Lambda = {\text{diag}}\;{\text{\{ }}{{\lambda }_{1}},{{\lambda }_{2}},\; \ldots ,\;{{\lambda }_{n}}{\text{\} }}$ со свойством ${{\lambda }_{1}} \geqslant {{\lambda }_{2}} \geqslant \; \ldots \; \geqslant {{\lambda }_{k}} > {{\lambda }_{{k + 1}}} \geqslant \; \ldots \; \geqslant {{\lambda }_{n}}$, т.е. ${{\lambda }_{k}} > {{\lambda }_{{k + 1}}}$. Тогда ${{P}_{{{{G}_{{n,k}}}}}}Y = \left\{ {{{W}^{{\text{т}}}}ZW} \right\}$.

Доказательство. В силу предложения 1 имеем

$\left\| {{{W}^{{\text{т}}}}\Lambda W - UZ{{U}^{{\text{т}}}}} \right\| = \left\| {\Lambda - WUZ{{U}^{{\text{т}}}}{{W}^{{\text{т}}}}} \right\| = \left\| {\Lambda - QZ{{Q}^{{\text{т}}}}} \right\|,$
где $Q = WU$. Из равенства
${{\left\| {\Lambda - QZ{{Q}^{{\text{т}}}}} \right\|}^{2}} = {{\left\| \Lambda \right\|}^{2}} + {{\left\| {QZ{{Q}^{{\text{т}}}}} \right\|}^{2}} - 2(\Lambda ,QZ{{Q}^{{\text{т}}}}) = {{\left\| \Lambda \right\|}^{2}} + k - 2(\Lambda ,QZ{{Q}^{{\text{т}}}})$
мы получаем, что метрическая проекция $Y$ на ${{G}_{{n,k}}}$ достигается для таких матриц $Q \in O(n)$, которые дают максимум выражения
$(\Lambda ,QZ{{Q}^{{\text{т}}}}) = {\text{tr}}\Lambda QZ{{Q}^{{\text{т}}}} = \sum\limits_{m = 1}^n {{{\lambda }_{m}}} \sum\limits_{i = 1}^k {Q_{{mi}}^{2}} ,$
т.е. когда $\sum\nolimits_{i = 1}^k {Q_{{mi}}^{2}} \leqslant 1$ для всех $m$ и $\sum\nolimits_{m = 1}^n {\sum\nolimits_{i = 1}^k {Q_{{mi}}^{2}} } = k$. Таким образом, максимум $(\Lambda ,QZ{{Q}^{{\text{т}}}})$ достигается тогда и только тогда когда матрица $Q \in O(n)$ дает $\sum\nolimits_{i = 1}^k {Q_{{mi}}^{2}} = 1$ для всех $1 \leqslant m \leqslant k$ (напомним, что ${{\lambda }_{1}} \geqslant \; \ldots \;{{\lambda }_{k}} > {{\lambda }_{{k + 1}}} \geqslant \; \ldots \;{{\lambda }_{n}}$). Значит, $ma{{x}_{Q}}(\Lambda ,QZ{{Q}^{{\text{т}}}}) = \sum\nolimits_{m = 1}^k {{{\lambda }_{m}}} $ имеет место только для матриц вида $Q = \left( {\begin{array}{*{20}{c}} S&0 \\ 0&F \end{array}} \right) \in {{\mathbb{R}}^{{n \times n}}}$, где $S \in O(k)$, $F \in O(n - k)$. Из предыдущих рассуждений получаем
${{\varrho }_{{{{G}_{{n,k}}}}}}(Y) = \mathop {min}\limits_Q \left\| {\Lambda - QZ{{Q}^{{\text{т}}}}} \right\| = \left\| {\Lambda - \left( {\begin{array}{*{20}{c}} S&0 \\ 0&F \end{array}} \right)Z\left( {\begin{array}{*{20}{c}} {{{S}^{{\text{т}}}}}&0 \\ 0&{{{F}^{{\text{т}}}}} \end{array}} \right)} \right\| = \left\| {\Lambda - Z} \right\|.$
Выбирая $U = {{W}^{{\text{т}}}}\left( {\begin{array}{*{20}{c}} S&0 \\ 0&F \end{array}} \right)$ для всякого $S \in O(k)$ и $F \in O(n - k)$ мы находим ${{\varrho }_{{{{G}_{{n,k}}}}}}(Y) = \left\| {{{W}^{{\text{т}}}}\Lambda W - {{W}^{{\text{т}}}}ZW} \right\|$ ${{\varrho }_{{{{G}_{{n,k}}}}}}(Y) = \left\| {{{W}^{{\text{т}}}}\Lambda W - {{W}^{{\text{т}}}}ZW} \right\|$. Следовательно, ${{W}^{{\text{т}}}}ZW \in {{P}_{{{{G}_{{n,k}}}}}}Y$. Предположим, что $Y = {{W}^{{\text{т}}}}\Lambda W$, $W \in O(n)$, и ${{U}^{{\text{т}}}}ZU \in {{P}_{{{{G}_{{n,k}}}}}}Y$ для некоторого $U \in O(n)$. Тогда ${{\varrho }_{{{{G}_{{n,k}}}}}}(Y) = \left\| {\Lambda - QZ{{Q}^{{\text{т}}}}} \right\|$ для $Q = W{{U}^{{\text{т}}}} = \left( {\begin{array}{*{20}{c}} S&0 \\ 0&F \end{array}} \right)$ и некоторых матриц $S \in O(k)$ и $F \in O(n - k)$. Из равенства $W = \left( {\begin{array}{*{20}{c}} S&0 \\ 0&F \end{array}} \right)U$ находим ${{W}^{{\text{т}}}}ZW = {{U}^{{\text{т}}}}ZU$.

Допустим, что $Y = {{W}^{{\text{т}}}}\Lambda W = W_{1}^{{\text{т}}}{{\Lambda }_{1}}{{W}_{1}}$, $\Lambda $ и ${{\Lambda }_{1}}$ – диагональные матрицы, верхний левый $k \times k$ и правый нижний $(n - k) \times (n - k)$ блоки ${{\Lambda }_{1}}$ состоят из тех же собственных значений, что и соответствующие блоки матрицы $\Lambda $ (но в другом порядке); $W,{{W}_{1}} \in O(n)$. Аналогично с предыдущими рассуждениями легко видеть, что $W_{1}^{{\text{т}}}Z{{W}_{1}} = {{W}^{{\text{т}}}}ZW$. Значит, множество ${{P}_{{{{G}_{{n,k}}}}}}Y$ одноточечно. Теорема доказана.

Заметим, что для матрицы $Y \in {\text{Sym}}(n)$ со свойством ${{\varrho }_{{{{G}_{{n,k}}}}}}(Y) = \left\| {\Lambda - Z} \right\| < 1{\text{/}}\sqrt 2 $ мы имеем $\Lambda = {\text{diag\{ }}1 + {{\varepsilon }_{1}},\; \ldots ,\;1 + {{\varepsilon }_{k}},{{\varepsilon }_{{k + 1}}},\; \ldots ,\;{{\varepsilon }_{n}}{\text{\} }}$, где $\sum\nolimits_{i = 1}^n {\varepsilon _{i}^{2}} < \tfrac{1}{2}$. Для всех $i$, $j$ выполняются неравенства $\varepsilon _{i}^{2} + \varepsilon _{j}^{2} < \tfrac{1}{2}$, $1 + {{\varepsilon }_{i}} > 0$ и

${{(1 + {{\varepsilon }_{i}})}^{2}} - \varepsilon _{j}^{2} = 1 + 2{{\varepsilon }_{i}} + 2\varepsilon _{i}^{2} - (\varepsilon _{i}^{2} + \varepsilon _{j}^{2}) > 1 + 2{{\varepsilon }_{i}} + 2\varepsilon _{i}^{2} - \frac{1}{2} \geqslant 0.$
Следовательно, $1 + {{\varepsilon }_{i}} = \left| {1 + {{\varepsilon }_{i}}} \right| > \left| {{{\varepsilon }_{j}}} \right| \geqslant {{\varepsilon }_{j}}$ для всех $1 \leqslant i \leqslant k$, $j \geqslant k + 1$. В силу теоремы 3 множество ${{P}_{{{{G}_{{n,k}}}}}}Y$ одноточечно. Таким образом, для любой матрицы $Y \in {\text{Sym}}(n)$ со свойством ${{\varrho }_{{{{G}_{{n,k}}}}}}(Y) < 1{\text{/}}\sqrt 2 $ существует единственная метрическая проекция ${{P}_{{{{G}_{{n,k}}}}}}Y$. Значит, ${{G}_{{n,k}}}$ проксимально гладкое множество с константой $R = 1{\text{/}}\sqrt 2 $.

Рассмотрим $\Lambda = {\text{diag\{ }}\underbrace {1,\; \ldots ,\;1}_{k - 1\;{\text{раз}}},\;1{\text{/}}2,\;1{\text{/}}2,\;0,\; \ldots 0{\text{\} }} \in {\text{Sym}}(n)$. Для блочно диагональной матрицы $Q(\varphi )$, состоящей из блоков ${{I}_{{k - 1}}}$, $\left( {\begin{array}{*{20}{c}} {cos\varphi }&{sin\varphi } \\ { - sin\varphi }&{cos\varphi } \end{array}} \right)$ ($\varphi \in \left[ {0,\;2\pi } \right)$) и ${{I}_{{n - k - 1}}}$, мы получаем, что матрица

$P(\varphi ) = Q(\varphi )Z{{Q}^{{\text{т}}}}(\varphi ) = \left( {\begin{array}{*{20}{c}} {{{I}_{{k - 1}}}}&0&0 \\ 0&{\left( {\begin{array}{*{20}{c}} {co{{s}^{2}}\varphi }&{ - sin\varphi cos\varphi } \\ { - sin\varphi cos\varphi }&{si{{n}^{2}}\varphi } \end{array}} \right)}&0 \\ 0&0&{{{0}_{{n - k - 1}}}} \end{array}} \right)$
дает равенство $\left\| {\Lambda - P(\varphi )} \right\| = 1{\text{/}}\sqrt 2 $. Таким образом, константа $R = 1{\text{/}}\sqrt 2 $ неулучшаема. (Неулучшаемость константы проксимальной гладкости для ${{G}_{{n,k}}}$ получена совместно со студентом Р. Камаловым.)

Отметим, что рассмотренное вложение многообразия Грассмана в пространство ${\text{Sym}}(n)$ не является единственно возможным и другие вложения (см. детали в [14]) могут давать другие оценки для константы $R$.

Теорема 3 позволяет сформулировать полный аналог теоремы 2 в случае минимизации на множестве ${{G}_{{n,k}}}$.

Теорема 4. Пусть $\beta \in \mathbb{R}$ и $n,k \in \mathbb{N}$, $n \geqslant k$. Предположим, что функция $f:{\text{Sym}}(n) \to \mathbb{R}$ гладкая с константой ${{L}_{1}}$, $f$ удовлетворяет условию RSI с константой $\mu $ (например, $f$ сильно квазивыпуклая) и градиент функции $f$ ограничен по норме на множестве $A \cap {{\mathcal{L}}_{f}}(\beta )$ константой $L$. Допустим, что $\tfrac{L}{\mu } < 1{\text{/}}\sqrt 2 $. Тогда для всякой точки ${{X}_{0}} \in {{G}_{{n,k}}} \cap {{\mathcal{L}}_{f}}(\beta )$ МПГ (из теоремы 1) сходится к решению задачи $mi{{n}_{{X \in {{G}_{{n,k}}}}}}f(X)$ с линейной скоростью.

Список литературы

  1. Goldstein A.A. Convex programming in Hilbert space // Bull. Amer. Math. Soc. 1964. V. 70. № 5. P. 709–710.

  2. Левитин Е.С., Поляк Б.Т. Методы минимизации при наличии ограничений // Ж. вычисл. матем. и матем. физ. 1966. V. 6. № 5. С. 787–823.

  3. Нестеров Ю.Е. Введение в выпуклую оптимизацию. М.: МЦМНО, 2010. 278 с.

  4. Edelman A., Arias T.A., Smith S.T. The geometry of algorithms with orthogonality constraints // J. Matrix Anal. Appl. 1998. V. 20. № 2. P. 303–353.

  5. Luenberger D.G. The gradient projection methods along geodesics // Management Science. 1972. V. 18. № 11. P. 620–631.

  6. Hager W.W. Minimizing a quadratic over a sphere // SIAM J. Optim. and Contr. 2001. V. 12. № 1. P. 188–208.

  7. Absil P.-A., Mahony R., Sepulchre R. Matrix Manifolds. Princeton University Press, Princeton and Oxford. 2008. 240 p.

  8. Neto J.X. da Cruz, De Lima J.X. da Cruz, Oliveira P.R. Geodesic algorithms on Riemannian manifolds // Balkan J. of Geom. and Its Appl. 1998. V. 3. № 2. P. 89–100.

  9. Udrişte C. Convex functions and optimization methods on Riemannian manifolds // Mathematics and Its Applications series. Dordrecht: Springer. 1998. V. 297.

  10. Vial J.-Ph. Strong and weak convexity of sets and functions // Mathematics of Operations Research. 1983. V. 8. № 2. P. 231–259.

  11. Clarke F.H., Stern R.J., Wolenski P.R. Proximal smoothness and lower-${{C}^{2}}$ property // J. Convex Anal. 1995. V. 2. № 1–2. P. 117–144.

  12. Обен Ж.-П., Экланд И. Прикладной нелинейный анализ. М.: Мир, 1988.

  13. Balashov M., Polyak B., Tremba A. Gradient projection and conditional gradient methods for constrained nonconvex minimization // Numerical Functional Analysis and Optimization. 2020. V. 41. № 7. P. 822–849.

  14. Conway J.H., Hardin R.H., Sloane N.J.A. Packing lines, planes, etc.: packings in grassmannian spaces // Experimental Mathematics. 1996. V. 5. P. 139–159.

  15. Karimi H., Nutini J., Schmidt M. Linear convergence of gradient and proximal-gradient methods under the Polyak-Lojasiewicz condition // In: Frasconi P., Landwehr N., Manco G., Vreeken J. (eds.) Machine Learning and Knowledge Discovery in Databases. ECML PKDD 2016. Lecture Notes in Computer Science. V. 9851.

  16. Balashov M.V. About the gradient projection algorithm for a strongly convex function and a proximally smooth set // J. Convex Anal. 2017. V. 24. № 2. P. 493–500.

  17. Wei K., Cai J.-F., Chan T.F., Leung Sh. Guarantees of Riemannian optimization for low rank matrix recovery // 2016. arXiv: 1511.01562v8.

  18. Schneider R., Uschmajew A. Convergence results for projected line search methods on varieties of low-rank matricies via Lojasiewicz inequality // SIAM J. OPTIM. 2015. V. 25. № 1. P. 622–646.

  19. Jain P., Kar P. Non-convex Optimization for Machine Learning. Now Foundations and Trends. 2017. 154 p.

  20. Barber R.F., Ha W. Gradient descent with nonconvex constraints: local concavity determines convergence // 2017. arXiv: 1703.07755v3.

  21. Absil P.-A., Malick J. Projection-like retraction on matrix manifolds // SIAM J. OPTIM. 2012. V. 22. № 1. P. 135–158.

Дополнительные материалы отсутствуют.