Журнал вычислительной математики и математической физики, 2020, T. 60, № 11, стр. 1843-1866

Ускоренные методы для седловых задач

М. С. Алкуса 12*, А. В. Гасников 123**, Д. М. Двинских 34***, Д. А. Ковалев 5****, Ф. С. Стонякин 61*****

1 НИУ МФТИ
141700 Долгопрудный, М.о., Институтский пер., 9, Россия

2 НИУ ВШЭ
101000 Москва, ул. Мясницкая, 18, Россия

3 Ин-т проблем передачи информации РАН
127051 Москва, Большой Каретный пер., 19, Россия

4 Weierstrass Institute for Applied Analysis and Stochastics
10117 Berlin, Monhrenstr, 39, Германия

5 King Abdullah University of Science and Technology
23955 Thuwal, Саудовская Аравия

6 Крымский федеральный ун-т
295007 Симферополь, пр-т Акад. Вернадского, 4, Россия

* E-mail: mohammad.alkousa@phystech.edu
** E-mail: gasnikov@yandex.ru
*** E-mail: darina.dvinskikh@wias-berlin.de
**** E-mail: dmitry.kovalev@kaust.edu.sa
***** E-mail: fedyor@mail.ru

Поступила в редакцию 01.12.2019
После доработки 20.12.2019
Принята к публикации 07.07.2020

Полный текст (PDF)

Аннотация

В последнее время было показано, как на основе обычного ускоренного градиентного метода решения задач гладкой выпуклой оптимизации можно получить ускоренные методы для более сложных задач (со структурой) и задач, по ходу решения которых используется различная локальная информация о поведении функции (стохастический градиент, гессиан и т.п.). “Ускоренные” методы здесь означает, с одной стороны, наличие некоторого единого и достаточно общего способа ускорения. С другой стороны, это означает и “оптимальность” методов, что часто удается строго доказать. В настоящей работе предпринята попытка построить в том же духе теорию ускоренных методов решения гладких выпукло-вогнутых седловых задач со структурой. Основным результатом статьи является получение в некотором смысле необходимых и достаточных условий, при которых сложность решения нелинейных выпукло-вогнутых седловых задач со структурой по числу вычислений градиентов композитов по прямым переменным равна по порядку аналогичной сложности решения билинейных задач со структурой. Библ. 30.

Ключевые слова: седловая задача, ускоренный метод, слайдинг, проксимально-дружественная функция.

1. ВВЕДЕНИЕ

Одним из основных направлений в численных методах выпуклой оптимизации в последнее десятилетие стало повсеместное распространение конструкции ускорения обычного градиентного метода, предложенной в 1983 г. Ю.Е. Нестеровым [1], на различные другие численные методы оптимизации.

Напомним вкратце исходную конструкцию. Для решения задачи выпуклой оптимизации

(1)
$f(x) \to \mathop {min}\limits_{x \in {{\mathbb{R}}^{n}}} ,$
было предложено использовать вместо стандартного метода градиентного спуска
${{x}^{{k + 1}}} = {{x}^{k}} - \frac{1}{L}\nabla f({{x}^{k}}),\quad k \geqslant 0,$
где $L$ – верхняя оценка константы Липшица градиента $f(x)$ в $2$-норме (далее, для краткости, будем говорить, что $f(x)$ имеет $L$-липшицев градиент), следующий ускоренный метод
${{x}^{1}} = {{x}^{0}} - \frac{1}{L}\nabla f({{x}^{0}}),$
${{x}^{{k + 1}}} = {{x}^{k}} - \frac{1}{L}\nabla f\left( {{{x}^{k}} + \frac{{k - 1}}{{k + 2}}({{x}^{k}} - {{x}^{{k - 1}}})} \right) + \frac{{k - 1}}{{k + 2}}({{x}^{k}} - {{x}^{{k - 1}}}),\quad k \geqslant 1.$
Сложность итерации этого метода сопоставима со сложностью итерации градиентного спуска. Однако если градиентный спуск сходится в общем случае (на плохо обусловленных задачах [2]) не лучше, чем [3]
$f({{x}^{N}}) - f({{x}_{*}}) \geqslant \frac{{L{{R}^{2}}}}{{4N}},$
то ускоренный метод сходится как
(2)
$f({{x}^{N}}) - f({{x}_{*}}) \leqslant \frac{{4L{{R}^{2}}}}{{{{N}^{2}}}},$
где ${{x}_{ * }}$ – решение задачи (1), а $R = {{\left\| {{{x}^{0}} - {{x}_{*}}} \right\|}_{2}}$. Если решение не единственное, то под ${{x}_{ * }}$ можно понимать то решение, которое наиболее близко (относительно 2-нормы) к точке старта метода ${{x}^{0}}$ [4]. Оценка (2) с точностью до числового множителя уже не может быть улучшена в общем случае ни на каком другом возможном методе при фиксированном классе задач выпуклой оптимизации (1) с $L$-липшицевым градиентом, см., например, [5], [6]. Аналогичные рассуждения можно провести и в невырожденном случае, когда $f(x)$ есть $\mu $-сильно выпуклая функция [7]. В следующих разделах мы рассмотрим именно такой случай.

За последние 15 лет описанная конструкция ускорения была успешно перенесена на гладкие задачи условной выпуклой оптимизации, на задачи со структурой (в частности, так называемые композитные задачи). Ускорение успешно перенеслось и на неполноградиентные методы (безградиентные методы, спуски по направлению, координатные спуски) и на методы, использующие старшие производные. Также удалось добиться ускорения рандомизированных методов (например, методов редукции дисперсии в задачах минимизации суммы функций) и методов решения задач гладкой стохастической оптимизации. Под успешностью переноса здесь, как и выше, понимается достижение с помощью соответствующих ускоренных методов (с точностью до числовых множителей) известных нижних оценок. Важно также отметить, что в основу схемы ускорения во всех описанных случаях положена идейно одна и та же конструкция. Детали и более подробный обзор литературы можно найти в работе [4].

Несмотря на отмеченные достижения, по-прежнему остается ряд достаточно важных для практики постановок задач, в которых пока не до конца ясно, как именно следует добиваться ускорения имеющихся методов. В частности, можно выделить специальный подкласс задач вида (1), включающий в себя седловые задачи

(3)
$f(x): = r(x) + \underbrace {\mathop {max}\limits_{y \in {{Q}_{y}}} \{ F(x,y) - h(y)\} }_{g(x) = F(x,y{\kern 1pt} *(x)) - h(y{\kern 1pt} *(x))} \to \mathop {min}\limits_{x \in {{Q}_{x}}} ,$
где $y{\kern 1pt} *(x) = argma{{x}_{{y \in {{Q}_{y}}}}}\{ F(x,y) - h(y)\} $. Заметим, что задачи такого типа встречаются в самых разных приложениях, в том числе в поиске равновесий в двухстадийных моделях транспортных потоков [8].

Если задача не сильно выпукла, то ее можно свести к сильно выпуклой применением техники регурялизации и (или) двойственного сглаживания. Без ограничения общности можно считать ${{\mu }_{x}} \geqslant \tfrac{\varepsilon }{{2R_{x}^{2}}}$ (регуляризация [4]) и (или) ${{\mu }_{y}} \geqslant \tfrac{\varepsilon }{{2R_{y}^{2}}}$ (двойственное сглаживание [4], [6], [9], [10]), где ${{R}_{x}} = {{\left\| {{{x}^{0}} - {{x}_{*}}} \right\|}_{2}},$ ${{R}_{y}} = {{\left\| {{{y}^{0}} - y({{x}_{*}}){\text{|}}} \right\|}_{2}},$ $({{x}^{0}},{{y}^{0}})$ – стартовая точка для выбранного численного метода решения задачи (3). Здесь и всюду далее в работе под $\left\langle {x,\;y} \right\rangle $мы понимаем обычное скалярное произведение векторов в конечномерном пространстве и под ${{\left\| x \right\|}_{2}} = \left\langle {x,\;x} \right\rangle $ – евклидову норму.

С точки зрения ускоренных методов данный класс задач достаточно подробно исследован в основном в случае $F(x,y) = \left\langle {Ax,y} \right\rangle $ для некоторого линейного оператора $A$ (см., например, [9]).

В настоящей работе получены аналоги результатов [9] для более общего класса операторов $F$, которые не имеют билинейную структуру. Попутно найдены и некоторые уточнения оценок и для случая $F(x,y) = \left\langle {Ax,y} \right\rangle $. Предлагается сводить рассматриваемые седловые задачи к комбинации вспомогательных задач гладкой сильно выпуклой минимизации отдельно по каждой из групп переменных. Каждая из таких вспомогательных задач может решаться упомянутым выше быстрым градиентным методом Ю.Е. Нестерова. При этом неточность решения вспомогательной (внутренней) подзадачи для одной из групп переменных приводит к необходимости использовать для внешней задачи (которая определяется решением внутренней) концепцию неточного оракула [11], для которой известны оценки скорости сходимости быстрого градиентого метода. В этом случае получены оценки сложности (необходимого количества обращений к подпрограмме для вычисления градиента) предложенного метода, аналогичные известному результату об ускоренном градиентном слайдинге Дж. Лана (см. [9]). При этом с одной стороны предложена новая относительно простая схема пояснения ускоренного градиентного слайдинга с помощью техники Каталист [12], а с другой стороны – результат об ускоренном градиентном слайдинге обобщен на случай, когда вместо обычных градиентов целевых функционалов используются некоторые их неточные аналоги.

Работа состоит из введения, заключения и трех основных разделов. В разд. 2 приводится постановка рассматриваемой задачи и кратко описывается подход к ней на базе известного проксимального зеркального метода А.С. Немировского для вариационных неравенств и седловых задач. Разд. 3 посвящен обзору известных результатов о возможности ускорений оценки скорости сходимости для рассматриваемого класса достаточно гладких сильно выпукло-вогнутых седловых задач, а также формулировкам основных результатов настоящей статьи $({\text{i}})$$({\text{iii}})$. В разд. 4 приводится схема обоснования основных утверждений работы, сформулированы необходимые вспомогательные утверждения (леммы 1, 2 и 3). Для леммы 3 об ускоренном градиентном слайдинге для минимизации суммы гладких выпуклых функционалов (один из которых сильно выпуклый) при использовании концепции неточного градиента в основной части статьи приведена схема рассуждений на базе недавно предложенной техники Каталист [12]. Полные доказательства лемм 1, 2 и 3 приводятся в приложении к работе.

2. ПОСТАНОВКА ЗАДАЧИ

Пусть ${{Q}_{x}} \subseteq {{\mathbb{R}}^{m}},$ ${{Q}_{y}} \subseteq {{\mathbb{R}}^{n}}$ – непустые, выпуклые и компактные множества, $r:{{Q}_{x}} \to \mathbb{R}$ и $h:{{Q}_{y}} \to \mathbb{R}$ есть ${{\mu }_{x}}$-сильно выпуклая и ${{\mu }_{y}}$-сильно выпуклая функции соответственно.

Всюду будем предполагать, что функционал $F:{{Q}_{x}} \times {{Q}_{y}} \to \mathbb{R}$ выпуклый по $x$ и вогнутый по $y$ и задан в некоторой окрестности множества ${{Q}_{x}} \times {{Q}_{y}}$. При этом $F$ будем считать достаточно гладким на ${{Q}_{x}} \times {{Q}_{y}}$. Точнее говоря, для произвольных $x,x{\kern 1pt} ' \in {{Q}_{x}}$ и $y,y' \in {{Q}_{y}}$, верны следующие неравенства:

(4)
${{\left\| {{{\nabla }_{x}}F(x,y) - {{\nabla }_{x}}F(x{\kern 1pt} ',y)} \right\|}_{2}} \leqslant {{L}_{{xx}}}{{\left\| {x - x{\kern 1pt} '{\kern 1pt} } \right\|}_{2}},$
${{\left\| {{{\nabla }_{x}}F(x,y) - {{\nabla }_{x}}F(x,y{\kern 1pt} ')} \right\|}_{2}} \leqslant {{L}_{{xy}}}{{\left\| {y - y{\kern 1pt} '{\kern 1pt} } \right\|}_{2}},$
(5)
${{\left\| {{{\nabla }_{y}}F(x,y) - {{\nabla }_{y}}F(x{\kern 1pt} ',y)} \right\|}_{2}} \leqslant {{L}_{{xy}}}{{\left\| {x - x{\kern 1pt} '{\kern 1pt} } \right\|}_{2}},$
${{\left\| {{{\nabla }_{y}}F(x,y) - {{\nabla }_{y}}F(x,y{\kern 1pt} ')} \right\|}_{2}} \leqslant {{L}_{{yy}}}{{\left\| {y - y{\kern 1pt} '{\kern 1pt} } \right\|}_{2}},$
где ${{L}_{{xx}}},{{L}_{{xy}}},{{L}_{{yy}}} \geqslant 0$.

Рассмотрим класс выпукло-вогнутых седловых задач

(6)
$\mathop {\min }\limits_{x \in {{Q}_{x}}} \mathop {\max }\limits_{y \in {{Q}_{y}}} {\kern 1pt} \{ S(x,y): = r(x) + F(x,y) - h(y)\} .$

Пусть

(7)
$\hat {S}(x,y) = F(x,y) - h(y).$
Тогда возможно переписать задачу (6) следующим образом:
$\mathop {\min }\limits_{x \in {{Q}_{x}}} {\kern 1pt} \{ r(x) + \mathop {\max }\limits_{y \in {{Q}_{y}}} \hat {S}(x,y)\} = \mathop {\min }\limits_{x \in {{Q}_{x}}} {\kern 1pt} \{ r(x) + g(x)\} ,$
т.е. задача (6) имеет вид
$f(x): = r(x) + g(x) \to \mathop {min}\limits_{x \in {{Q}_{x}}} ,$
где

(8)
$g(x) = \mathop {max}\limits_{y \in {{Q}_{y}}} \hat {S}(x,y).$

Поскольку функционал $\hat {S}(x, \cdot )$ есть ${{\mu }_{y}}$-сильно вогнутый на ${{Q}_{y}}$, то задача максимизации (8) имеет единственное решение

(9)
$y{\kern 1pt} {\text{*}}{\kern 1pt} (x): = arg\mathop {max}\limits_{y \in {{Q}_{y}}} \hat {S}(x,y)\quad \forall x \in {{Q}_{x}},$
откуда

$g(x) = \hat {S}(x,y{\kern 1pt} *{\kern 1pt} (x)) = F(x,y{\kern 1pt} *{\kern 1pt} (x)) - h(y{\kern 1pt} *{\kern 1pt} (x)).$

Всюду далее для произвольного $x \in {{Q}_{x}}$ и некоторого $\delta \geqslant 0$ будем называть ${{\tilde {y}}_{\delta }}(x) \in {{Q}_{y}}$  $\delta $-приближенным решением задачи (8), если

(10)
$g(x) - \hat {S}(x,\mathop {\tilde {y}}\nolimits_\delta (x)) = \hat {S}(x,y{\kern 1pt} *{\kern 1pt} (x)) - \hat {S}(x,\mathop {\tilde {y}}\nolimits_\delta (x)) \leqslant \delta .$

Хорошо известно, что задача нахождения седловых точек выпукло-вогнутого функционала может сводиться к задаче решения вариационного неравенства с монотонным оператором

(11)
$G(x) = \left( {\begin{array}{*{20}{c}} {{{\nabla }_{u}}f(u,v)} \\ { - {{\nabla }_{{v}}}f(u,v)} \end{array}} \right),\quad x = (u,v) \in Q: = {{Q}_{1}} \times {{Q}_{2}}.$

Напомним общую постановку задачи решения вариационного неравенства (ВН). Для некоторого оператора $G:Q \to {{\mathbb{R}}^{n}}$, заданного на выпуклом компакте $Q \subset {{\mathbb{R}}^{n}}$ будем рассматривать сильные вариационные неравенства (ВН) вида

(12)
$\left\langle {G({{x}_{*}}),{{x}_{*}} - x} \right\rangle \leqslant 0\quad \forall x \in Q,$
где $G$ удовлетворяет условию Липшица. Отметим, что в (12) требуется найти ${{x}_{*}} \in Q$ (где ${{x}_{*}}$ – решение ВН), для которого

$\mathop {max}\limits_{x \in Q} \left\langle {G({{x}_{*}}),{{x}_{*}} - x} \right\rangle \leqslant 0.$

Для решения задачи вариационного неравенства в последние годы весьма популярен проксимальный зеркальный метод А.С. Немировского [13]. Недавно был предложен также его вариант с адаптивным выбором шага [14].

Гладкость рассматриваемой седловой задачи приводит к липшицевости оператора $G$, с некоторой константой $L > 0$. В таком случае, как известно, для проксимального зеркального метода справедлива следующая оценка [14]:

(13)
$\frac{1}{N}\sum\limits_{k = 1}^N \,\left\langle {G({{y}^{k}}),{{y}^{k}} - x} \right\rangle \leqslant \frac{{L\left\| {x - {{x}^{0}}} \right\|_{2}^{2} - L\left\| {x - {{x}^{N}}} \right\|_{2}^{2}}}{{2N}}\quad \forall x \in Q,$
где

${{y}^{k}}: = \arg \mathop {\min }\limits_{x \in Q} \left\{ {\left\langle {G({{x}^{{k - 1}}}),x - {{x}^{{k - 1}}}} \right\rangle + \frac{L}{2}\left\| {x - {{x}^{{k - 1}}}} \right\|_{2}^{2}} \right\},\quad k = 1,2, \ldots ,N.$

Заметим, что для всех ${{y}^{k}} \in Q$ имеем

(14)
$\left\langle {G({{x}_{*}}),{{y}^{k}} - {{x}_{*}}} \right\rangle \geqslant 0.$

Из (13) следует, что

(15)
$\frac{1}{N}\sum\limits_{k = 1}^N \,\left\langle {G({{y}^{k}}),{{y}^{k}} - {{x}_{*}}} \right\rangle \leqslant \frac{{L\left\| {{{x}_{*}} - {{x}^{0}}} \right\|_{2}^{2}}}{{2N}}.$

Объединяя неравенства (14) и (15), получаем

$\frac{1}{N}\sum\limits_{k = 1}^N \,\left\langle {G({{y}^{k}}) - G({{x}_{ * }}),{{y}^{k}} - {{x}_{*}}} \right\rangle \leqslant \frac{{L\left\| {{{x}_{*}} - {{x}^{0}}} \right\|_{2}^{2}}}{{2N}}.$

Дополнительно предположим сильную монотонность оператора $G$, т.е. существование такого $\mu > 0$, что

$\left\langle {G(y) - G(x),y - x} \right\rangle \geqslant \mu \left\| {y - x} \right\|_{2}^{2}\quad \forall x,y \in Q.$
С учетом выпуклости функции $\left\| x \right\|_{2}^{2}$ имеем
$\mu \left\| {{{{\bar {y}}}^{N}} - {{x}_{*}}} \right\|_{2}^{2} \leqslant \mu \sum\limits_{k = 1}^N \frac{1}{N}\left\| {{{y}^{k}} - {{x}_{*}}} \right\|_{2}^{2} \leqslant \frac{1}{N}\sum\limits_{k = 1}^N \,\left\langle {G({{y}^{k}}) - G({{x}_{*}}),{{y}^{k}} - {{x}_{*}}} \right\rangle \leqslant \frac{{L\left\| {{{x}_{ * }} - {{x}^{0}}} \right\|_{2}^{2}}}{{2N}},$
где ${{\bar {y}}^{N}} = \tfrac{1}{N}\sum\nolimits_{k = 1}^N \,{{y}^{k}}$.

На основе последнего неравенства уже возможно организовать процедуру рестартов проксимального зеркального метода и тогда он будет сходиться с линейной скоростью. Общая оценка числа итераций, необходимого для достижения приемлемого качества решения, будет иметь вид

${\text{O}}\left( {\frac{L}{\mu }ln\left( {\frac{{\mu {{R}^{2}}}}{\varepsilon }} \right)} \right),$
где $R = {{\left\| {{{x}^{0}} - {{x}_{*}}} \right\|}_{2}}$ и $\varepsilon $– точность решения ${{x}_{ * }}$. Хорошо известно, что данная оценка не может быть улучшена для рассматриваемого класса вариационных неравенств никакими другими методами.

Если применять рассмотренный подход к поставленной задаче (6), то оператор $G$ из (11) будет $\mu $-сильно монотонным $\mu = \min \{ {{\mu }_{x}},{{\mu }_{y}}\} $, что приведет к следующей оценке сложности:

(16)
${\text{O}}\left( {\frac{L}{{\min \{ {{\mu }_{x}},{{\mu }_{y}}\} }}\ln \left( {\frac{{\min \{ {{\mu }_{x}},{{\mu }_{y}}\} {{R}^{2}}}}{\varepsilon }} \right)} \right)$
достижения нужного качества решения. Если ${{\mu }_{x}}$ или ${{\mu }_{y}}$ близко к нулю, то величина в (16) может оказаться достаточно большой. В последующих разделах мы, в частности, рассмотрим альтернативные подходы, которые позволяют уточнить оценку (16) в случае, когда ${{\mu }_{x}} \ll {{\mu }_{y}}$ или ${{\mu }_{y}} \ll {{\mu }_{x}}$.

3. ОСНОВНЫЕ РЕЗУЛЬТАТЫ

Опишем наилучшие известные на данный момент результаты оценок скорости сходимости методов для задачи (3), а также сформулируем основные результаты нашей работы.

Будем говорить, что функция $r(x)$ – проксимально дружественная, если задача вида

(17)
$\mathop {min}\limits_{x \in {{Q}_{x}}} \left\{ {\left\langle {{{c}_{1}},x} \right\rangle + r(x) + {{c}_{2}}\left\| x \right\|_{2}^{2}} \right\},$
где ${{c}_{1}} \in {{Q}_{x}}$ и ${{c}_{2}} > 0$, может быть решена явно. Аналогично $h(y)$ – проксимально дружественная функция, если задача вида
(18)
$\mathop {min}\limits_{y \in {{Q}_{y}}} \left\{ {\left\langle {{{c}_{1}},y} \right\rangle + h(y) + {{c}_{2}}\left\| y \right\|_{2}^{2}} \right\}$
может быть решена явно.

Под $\varepsilon $-решением задачи (3) будем понимать такую пару $({{x}^{{{{N}_{x}}}}},{{y}^{{{{N}_{y}}}}}) \in {{Q}_{x}} \times {{Q}_{y}}$, что

$f({{x}^{{{{N}_{x}}}}}) - f({{x}_{ * }}) \leqslant \mathop {max}\limits_{y \in {{Q}_{y}} \cap {{B}_{m}}(2{{R}_{y}})} \left\{ {r({{x}^{{{{N}_{x}}}}}) + F({{x}^{{{{N}_{x}}}}},y) - h(y)} \right\} - \mathop {min}\limits_{x \in {{Q}_{x}} \cap {{B}_{n}}(2{{R}_{x}})} \left\{ {r(x) + F(x,{{y}^{{{{N}_{y}}}}}) - h({{y}^{{{{N}_{y}}}}})} \right\} \leqslant \varepsilon ,$
где ${{B}_{n}}(R)$ – евклидов шар радиуса $R$ в ${{\mathbb{R}}^{n}}$.

Ниже приведены наилучшие известные нам результаты (см. [9], [10], [15], [16], [17] и цитированную в этих работах литературу) относительно сложности решения задачи (3), которые далее мы постараемся уточнить. Собственно, в пп. 2)–4) такое уточнение уже делается: ранее в приведенном виде данные результаты были известны только в предположении $F(x,y) = \left\langle {Ax,y} \right\rangle $ для некоторого линейного оператора $A$. В этом случае ${{L}_{{xx}}} = {{L}_{{yy}}} = 0$, ${{L}_{{xy}}} = {{L}_{{yx}}} = \sqrt {{{\lambda }_{{max}}}({{A}^{{\text{т}}}}A)} $, где ${{\lambda }_{{max}}}({{A}^{{\text{т}}}}A)$ – наибольшее собственное значение матрицы ${{A}^{{\text{т}}}}A$.

1) Если $r(x)$ и $h(y)$ проксимально дружественны, то $\varepsilon $-решение задачи (3) может быть достигнуто за $\tilde {O}\left( {\tfrac{{{{L}_{{xy}}}}}{{\sqrt {{{\mu }_{x}}{{\mu }_{y}}} }}} \right)$ вычислений (17), ${{\nabla }_{x}}F(x,y)$ и (18), ${{\nabla }_{y}}F(x,y)$ при $F(x,y) = \left\langle {Ax,y} \right\rangle $ и за $\tilde {O}\left( {\tfrac{{\max \{ {{L}_{{xx}}},{{L}_{{xy}}},{{L}_{{yy}}}\} }}{{\min \{ {{\mu }_{x}},{{\mu }_{y}}\} }}} \right)$ вычислений (17), ${{\nabla }_{x}}F(x,y)$ и (18), ${{\nabla }_{y}}F(x,y)$ в общем случае. Здесь и далее $\tilde {O}() = O()$ с точностью до небольшой степени логарифмического по $\varepsilon $, ${{\mu }_{x}}$ или ${{\mu }_{y}}$, а также по ${{R}_{x}}$ или ${{R}_{y}}$ множителя. Как правило, показатель этой степени 1 или 2.

2) Если $r(x)$ имеет ${{L}_{x}}$-липшицев градиент, но не проксимально дружественна, то $\varepsilon $-решение задачи (3) может быть достигнуто за $\tilde {O}\left( {\sqrt {\tfrac{{{{L}_{x}}}}{{{{\mu }_{x}}}}} } \right)$ вычислений $\nabla r(x)$,

(19)
$\tilde {O}\left( {\sqrt {\frac{{{{L}_{{xx}}} + \tfrac{{L_{{xy}}^{2}}}{{{{\mu }_{y}}}}}}{{{{\mu }_{x}}}}} } \right)$
вычислений ${{\nabla }_{x}}F(x,y)$ и
(20)
$\tilde {O}\left( {\sqrt {\frac{{{{L}_{{xx}}} + \tfrac{{L_{{xy}}^{2}}}{{{{\mu }_{y}}}}}}{{{{\mu }_{x}}}}} \sqrt {max\left\{ {\frac{{{{L}_{{yy}}}}}{{{{\mu }_{y}}}},1} \right\}} } \right)$
вычислений (18), а также ${{\nabla }_{y}}F(x,y)$.

3) Если $h(y)$ имеет ${{L}_{y}}$-липшицев градиент, но не проксимально дружественна, то $\varepsilon $-решение задачи (3) может быть достигнуто за (19) вычислений (17), ${{\nabla }_{x}}F(x,y)$ и

(21)
$\tilde {O}\left( {\sqrt {\frac{{{{L}_{{xx}}} + \tfrac{{L_{{xy}}^{2}}}{{{{\mu }_{y}}}}}}{{{{\mu }_{x}}}}} \sqrt {\frac{{{{L}_{y}}}}{{{{\mu }_{y}}}}} } \right)$
вычислений $\nabla h(y)$, (20) вычислений ${{\nabla }_{y}}F(x,y)$.

4) Если $r(x)$ имеет ${{L}_{x}}$-липшицев градиент, $h(y)$ имеет ${{L}_{y}}$-липшицев градиент, но обе функции не проксимально дружественны, то $\varepsilon $-решение задачи (3) может быть достигнуто за $\tilde {O}\left( {\sqrt {\tfrac{{{{L}_{x}}}}{{{{\mu }_{x}}}}} } \right)$ вычислений $\nabla r(x)$, (19) вычислений ${{\nabla }_{x}}F(x,y)$ и (21) вычислений $\nabla h(y)$, (20) вычислений ${{\nabla }_{y}}F(x,y)$.

Отметим, что результаты всего п. 1) и пп. 2), 4) в части числа вычислений $\nabla r(x)$ (и, по-видимому, в части числа вычислений ${{\nabla }_{x}}F(x,y)$) в общем случае не могут быть улучшены [5], [18] (с точностью до логарифмического множителя), если

$dim(x) + dim(y) \gg \frac{{{{L}_{{xy}}}}}{{\sqrt {{{\mu }_{x}}{{\mu }_{y}}} }}.$
Заметим, что правую часть можно менять в зависимости от специфики постановки задачи. Если это условие не выполняется, то можно свести седловую задачу к негладкой задаче выпуклой оптимизации [19], [20] и решать ее методами типа центров тяжести, например, методом эллипсоидов или Вайды [20], [21]. Заметим, что методом эллипсоидов можно решать седловую задачу и напрямую [22].

Сформулируем результаты настоящей работы.

i) Основным результатом работы является обоснование возможности в пп. 2)–4) выше полностью убрать оговорку “при $F(x,y) = \left\langle {Ax,y} \right\rangle $”.

При ${{\mu }_{x}} = \tfrac{\varepsilon }{{R_{x}^{2}}}$ частично это уже было сделано в работе [16]. Однако полученные в этой работе оценки в части числа вычислений $\nabla r(x)$ проигрывают оценкам, приведенным выше, в $ \sim {\kern 1pt} \tfrac{1}{{{{\mu }_{y}}}}$ раз.

ii) Другим результатом работы является уточнение приведенных выше утверждений в случае, когда $F(x,y) = \left\langle {Ax,y} \right\rangle $ для некоторого линейного оператора $A$, ${{Q}_{y}} = {{\mathbb{R}}^{m}},$ $h(y)$ имеет ${{L}_{y}}$-липшицев градиент и $\tfrac{{{{\lambda }_{{min}}}({{A}^{{\text{т}}}}A)}}{{{{L}_{y}}}} \gg {{\mu }_{x}}$. В этом случае во всех приведенных выше формулах можно заменить ${{\mu }_{x}}$ на $\tfrac{{{{\lambda }_{{min}}}({{A}^{{\text{т}}}}A)}}{{{{L}_{y}}}}$.

iii) Более того, если $F(x,y) = \left\langle {Ax,y} \right\rangle $ для некоторого линейного оператора $A$, ${{Q}_{x}} = {{\mathbb{R}}^{n}}$, ${{Q}_{y}} = {{\mathbb{R}}^{m}}$, $r(x)$ имеет ${{L}_{x}}$-липшицев градиент, $h(y)$ имеет ${{L}_{y}}$-липшицев градиент, то оценки на количество вычислений ${{\nabla }_{x}}F(x,y) = {{A}^{{\text{т}}}}y$, ${{\nabla }_{y}}F(x,y) = Ax$ и (18) (здесь предполагается проксимальная дружественность $h(y)$) можно заменить (это имеет смысл, если новые оценки станут лучше имеющихся) на следующую оценку:

(22)
$[{\text{Число}}\;{\text{вычислений}}\;\nabla r(x)] \cdot \tilde {O}\left( {\sqrt {\frac{{{{L}_{y}}{{\lambda }_{{max}}}({{A}^{{\text{т}}}}A)}}{{{{\mu }_{y}}\lambda _{{min}}^{ + }({{A}^{{\text{т}}}}A)}}} } \right) = \tilde {O}\left( {\sqrt {\frac{{{{L}_{x}}{{L}_{y}}{{\lambda }_{{max}}}({{A}^{{\text{т}}}}A)}}{{{{\mu }_{x}}{{\mu }_{y}}\lambda _{{min}}^{ + }({{A}^{{\text{т}}}}A)}}} } \right),$
где $\lambda _{{min}}^{ + }({{A}^{{\text{т}}}}A)$ – минимальное положительное собственное значение матрицы ${{A}^{{\text{т}}}}A$.

Отметим, что аналогичное ii) утверждение можно сформулировать и в случае, когда $r(x)$ имеет ${{L}_{x}}$-липшицев градиент.

Стоит отметить, что результат ii) позволяет, среди прочего, элементарным образом объяснить, как решать матричную игру за $\tilde {O}\left( {\sqrt {\tfrac{{{{\lambda }_{{max}}}({{A}^{{\text{т}}}}A)}}{{{{\lambda }_{{min}}}({{A}^{{\text{т}}}}A)}}} } \right)$ матрично-векторных умножений. Сначала необходимо двойственно сгладить (должным образом) исходную постановку задачи [4], [6], [9], [10], т.е. ввести проксимально-дружественную функцию $h(y) = \tfrac{{\varepsilon \left\| y \right\|_{2}^{2}}}{{4R_{y}^{2}}}$. Отметим, что при этом ${{Q}_{x}} = {{Q}_{y}} = {{\mathbb{R}}^{n}}$. Далее, полученную в результате функцию $g(x)$ можно минимизировать обычным ускоренным (быстрым градиентным) методом [1], [4]–[7], [9], [10] (в сильно выпуклом случае). Полученная при этом сложность решения задачи существенно лучше популярных и активно исследуемых процедур типа экстраградиентного метода, для которого удалось лишь получить такую оценку трудоемкости $\tilde {O}\left( {\tfrac{{{{\lambda }_{{max}}}({{A}^{{\text{т}}}}A)}}{{{{\lambda }_{{min}}}({{A}^{{\text{т}}}}A)}}} \right)$ [23].

Отметим также, что результаты, приведенные в п. iii), нашли важное приложение в построении оптимальных ускоренных методов для гладких выпуклых задач децентрализованной распределенной оптимизации [24]. Собственно, наш изначальный интерес к этой проблематике и был связан с развитием идей работы [24].

4. НЕОБХОДИМЫЕ ВСПОМОГАТЕЛЬНЫЕ УТВЕРЖДЕНИЯ И СХЕМА ОБОСНОВАНИЯ ОСНОВНЫХ РЕЗУЛЬТАТОВ РАБОТЫ

Для того чтобы получить отмеченные в предыдущем пункте результаты, приведем необходимые и, в основной части, уже известные результаты.

Лемма 1 (см. [4], [25], [26]). В обозначениях п. 2, если $F(x,y) = \left\langle {Ax,y} \right\rangle $, то $g(x)$ будет иметь $L$-липшицев градиент, где $L = \tfrac{{{{\lambda }_{{max}}}({{A}^{{\text{т}}}}A)}}{{{{\mu }_{y}}}}$. Если, дополнительно, $h(y)$ имеет ${{L}_{y}}$-липшицев градиент и ${{Q}_{y}} = {{\mathbb{R}}^{m}}$, то $g(x)$ есть $\mu $-сильно выпуклая функция на ${{(\operatorname{Ker} A)}^{ \bot }}$, где $\mu = \tfrac{{\lambda _{{min}}^{ + }({{A}^{{\text{т}}}}A)}}{{{{L}_{y}}}}$. При этом $\nabla g(x) \in {{(\operatorname{Ker} A)}^{ \bot }}$.

Следующее утверждение демонстрирует необходимость использования концепции неточного градиента для рассматриваемого подхода к седловым задачам.

Лемма 2 (см. [11], [16], [17]). В обозначениях п. 2, $g(x)$ будет иметь $L$-липшицев градиент $\nabla g(x) = {{\nabla }_{x}}F(x,y{\kern 1pt} *{\kern 1pt} (x))$ (теорема Демьянова–Данскина), где $L = {{L}_{{xx}}} + \tfrac{{2L_{{xy}}^{2}}}{{{{\mu }_{y}}}}$. Более того, для всех $x,z \in {{Q}_{x}}$ выполняется следующее условие (словами: ${{\nabla }_{x}}F(x,\mathop {\tilde {y}}\nolimits_\delta (x))$$(2\delta ,2L)$ градиент для $g(x)$):

(23)
$0 \leqslant g(z) - \left[ {\left\{ {F(x,\mathop {\tilde {y}}\nolimits_\delta (x)) - h(\mathop {\tilde {y}}\nolimits_\delta (x))} \right\} + \left\langle {{{\nabla }_{x}}F(x,\mathop {\tilde {y}}\nolimits_\delta (x)),z - x} \right\rangle } \right] \leqslant \frac{{2L}}{2}\left\| {z - x} \right\|_{2}^{2} + 2\delta ,$
где $\mathop {\tilde {y}}\nolimits_\delta (x)$ такой, что
$\underbrace {\mathop {\max }\limits_{y \in {{Q}_{y}}} \{ F(x,y) - h(y)\} }_{g(x)} - \left\{ {F\left( {x,\mathop {\tilde {y}}\nolimits_\delta (x)} \right) - h\left( {\mathop {\tilde {y}}\nolimits_\delta (x)} \right)} \right\} \leqslant \delta ,$
который определен в (10).

Рассмотрим наиболее тонкое из используемых нами вспомогательных утверждений [9]. Пусть нужно решить задачу сильно выпуклой композитной оптимизации

(24)
$r(x) + g(x) \to \mathop {min}\limits_{x \in {{\mathbb{R}}^{n}}} ,$
c точностью $\varepsilon $ по функции. Считаем, что функции $r(x)$ и $g(x)$ имеют константы Липшица градиента ${{L}_{r}}$ и ${{L}_{g}}$, и хотя бы одна из этих функций $\mu $-сильно выпуклая. К такой задаче (24) можно применить результат о так называемом ускоренном градиентном слайдинге из п. 8.2 [9].

Лемма 3. Необходимого качества решения задачи решения (24) можно достичь за ${{N}_{r}} = \tilde {O}\left( {\sqrt {\tfrac{{{{L}_{r}}}}{\mu }} } \right)$ вычислений градиента первого слагаемого $\nabla r(x)$ и ${{N}_{g}} = \tilde {O}\left( {\sqrt {\tfrac{{{{L}_{g}}}}{\mu }} } \right)$ вычислений градиента второго слагаемого $\nabla g(x)$. Результат останется верным, если вместо $\nabla g(x)$ использовать $\left( {O\left( {\tfrac{\varepsilon }{{{{N}_{g}}}}} \right),O({{L}_{g}})} \right)$-градиент.

Подробное доказательство леммы 3 приведено в приложении. Здесь мы лишь приведем некоторую схему рассуждений. Для наглядности полагаем $\mu $-сильно выпуклым именно функционал $g$. Если это не так и $r$ есть ${{\mu }_{r}}$-сильно выпуклый, а $g$ просто выпуклый, то можно заменить $r(x)$ на $r(x) - \tfrac{{{{\mu }_{g}}}}{2}\left\| x \right\|_{2}^{2}$ и $g(x)$ на $g(x) + \tfrac{{{{\mu }_{g}}}}{2}\left\| x \right\|_{2}^{2}$ для некоторого ${{\mu }_{g}} < {{\mu }_{r}}$. Тогда оба функционала будут как гладкими, так и сильно выпуклыми.

К рассмотренной задаче (24) можно применить технику Каталист (алгоритм 1) из [12] в предположении ${{L}_{r}} \ll {{L}_{g}}$ и $\mu $-сильной выпуклости $g$ в $2$-норме, причем $\mu \ll {{L}_{r}}$.

Алгоритм 1. Каталист.

1: Вход: ${{x}^{0}} \in {{\mathbb{R}}^{n}},$ параметр $L$.

2: ${{y}^{0}}: = {{x}^{0}}$.

3: while желаемая точность не достигнута do

4:  Найти ${{x}^{k}}$ с некоторой точностью применением алгоритма 2

${{x}^{k}} \approx \mathop {\arg \min }\limits_{x \in {{\mathbb{R}}^{n}}} \left\{ {r(x) + g(x) + \frac{L}{2}\left\| {x - {{y}^{{k - 1}}}} \right\|_{2}^{2}} \right\}.$

5:  Вычисляем ${{y}^{k}}$, используя шаг экстраполяции, с ${{\beta }_{k}} \in (0,1)$

${{y}^{k}} = {{x}^{k}} + {{\beta }_{k}}({{x}^{k}} - {{x}^{{k - 1}}}).$

6: end while

7: Выход: ${{x}^{k}}$.

Алгоритм 2. Неускоренный градиентный метод для задач композитной оптимизации.

1: Вход: ${{x}^{0}} \in {{\mathbb{R}}^{n}},$ параметр ${{L}_{r}}$.

2: for $k = 0,1,2, \ldots $ do

3:

$\begin{gathered} {{\phi }_{{k + 1}}}(x): = \left\langle {\nabla r({{x}^{k}}),x - {{x}^{k}}} \right\rangle + g(x) - g({{x}^{k}}) + \frac{{{{L}_{r}}}}{2}\left\| {x - {{x}^{k}}} \right\|_{2}^{2}, \\ {{x}^{{k + 1}}}: = \mathop {\arg \min }\limits_{x \in {{\mathbb{R}}^{n}}} {{\phi }_{{k + 1}}}(x). \\ \end{gathered} $

4: end for

5: Выход: ${{\bar {x}}_{N}} = \tfrac{1}{N}\sum\nolimits_{k = 0}^{N - 1} \,{{x}^{{k + 1}}}$.

Тогда (см. [12]) вместо исходной задачи потребуется $\tilde {O}\left( {\sqrt {\tfrac{L}{\mu }} } \right)$ раз решать задачу вида

(25)
$r(x) + g(x) + \frac{L}{2}\left\| {x - {{y}^{{k - 1}}}} \right\|_{2}^{2} \to \mathop {min}\limits_{x \in {{\mathbb{R}}^{n}}} ,$
где $L > 0$– некоторый параметр регуляризации, а последовательность ${{y}^{0}},{{y}^{1}}, \ldots $ образуется согласно схеме алгоритма 1. При этом задачу (25) можно решать неускоренным композитным градиентным методом (алгоритм 2), считая $g(x) + \tfrac{L}{2}\left\| {x - {{y}^{{k - 1}}}} \right\|_{2}^{2}$ композитом. Как известно, число итераций такого метода будет совпадать с количеством вычислений $\nabla r(x)$ и равно $\tilde {O}\left( {\tfrac{{{{L}_{r}}}}{{L + \mu }}} \right)$. Но при этом не предполагается проксимальная дружественность функции $g(x)$ и поэтому необходимо учитывать сложность решения возникающей на каждой итерации неускоренного композитного градиентного метода задачи вида
$\left\langle {\nabla r({{{\tilde {x}}}^{l}}),x - {{{\tilde {x}}}^{l}}} \right\rangle + \frac{{{{L}_{r}}}}{2}\left\| {x - {{{\tilde {x}}}^{l}}} \right\|_{2}^{2} + g(x) + \frac{L}{2}\left\| {x - {{y}^{{k - 1}}}} \right\|_{2}^{2} \to \mathop {min}\limits_{x \in {{\mathbb{R}}^{n}}} .$
Для решения уже этой вспомогательной задачи можно использовать ускоренный композитный градиентный метод для задач сильно выпуклой оптимизации [27] (см. также алгоритмы 3, 4 далее). При этом слагаемое $\tfrac{{{{L}_{r}}}}{2}\left\| {x - {{{\tilde {x}}}^{l}}} \right\|_{2}^{2} + \tfrac{L}{2}\left\| {x - {{y}^{{k - 1}}}} \right\|_{2}^{2}$ считается композитом. Число итераций такого метода будет $\tilde {O}\left( {\sqrt {\tfrac{{{{L}_{g}}}}{{{{L}_{r}} + L + \mu }}} } \right)$. Таким образом, общее количество вычислений $\nabla g(x)$ будет следующим
$\tilde {O}\left( {\sqrt {\frac{L}{\mu }} } \right) \cdot \tilde {O}\left( {\frac{{{{L}_{r}}}}{{L + \mu }}} \right) \cdot \tilde {O}\left( {\sqrt {\frac{{{{L}_{g}}}}{{{{L}_{r}} + L + \mu }}} } \right).$
Выберем параметр регуляризации $L$ так, чтобы последнее выражение было минимальным. Тогда с учетом сделанных предположений ${{L}_{r}} \ll {{L}_{g}}$ и $\mu \ll {{L}_{r}}$ получим, что $L \simeq {{L}_{r}}$. Следовательно, общее число вычислений $\nabla g(x)$ будет действительно равно $\tilde {O}\left( {\sqrt {\tfrac{{{{L}_{g}}}}{\mu }} } \right)$.

Заметим, что полностью новым является утверждение из последнего предложения формулировки леммы 3. Доказательство этого ключевого наблюдения проводится аналогично оригинальной статье [11], см. также [9], [16]. Действительно, если функционал $g:{{\mathbb{R}}^{n}} \to \mathbb{R}$ допускает ($\delta ,L$)-градиент ${{\nabla }_{\delta }}g(x)$ в любой запрошенной точке $x$, т.е. верно неравенство

$g(y) \leqslant g(x) + \left\langle {{{\nabla }_{\delta }}g(x),y - x} \right\rangle + \frac{L}{2}\left\| {y - x} \right\|_{2}^{2} + \delta .$
Последнее неравенство отличается от стандартного условия $L$-липшицевости градиента выпуклого функционала $g$
(26)
$g(y) \leqslant g(x) + \left\langle {\nabla g(x),y - x} \right\rangle + \frac{L}{2}\left\| {y - x} \right\|_{2}^{2}$
лишь постоянной величиной погрешности $\delta $. Поэтому применение указанного неравенства для модификации результата об ускоренном градиентном слайдинге [9] (который в стандартном случае основан на комбинации оценок, связанных с неравенством (26)) для решения ${{N}_{g}}$ вспомогательных подзадач приведет к накоплению в итоговой оценке погрешности, сопоставимой с величиной $O({{N}_{g}}\delta )$. Это обстоятельство и приводит к необходимости вместо $\nabla g(x)$ использовать именно $\left( {O\left( {\tfrac{\varepsilon }{{{{N}_{g}}}}} \right),O({{L}_{g}})} \right)$-градиент.

Утверждения i) и ii) получаются сочетанием лемм 1–3. Приведем схему доказательства первого из результатов. Напомним, что мы рассматриваем задачу вида

(27)
$\mathop {min}\limits_{x \in {{Q}_{x}}} \mathop {max}\limits_{y \in {{Q}_{y}}} \{ S(x,y) = r(x) + F(x,y) - h(y)\} .$
Мы проводим доказательство в предположении, что функционалы $r$ и $h$ проксимально дружественны (простой структуры, т.е. композиты).

Замечание 1. Если некоторый функционал $S(x,y)$ является ${{\mu }_{x}}$-сильно выпуклым по $x$ и ${{\mu }_{y}}$-сильно вогнутым по $y$, то можно представить $S$ в виде

$S(x,y) = F(x,y) + \frac{{{{\mu }_{x}}}}{2}\left\| x \right\|_{2}^{2} - \frac{{{{\mu }_{y}}}}{2}\left\| y \right\|_{2}^{2},$
причем функционал $F$ сохранит свойство выпуклости по $x$ и вогнутости по $y$. Отметим, что ввиду достаточной гладкости функционалов $\left\| x \right\|_{2}^{2}$ и $\left\| y \right\|_{2}^{2}$ (липшицевость градиентов), если $S$ гладкий, то $F$ будет гладким. Таким образом, приводимая ниже схема рассуждений применима к седловым задачам для произвольного ${{\mu }_{x}}$-сильно выпуклого по $x$ и ${{\mu }_{y}}$-сильно вонутого по $y$, а также достаточно гладкого функционала $S(x,y)$.

Зафиксируем $x \in {{Q}_{x}}$ и введем вспомогательный функционал

(28)
$f(x): = \mathop {max}\limits_{y \in {{Q}_{y}}} S(x,y),$
что позволяет рассматривать седловую задачу (27) как задачу выпуклой минимизации

(29)
$f(x) \to \mathop {min}\limits_{x \in {{Q}_{x}}} .$

Ясно, что

$f(x) = \mathop {max}\limits_{y \in {{Q}_{y}}} \{ r(x) + F(x,y) - h(y)\} = r(x) + \underbrace {\mathop {\max }\limits_{y \in {{Q}_{y}}} \{ F(x,y) - h(y)\} }_{g(x) = F(x,y{\kern 1pt} *(x)) - h(y{\kern 1pt} *(x)}.$

По лемме 2 функционал $f$ (см. (28)) является ${{\mu }_{x}}$-сильно выпуклым и g имеет $L$-липщицев градиент

${{\left\| {\nabla f({{x}_{2}}) - \nabla f({{x}_{1}})} \right\|}_{2}} \leqslant L{{\left\| {{{x}_{2}} - {{x}_{1}}} \right\|}_{2}}\quad \forall {{x}_{1}},{{x}_{2}} \in {{Q}_{x}},$
где
$L = {{L}_{{xx}}} + \frac{{2L_{{xy}}^{2}}}{{{{\mu }_{y}}}}.$
Также согласно лемме 2 (см. также [16]) для функционала $f$ выполнено неравенство
(30)
$f({{x}_{2}}) \leqslant S({{x}_{1}},\mathop {\tilde {y}}\nolimits_\gamma ({{x}_{1}})) + \left\langle {{{\nabla }_{x}}S({{x}_{1}},\mathop {\tilde {y}}\nolimits_\gamma ({{x}_{1}})),{{x}_{2}} - {{x}_{1}}} \right\rangle + L\left\| {{{x}_{2}} - {{x}_{1}}} \right\|_{2}^{2} + 2\gamma ,$
а $\gamma $ – точность решения вспомогательной задачи максимизации $S({{x}_{1}},y)$ по $y$:
(31)
$f({{x}_{1}}) - S({{x}_{1}},\mathop {\tilde {y}}\nolimits_\gamma ({{x}_{1}})) \leqslant \gamma .$
Задача ${{\mu }_{y}}$-сильно вогнутой композитной (в силу предположения для $h$ выше) максимизации
$F(x,y) - h(y) \to \mathop {max}\limits_{y \in {{Q}_{y}}} $
(при фиксированном $x \in {{Q}_{x}}$) может быть решена с точностью $\gamma $ в (31) за
$O\left( {\sqrt {\frac{{{{L}_{{yy}}}}}{{{{\mu }_{y}}}}} ln\frac{1}{\gamma }} \right)$
итераций быстрого градиентного метода.

Алгоритм 3. Быстрый градиентный метод с $(\delta ,L)$-оракулом для задач композитной оптимизации (33).

1: Вход: ${{x}^{0}} \in Q$ – начальная точка, $N$ – количество шагов, $L > 0$ и $\delta > 0$.

2: ${{y}^{0}}: = {{x}^{0}},$ ${{u}^{0}}: = {{x}^{0}},$ ${{\alpha }_{0}}: = 0,$ ${{A}_{0}}: = 0$.

3: for $k = 1,2, \ldots ,N$ do

4:  Находим наибольший корень, ${{\alpha }_{{k + 1}}}$ так, что

${{A}_{k}} + {{\alpha }_{{k + 1}}} = L\alpha _{{k + 1}}^{2},$

5:

${{A}_{{k + 1}}}: = {{A}_{k}} + {{\alpha }_{{k + 1}}},$

6:

${{y}^{{k + 1}}}: = \frac{{{{\alpha }_{{k + 1}}}{{u}^{k}} + {{A}_{k}}{{x}^{k}}}}{{{{A}_{{k + 1}}}}},$

7:

$\begin{gathered} {{\phi }_{{k + 1}}}(x) = \frac{1}{2}\left\| {x - {{u}^{k}}} \right\|_{2}^{2} + {{\alpha }_{{k + 1}}}\left( {\left\langle {\nabla r({{y}^{{k + 1}}}),x - {{y}^{{k + 1}}}} \right\rangle + g(x) - g({{y}^{{k + 1}}})} \right), \\ {{u}^{{k + 1}}}: = \mathop {\arg \min }\limits_{x \in Q} {{\phi }_{{k + 1}}}(x), \\ \end{gathered} $

8:

${{x}^{{k + 1}}}: = \frac{{{{\alpha }_{{k + 1}}}{{u}^{{k + 1}}} + {{A}_{k}}{{x}^{k}}}}{{{{A}_{{k + 1}}}}},$

9: end for

10: Выход: ${{x}^{N}}$.

Покажем, как с использованием рестартов быстрого градиентного метода в концепции $(\delta ,L)$-оракула можно достичь заданного качества решения по функции для задач композитной оптимизации с требуемой оценкой сложности. Для задачи композитной оптимизации

(33)
$f(x): = r(x) + g(x) \to \mathop {min}\limits_{x \in Q} .$
можно применить предложенный в [28] алгоритм 3.

Для алгоритма 3 в [28] доказана следующая оценка скорости сходимости (мы предполагаем, что вспомогательные задачи решаются точно):

$f({{x}^{N}}) - f({{x}_{*}}) \leqslant \frac{{8L{{R}^{2}}}}{{{{{(N + 1)}}^{2}}}} + 2N\delta ,$
где ${{R}^{2}} = \tfrac{1}{2}\left\| {{{x}_{*}} - {{x}^{0}}} \right\|_{2}^{2}$, а ${{x}_{*}}$ – ближайшая точка минимума к точке ${{x}^{0}}$. Введем вспомогательное обозначение

$\psi (x,y): = \left\langle {\nabla r(y),x - y} \right\rangle + g(x) - g(y).$

Тогда ввиду ${{\mu }_{x}}$-cильной выпуклости $g$ имеем

$\frac{{{{\mu }_{x}}}}{2}\left\| {x - y} \right\|_{2}^{2} \leqslant f(x) - \left( {f(y) + \psi (x,y)} \right) \leqslant \frac{L}{2}\left\| {y - x} \right\|_{2}^{2} + \delta .$

Алгоритм 4. Быстрый градиентный метод для задач сильно выпуклой композитной оптимизации с $(\delta ,L)$-оракулом, рестарты алгоритма 3.

1: Вход: ${{x}^{0}} \in Q$ – начальная точка, $L > 0,$ $\mu > 0,$ $\delta > 0,$ $\varepsilon $ – точность решения, $R$ и $p = \left\lceil {lo{{g}_{2}}\left( {\tfrac{{\mu {{R}^{2}}}}{\varepsilon }} \right)} \right\rceil $ – количество рестартов.

2: for $j = 1, \ldots ,p$ do

3:  Выполнить ${{N}_{j}} = \left\lceil {3e\sqrt {\tfrac{L}{\mu }} } \right\rceil $ итераций алгоритма 3.

4:  ${{x}^{0}}: = {{x}^{{{{N}_{j}}}}}$.

5: end for

6: Выход: $\hat {x}: = {{x}^{{{{N}_{p}}}}}$.

Если сделать естественное предположение $\psi (x,{{x}_{*}}) \geqslant \left\langle {\nabla (r + g)({{x}_{*}}),x - {{x}_{*}}} \right\rangle \geqslant 0$, то после ${{N}_{1}}$ итераций алгоритма 3 имеем

$\frac{{{{\mu }_{x}}}}{2}\left\| {{{x}^{{{{N}_{1}}}}} - {{x}_{*}}} \right\|_{2}^{2} \leqslant f({{x}^{{{{N}_{1}}}}}) - f({{x}_{*}}) \leqslant \frac{{4L\left\| {{{x}^{0}} - {{x}_{*}}} \right\|_{2}^{2}}}{{N_{1}^{2}}} + 2{{N}_{1}}\delta .$
Если для числа итераций ${{N}_{1}}$ алгоритма 3 выбрать $\delta $ так, чтобы выполнялось неравенство
$2{{N}_{1}}\delta \leqslant \frac{{L\left\| {{{x}^{0}} - {{x}_{*}}} \right\|_{2}^{2}}}{{2N_{1}^{2}}},$
то получим
$\left\| {{{x}^{{{{N}_{1}}}}} - {{x}_{*}}} \right\|_{2}^{2} \leqslant \frac{{9L}}{{{{\mu }_{x}}N_{1}^{2}}}\left\| {{{x}^{0}} - {{x}_{*}}} \right\|_{2}^{2}.$
Поэтому, выбирая ${{N}_{1}} = \left\lceil {3e\sqrt {\tfrac{L}{{{{\mu }_{x}}}}} } \right\rceil $, получаем
$\left\| {{{x}^{{{{N}_{1}}}}} - {{x}_{*}}} \right\|_{2}^{2} \leqslant \frac{1}{2}\left\| {{{x}^{0}} - {{x}_{*}}} \right\|_{2}^{2}.$
(Данный способ выбора количества итераций авторам подсказал Роланд Хильдебранд.)

После этого выберем для aлгоритма 3 в качестве точки старта ${{x}^{{{{N}_{1}}}}}$ и снова сделаем ${{N}_{1}}$ итераций и т.д. Ясно, что для достижения приемлемого качества решения можно выбрать количество рестартов $p$ алгоритма 3 для алгоритма 4 следующим образом:

$p = \left\lceil {\frac{1}{2}\ln \left( {\frac{{{{\mu }_{x}}{{R}^{2}}}}{\varepsilon }} \right)} \right\rceil ,$
где ${{R}^{2}} = \tfrac{1}{2}\left\| {{{x}^{0}} - {{x}_{*}}} \right\|_{2}^{2}$. В таком случае общее число итераций алгоритма 4 в предложенной схеме будет
$N = \left\lceil {\ln \left( {\frac{{{{\mu }_{x}}{{R}^{2}}}}{\varepsilon }} \right)} \right\rceil \cdot \left\lceil {\frac{{3e}}{2}\sqrt {\frac{L}{{{{\mu }_{x}}}}} } \right\rceil ,$
т.е.

$N = O\left( {\sqrt {\frac{L}{{{{\mu }_{x}}}}} \left\lceil {\ln \left( {\frac{{{{\mu }_{x}}{{R}^{2}}}}{\varepsilon }} \right)} \right\rceil } \right).$

Итак, ясно, что при $\delta = O\left( {{{\mu }_{x}}\varepsilon \sqrt {\frac{{{{\mu }_{x}}}}{L}} } \right)$ предложенной схемой возможно получить точность $f(\hat {x}) - f({{x}_{*}}) \leqslant \varepsilon $ для выхода $\hat {x}$ алгоритма 4.

Далее, неравенство (30) (см. также неравенство (2.20) из [16]) означает, что функционал $f$ в произвольной точке допускает $(2\gamma ,L,{{\mu }_{x}})$-оракул в смысле [29].

Таким образом, точность $\gamma $ для решения внутренней задачи (аналог точности $\delta $ в концепции ($\delta ,L$)-градиента) нужно выбирать как $O(\varepsilon )$ и тогда для внешней задачи будет гарантирована точность $\varepsilon $ по функции. Это означает, что общее количество вызовов оракула для ${{\nabla }_{x}}S( \cdot , \cdot )$ при решении внешней задачи (29) будет равно

$O\left( {\sqrt {\frac{{{{L}_{{xx}}}}}{{{{\mu }_{x}}}} + \frac{{2L_{{xy}}^{2}}}{{{{\mu }_{x}}{{\mu }_{y}}}}} ln\frac{1}{\varepsilon }} \right).$
Количество же вызовов оракула для ${{\nabla }_{y}}S( \cdot , \cdot )$ при решении внутренней задачи будет равно в силу (32)

$O\left( {\sqrt {\frac{{{{L}_{{yy}}}}}{{{{\mu }_{y}}}}} \sqrt {\frac{{{{L}_{{xx}}}}}{{{{\mu }_{x}}}} + \frac{{2L_{{xy}}^{2}}}{{{{\mu }_{x}}{{\mu }_{y}}}}} l{{n}^{2}}\frac{1}{\varepsilon }} \right).$

Замечание 2. Согласно известной теореме о минимаксе сильная выпукло-вогнутость функционала $S( \cdot , \cdot )$ означает, что

$\mathop {\min }\limits_{x \in {{Q}_{x}}} \{ f(x) = \mathop {\max }\limits_{y \in {{Q}_{y}}} S(x,y)\} = \mathop {\max }\limits_{y \in {{Q}_{y}}} \{ l(x) = \mathop {\min }\limits_{x \in {{Q}_{x}}} S(x,y)\} $
и можно свести задачу (27) к задаче вогнутой максимизации
$\tilde {f}(y): = \mathop {min}\limits_{x \in {{Q}_{x}}} S(x,y) \to \mathop {max}\limits_{y \in {{Q}_{y}}} .$
В таком случае количество вызовов ${{\nabla }_{y}}S( \cdot , \cdot )$ будет
$O\left( {\sqrt {\frac{{{{L}_{{yy}}}}}{{{{\mu }_{y}}}} + \frac{{2L_{{xy}}^{2}}}{{{{\mu }_{x}}{{\mu }_{y}}}}} ln\frac{1}{\varepsilon }} \right),$
а количество вызовов ${{\nabla }_{x}}S( \cdot , \cdot )$

$O\left( {\sqrt {\frac{{{{L}_{{xx}}}}}{{{{\mu }_{x}}}}} \sqrt {\frac{{{{L}_{{yy}}}}}{{{{\mu }_{y}}}} + \frac{{2L_{{xy}}^{2}}}{{\mu _{x}^{2}{{\mu }_{y}}}}} l{{n}^{2}}\frac{1}{\varepsilon }} \right).$

Утверждение i) в случае, когда какая-то из функций $r(x)$ или $h(y)$ не проксимально дружественна, получается похожей схемой рассуждений. Но при этом мы получим вспомогательные подзадачи вида (24) с сильно выпуклой целевой функцией, которые можно решать с использованием результата об ускоренном градиентном слайдинге. Сформулированные оценки утверждения i), таким образом, вытекают из леммы 3.

Отметим, что для утверждения леммы 3 о сложности решения вспомогательной подзадачи (24) в случае сильной выпуклости $r$ и $g$ не имеет значения, параметр сильной выпуклости какого из этих функционалов использовать в оценках из леммы 3. Поэтому утверждение ii) теперь будет следовать из леммы 1 (где приводится оценка на параметр сильной выпуклости $g$).

Скажем несколько слов про обоснование утверждения iii). Мы отправляемся от [24].

Ясно, что решаемую задачу минимизаци функции $f(x) = r(x) + g(x)$ на множестве ${{Q}_{x}} = {{\mathbb{R}}^{n}}$ можно рассматривать как задачу композитной оптимизации с композитом $g$. Точнее говоря, ввиду ${{\mu }_{x}}$-сильной выпуклости и ${{L}_{x}}$-липшицевости градиента $r$ можно свести задачу минимизации $f$ к рассмотрению семейства $k = \tilde {O}\left( {\sqrt {\tfrac{{{{L}_{x}}}}{{{{\mu }_{x}}}}} } \right)$ вспомогательных задач вида

(34)
${{\alpha }_{i}}(\left\langle {\nabla r({{x}_{i}}),x - {{x}_{i}}} \right\rangle + g(x) - g({{x}_{i}})) + \frac{{{{L}_{x}}\left\| {x - {{x}_{i}}} \right\|_{2}^{2}}}{2} \to \mathop {min}\limits_{x \in {{Q}_{x}}} ,\quad i = 1,2,...,k.$
Поскольку $g$ уже, вообще говоря, не имеет простой структуры, то необходимо учитывать сложность каждой из $k$ задач (34). Поскольку вдоль ядра $\operatorname{Ker} A$ функция $g$ принимает постоянное значение, то без уменьшения общности рассуждений можно считать, что $x \in {{(\operatorname{Ker} A)}^{ \bot }}$. Дело в том, что вдоль всякого направления, ортогонального $\operatorname{Ker} A$, вспомогательная задача будет иметь обусловленность 1 и не представляет трудоемкости в предположении, что известно ${\text{Ker}}A$ (а стало быть, и ортогональные направления). Тогда согласно лемме 1 трудоемкость нахождения приемлемого качества решения каждой из задач (34) (линейные слагаемые не влияют на нее) будет определяться числом обусловленности
$\frac{{{{\alpha }_{i}}\tfrac{{{{\lambda }_{{{\text{max}}}}}({{A}^{{\text{т}}}}A)}}{{{{\mu }_{y}}}} + {{L}_{x}}}}{{{{\alpha }_{i}}\tfrac{{\lambda _{{{\text{min}}}}^{ + }({{A}^{{\text{т}}}}A)}}{{{{L}_{y}}}} + {{L}_{x}}}} \leqslant \frac{{{{L}_{y}}{{\lambda }_{{{\text{max}}}}}({{A}^{{\text{т}}}}A)}}{{{{\mu }_{y}}\lambda _{{{\text{min}}}}^{ + }({{A}^{{\text{т}}}}A)}},$
поскольку для произвольных $a \geqslant b > 0$ и $c > 0$ верно неравенство $\tfrac{{a + c}}{{b + c}} \leqslant \tfrac{a}{b}$. Таким образом, верна оценка (22).

5. ЗАКЛЮЧЕНИЕ

В данной работе рассмотрен класс гладких седловых задач со структурой. Такие задачи возникают, например, в обработке изображений и при решении различных обратных задач [9]. С помощью оценок ускоренного слайдинга Дж. Лана [9] и результатов о том, как преобразуются свойства гладкости и сильной выпуклости (кривизны графика функции, определяемые экстремальными значениями ее гессиана) при преобразовании Фенхеля–Лежандра [26], были получены новые (существенно лучшие) оценки на число вычислений градиента по прямым переменным в нелинейных седловых задачах со структурой. По сути, были получены достаточно общие условия, при которых удается перенести основные результаты для билинейных седловых задач на общий класс нелинейных гладких выпукло-вогнутых седловых задач.

Следует отметить, что в тексте статьи мы намерено избегали максимальной общности изложения для компактности и удобства восприятия. Тем не менее отметим, что приведенные в статье результаты можно обобщить на случай более общих оракулов [4]: стохастических, рандомизированных (в том числе инкрементальных, возникающих при работе с целевыми функционалами вида суммы функций), неполноградиентных, модельных (в том числе с дополнительными композитными членами); вместо евклидовой нормы, можно было рассматривать более общие нормы и прокс-структуры (впрочем, все же не в такой общности, как в не сильно выпуклом случае); наконец, можно попробовать рассмотреть более чем два слагаемых в структуре целевого функционала. Также весьма интересен вопрос о том, в какой степени можно перенести полученные результаты на классы негладких седловых задач. Многое упирается в возможность должным образом обобщить лемму 3. Нам представляется, что на этом пути может быть получено достаточно много новых интересных результатов.

Отметим также, что если в приведенных в статье постановках задач $dim(y)$ и(или) $dim(x)$ небольшие, то у использованных в статье ускоренных методов появляются конкуренты в виде методов типа центров тяжести [20], [21]. В качестве примера можно посмотреть случай $dim(y) = 2$, разобранный в [27].

Несмотря на полученное в работе улучшение известных верхних оценок, мы все же по-прежнему не знаем, оптимальны ли приведенные в этой статье оценки по совокупности критериев: число вычислений градиента по прямым переменным и по двойственным (не только по одному из них)? Недавно появился препринт [30], в котором получены нижние оценки для гладких сильно выпукло-вогнутых седловых задач. Однако при этом была показана достижимость этих оценок только на специальном подклассе задач. В общем случае предложенная в отмеченном препринте [30] методика (Section 4.2) приводит к оценкам, аналогичным полученным нами. Однако мы обосновываем указанные верхние оценки для более широкого класса задач, не предполагающих проксимальную дружественность $h$ и $r$.

Авторы выражают благодарность А.С. Немировскому, Ю.Е. Нестерову и Р. Хильдебранду за ценное обсуждение части материала статьи.

Список литературы

  1. Нестеров Ю.Е. Метод минимизации выпуклых функций со скоростью сходимости $O(1{\text{/}}{{k}^{2}})$ // Докл. АН СССР. 1983. Т. 269. № 3. С. 543–547.

  2. Поляк Б.Е. Введение в оптимизацию. М.: Наука, 1983. 384 с.

  3. Drori Y., Teboulle M. Performance of first-order methods for smooth convex minimization: a novel approach // Math. Program. 2014. V. 145. № 1–2. P. 451–482.

  4. Гасников А.В. Современные численные методы оптимизации. Метод универсального и градиентного спуска. М.: Изд-во МФТИ: 2018. 160 с. https://arxiv.org/abs/1711.00394

  5. Nemirovski A. Lectures on Modern Convex Optimization analysis, algorithms, and engineering applications. Philadelphia: SIAM, 2015. http://www2.isye.gatech.edu/~nemirovs/Lect_ModConvOpt.pdf.

  6. Nesterov Yu. Lectures on convex optimization. Switzerland: Springer Optimization and Its Applications, 2018.

  7. Taylor A.B., Hendrickx J.M., Glineur F. Smooth strongly convex interpolation and exact worst-case performance of first-order methods // Math. Program. 2017. V. 161. № 1–2. P. 307–345.

  8. Гасников А.В. Эффективные численные методы поиска равновесий в больших транспортных сетях: Дис. … докт. физ.-матем. наук. М.: МФТИ, 2016, 487 с.

  9. Lan G. First-order and Stochastic Optimization Methods for Machine Learning. Switzerland: Springer Series in the Data Sciences, 2020.

  10. Нестеров Ю.Е. Алгоритмическая выпуклая оптимизация: Дис. … докт. физ.-матем. наук. М.: МФТИ, 2013. 367 с.

  11. Devolder O., Glineur F., Nesterov Yu. First-order methods of smooth convex optimization with inexact oracle // Math. Program. Ser. A. 2014. V. 146. № 1–2. P. 37–75.

  12. Hongzhou Lin, Julien Mairal, Zaid Harchaoui. Catalyst Acceleration for First-order Convex Optimization: from Theory to Practice // J. of Machine Learning Research 2018. V. 18. P. 1–54.

  13. Nemirovski A. Prox-method with rate of convergence O(1/T) for variational inequalities with Lipschitz continuous monotone operators and smooth convex-concave saddle point problems // SIAM Journal on Optim. 2004. V. 15. № 1. P. 229–251.

  14. Gasnikov A.V., Dvurechensky P.E., Stonyakin F.S., Titov A.A. Adaptive proximal method for variational inequalities // Comput. Math. Math. Phys. 2019. V. 59. № 5. P. 836–841.

  15. Azizian W., Mitliagkas I., Lacoste-Julien S., Gidel G. A Tight and Unified Analysis of Extragradient for a Whole Spectrum of Differentiable Games // Proceedings of Machine Learning Research. 2020. V. 108. P. 2863–2873.

  16. Hien L.T.K., Zhao R., Haskell W.B. An inexact primal-dual framework for large-scale non bilinear saddle point problem // arxiv e-print 2019. https://arxiv.org/pdf/1711.03669.pdf.

  17. Гасников А.В., Двуреченский П.Е., Нестеров Ю.Е. Стохастические градиентные методы с неточным оракулом // Тр. МФТИ. М., 2016. Т. 8. № 1. С. 41–91.

  18. Ouyang Y., Xu Y. Lower complexity bounds of first-order methods for convexconcave bilinear saddle-point problems // Math. Program. 2019. https://doi.org/10.1007/s10107-019-01420-0

  19. Жадан В.Г. Методы оптимизации. Ч. 3. М.: МФТИ, 2017. 244 с.

  20. Немировский А.С., Юдин Д.Б. Сложность задач и эффективность методов оптимизации. М.: Наука, 1979. 384 с.

  21. Bubeck S. Convex optimization: algorithms and complexity // Foundations and Trends in Machine Learning. 2015. V. 8. № 3–4. P. 231–357. https://arxiv.org/pdf/1405.4980.pdf.

  22. Nemirovski A., Onn S., Rothblum U.G. Accuracy certificates for computational problems with convex structure // Math. Oper. Res. 2010. V. 35. № 1. P. 52–78.

  23. Mokhtari A., Ozdaglar A., Pattathil S. A Unified analysis of extra-gradient and optimistic gradient methods for saddle point problems: proximal point approach // Proceedings of Machine Learning Research, 2020. V. 108. P. 1497–1507.

  24. Dvinskikh D., Gasnikov A. Decentralized and Parallelized Primal and Dual Accelerated Methods for Stochastic Convex Programming Problems // arxiv e-print 2019. https://arxiv.org/pdf/1904.09015.pdf.

  25. Kakde S.M., Shalev-Shwartz S., Tewari A. On the duality of strong convexity and strong smoothness: learning applications and matrix regularization // J. of Machine Learning Research 2012. V. 13. P. 1865–1890.

  26. Rockafellar R.T. Convex analysis. Princeton: Princeton University Press, 1996.

  27. Гасников А.В., Камзалов Д.И., Мендель М.А. Основные конструкции над алгоритмами выпуклой оптимизации и их приложения к получению новых оценок для сильно выпуклых задач // Тр. МФТИ. М., 2016. Т. 8. № 3. С. 25–42.

  28. Gasnikov A.V., Tyurin A.I. Fast Gradient Descent for Convex Minimization Problems with an Oracle Producing a (δ, L)-Model of Function at the Requested Point // Comput. Math. and Math. Phys. 2019. V. 59. № 7. P. 1085–1097.

  29. Devolder O. Exactness, inexactness and stochasticity in first-order methods for large-scale convex optimization. Louvain: CORE UCL, Ph.D. thesis, 2013.

  30. Zhang J., Hong M., Zhang S. On Lower Iteration Complexity Bounds for the Saddle Point Problems // arxiv e-print 2019. https://arxiv.org/pdf/1912.07481.pdf.

Дополнительные материалы отсутствуют.