Журнал вычислительной математики и математической физики, 2019, T. 59, № 6, стр. 961-971

Оценки зазора двойственности для слабых чебышёвских жадных алгоритмов в банаховых пространствах

С. В. Миронов 1*, С. П. Сидоров 1**

1 Саратовский государственный университет
410012 Саратов, ул. Астраханская, 83, Россия

* E-mail: mironovsv@info.sgu.ru
** E-mail: sidorovsp@info.sgu.ru

Поступила в редакцию 13.03.2018
После доработки 28.01.2019
Принята к публикации 08.02.2019

Полный текст (PDF)

Аннотация

В статье рассматриваются слабые жадные алгоритмы для нахождения разреженных решений задач выпуклой оптимизации в банаховых пространствах. Мы рассматриваем понятие зазора двойственности, значения которого неявно вычисляются на шаге выбора направления наискорейшего спуска на каждой итерации жадного алгоритма. Мы показываем, что эти значения дают верхние оценки разности между значениями целевой функции в текущем состоянии и оптимальной точке. Так как значение целевой функции в оптимальной точке заранее неизвестно, текущие значения зазора двойственности можно использовать, например, в критериях останова жадного алгоритма. В статье мы находим оценки значений зазора двойственности в зависимости от числа итераций для рассматриваемых слабых жадных алгоритмов. Библ. 33.

Ключевые слова: нелинейная оптимизация, жадные алгоритмы, разреженность.

ВВЕДЕНИЕ

Пусть $X$ есть банахово пространство с нормой $\left\| {\, \cdot \,} \right\|$. Пусть выпуклая функция $E$ определена на $X$. Задача выпуклой оптимизации состоит в нахождении приближенного решения следующей задачи:

(1)
$E(x) \to \mathop {min}\limits_{x \in X} .$

Следуя идеям работы [1], мы будем рассматривать задачу оптимизации в бесконечномерном пространстве. Это связано с тем, что в большинстве приложений пространство поиска хотя и является конечномерным, его размерность очень велика. Поэтому, так же как и в работе [1], наш интерес связан с получением оценок скорости сходимости алгоритмов, не зависящих от размерности пространства поиска. Очевидно, результаты для бесконечномерного банахова пространства предоставляют такие оценки скорости сходимости.

Многие проблемы в области машинного обучения могут быть сведены к задаче (1) с функцией потерь $E$ [2]. Во многих реальных приложениях необходимо, чтобы оптимальное решение $x{\kern 1pt} {\text{*}}$ задачи (1) имело простую структуру, например, представляло собой линейную комбинацию конечного числа элементов заданного множества (словаря $\mathcal{D}$ в $X$). Другими словами, $x{\kern 1pt} *$ должен быть разреженным по отношению к словарю $\mathcal{D}$ в $X$. Заметим, что требование разреженности можно заменить ограничением на кардинальность (то есть ограничением на количество элементов, используемых в линейных комбинациях элементов словаря $\mathcal{D}$ для построения приближенных решений задачи (1)). Тем не менее во многих случаях задачи оптимизации с ограничением на кардинальность являются задачами неполиномиальной сложности. По этой причине в реальных приложениях предпочитают использовать жадные алгоритмы, которые способны генерировать разреженные решения в силу своего дизайна.

Множество элементов $\mathcal{D}$ пространства $X$ называется словарем (см., например, [1]), если каждый элемент $g \in \mathcal{D}$ ограничен по норме единицей, $\left\| g \right\| \leqslant 1$, и замыкание линейной оболочки $\mathcal{D}$ совпадает с $X$, т.е. $\overline {\operatorname{span} \mathcal{D}} = X$. Словарь $\mathcal{D}$ называется симметричным, если $ - g \in \mathcal{D}$ для всякого $g \in \mathcal{D}$. Далее мы предполагаем, что словарь $\mathcal{D}$ является симметричным.

Нас интересует задача нахождения решений задачи (1), которые являются разреженными по отношению к словарю $\mathcal{D}$, т.е. мы рассматриваем задачу

(2)
$E(x) \to \mathop {inf}\limits_{x \in {{\Sigma }_{m}}(\mathcal{D})} ,$
где ${{\Sigma }_{m}}(\mathcal{D})$ есть множество всех $m$-членных полиномов по отношению к словарю $\mathcal{D}$: ${{\Sigma }_{m}}(\mathcal{D})$ = = $\left\{ {x \in X:x = \sum\nolimits_{g \in \Lambda } \,{{c}_{g}}g,\;\# (\Lambda ) = m,\;\Lambda \subset \mathcal{D}} \right\}$.

Одним из классов конструктивных методов для нахождения наилучших $m$-членных приближений является класс жадных алгоритмов. Жадные алгоритмы в силу своей конструкции способны находить разреженные решения по отношению к словарю $\mathcal{D}$. Возможно, метод Франк–Вульфа [3], который также известен как метод условного градиента [4], является одним из самых известных алгоритмов для нахождения оптимальных решений условных задач выпуклой оптимизации. В.Ф. Демьянов и А.М. Рубинов обобщили его на случай произвольных банаховых пространств [5]. Дальнейшее исследование алгоритмов типа Франк–Вульфа можно найти в работах [6]–[8]. В статье [8] приводятся прямые и двойственные результаты по сходимости алгоритмов типа Франк–Вульфа на основе применения идей двойственности, представленных в работе [6]. В последнее время были получены новые результаты по сходимости жадных алгоритмов [9]–[20].

Одной из задач вида (1) является проблема построения регрессии типа LASSO, в которой размер словаря является чрезвычайно большим и может расти экспоненциально по отношению к размерности исходного пространства. Поэтому, чтобы разработать алгоритм, имеющий полиномиальное время работы относительно размерности пространства, необходимо ввести дополнительные структурные ограничения и предположения. В работах [2], [21], [22] предполагается, что можно выполнить линейную оптимизацию по словарю за полиномиальное время по отношению к размерности задачи. Другим ключевым структурным ограничением является то, что целевая функция допускает разреженные приближенные решения. Подобный подход используется в работе [23], в которой применяется метод Франк–Вульфа для поиска равновесного распределения потоков в модели Бэкмана, при этом использование геометрической интерпретации транспортных потоков позволило авторам эффективно снизить размерность пространства поиска. Отметим также статью [24], в которой задача ранжирования объектов по значимости (PageRank) рассматривается как выпуклая задача минимизации над симплексом и, используя разреженную структуру задачи, предложено ее решение с использованием итерационных методов, которые на каждой итерации состоят из подзадач полиномиальной сложности. Необходимо упомянуть работу [25], в которой изучаются проблемы, в которых вспомогательная задача на шаге жадного спуска, являющаяся задачей оптимизации линейной формы на симплексе, может быть эффективно решена (т.е. предполагается наличие так называемого линейного минимизационного оракула).

В алгоритмах, представленных в нашей работе, мы используем развитие этих идей: с одной стороны, на шаге жадного спуска мы вводим ослабляющее условие, которое позволяет для многих задач значительно сократить сложность этой подзадачи. С другой стороны, мы ищем решение в виде разреженной комбинации небольшого числа атомов словаря. Мы изучаем следующие три алгоритма для нахождения решений задачи выпуклой оптимизации, которые являются разреженными по отношению к некоторому словарю, в банаховых пространствах:

• чебышёвский жадный алгоритм (Chebyshev greedy algorithm, CGA),

• слабый чебышёвский жадный алгоритм, (weak Chebyshev greedy algorithm, WCGA),

• слабый чебышёвский жадный алгоритм с ошибкой $\delta $, (weak Chebyshev greedy algorithm with error $\delta $, WCGA($\delta $)).

Прямой результат о сходимости алгоритма WCGA был получен в [1]. В данной работе мы докажем прямой результат о сходимости алгоритма WCGA($\delta $). Отметим, что в работе [1] показывается, что алгоритм WCGA для нахождения разреженных решений задачи (2) по отношению к словарю $\mathcal{D}$ также решает и задачу (1).

Развивая идеи [6] и [8], мы вводим понятие зазора двойственности для получения двойственных оценок сходимости алгоритмов WCGA и WCGA($\delta $) при нахождении разреженных решений задач выпуклой оптимизации типа (2). В статье мы находим оценки значений зазора двойственности в зависимости от числа итераций для рассматриваемых слабых жадных алгоритмов.

1. ЖАДНЫЕ АЛГОРИТМЫ

Для функционала $F \in X{\text{*}}$ и элемента $f \in X$ в данной статье мы будем использовать следующее обозначение $F(f) = \left\langle {F,f} \right\rangle $.

Пусть $\Omega : = \left\{ {x \in X:E(x) \leqslant E(0)} \right\}$ и предположим, что $\Omega $ ограничено. Будем предполагать, что функция $E$ дифференцируема по Фреше на $\Omega $. Из свойства выпуклости $E$ следует, что для произвольных $x,y \in \Omega $ справедливо неравенство

$E(y) \geqslant E(x) + \left\langle {E{\kern 1pt} {\text{'}}(x),y - x} \right\rangle ,$
где $E{\kern 1pt} {\text{'}}(x)$ есть дифференциал Фреше функции $E$ в точке $x$.

Мы предполагаем, что существует элемент $x{\kern 1pt} {\text{*}}$ (не обязательно единственный) банахова пространства $X$, в котором достигается минимум $E{\kern 1pt} *: = E(x{\kern 1pt} *)$. Очевидно, что множество всех элементов, в которых достигается минимум, является выпуклым. Отметим, что минимум $E{\kern 1pt} {\text{*}}$ будет достигаться на элементе (или множестве элементов), принадлежащих множеству $\Omega $.

Пусть ${{A}_{1}}(\mathcal{D})$ означает замыкание (в $X$) выпуклой оболочки словаря $\mathcal{D}$.

Мы рассматриваем семейство жадных алгоритмов для решения задачи выпуклой оптимизации в банаховом пространстве, которые используют дифференциал Фреше при выборе наискорейшего спуска на каждой итерации.

Алгоритм 1 (CGA) есть итерационный алгоритм, предназначенный для решения задачи (2). Этот алгоритм на каждой итерации $m \geqslant 1$ переходит к следующему состоянию ${{G}_{m}}$ по индукции, используя текущее состояние ${{G}_{{m - 1}}}$ и элемент ${{\phi }_{m}}$, полученный на шаге выбора направления наискорейшего спуска жадного алгоритма. На этом шаге максимизируется некоторый линейный функционал, определенный градиентной информацией состояния, полученного на предыдущей итерации алгоритма. Алгоритм 1 является алгоритмом типа алгоритма Франк–Вульфа, так как в каждом текущем состоянии ${{G}_{{m - 1}}}$ он использует линеаризацию целевой функции $E$ и осуществляет движение в сторону элемента словаря $\mathcal{D}$, который минимизирует этот линейный функционал.

Алгоритм 1.  Чебышёвский жадный алгоритм (CGA)

begin
• Положить ${{G}_{0}} = 0;$
  for each$m \geqslant 1$do
  (Выбор направления спуска) Найти элемент словаря ${{\phi }_{m}} \in \mathcal{D}$ такой, что $\left\langle { - E{\kern 1pt} {\text{'}}({{G}_{{m - 1}}}),{{\varphi }_{m}}} \right\rangle = \mathop {sup}\limits_{s \in \mathcal{D}} \left\langle { - E{\kern 1pt} {\text{'}}({{G}_{{m - 1}}}),s} \right\rangle ;$
  (Чебышёвский поиск) Найти действительные числа $\omega _{i}^{ * }$ такие, что $E\left( {\sum\limits_{i = 1}^m \,\omega _{i}^{ * }{{\phi }_{i}}} \right) = \mathop {inf}\limits_{{{\omega }_{i}}} E\left( {\sum\limits_{i = 1}^m \,{{\omega }_{i}}{{\phi }_{i}}} \right);$
  (Переход в новое состояние) Определить ${{G}_{m}} = \sum\limits_{i = 1}^m \,\omega _{i}^{ * }{{\phi }_{i}}$;
end

После того, как найден элемент ${{\varphi }_{m}}$ на шаге выбора направления наискорейшего спуска жадного алгоритма, осуществить переход в новое состояние ${{G}_{m}}$ из текущего состояния ${{G}_{{m - 1}}}$ можно разными способами. В частности, на практике часто используются такие разновидности жадного алгоритма, как градиентный метод, метод приведенного градиента, метод сопряженного градиента, методы преследования (см., например, [3], [26]–[28]). В алгоритмах 13 мы используем так называемый поиск типа Чебышёва и выбираем среди всех линейных комбинаций ${{\phi }_{i}}$, $i = 1,2,\; \ldots ,\;m$, такой элемент ${{G}_{m}}$ из ${\text{span}}\left\{ {{{\phi }_{i}}} \right\}_{{i = 1}}^{m}$, на котором достигается инфимум функции $E$.

Отметим, что на шаге выбора направления спуска жадного алгоритма мы ищем супремум среди элементов словаря $\mathcal{D}$ (а не замыкания его выпуклой оболочки ${{A}_{1}}(\mathcal{D})$), поскольку почти все точки множества ${{A}_{1}}(\mathcal{D})$ есть линейные комбинации бесконечного числа элементов словаря, и в связи с этим оптимальное решение, полученное таким образом, не обязано быть разряженным по отношению к словарю $\mathcal{D}$.

Для многих прикладных задач нахождение точного решения подзадачи $su{{p}_{{s \in \mathcal{D}}}}\left\langle { - E{\kern 1pt} {\text{'}}({{G}_{{m - 1}}}),s} \right\rangle $ на шаге выбора направления наискорейшего спуска жадного алгоритма может оказаться слишком сложным с вычислительной точки зрения (или даже невозможным). В связи с этим интерес представляет следующая модификация чебышёвского жадного алгоритма CGA с ослаблением требования нахождения оптимального решения [1], [19]. Пусть $\tau : = \left\{ {{{t}_{m}}} \right\}_{{m = 1}}^{\infty }$ будет последовательностью неотрицательных чисел ${{t}_{m}} \leqslant 1$, $m = 1,2,\; \ldots $, которую мы будем называть ослабляющей. Алгоритм 2 использует ослабляющую последовательность $\tau $ на шаге выбора направления наискорейшего спуска жадного алгоритма для нахождения приближенного решения ${{\phi }_{m}}$ этой подзадачи, который имеет качество приближения (мультипликативно) по меньшей мере ${{t}_{m}}$ на шаге $m$. Именно поэтому алгоритм называется слабым.

Алгоритм 2.  Слабый чебышёвский жадный алгоритм (WCGA(co))

begin
• Положить ${{G}_{0}} = 0$;
  for each$m \geqslant 1$do
  (Выбор направления спуска) Найти элемент словаря ${{\phi }_{m}} \in \mathcal{D}$ такой, что $\left\langle { - E{\kern 1pt} {\text{'}}({{G}_{{m - 1}}}),{{\phi }_{m}}} \right\rangle \geqslant {{t}_{m}}\mathop {sup}\limits_{s \in \mathcal{D}} \left\langle { - E{\kern 1pt} {\text{'}}({{G}_{{m - 1}}}),s} \right\rangle ;$
  (Чебышёвский поиск) Найти действительные числа $\omega _{i}^{ * }$ такие, что $E\left( {\sum\limits_{i = 1}^m \,\omega _{i}^{ * }{{\phi }_{i}}} \right) = \mathop {inf}\limits_{{{\omega }_{i}}} E\left( {\sum\limits_{i = 1}^m \,{{\omega }_{i}}{{\phi }_{i}}} \right);$
  (Переход в новое состояние) Определить ${{G}_{m}} = \sum\limits_{i = 1}^m \,\omega _{i}^{ * }{{\phi }_{i}}$;
end

Далее, на шаге чебышёвского поиска Алгоритма 2 мы пытаемся решить задачу выпуклой оптимизации относительно переменных ${{\omega }_{i}}$, $i = 1, \ldots ,\;m$, с ошибкой $\delta $. В книге [29] приведены быстрые алгоритмы для приближенного решения такого рода задач (см. также [19]).

На шаге чебышёвского поиска Алгоритма 2 предполагается существование оптимальных значений ${{\omega }_{i}}$, $i = 1,\; \ldots ,\;m$. Однако Алгоритм 3 использует возможность приближенного решения, и данное предположение не требуется.

Алгоритм 3.  Слабый чебышёвский жадный алгоритм с ошибкой $\delta $ (WCGA($\delta $))

begin
• Положить ${{G}_{0}} = 0$ и зафиксировать ошибку $\delta > 0$;
  for each$m \geqslant 1$do
  (Выбор направления спуска) Найти такой элемент словаря ${{\phi }_{m}} \in \mathcal{D}$, что $\left\langle { - E{\kern 1pt} {\text{'}}({{G}_{{m - 1}}}),{{\phi }_{m}}} \right\rangle \geqslant {{t}_{m}}\mathop {sup}\limits_{s \in \mathcal{D}} \left\langle { - E{\kern 1pt} {\text{'}}({{G}_{{m - 1}}}),s} \right\rangle ;$
  (Чебышёвский поиск) Найти действительные числа $\omega _{i}^{ * }$ такие, что $E\left( {\sum\limits_{i = 1}^m \,\omega _{i}^{ * }{{\phi }_{i}}} \right)\, \leqslant \,\mathop {inf}\limits_{{{\omega }_{i}}} E\left( {\sum\limits_{i = 1}^m \,{{\omega }_{i}}{{\phi }_{i}}} \right)\, + \,\delta ;$
  (Переход в новое состояние) Определить ${{G}_{m}} = \sum\limits_{i = 1}^m \,\omega _{i}^{ * }{{\phi }_{i}}$;
end

Алгоритмы используют один атом из словаря на каждой итерации, и поэтому гарантируют разреженность получаемых приближенных решений. Алгоритмы являются слабыми в том смысле, что они решают линейные задачи оптимизации на шаге выбора направления наискорейшего спуска приближенно. Более того, один из рассматриваемых в статье алгоритмов (WCGA($\delta $)) использует также приближенное решение на шаге чебышёвского поиска.

Статья [30] анализирует другую модификацию алгоритма WCGA – приближенный слабый чебышёвский жадный алгоритм (the approximate weak Chebyshev greedy algorithm, AWCGA). AWCGA проводит чебышёвский поиск с приближенным нахождением $n$-членного аппроксиманта, однако, в отличие от WCGA($\delta $), алгоритм AWCGA использует мультипликативный нормирующий функционал.

2. ПРЯМЫЕ ОЦЕНКИ

Модуль гладкости функции $E$ на ограниченном множестве $\Omega $ определяется следующим образом:

$\rho (E,u) = \frac{1}{2}\mathop {sup}\limits_{x \in \Omega ,\left\| y \right\| = 1} \left| {E(x + uy) + E(x - uy) - 2E(x)} \right|.$

Функция $E$ называется равномерно гладкой на $\Omega $, если $\mathop {lim}\limits_{u \to 0} \rho (E,u){\text{/}}u = 0$.

Лемма 1 (см. [1, лемма 1.1]). Пусть $E$ дифференцируема по Фреше и выпукла на $\Omega $. Тогда для всех $x \in \Omega $

$0 \leqslant E(x + uy) - E(x) - u\left\langle {E{\kern 1pt} {\text{'}}(x),y} \right\rangle \leqslant 2\rho \left( {E,u\left\| y \right\|} \right).$

Следующая лемма приводится в [1] как лемма 2.2.

Лемма 2. Пусть $F$ есть ограниченный линейный функционал и пусть $\mathcal{D}$ есть словарь. Тогда

$\mathop {sup}\limits_{s \in \mathcal{D}} \left\langle {F,s} \right\rangle \mathop {sup}\limits_{s \in {{A}_{1}}(\mathcal{D})} \left\langle {F,s} \right\rangle .$

Обозначим

$E{\kern 1pt} *: = \mathop {inf}\limits_{x \in X} E(x) = \mathop {inf}\limits_{x \in \Omega } E(x),$
${{\mathcal{L}}_{M}}: = \left\{ {s \in X:s{\text{/}}M \in {{A}_{1}}(\mathcal{D})} \right\},$
${{A}_{\epsilon }}: = A(E,\epsilon ) = inf\left\{ {M:\exists y \in {{\mathcal{L}}_{M}}\;{\text{т а к о й }},\;{\text{ч т о }}\;E(y) - E{\kern 1pt} * \leqslant \epsilon } \right\},$
${{A}_{0}}: = inf\left\{ {M:x* \in {{\mathcal{L}}_{M}}} \right\}.$

Используя геометрические свойства функции $E$, в статье [1] получена, в частности, следующая оценка скорости сходимости алгоритмов CGA, WCGA.

Теорема 1 (прямая оценка для CGA, WCGA). Пусть $E$ есть равномерно гладкая выпуклая функция с модулем гладкости $\rho (E,u) \leqslant \gamma {{u}^{q}}$, $1 < q \leqslant 2$. Тогда для ослабляющей последовательности $\tau = \left\{ {{{t}_{m}}} \right\}_{{m = 1}}^{\infty }$, $0 < {{t}_{m}} \leqslant 1$, $m = 1,2,\; \ldots $, для CGA (при ${{t}_{m}} = 1$, $m = 1,2,\; \ldots $) и WCGA справедлива оценка

(3)
$E({{G}_{m}}) - E{\kern 1pt} * \leqslant C(E,q,\gamma )A_{0}^{q}{{m}^{{1 - q}}},$
где $C(E,q,\gamma )$ есть положительное число, не зависящее от $m$.

Заметим, что в статье [1] получена более общая оценка

(4)
$E({{G}_{m}}) - E{\kern 1pt} * \leqslant C(E,q,\gamma ){{\epsilon }_{m}},$
где
(5)
${{\epsilon }_{m}}: = inf\{ \epsilon :A_{\varepsilon }^{q}{{m}^{{1 - q}}} \leqslant \epsilon \} .$
Неравенство (3) следует из (4), так как $x* \in {{\mathcal{L}}_{{{{A}_{0}}}}}$.

Лемма 3. Пусть неотрицательные числа ${{a}_{0}},{{a}_{1}},\; \ldots ,\;{{a}_{N}}$ таковы, что

${{a}_{m}} \leqslant {{a}_{{m - 1}}} + \mathop {inf}\limits_\lambda ( - \lambda \text{v}{{a}_{{m - 1}}} + B{{\lambda }^{q}}) + \delta ,\quad B > 0,\quad \delta \in [0,1],$
для $m \leqslant K: = [{{\delta }^{{ - 1/q}}}]$, $q \in \left( {1,2} \right]$. Тогда

${{a}_{m}} \leqslant C(q,\text{v},B,{{a}_{0}}){{m}^{{1 - q}}},\quad m \leqslant K.$

Лемма 4. Пусть $E$ есть равномерно гладкая выпуклая функция с модулем гладкости $\rho (E,u)$ on $\Omega $. Пусть ${{f}_{\epsilon }}$ принадлежит ${{\mathcal{L}}_{{{{A}_{\epsilon }}}}}$. Тогда для WCGA($\delta $) будет

$E({{G}_{m}}) \leqslant E({{G}_{{m - 1}}}) + \mathop {inf}\limits_{\lambda \geqslant 0} ( - \lambda {{t}_{m}}A_{\epsilon }^{{ - 1}}(E({{G}_{{m - 1}}}) - E(f)) + 2\rho (E,{{C}_{0}}\lambda )) + \delta ,$
для $m = 1,2,\; \ldots ,\;{{\delta }^{{ - 1/q}}}$.

Доказательство. Из определения ${{G}_{m}}$ в описании алгоритма WCGA($\delta $) мы имеем

${{G}_{m}} = \sum\limits_{i = 1}^m \,\omega _{i}^{ * }{{\phi }_{i}}.$
Шаг чебышёвского поиска WCGA($\delta $) влечет
(6)
$E({{G}_{m}}) \leqslant \mathop {inf}\limits_{{{\omega }_{i}}} E\left( {\sum\limits_{i = 1}^m \,{{\omega }_{i}}{{\phi }_{i}}} \right) + \delta \leqslant \mathop {inf}\limits_{\lambda \geqslant 0,\omega } E({{G}_{{m - 1}}} - \omega {{G}_{{m - 1}}} + \lambda {{\phi }_{m}}) + \delta .$
Из леммы 1 следует, что
(7)
$\begin{gathered} E({{G}_{{m - 1}}} - \omega {{G}_{{m - 1}}} + \lambda {{\phi }_{m}}) \leqslant E({{G}_{{m - 1}}}) + \lambda \left\langle { - E{\kern 1pt} {\text{'}}({{G}_{{m - 1}}}),{{\phi }_{m}}} \right\rangle - \\ - \;\omega \left\langle { - E{\kern 1pt} {\text{'}}({{G}_{{m - 1}}}),{{G}_{{m - 1}}}} \right\rangle + 2\rho (E,\left\| {\lambda {{\phi }_{m}} - \omega {{G}_{{m - 1}}}} \right\|). \\ \end{gathered} $
Из шага выбора направления спуска WCGA($\delta $) имеем
(8)
$\left\langle { - E{\kern 1pt} {\text{'}}({{G}_{{m - 1}}}),{{\phi }_{m}}} \right\rangle \geqslant {{t}_{m}}\mathop {sup}\limits_{s \in \mathcal{D}} \left\langle { - E{\kern 1pt} {\text{'}}({{G}_{{m - 1}}}),s} \right\rangle .$
Из леммы 2 получаем

(9)
$\begin{gathered} {{t}_{m}}\mathop {sup}\limits_{s \in \mathcal{D}} \left\langle { - E{\kern 1pt} '({{G}_{{m - 1}}}),s} \right\rangle = {{t}_{m}}\mathop {sup}\limits_{s \in {{A}_{1}}(\mathcal{D})} \left\langle { - E{\kern 1pt} '({{G}_{{m - 1}}}),s} \right\rangle = {{t}_{m}}A_{\epsilon }^{{ - 1}}\mathop {sup}\limits_{s \in {{A}_{1}}(\mathcal{D})} \left\langle { - E{\kern 1pt} {\text{'}}({{G}_{{m - 1}}}),{{A}_{\varepsilon }}s} \right\rangle = \\ = \;{{t}_{m}}A_{\epsilon }^{{ - 1}}\mathop {sup}\limits_{f \in {{\mathcal{L}}_{{{{A}_{\epsilon }}}}}} \left\langle { - E{\kern 1pt} {\text{'}}({{G}_{{m - 1}}}),f} \right\rangle \geqslant {{t}_{m}}A_{\epsilon }^{{ - 1}}\left\langle { - E{\kern 1pt} {\text{'}}({{G}_{{m - 1}}}),{{f}_{\epsilon }}} \right\rangle . \\ \end{gathered} $

Возьмем $\omega = \lambda {{t}_{m}}A_{\epsilon }^{{ - 1}}$, получим

(10)
$\begin{gathered} E({{G}_{{m - 1}}} - \lambda {{t}_{m}}A_{\epsilon }^{{ - 1}}{{G}_{{m - 1}}} + \lambda {{\phi }_{m}})) \leqslant E({{G}_{{m - 1}}}) - \\ - \;\lambda {{t}_{m}}A_{\epsilon }^{{ - 1}}\left\langle { - E{\kern 1pt} {\text{'}}({{G}_{{m - 1}}}),{{f}_{\epsilon }} - {{G}_{{m - 1}}}} \right\rangle + 2\rho \left( {E,\lambda \left\| {{{\phi }_{m}} - {{t}_{m}}A_{\epsilon }^{{ - 1}}{{G}_{{m - 1}}}} \right\|} \right). \\ \end{gathered} $

Из выпуклости $E$ имеем

(11)
$\left\langle { - E{\kern 1pt} {\text{'}}({{G}_{{m - 1}}}),{{f}_{\epsilon }} - {{G}_{{m - 1}}}} \right\rangle \geqslant E({{G}_{{m - 1}}}) - E({{f}_{\epsilon }}).$

Из (6)–(11) следует, что

$E({{G}_{m}}) \leqslant E({{G}_{{m - 1}}}) + \mathop {inf}\limits_{\lambda \geqslant 0} \left( { - \lambda {{t}_{m}}A_{\epsilon }^{{ - 1}}(E({{G}_{{m - 1}}}) - E({{f}_{\epsilon }})) + 2\rho \left( {E,\lambda \left\| {{{\phi }_{m}} - {{t}_{m}}A_{\epsilon }^{{ - 1}}{{G}_{{m - 1}}}} \right\|} \right)} \right) + \delta .$

Так как $E({{G}_{{m - 1}}}) \leqslant E(0)$, имеем ${{G}_{{m - 1}}} \in \Omega $. Наше предположение об ограниченности множества $\Omega $ приводит к тому, что существует константа ${{C}_{1}}$ такая, что $\left\| {{{G}_{{m - 1}}}} \right\| \leqslant {{C}_{1}}$. Так как ${{\phi }_{m}} \in \mathcal{D}$, получаем $\left\| {{{\phi }_{m}}} \right\| \leqslant 1$. Таким образом,

$\left\| {{{t}_{m}}A_{\epsilon }^{{ - 1}}{{G}_{{m - 1}}} - {{\phi }_{m}}} \right\| \leqslant A_{\epsilon }^{{ - 1}}{{C}_{1}} + 1 = :{{C}_{0}},$
что завершает доказательство леммы.

Теорема 2 (прямая оценка для WCGA($\delta $)). Пусть $E$ есть равномерно гладкая выпуклая функция с модулем гладкости $\rho (E,u) \leqslant \gamma {{u}^{q}}$, $1 < q \leqslant 2$. Тогда, для ослабляющей последовательности $\tau = \left\{ {{{t}_{k}}} \right\}_{{k = 1}}^{\infty }$, $0 < {{t}_{k}} \leqslant 1$, $k = 1,2,\; \ldots $, имеем для WCGA($\delta $)

(12)
$E({{G}_{m}}) - E{\kern 1pt} * \leqslant C(E,q,\gamma )A_{0}^{q}{{m}^{{1 - q}}},\quad m \leqslant {{\delta }^{{ - 1/q}}},$
где $C(E,q,\gamma )$ есть положительное число, не зависящее от $m$.

Доказательство. Докажем более общее неравенство

(13)
$E({{G}_{m}}) - E{\kern 1pt} * \leqslant C(E,q,\gamma ){{\epsilon }_{m}},\quad m \leqslant {{\delta }^{{ - 1/q}}},$
где $C(E,q,\gamma )$ есть положительное число, не зависящее от $m$. Неравенство (12) следует из (13), так как $x* \in {{\mathcal{L}}_{{{{A}_{0}}}}}$.

Неравенства (6) и (10) влекут неравенство

(14)
$E({{G}_{m}}) \leqslant E({{G}_{{m - 1}}}) + \delta .$
Так как $m \leqslant {{\delta }^{{ - 1/q}}}$, имеем
$E({{G}_{m}}) \leqslant E(0) + 1,$
и поэтому, ${{G}_{m}} \in {{\Omega }_{1}}: = \left\{ {x \in X:E(x) \leqslant E(0) + 1} \right\}$ для $m \leqslant {{\delta }^{{ - 1/q}}}$. Пусть ${{a}_{n}}: = E({{G}_{n}}) - E(f)$. Из леммы 4 следует, что
${{a}_{m}} \leqslant {{a}_{{m - 1}}} + \mathop {inf}\limits_{\lambda > 0} ( - \lambda {{t}_{m}}M_{0}^{{ - 1}}{{a}_{{m - 1}}} + 2\gamma {{({{C}_{0}}\lambda )}^{q}}) + \delta .$
Если ${{a}_{m}}$ неотрицательны, то мы применяем лемму 3 со значениями $\text{v} = {{t}_{m}}M_{0}^{{ - 1}}$ и $B = 2\gamma C_{0}^{q}$.

Обозначим $K: = [{{\delta }^{{ - 1/q}}}]$. Пусть $n{\text{'}}$ есть наименьшее из $\left[ {1,K} \right]$ таких, что ${{a}_{{n{\text{'}}}}} < 0$. Тогда из (14) и $m \leqslant {{\delta }^{{ - 1/q}}}$ следует, что ${{a}_{m}} \leqslant C{{m}^{{1 - q}}}$ для всех $n{\text{'}} \leqslant m \leqslant K$.

3. ЗАЗОР ДВОЙСТВЕННОСТИ И ДВОЙСТВЕННЫЕ ОЦЕНКИ

В данном разделе представлены двойственные результаты о сходимости для алгоритмов CGA, WCGA и WGAFR($\delta $).

Важной проблемой при выполнении вычислений при решении задач оптимизации является создание “сертификата”, который можно использовать для эффективной проверки того, что решение (с заданной точностью) получено. В статье [31] вводится понятие сертификатов в контексте вычислительных задач с выпуклой структурой. Методы, в которых имеются оценки на сертификат точности, относятся к классу прямо-двойственных методов [32]. Следует отметить, что сертификат точности (accuracy certificate), с одной стороны, позволяет обосновать прямо-двойственность исследуемого метода [31], а с другой, сертификат точности является вычислимым и поэтому могут использоваться в качестве оценки близости текущей точки к оптимальному решению. Дальнейшее развитие этих идей можно найти в работе [33]. В данной работе мы предлагаем в качестве такого сертификата “близости” к оптимальному решению использовать зазор двойственности.

Значения зазора двойственности неявно вычисляются на шаге выбора направления наискорейшего спуска на каждой итерации жадного алгоритма. Мы покажем, что эти значения дают верхние оценки ошибки приближения текущего решения к оптимальному, то есть разности между значениями целевой функции в текущем состоянии и оптимальной точке. Так как значение целевой функции в оптимальной точке заранее неизвестно, текущие значения зазора двойственности можно использовать, например, в критериях останова жадного алгоритма. В статье мы находим оценки значений зазора двойственности в зависимости от числа итераций для рассматриваемых слабых жадных алгоритмов.

Определение 1. Определим зазор двойственности для состояния $G \in \Omega $ и ошибки $\epsilon $ следующим образом:

(15)
$g(G) = g(G,\epsilon ) = :{{A}_{\epsilon }}\mathop {sup}\limits_{s \in \mathcal{D}} \left\langle {E{\kern 1pt} {\text{'}}(G),A_{\epsilon }^{{ - 1}}G - s} \right\rangle .$

Полезное свойство зазора двойственности описывается следующим утверждением.

Утверждение 1. Пусть $E$ есть выпуклая функция, определенная на банаховом пространстве $X$. Тогда для любого $x \in \Omega $ будет

$E(x) - E(x{\kern 1pt} *) \leqslant g(x,\epsilon ) + \epsilon .$

Доказательство. Пусть ${{x}_{\epsilon }}$ таков, что $E({{x}_{\epsilon }}) - E(x{\kern 1pt} *) < \epsilon $ и ${{x}_{\epsilon }}{\text{/}}{{A}_{\epsilon }} \in {{A}_{1}}(\mathcal{D})$, т.е. ${{x}_{\epsilon }} \in {{\mathcal{L}}_{{{{A}_{\epsilon }}}}}$. Вначале покажем, что

$E(x) - E({{x}_{\epsilon }}) \leqslant g(x).$

Так как $E$ является выпуклой на $X$, для всякого $x \in \Omega $ будет

(16)
$E({{x}_{\epsilon }}) \geqslant E(x) + \left\langle {E{\kern 1pt} {\text{'}}(x),{{x}_{\epsilon }} - x} \right\rangle .$
Так как ${{x}_{\epsilon }} \in {{\mathcal{L}}_{{{{A}_{\epsilon }}}}}$, имеем
(17)
$E(x) + \left\langle {E{\kern 1pt} {\text{'}}(x),{{x}_{\epsilon }} - x} \right\rangle \geqslant E(x) - \mathop {sup}\limits_{s \in {{\mathcal{L}}_{{{{A}_{\epsilon }}}}}} \left\langle {E{\kern 1pt} {\text{'}}(x),x - s} \right\rangle = E(x) - {{A}_{\epsilon }}\mathop {sup}\limits_{s \in {{\mathcal{L}}_{{{{A}_{\epsilon }}}}}} \left\langle {E{\kern 1pt} {\text{'}}(x),xA_{\epsilon }^{{ - 1}} - sA_{\epsilon }^{{ - 1}}} \right\rangle .$
Так как ${{\mathcal{L}}_{{{{A}_{\epsilon }}}}} = {{A}_{\epsilon }}{{A}_{1}}(\mathcal{D})$, получаем
(18)
$\begin{gathered} E(x) - {{A}_{\epsilon }}\mathop {sup}\limits_{s \in {{\mathcal{L}}_{{{{A}_{\epsilon }}}}}} \left\langle {E{\kern 1pt} {\text{'}}(x),xA_{\epsilon }^{{ - 1}} - sA_{\epsilon }^{{ - 1}}} \right\rangle = E(x) - {{A}_{\epsilon }}\mathop {sup}\limits_{s{\text{'}} \in {{A}_{1}}(\mathcal{D})} \left\langle {E{\kern 1pt} {\text{'}}(x),xA_{\epsilon }^{{ - 1}} - s{\text{'}}} \right\rangle = \\ = \;E(x) - {{A}_{\epsilon }}\mathop {sup}\limits_{s{\text{'}} \in \mathcal{D}} \left\langle {E{\kern 1pt} {\text{'}}(x),xA_{\epsilon }^{{ - 1}} - s{\text{'}}} \right\rangle , \\ \end{gathered} $
где мы использовали утверждение леммы 2.

Тогда из (16)–(18) следует, что

$E(x) - E({{x}_{\epsilon }}) \leqslant {{A}_{\epsilon }}\mathop {sup}\limits_{s{\text{'}} \in \mathcal{D}} \left\langle {E{\kern 1pt} {\text{'}}(x),xA_{\epsilon }^{{ - 1}} - s{\text{'}}} \right\rangle = :g(x),$
и мы получаем наше утверждение (поскольку $E({{x}_{\epsilon }}) - E(x*) < \epsilon $).

Таким образом, практическая применимость зазора двойственности связана с тем фактом, что зазор двойственности $g(x)$ является оценкой ошибки приближения оптимального состояния $E(x{\text{*}})$ текущим состоянием $E(x)$.

Справедлив следующий двойственный результат для алгоритмов CGA и WCGA.

Теорема 3. Пусть $E$ есть равномерно гладкая выпуклая функция, определенная на банаховом пространстве $X$. Пусть $\rho (E,u)$ есть модуль гладкости функции $E$ и предположим, что $\rho (E,u) \leqslant \gamma {{u}^{q}}$, $1 < q \leqslant 2$. Пусть $\tau = \left\{ {{{t}_{m}}} \right\}_{{m = 1}}^{\infty }$, $0 < \theta < {{t}_{k}} < 1$, $k = 1,2, \ldots $, есть ослабляющая последовательность. Предположим, что CGA или WCGA выполнены для $N > 2$ итераций. Тогда найдется такая итерация $1 \leqslant \tilde {m} \leqslant N$, что

$g({{G}_{{\tilde {m}}}}) \leqslant \beta C(E,q,\gamma )A_{0}^{q}{{N}^{{1 - q}}},$
где $\beta > 0$ не зависит от $N$.

Имеет место следующий двойственный результат для алгоритма WCGA($\delta $).

Теорема 4. Пусть $E$ есть равномерно гладкая выпуклая функция, определенная на банаховом пространстве $X$. Пусть $\rho (E,u)$ есть модуль гладкости функции $E$ и предположим, что $\rho (E,u) \leqslant \gamma {{u}^{q}}$, $1 < q \leqslant 2$. Пусть $\tau = \left\{ {{{t}_{m}}} \right\}_{{m = 1}}^{\infty }$, $0 < \theta < {{t}_{k}} < 1$, $k = 1,2,\; \ldots $, есть ослабляющая последовательность. Предположим, что алгоритм WCGA($\delta $) выполнен для $0 < N \leqslant {{\delta }^{{ - 1/q}}}$ итераций. Тогда найдется такая итерация $1 \leqslant \tilde {m} \leqslant N$, что

$g({{G}_{{\tilde {m}}}}) \leqslant \beta C(E,q,\gamma )A_{0}^{q}{{N}^{{1 - q}}},$
где $\beta > 0$ не зависит от $N$.

Достаточно доказать двойственный результат для алгоритма с ошибкой WCGA($\delta $) (теорему 4) и тогда  теорема 3  будет  непосредственно следовать из соответствующего результата для WCGA($\delta $).

Нам потребуются следующие вспомогательные результаты.

Лемма 5. Пусть $E$ есть равномерно гладкая выпуклая функция, определенная на банаховом пространстве $X$. Пусть $\rho (E,u)$ означает модуль гладкости функции $E$. Тогда для WCGA($\delta $) справедливо следующее неравенство:

$E({{G}_{m}}) \leqslant E({{G}_{{m - 1}}}) + \mathop {inf}\limits_{\lambda \geqslant 0} ( - \lambda {{t}_{m}}A_{\Omega }^{{ - 1}}g({{G}_{{m - 1}}}) + 2\rho (E,{{C}_{0}}\lambda )) + \delta ,\quad m = 1,2,\; \ldots ,$
где ${{C}_{0}}$ не зависит от $m$.

Доказательство. Из определения ${{G}_{m}}$ в описании алгоритма WCGA($\delta $) имеем

${{G}_{m}} = \sum\limits_{i = 1}^m \,{{\omega }_{i}}{{G}_{i}}.$
Шаг чебышёвского поиска для WCGA($\delta $) влечет
(19)
$E({{G}_{m}}) = \mathop {inf}\limits_{{{\omega }_{i}}} E\left( {\sum\limits_{i = 1}^m \,{{\omega }_{i}}{{G}_{i}}} \right) \leqslant \mathop {inf}\limits_{\lambda \geqslant 0,\omega } E({{G}_{{m - 1}}} - \omega {{G}_{{m - 1}}} + \lambda {{\phi }_{m}}) + \delta .$
Из леммы 1 следует, что
$\begin{gathered} E({{G}_{{m - 1}}} - \omega {{G}_{{m - 1}}} + \lambda {{\phi }_{m}}) \leqslant E({{G}_{{m - 1}}}) + \lambda \left\langle { - E{\kern 1pt} {\text{'}}({{G}_{{m - 1}}}),{{\phi }_{m}}} \right\rangle - \\ - \;\omega \left\langle { - E{\kern 1pt} {\text{'}}({{G}_{{m - 1}}}),{{G}_{{m - 1}}}} \right\rangle + 2\rho (E,\left\| {\lambda {{\phi }_{m}} - \omega {{G}_{{m - 1}}}} \right\|). \\ \end{gathered} $
Из шага выбора направления наискорейшего спуска алгоритма WCGA($\delta $) следует
(20)
$\left\langle { - E{\kern 1pt} {\text{'}}({{G}_{{m - 1}}}),{{\phi }_{m}}} \right\rangle \geqslant {{t}_{m}}\mathop {sup}\limits_{s \in \mathcal{D}} \left\langle { - E{\kern 1pt} {\text{'}}({{G}_{{m - 1}}}),s} \right\rangle .$
Возьмем $\omega = \lambda {{t}_{m}}A_{\epsilon }^{{ - 1}}$, тогда
(21)
$\begin{gathered} E({{G}_{{m - 1}}} - \omega {{G}_{{m - 1}}} + \lambda {{\phi }_{m}})) \leqslant E({{G}_{{m - 1}}}) - \\ - \;\lambda {{t}_{m}}\left\langle { - E{\kern 1pt} {\text{'}}({{G}_{{m - 1}}}),{{\phi }_{m}} - {{G}_{{m - 1}}}A_{\epsilon }^{{ - 1}}} \right\rangle + 2\rho \left( {E,\lambda \left\| {{{\phi }_{m}} - {{G}_{{m - 1}}}A_{\epsilon }^{{ - 1}}} \right\|} \right). \\ \end{gathered} $
Используя (20) и определение зазора двойственности (15), имеем

(22)
$\left\langle { - E{\kern 1pt} {\text{'}}({{G}_{{m - 1}}}),{{\phi }_{m}} - {{G}_{{m - 1}}}A_{\epsilon }^{{ - 1}}} \right\rangle \geqslant {{t}_{m}}\mathop {sup}\limits_{s \in \mathcal{D}} \left( { - E{\kern 1pt} {\text{'}}({{G}_{{m - 1}}}),s - {{G}_{{m - 1}}}A_{\epsilon }^{{ - 1}}} \right) = {{t}_{m}}A_{\epsilon }^{{ - 1}}g({{G}_{{m - 1}}}).$

Из (19), (21) и (22) следует, что

$E({{G}_{m}}) \leqslant E({{G}_{{m - 1}}}) + \mathop {inf}\limits_{\lambda \geqslant 0} \left( { - \lambda {{t}_{m}}A_{\epsilon }^{{ - 1}}g({{G}_{{m - 1}}}) + 2\rho \left( {E,\lambda \left\| {{{\phi }_{m}} - {{t}_{m}}A_{\epsilon }^{{ - 1}}{{G}_{{m - 1}}}} \right\|} \right)} \right) + \delta .$

Из $E({{G}_{{m - 1}}}) \leqslant E(0)$ следует, что ${{G}_{{m - 1}}} \in \Omega $. Предположение ограниченности $\Omega $ приводит к тому, что найдется такая константа ${{C}_{1}}$, что $\left\| {{{G}_{{m - 1}}}} \right\| \leqslant {{C}_{1}}$. Так как ${{\phi }_{m}} \in \mathcal{D}$, имеем $\left\| {{{\phi }_{m}}} \right\| \leqslant 1$. Таким образом,

$\left\| {{{t}_{m}}A_{\epsilon }^{{ - 1}}{{G}_{{m - 1}}} - {{\phi }_{m}}} \right\| \leqslant A_{\epsilon }^{{ - 1}}{{C}_{1}} + 1 = :{{C}_{0}},$
и лемма доказана.

Лемма 6. Пусть $0 < \mu < 1$ есть некоторое действительное число и пусть $M$ является натуральным числом. Тогда

${{\epsilon }_{{{{m}_{0}}}}} \leqslant {{\mu }^{{1 - q}}}{{\epsilon }_{M}},$
где ${{\epsilon }_{m}}$ определено в (5) и ${{m}_{0}} = [\mu M]$.

Доказательство. Из (5) следует, что

$inf\left\{ {\epsilon :{{m}^{{1 - q}}} < \frac{{\left( {\tfrac{\epsilon }{{{{\mu }^{{1 - q}}}}}} \right)}}{{A\left( {\tfrac{\epsilon }{{{{\mu }^{{1 - q}}}}}} \right)}}} \right\} = {{\mu }^{{1 - q}}}{{\epsilon }_{m}}.$
Пусть $\epsilon {\kern 1pt} *: = \tfrac{\epsilon }{{{{\mu }^{{1 - q}}}}}$, т.е. $\epsilon {\kern 1pt} {\text{*}}{{\mu }^{{1 - q}}} = \epsilon $. Заметим, что ${{\mu }^{{1 - q}}} > 1$ и $\tfrac{\epsilon }{{{{\mu }^{{1 - q}}}}} < \epsilon $. Имеем
(23)
$A\left( {\frac{\epsilon }{{{{\mu }^{{1 - q}}}}}} \right) \geqslant {{A}_{\Omega }}.$
Из (23) следует, что

${{\epsilon }_{{{{m}_{0}}}}} = inf\left\{ {\epsilon :{{M}^{{1 - q}}} < \frac{{\epsilon {\text{*}}}}{{A_{\Omega }^{q}}}} \right\} \leqslant inf\left\{ {\epsilon *:{{M}^{{1 - q}}} < \frac{{\epsilon {\text{*}}}}{{A_{{\epsilon {\text{*}}}}^{q}}}} \right\} = {{\mu }^{{1 - q}}}{{\epsilon }_{M}}.$

Доказательство теоремы 4. Мы докажем более общее утверждение, следствием которого является утверждение теоремы: найдется такая итерация $1 \leqslant \tilde {m} \leqslant N$, что

$g({{G}_{{\tilde {m}}}}) \leqslant \beta C(E,q,\gamma ){{\epsilon }_{N}},$
где $\beta > 0$ не зависит от $N$. Из (13) следует, что
$E({{G}_{m}}) - E* \leqslant C(E,q,\gamma ){{\epsilon }_{m}},\quad m \leqslant {{\delta }^{{ - 1/q}}},$
${{\epsilon }_{m}}: = inf\{ \epsilon :A_{\epsilon }^{q}{{m}^{{1 - q}}} \leqslant \epsilon \} .$
Предположим, что
(24)
$g({{G}_{m}}) > \beta C(E,q,\gamma ){{\epsilon }_{N}}$
для всех $[\mu N] \leqslant m \leqslant N$, $0 < \mu < 1$ ($\mu $ фиксировано и будет определено позже).

Из леммы 5 с $\lambda = {{\epsilon }_{m}}$ следует, что

(25)
$E({{G}_{{m + 1}}}) - E{\kern 1pt} * \leqslant E({{G}_{m}}) - E{\kern 1pt} {\text{*}} - {{\epsilon }_{m}}{{t}_{m}}A_{\Omega }^{{ - 1}}g({{G}_{m}}) + 2\gamma {{({{C}_{0}}{{\epsilon }_{m}})}^{q}} + \delta .$

Используя наше допущение (24), неравенство (25) может быть переписано в виде

(26)
$E({{G}_{{m + 1}}}) - E{\kern 1pt} * \leqslant E({{G}_{m}}) - E{\kern 1pt} {\text{*}} - {{\epsilon }_{m}}{{t}_{m}}A_{\Omega }^{{ - 1}}\beta C(E,q,\gamma ){{\epsilon }_{N}} + 2\gamma {{({{C}_{0}}{{\epsilon }_{m}})}^{q}} + \delta .$

Нам потребуются следующие неравенства:

1) $\theta \leqslant {{t}_{k}} \leqslant 1$, $k = 1,2,\; \ldots $;

2) ${{\epsilon }_{{{{m}_{0}}}}} \leqslant {{\mu }^{{1 - q}}}{{\epsilon }_{N}}$ (лемма 3);

3) так как $[\mu N] \leqslant m \leqslant N$, имеем ${{\epsilon }_{{[\mu N]}}} \geqslant {{\epsilon }_{m}} \geqslant {{\epsilon }_{N}}$.Тогда (26) дает

$E({{G}_{{m + 1}}}) - E{\kern 1pt} * \leqslant E({{G}_{m}}) - E{\kern 1pt} {\text{*}} - A_{\Omega }^{{ - 1}}\beta \theta C(E,q,\gamma )\epsilon _{N}^{2} + 2\gamma {{({{C}_{0}})}^{q}}{{\mu }^{{q(1 - q)}}}\epsilon _{N}^{q} + \delta .$

Если мы запишем цепь неравенств для всех $m = {{m}_{0}},\; \ldots ,\;N$, ${{m}_{0}}: = [\mu N]$, мы получим

$\begin{gathered} E({{G}_{{m + 1}}}) - E{\kern 1pt} * \leqslant E({{G}_{{{{m}_{0}}}}}) - E{\kern 1pt} {\text{*}} - (N - {{m}_{0}}){{\epsilon }_{N}}\left[ {A_{\Omega }^{{ - 1}}\beta \theta C(E,q,\gamma ){{\epsilon }_{N}} - 2\gamma {{{({{C}_{0}})}}^{q}}{{\mu }^{{q(1 - q)}}}\epsilon _{N}^{{q - 1}} + \frac{\delta }{{{{\epsilon }_{N}}}}} \right] \leqslant \\ \leqslant \;C(E,q,\gamma ){{\epsilon }_{{{{m}_{0}}}}} - N(1 - \mu ){{\epsilon }_{N}}\left[ {A_{\Omega }^{{ - 1}}\beta \theta C(E,q,\gamma ){{\epsilon }_{N}} - 2\gamma {{{({{C}_{0}})}}^{q}}{{\mu }^{{q(1 - q)}}}\epsilon _{N}^{{q - 1}} + \frac{\delta }{{{{\epsilon }_{N}}}}} \right] \leqslant \\ \end{gathered} $
$\begin{gathered} \leqslant \;C(E,q,\gamma ){{\mu }^{{1 - q}}}{{\epsilon }_{N}} - N(1 - \mu ){{\epsilon }_{N}}\left[ {A_{\Omega }^{{ - 1}}\beta \theta C(E,q,\gamma ){{\epsilon }_{N}} - 2\gamma {{{({{C}_{0}})}}^{q}}{{\mu }^{{q(1 - q)}}}\epsilon _{N}^{{q - 1}} + \frac{\delta }{{{{\epsilon }_{N}}}}} \right] = \\ = \;{{\epsilon }_{N}}\left( {C(E,q,\gamma ){{\mu }^{{1 - q}}} - N(1 - \mu )\left[ {A_{\Omega }^{{ - 1}}\beta {{\varepsilon }_{N}}\theta C(E,q,\gamma ) - 2\gamma {{{({{C}_{0}})}}^{q}}{{\mu }^{{q(1 - q)}}}\epsilon _{N}^{{q - 1}} + \frac{\delta }{{{{\epsilon }_{N}}}}} \right]} \right). \\ \end{gathered} $
Если взять достаточно большое $\beta $,
$\beta > \frac{{\tfrac{{C(E,q,\gamma ){{\mu }^{{1 - q}}}}}{{N(1 - \mu )}} + 2\gamma {{{({{C}_{0}})}}^{q}}{{\mu }^{{q(1 - q)}}}\epsilon _{N}^{{q - 1}} - \tfrac{\delta }{{{{\epsilon }_{N}}}}}}{{A_{\Omega }^{{ - 1}}{{\epsilon }_{N}}\theta C(E,q,\gamma )}},$
то мы получим $E({{G}_{m}}) - E{\kern 1pt} * < 0$, что невозможно. Параметр $\mu $ можно взять таким, что

$\mu : = arg\mathop {min}\limits_{0 \leqslant \mu \leqslant 1} \left( {\frac{{C(E,q,\gamma ){{\mu }^{{1 - q}}}}}{{N(1 - \mu )}} + 2\gamma {{{({{C}_{0}})}}^{q}}{{\mu }^{{q(1 - q)}}}\epsilon _{N}^{{q - 1}} - \frac{\delta }{{{{\epsilon }_{N}}}}} \right).$

ЗАКЛЮЧЕНИЕ

Теоремы 1 и 2 дают оценки прямых ошибок приближения оптимального решения $E(x{\kern 1pt} *)$ текущим решением $E(G)$ для слабых чебышёвских жадных алгоритмов. Однако, так как для многих прикладных задач оптимальное значение $E(x{\kern 1pt} *)$ и константа $\gamma $ в модуле гладкости функции $E$ неизвестны, величина оценки ошибки приближения к оптимальному решению на текущей итерации $E(G) - E(x{\kern 1pt} *)$ неизвестна. Значение зазора двойственности $g(G)$, определенного в (15) и оценки которого получены в теоремах 3 и 4, вычисляется неявно на шаге выбора направления наискорейшего спуска на каждой итерации жадных алгоритмов WCGA или WCGA($\delta $) и является подходящей величиной для оценки прямой ошибки $E(G) - E(x{\kern 1pt} *)$, поскольку зазор двойственности есть верхняя оценка прямой ошибки (см. утверждение 1).

Список литературы

  1. Temlyakov V.N. Greedy approximation in convex optimization // Constr. Approx. 2015. V. 41. № 2. P. 269–296.

  2. Bubeck S. Convex optimization: Algorithms and complexity // Foundations and Trends in Machine Learning. 2015. V. 8. № 3–4. P. 231–357.

  3. Frank M., Wolfe P. An algorithm for quadratic programming // Naval Res. Logis. Quart.a. 1956. V. 3. № 1–2. P. 95–110.

  4. Левитин Е.С., Поляк Б.Т. Методы минимизации при наличии ограничений // ЖВММФ. 1966. Т. 6. № 5. С. 787–823.

  5. Демьянов В.Ф., Рубинов А.М. Приближенные методы решения экстpемальных задач. Л.: Изд-во Ленингр. ун-та, 1968.

  6. Clarkson K.L. Coresets, sparse greedy approximation, and the Frank-Wolfe algorithm // ACM T. Algorithms. 2010. V. 6. № 4. P. 1–30.

  7. Freund R.M., Grigas P. New analysis and results for the Frank-Wolfe method // Math. Program. 2016. V. 155. № 1. P. 199–230.

  8. Jaggi M. Revisiting Frank-Wolfe: Projection-free sparse convex optimization // Proceedings of the 30th International Conference on Machine Learning (ICML-13). 2013. P. 427–435.

  9. Friedman J. Greedy function approximation: A gradient boosting machine // Ann. Stat. 2001. V. 29. № 5. P. 1189–1232.

  10. Davis G., Mallat S., Avellaneda M. Adaptive greedy approximation // Constr. Approx. 1997. V. 13. № 1. P. 57–98.

  11. Zhang Z., Shwartz S., Wagner L., Miller W. A greedy algorithm for aligning DNA sequences // J. Comput. Biol. 2000. V. 7. № 1–2. P. 203–214.

  12. Huber P.J. Projection pursuit // Ann. Stat. 1985. V. 13. P. 435–525.

  13. Jones L. On a conjecture of huber concerning the convergence of projection pursuit regression // Ann. Stat. 1987. V. 15. № 2. P. 880–882.

  14. Barron A.R., Cohen A., Dahmen W., DeVore R.A. Approximation and learning by greedy algorithms // Ann. Stat. 2008. V. 36. № 1. P. 64–94.

  15. DeVore R.A., Temlyakov V.N. Some remarks on greedy algorithms // Adv. Comput. Math. 1996. V. 5. P. 173–187.

  16. Konyagin S.V., Temlyakov V.N. A remark on greedy approximation in banach spaces // East J. Approx. 1999. V. 5. № 3. P. 365–379.

  17. Nguyen H., Petrova G. Greedy strategies for convex optimization // Calcolo. 2016. V. 54. № 1. P. 207–224.

  18. Temlyakov V.N. Dictionary descent in optimization // Anal. Math. 2016. V. 42. № 1. P. 69–89.

  19. DeVore R.A., Temlyakov V.N. Convex optimization on banach spaces // Found. Comput. Math. 2016. V. 16. № 2. P. 369–394.

  20. Темляков В.Н. Сходимость и скорость сходимости некоторых гриди-алгоритмов в выпуклой оптимизации // Тр. МИАН. 2016. Т. 293. № 02. С. 333–345.

  21. Lugosi G. Comment on: ${{\ell }_{1}}$-penalization for mixture regression models // TEST. 2010. V. 19. № 2. P. 259–263.

  22. Friedlander M.P., Tseng P. Exact regularization of convex programs // SIAM J. Optim. 2008. V. 18. № 4. P. 1326–1350.

  23. Гасников А.В., Двуреченский П.Е., Дорн Ю.В., Максимов Ю.В. Численные методы поиска равновесного распределения потоков в модели бэкмана и в модели стабильной динамики // Матем. моделирование. 2016. Т. 28. № 10. С. 40–64.

  24. Anikin A., Gasnikov A., Gornov A., Kamzolov D., Maximov Y., Nesterov Y. Efficient numerical methods to solve sparse linear equations with application to pagerank // arXiv e-prints. 2015. arXiv:1508.07607.

  25. Cox B., Juditsky A., Nemirovski A. Decomposition techniques for bilinear saddle point problems and variational inequalities with affine monotone operators // J. Optimiz. Theory Appl. 2016. V. 172. № 2. P. 402–435.

  26. Blumensath T., Davies M.E. Gradient pursuits // IEEE T. Signal Process. 2008. V. 56. № 6. P. 2370–2382.

  27. Blumensath T., Davies M.E. Stagewise weak gradient pursuits // IEEE T. Signal Process. 2009. V. 57. № 11. P. 4333–4346.

  28. Nesterov Y. Introductory Lectures on Convex Optimization. Boston: Kluwer Academic Publishers, 2004.

  29. Nemirovski A. Optimization II: Numerical methods for nonlinear continuous optimization. Lecture Notes. Israel Institute of Technology, 1999.

  30. Dereventsov A.V. On the approximate weak chebyshev greedy algorithm in uniformly smooth banach spaces // J. Math. Anal. Appl. 2016. V. 436. № 1. P. 288–304.

  31. Nemirovski A., Onn S., Rothblum U.G. Accuracy certificates for computational problems with convex structure // Math. Oper. Res. 2010. V. 35. № 1. P. 52–78.

  32. Гасников А.В. Современные численные методы оптимизации, метод универсального градиентного спуска: учебное пособие // arXiv e-prints. 2017. arXiv:1711.00394.

  33. Nesterov Y. Complexity bounds for primal-dual methods minimizing the model of objective function // Math. Program. 2017. V. 171. № 1–2. P. 311–330.

Дополнительные материалы отсутствуют.