Доклады Российской академии наук. Математика, информатика, процессы управления, 2023, T. 514, № 2, стр. 158-168

МИНИМАКСНАЯ ОПТИМИЗАЦИЯ НА МЕДЛЕННО МЕНЯЮЩИХСЯ ГРАФАХ

Н. Ч. Нгуен 1*, А. Рогозин 1**, Д. Метелев 1***, А. Гасников 1234****

1 Московский физико-технический институт (государственный университет)
Долгопрудный, Россия

2 Институт проблем передачи информации имени А.А. Харкевича Российской академии наук
Москва, Россия

3 Кавказский математический центр Адыгейского государственного университета
Майкоп, Республика Адыгея, Россия

4 Институт системного программирования им. В.П. Иванникова Российской академии наук (ИСП РАН)
Москва, Россия

* E-mail: ngnhtrg@phystech.edu
** E-mail: aleksandr.rogozin@phystech.edu
*** E-mail: metelev.ds@phystech.edu
**** E-mail: gasnikov@yandex.ru

Поступила в редакцию 03.09.2023
После доработки 08.09.2023
Принята к публикации 15.10.2023

Полный текст (PDF)

Аннотация

Распределенная оптимизация – важное направление исследований в современной теории оптимизации. Ее приложения включают машинное обучение на больших данных, распределенную обработку сигналов и другие области. В статье исследуется децентрализованная оптимизация для седловых задач. Седловые задачи возникают при обучении генеративно-состязательных сетей, а также в робастном машинном обучении. Основное внимание в работе уделяется оптимизации на медленно меняющихся сетях. Топология сети меняется время от времени, и скорость этих изменений ограничена. В работе показано, что достаточно изменять два ребра на каждой итерации для того, чтобы замедлить сходимость метода оптимизации до случая, когда граф меняется произвольным образом. Одновременно с этим исследуются несколько классов меняющихся сетей, для которых коммуникационная сложность может быть уменьшена.

Ключевые слова: седловая задача, децентрализованная оптимизация, меняющийся граф, экстраградиентный метод

1. ВВЕДЕНИЕ

В данной статье изучаются задачи минимаксной оптимизации типа

(1)
$\mathop {\min }\limits_{x \in \mathcal{X}} \mathop {\max }\limits_{y \in \mathcal{Y}} f(x,y): = \frac{1}{M}\sum\limits_{m = 1}^M {{f}_{m}}(x,y),$
где функции ${{f}_{m}}(x,y)$ выпуклы по x и вогнуты по y, а $\mathcal{X},\;\mathcal{Y}$ – замкнутые выпуклые множества. Каждая функция ${{f}_{m}}(x,y)$ хранится локально на некотором компьютере. Пусть эти компьютеры соединены друг с другом через децентрализованную коммуникационную сеть. Каждый компьютер может выполнять локальные вычисления и обмениваться информацией со своими непосредственными соседями в сети. Кроме того, сеть может меняться со временем. Из-за некоторых сбоев или помех связи в сети могут время от времени выходить из строя или появляться вновь. Этот тип сетей называется меняющимися графами.

У оптимизации на меняющихся графах существует множество приложений [13, 15]. К ним относятся распределенное машинное обучение [5, 14, 16], распределенное управление энергетическими системами [6, 17], управление группой автономных транспортных средств [18], управление распределенными системами сенсоров [1].

Методы децентрализованной оптимизации и минимаксной оптимизации первого порядка используют два типа шагов: локальные градиентные шаги и коммуникации между вычислительными машинами. Мы рассматриваем случай, когда коммуникация осуществляется синхронизированными раундами. Поэтому сложность метода измеряется двумя величинами: количество коммуникационных раундов и количество вызовов локального оракула. Эти величины зависят от характеристик задачи, к которым относятся число обусловленности сети $\chi $, число обусловленности функции $L{\text{/}}\mu $ и желаемая точность $\varepsilon $. Здесь $L$ – константа Липшица градиента целевой функции, а $\mu $ – константа сильной выпуклости.

Данная статья посвящена медленно меняющимся графам. Это означает, что после каждого шага обмена данными может меняться только ограниченное количество ребер. Мы приводим нижние оценки сложности для рассматриваемого класса задач. Также мы предлагаем методы минимаксной оптимизации с улучшенной коммуникационной сложностью для двух конкретных классов медленно меняющихся сетей.

Для оптимизации по сетям (не минимаксной) известны нижние оценки, а также соответствующие оптимальные алгоритмы. Для постоянных графов нижние оценки были получены в [19], и в той же статье был предложен оптимальный двойственный (т.е. с использованием двойственного оракула) алгоритм. Оптимальные децентрализованные методы с использованием прямого оракула были предложены в [9]. Для меняющихся графов (с произвольными изменениями на каждой итерации) в [8] были предложены нижние оценки сложности. Оптимальный алгоритм с прямым оракулом был предложен в той же статье [8], а оптимальный двойственный метод впервые появился в [10]. После этого в [12] были изучены нижние оценки для медленно меняющихся графов с разными скоростями изменений сети. В [11] было показано, что достаточно менять только два ребра на каждой итерации, чтобы сделать сложность коммуникации равной случаю произвольной меняющейся сети. Обзор нижних оценок для децентрализованной оптимизации представлен в табл. 1 (обозначение $\Omega ( \cdot )$ опущено).

Таблица 1.

Нижние оценки оптимизации

  стат. меняющ. мед. мен.
комм. $\sqrt \chi \sqrt {\frac{L}{\mu }} \log \frac{1}{\varepsilon }$ $\chi \sqrt {\frac{L}{\mu }} \log \frac{1}{\varepsilon }$ $\chi \sqrt {\frac{L}{\mu }} \log \frac{1}{\varepsilon }$
оракул $\sqrt {\frac{L}{\mu }} \log \frac{1}{\varepsilon }$ $\sqrt {\frac{L}{\mu }} \log \frac{1}{\varepsilon }$ $\sqrt {\frac{L}{\mu }} \log \frac{1}{\varepsilon }$
статья [19] [8] [11]

Результаты для децентрализованных седловых задач аналогичны стандартной децентрализованной оптимизации. Нижние оценки для минимаксной оптимизации по статическим графам приведены в [4]. В той же статье [4] предложены алгоритмы, оптимальные с точностью до логарифмического члена. Случай (произвольных) меняющихся графов изучался в [2] вместе с методами, оптимальными с точностью до логарифмического множителя. Оптимальные алгоритмы для вариационных неравенств типа суммы (обобщение седловых задач) были предложены в [7]. Наконец, в этой статье изучаются нижние оценки для седловых задач на медленно меняющихся графах (только два ребра меняются за итерацию). Соответствующие результаты представлены в табл. 2. Стоит отметить, что нижние границы сложности такие же, как и для оптимизации (табл. 1), за исключением замены $\sqrt {L{\text{/}}\mu } $ на $L{\text{/}}\mu $.

Таблица 2.

Нижние оценки для задач седловой точки

  стат. меняющ. мед. мен.
комм. $\sqrt \chi \frac{L}{\mu }\log \frac{1}{\varepsilon }$ $\chi \frac{L}{\mu }\log \frac{1}{\varepsilon }$ $\chi \frac{L}{\mu }\log \frac{1}{\varepsilon }$
оракул $\frac{L}{\mu }\log \frac{1}{\varepsilon }$ $\frac{L}{\mu }\log \frac{1}{\varepsilon }$ $\frac{L}{\mu }\log \frac{1}{\varepsilon }$
статья [4] [2] Эта статья

Данная статья организована следующим образом. В разделе 2 мы вводим необходимые предположения и обозначения. После этого в разделе 3 мы покажем, как добиться ускорения по коммуникациям, используя дополнительные предположения о изменяющейся сети. В разделе 4 мы приводим нижние оценки для медленно меняющихся сетей.

2. ОБОЗНАЧЕНИЯ И ПРЕДПОЛОЖЕНИЯ

Гладкость и сильная выпуклость

Мы рассматриваем задачу (1), где множества $\mathcal{X} \subseteq {{\mathbb{R}}^{{{{n}_{x}}}}}$ и $\mathcal{Y} \subseteq {{\mathbb{R}}^{{{{n}_{y}}}}}$ являются замкнутыми и выпуклыми. Кроме того, мы вводим множество $\mathcal{Z} = \mathcal{X} \times \mathcal{Y} \subseteq {{\mathbb{R}}^{{{{n}_{z}}}}}$, $z = (x,y)$, ${{n}_{z}} = {{n}_{x}} + {{n}_{y}}$, и оператор F:

$\begin{gathered} {{F}_{m}}(z) = {{F}_{m}}(x,y) = \left( {\begin{array}{*{20}{c}} {{{\nabla }_{x}}{{f}_{m}}(x,y)} \\ { - {{\nabla }_{y}}{{f}_{m}}(x,y)} \end{array}} \right), \\ F(z) = \frac{1}{M}\sum\limits_{m = 1}^M {{F}_{m}}(z). \\ \end{gathered} $

Предположение 1. Пусть функции $f(x,y)$ и ${{f}_{m}}(x,y)$ удовлетворяют следующим условиям:

1. Функция $f(x,y)$ является $L$-гладкой, т.е. для всех ${{z}_{1}},{{z}_{2}} \in \mathcal{Z}$ выполнено

${\text{||}}F({{z}_{1}}) - F({{z}_{2}}){\text{||}}\;\leqslant \;L{\text{||}}{{z}_{1}} - {{z}_{2}}{\text{||}}.$

2. Для любого $m$, ${{f}_{m}}(x,y)$ является ${{L}_{{{\text{max}}}}}$-гладкой, т.е. для всех ${{z}_{1}},{{z}_{2}} \in \mathcal{Z}$ выполнено

${\text{||}}{{F}_{m}}({{z}_{1}}) - {{F}_{m}}({{z}_{2}}){\text{||}}\;\leqslant \;{{L}_{{{\text{max}}}}}{\text{||}}{{z}_{1}} - {{z}_{2}}{\text{||}}.$

3. Функция $f(x,y)$ является сильно выпуклой-сильно вогнутой с константой $\mu $, т.е. для всех ${{z}_{1}},{{z}_{2}} \in \mathcal{Z}$ выполнено

$\langle F({{z}_{1}}) - F({{z}_{2}}),{{z}_{1}} - {{z}_{2}}\rangle \; \geqslant \;\mu {\text{||}}{{z}_{1}} - {{z}_{2}}{\text{|}}{{{\text{|}}}^{2}}.$

Децентрализованная коммуникация

На каждом шаге обмена данными мы используем граф для представления соединения между вычислительными машинами. Обозначим коммуникационную сеть, меняющуюся во времени, последовательностью графов $\{ {{\mathcal{G}}^{k}}\} _{{k = 0}}^{\infty }\, = \,\{ (\mathcal{V},{{\mathcal{E}}^{k}})\} _{{k = 0}}^{\infty }$, где $\mathcal{V} = \{ 1, \ldots ,M\} $ – множество узлов (каждый узел соответствует одному компьютеру), а ${{\mathcal{E}}^{k}}$ – множество доступных соединений на k-м коммуникационном раунде. Для каждого узла $m \in \mathcal{V}$, мы используем $\mathcal{N}_{m}^{k} = \{ i \in \mathcal{V}\,{\text{|}}\,(i,m) \in {{\mathcal{E}}^{k}}\} $ для обозначения множества его соседей на k-м раунде, и в это время он может взаимодействовать только с узлами в $\mathcal{N}_{m}^{k}$.

Матрицы коммуникации. Каждый узел m содержит свой локальный вектор ${{z}_{m}} = ({{x}_{m}},{{y}_{m}})$. Требуется удовлетворить ограничения консенсуса ${{z}_{1}} = \ldots = {{z}_{M}}$. Для этой цели мы используем матрицы коммуникации.

Предположение 2. Каждый граф в коммуникационной сети соответствует матрице ${{W}^{k}} \in {{\mathbb{R}}^{{M \times M}}}$, которая удовлетворяет следующим свойствам.

1. ${{W}^{k}}$ является положительно полуопределенной,

2. $W_{{i,j}}^{k} = 0$ если $i \ne j$ и $(i,j) \notin {{\mathcal{E}}^{k}}$,

3. $\ker {{W}^{k}} = {\text{span}}({\mathbf{1}})$, где ${\mathbf{1}} = (1, \ldots ,1) \in {{\mathbb{R}}^{M}}$.

Число $\chi (W) = \frac{{{{\lambda }_{{\max }}}(W)}}{{\lambda _{{\min }}^{ + }(W)}}$ называется числом обусловленности матрицы W, где ${{\lambda }_{{\max }}}(W)$ и $\lambda _{{\min }}^{ + }(W)$ обозначают соответственно наибольшее и наименьшее положительные собственные значения матрицы коммуникации W. Для меняющейся сети $\{ {{\mathcal{G}}^{k}}\} _{{k = 1}}^{\infty }$, число обусловленности имеет вид χ = = $\mathop {\sup }\limits_{k \in \mathbb{N} \cup \{ 0\} } \frac{{{{\lambda }_{{\max }}}({{W}^{k}})}}{{{{\lambda }_{{\min }}}({{W}^{k}})}}$.

В этой статье мы рассматриваем матрицы Лапласа ${\mathbf{L}}({{\mathcal{G}}^{k}})$, которые являются типичным примером матрицы коммуникации.

Мы вводим консенсусное подпространство $\mathcal{L}\, \subseteq \,{{\mathbb{R}}^{{M{{n}_{z}}}}}$, определенное как

(2)
$\mathcal{L} = \{ {\mathbf{z}} = (z_{1}^{T}, \ldots ,z_{M}^{T}{{)}^{T}} \in {{\mathbb{R}}^{{M{{n}_{z}}}}}:{{z}_{1}} = \ldots = {{z}_{M}}\} .$

Рассмотрим также пространство ${{\mathcal{L}}^{ \bot }} \subseteq {{\mathbb{R}}^{{M{{n}_{z}}}}}$ которое является ортогональным дополнением к пространству $\mathcal{L}$, определенное как

(3)
${{\mathcal{L}}^{ \bot }} = \left\{ {{\mathbf{z}} = (z_{1}^{T}, \ldots ,z_{M}^{T}{{)}^{T}} \in {{\mathbb{R}}^{{M{{n}_{z}}}}}:\sum\limits_{m = 1}^M {{z}_{m}} = 0} \right\}.$

3. ВЕРХНИЕ ОЦЕНКИ

В этом разделе мы рассмотрим два класса меняющихся во времени сетей: сети со связным остовом и сети с небольшими случайными марковскими изменениями. Для обоих сценариев мы предлагаем децентрализованный алгоритм оптимизации, использующий вспомогательную процедуру консенсуса. Показано, что для рассмотренных классов задач зависимость сложности коммуникации от фактора $\chi $ можно свести от $\chi $ до $\sqrt \chi $ с дополнительными слагаемыми. Обзор результатов представлен в табл. 3 (обозначение O(⋅) опущено).

Таблица 3.

Верхние оценки для седловых задач над произвольными и медленно меняющимися графами

  произв. меняющ. медленно меняющ. связный остов Марковский
комм. $\chi \frac{L}{\mu }\log \frac{1}{\varepsilon }$ $\chi \frac{L}{\mu }\log \frac{1}{\varepsilon }$ $\sqrt \chi \log \chi \frac{L}{\mu }\mathop {\log }\nolimits^2 \frac{1}{\varepsilon }$ $\tau \left( {\sqrt \chi + \frac{{{{\rho }^{2}}}}{{{{{(\lambda _{{\min }}^{ + })}}^{2}}}}} \right)\frac{L}{\mu }\mathop {\log }\nolimits^2 \frac{1}{\varepsilon }$
оракул $\frac{L}{\mu }\log \frac{1}{\varepsilon }$ $\frac{L}{\mu }\log \frac{1}{\varepsilon }$ $\frac{L}{\mu }\log \frac{1}{\varepsilon }$ $\frac{L}{\mu }\log \frac{1}{\varepsilon }$
статья [7] [7] Эта статья Эта статья

Наши алгоритмы основаны на экстраградиентном методе с консенсусной процедурой. После каждого экстраградиентного шага они совершают несколько раундов общения. После достаточного количества сообщений достигается консенсус с желаемой точностью. Такое приближенное усреднение делает траектории вычислительных машин практически синхронизированными. Для каждого класса меняющихся во времени сетей мы используем соответствующую процедуру консенсуса и включаем ее в экстраградиентный метод, чтобы получить децентрализованный алгоритм оптимизации.

Ускоренный консенсус для графов со связным остовом и невосстанавливаемыми ребрами

Рассмотрим тип графов со связным остовом. Мы предполагаем, что все графы в последовательности имеют общий связный подграф, который мы называем связным остовом. Ребра по-прежнему могут появляться и исчезать, но каждая машина запоминает, какие инцидентные ей ребра хотя бы раз вышли из строя, и прекращает связь по этим направлениям. Эту стратегию мы называем невосстанавливаемые ребра. Фактически сеть связи только теряет ребра на каждой итерации, но остается связной. Другими словами, интересующую последовательность графов можно назвать “монотонно убывающей”.

Предположение 3 Последовательность графов $\{ {{\mathcal{G}}^{k}}\, = \,(\mathcal{V},{{\mathcal{E}}^{k}})\} _{{q = 0}}^{\infty }$ имеет связный остов: существует связный граф $\hat {\mathcal{G}}\, = \,(\mathcal{V},\hat {\mathcal{E}})$ такой, что для всех $k\, \in \,\mathbb{N}\, \cup \,\{ 0\} $ имеем $\hat {\mathcal{E}}\, \subset \,{{\mathcal{E}}^{k}}$, ${{\lambda }_{{{\text{max}}}}}({\mathbf{L}}({{\mathcal{G}}^{k}}))\;\leqslant \;{{\lambda }_{{{\text{max}}}}}$ и $\lambda _{{{\text{min}}}}^{ + }\,\leqslant \,\lambda _{{{\text{min}}}}^{ + }(\hat {\mathcal{G}})$.

Учитывая эти свойства сети, мы вводим следующий алгоритм консенсуса.

Algorithm 1. Ускоренный консенсус с невосстанавливаемыми ребрами (AccGossipNonRecoverable)

Вход: Векторы ${{z}_{1}}, \ldots ,{{z}_{M}}$, количество итераций H, текущий раунда связи ${{k}_{0}}$. Размеры шага $\eta ,\beta > 0$

  1: Построить вектор-столбец ${\mathbf{z}} = (z_{1}^{T} \ldots z_{M}^{T}{{)}^{T}}$

  2: Пусть u0 = z0 = z

  3: Каждая машина $i = 1,2, \ldots ,M$ инициализирует набор соседей ${{\mathcal{N}}_{i}} = \mathcal{N}_{i}^{{{{k}_{0}}}}$

  4: for $k = 0,1, \ldots ,H - 1$ do

  5:    for $i = 1,2, \ldots ,M$ do

  6:      Обновить набор машин, с которыми общается машина: ${{\mathcal{N}}_{i}} = {{\mathcal{N}}_{i}} \cap \mathcal{N}_{i}^{{{{k}_{0}} + k}}$

  7:      $u_{i}^{{k + 1}} = z_{i}^{k} - \eta \left( {{\text{|}}{{\mathcal{N}}_{i}}{\text{|}}z_{i}^{k} - \sum\limits_{j \in {{\mathcal{N}}_{i}}}^{} {z_{j}^{k}} } \right)$

  8:      $z_{i}^{{k + 1}} = (1 + \beta )u_{i}^{{k + 1}} - \beta u_{i}^{k}$

  9:    end for

  10: end for

  11: return $z_{1}^{H}, \ldots z_{M}^{H}$

Лемма 1 (Из доказательства теоремы 4.3 в [12]). Пусть предположение 3 выполнено и $\{ {{\hat {z}}_{M}}\} _{{m = 1}}^{M}$ будет выходом алгоритма 1 с входом $\{ {{z}_{m}}\} _{{m = 1}}^{M}$ и размеры шага $\eta = 1{\text{/}}{{\lambda }_{{\max }}}$, $\beta = (\sqrt \chi - 1){\text{/}}(\sqrt \chi + 1)$, где χ = = ${{\lambda }_{{\max }}}{\text{/}}\lambda _{{\min }}^{ + }$. Тогда после H итераций имеем следующее неравенство

(4)
$\frac{1}{M}\sum\limits_{m = 1}^M {\text{||}}{{\hat {z}}_{m}} - \bar {z}{\text{|}}{{{\text{|}}}^{2}}\;\leqslant \;\frac{{2\chi }}{M}{{\left( {1 - \frac{1}{{\sqrt \chi }}} \right)}^{H}}\sum\limits_{m = 1}^M {\text{||}}{{z}_{m}} - \bar {z}{\text{|}}{{{\text{|}}}^{2}},$
где $\bar {z} = \frac{1}{M}\sum\limits_{m = 1}^M {{{z}_{m}}} $.

На основе алгоритма 1 можно разработать децентрализованный алгоритм решения седловой задачи 1 с последовательностью графов, имеющих связный остов и невосстанавливаемые ребра.

Теорема 1. Пусть выполнены предположения 1 и 3. Пусть задача (1) решается алгоритмом 2 с $\gamma \;\leqslant \;\frac{1}{{4{{L}_{{\max }}}}}$. Тогда, чтобы достигать консенсуса с точностью ${{\varepsilon }_{0}}$ на каждой итерации, требуется

$\begin{gathered} H = \left( {\sqrt \chi \log \left[ {\chi \left( {4 + \frac{{\frac{1}{2}{\text{||}}{{z}^{0}} - z{\kern 1pt} *{\text{|}}{{{\text{|}}}^{2}} + \frac{{{{Q}^{2}}}}{{2L_{{\max }}^{2}}}}}{{\varepsilon _{0}^{2}}}} \right)} \right]} \right) \\ {\text{коммуникаций,}} \\ \end{gathered} $
где ${{Q}^{2}} = \frac{1}{M}\sum\limits_{m = 1}^M {{\text{||}}{{F}_{m}}(z{\kern 1pt} *){\text{|}}{{{\text{|}}}^{2}}} $ и z* является решением (1).

Доказательство. Пусть после k итераций достигнута точность консенсуса ${{\varepsilon }_{0}}$, т.е.

$\frac{1}{M}\sum\limits_{m = 1}^M {\text{||}}z_{m}^{k} - {{z}^{k}}{\text{|}}{{{\text{|}}}^{2}}\;\leqslant \;\varepsilon _{0}^{2}.$

Algorithm 2. Экстраградиентный метод на переменных сетях с невосстанавливаемыми ссылками

Вход: Размер шага $\gamma > 0$; количество AccGossipNonRecoverable шагов H, количество раундов коммуникации $K$, количество итераций N

1: Выбрать $({{x}^{0}},{{y}^{0}}) = {{z}^{0}} \in \mathcal{Z}$, $z_{m}^{0} = {{z}^{0}}$

2: for $k = 0,1,2, \ldots ,N - 1$ do

3:       Каждая машина m вычисляет $\hat {z}_{m}^{{k + 1/2}} = z_{m}^{k} - \gamma \cdot {{F}_{m}}(z_{m}^{k})$

4:       Коммуникация: $\tilde {z}_{1}^{{k + 1/2}}, \ldots ,\tilde {z}_{M}^{{k + 1/2}}$ = AccGossipNonRecoverable$(\hat {z}_{1}^{{k + 1/2}}, \ldots ,\hat {z}_{M}^{{k + 1/2}},H)$

5:       Каждая машина m вычисляет $z_{m}^{{k + 1/2}} = {\text{pro}}{{{\text{j}}}_{\mathcal{Z}}}(\tilde {z}_{m}^{{k + 1/2}}$)

6:       Каждая машина m вычисляет $\hat {z}_{m}^{{k + 1}} = z_{m}^{k} - \gamma \cdot {{F}_{m}}(z_{m}^{{k + 1/2}})$

7:       Коммуникация: $\tilde {z}_{1}^{{k + 1}}, \ldots ,\tilde {z}_{M}^{{k + 1}}$ = AccGossipNonRecoverable$(\hat {z}_{1}^{{k + 1}}, \ldots ,\hat {z}_{M}^{{k + 1}},H)$

8:       Каждая машина m вычисляет $z_{m}^{{k + 1}} = {\text{pro}}{{{\text{j}}}_{\mathcal{Z}}}(\tilde {z}_{m}^{{k + 1}})$

9: end for

Введем обозначения:

$g_{m}^{k} = {{F}_{m}}(z_{m}^{k}),\quad g_{m}^{{k + 1/2}} = {{F}_{m}}(z_{m}^{{k + 1/2}}),$
и

$\begin{gathered} {{z}^{k}} = \frac{1}{M}\sum\limits_{m = 1}^M z_{m}^{k},\quad {{z}^{{k + 1/2}}} = \frac{1}{M}\sum\limits_{m = 1}^M z_{m}^{{k + 1/2}}, \\ {{g}^{k}} = \frac{1}{M}\sum\limits_{m = 1}^M g_{m}^{k},\quad {{g}^{{k + 1/2}}} = \frac{1}{M}\sum\limits_{m = 1}^M g_{m}^{{k + 1/2}}, \\ \end{gathered} $
$\begin{gathered} {{{\hat {z}}}^{k}} = \frac{1}{M}\sum\limits_{m = 1}^M \hat {z}_{m}^{k},\quad {{{\hat {z}}}^{{k + 1/2}}} = \frac{1}{M}\sum\limits_{m = 1}^M \hat {z}_{m}^{{k + 1/2}}, \\ {{{\tilde {z}}}^{k}} = \frac{1}{M}\sum\limits_{m = 1}^M \tilde {z}_{m}^{k},\quad {{{\tilde {z}}}^{{k + 1/2}}} = \frac{1}{M}\sum\limits_{m = 1}^M \tilde {z}_{m}^{{k + 1/2}}. \\ \end{gathered} $

Имеем

$\frac{1}{M}\sum\limits_{m = 1}^M {\text{||}}g_{m}^{k} - {{g}^{k}}{\text{|}}{{{\text{|}}}^{2}}\;\leqslant \;\frac{1}{M}\sum\limits_{m = 1}^M {\text{||}}g_{m}^{k}{\text{|}}{{{\text{|}}}^{2}}.$

Пусть $T = 2\chi {{\left( {1 - \frac{1}{{\sqrt \chi }}} \right)}^{H}}$. Тогда

$\begin{gathered} \frac{1}{M}\sum\limits_{m = 1}^M {\text{||}}\tilde {z}_{m}^{{k + 1/2}} - {{{\tilde {z}}}^{{k + 1/2}}}{\text{|}}{{{\text{|}}}^{2}}\;\leqslant \;\frac{T}{M}\sum\limits_{m = 1}^M {\text{||}}\hat {z}_{m}^{{k + 1/2}} - {{{\hat {z}}}^{{k + 1/2}}}{\text{|}}{{{\text{|}}}^{2}} = \\ \, = \frac{T}{M}\sum\limits_{m = 1}^M {\text{||}}z_{m}^{k} - \gamma g_{m}^{k} - {{z}^{k}} - \gamma {{g}^{k}}{\text{|}}{{{\text{|}}}^{2}}\;\leqslant \\ \end{gathered} $
$\leqslant \;\frac{{2T}}{M}\sum\limits_{m = 1}^M {\text{||}}z_{m}^{k} - {{z}^{k}}{\text{|}}{{{\text{|}}}^{2}} + \frac{{2T{{\gamma }^{2}}}}{M}\sum\limits_{m = 1}^M {\text{||}}g_{m}^{k} - {{g}^{k}}{\text{|}}{{{\text{|}}}^{2}}\;\leqslant $
$\begin{gathered} \leqslant \;\frac{{2T}}{M}\sum\limits_{m = 1}^M {\text{||}}z_{m}^{k} - {{z}^{k}}{\text{|}}{{{\text{|}}}^{2}} + \frac{{2T{{\gamma }^{2}}}}{M}\sum\limits_{m = 1}^M {\text{||}}g_{m}^{k}{\text{|}}{{{\text{|}}}^{2}} = \\ = 2T\varepsilon _{0}^{2} + \frac{{2T{{\gamma }^{2}}}}{M}\sum\limits_{m - 1}^m {{\text{||}}g_{m}^{k}{\text{|}}{{{\text{|}}}^{2}}.} \\ \end{gathered} $

С другой стороны,

$\begin{gathered} \frac{1}{M}\sum\limits_{m = 1}^M {\text{||}}g_{m}^{k}{\text{|}}{{{\text{|}}}^{2}} = \frac{1}{M}\sum\limits_{m = 1}^M {\text{||}}{{F}_{m}}(z_{m}^{k}){\text{|}}{{{\text{|}}}^{2}}\;\leqslant \\ \leqslant \;\frac{2}{M}\sum\limits_{m = 1}^M {\text{||}}{{F}_{m}}(z_{m}^{k}) - {{F}_{m}}(z{\kern 1pt} *){\text{|}}{{{\text{|}}}^{2}} + \frac{2}{M}\sum\limits_{m = 1}^M {\text{||}}{{F}_{m}}(z{\kern 1pt} *){\text{|}}{{{\text{|}}}^{2}} \leqslant \\ \end{gathered} $
$\begin{gathered} \leqslant \;2L_{{\max }}^{2}{\text{||}}z_{m}^{k} - z{\kern 1pt} *{\text{|}}{{{\text{|}}}^{2}} + \frac{2}{M}\sum\limits_{m = 1}^M {\text{||}}{{F}_{m}}(z{\kern 1pt} *){\text{|}}{{{\text{|}}}^{2}}\;\leqslant \\ \leqslant \;2L_{{\max }}^{2}{\text{||}}z_{m}^{0} - z{\kern 1pt} *{\text{|}}{{{\text{|}}}^{2}} + \frac{2}{M}\sum\limits_{m = 1}^M {\text{||}}{{F}_{m}}(z{\kern 1pt} *){\text{|}}{{{\text{|}}}^{2}}. \\ \end{gathered} $

Пусть ${{Q}^{2}} = \frac{1}{M}\sum\limits_{m = 1}^M {{\text{||}}{{F}_{m}}(z{\kern 1pt} *){\text{|}}{{{\text{|}}}^{2}}} $, тогда имеем

$\begin{gathered} \frac{1}{M}\sum\limits_{m = 1}^M {\text{||}}z_{m}^{{k + 1/2}} - {{z}^{{k + 1/2}}}{\text{|}}{{{\text{|}}}^{2}} = \\ \, = \frac{1}{M}\sum\limits_{m = 1}^M {\text{||pro}}{{{\text{j}}}_{\mathcal{Z}}}\tilde {z}_{m}^{{k + 1/2}} - {\text{pro}}{{{\text{j}}}_{\mathcal{Z}}}{{{\tilde {z}}}^{{k + 1/2}}}{\text{|}}{{{\text{|}}}^{2}}\;\leqslant \\ \leqslant \;\frac{1}{M}\sum\limits_{m = 1}^M {\text{||}}\tilde {z}_{m}^{{k + 1/2}} - {{{\tilde {z}}}^{{k + 1/2}}}{\text{|}}{{{\text{|}}}^{2}}\;\leqslant \\ \end{gathered} $
$\begin{gathered} \leqslant \;2T(\varepsilon _{0}^{2} + 2{{\gamma }^{2}}(L_{{\max }}^{2}{\text{||}}z_{m}^{0} - z{\kern 1pt} *{\text{|}}{{{\text{|}}}^{2}} + {{Q}^{2}}))\;\leqslant \\ \leqslant \;2T\left( {\varepsilon _{0}^{2} + \frac{1}{8}{\text{||}}z_{m}^{0} - z{\kern 1pt} *{\text{|}}{{{\text{|}}}^{2}} + \frac{{{{Q}^{2}}}}{{8L_{{\max }}^{2}}}} \right) = \\ = \chi {{\left( {1 - \frac{1}{{\sqrt \chi }}} \right)}^{H}}\left( {4\varepsilon _{0}^{2} + \frac{1}{2}{\text{||}}{{z}^{0}} - z{\kern 1pt} *{\text{|}}{{{\text{|}}}^{2}} + \frac{{{{Q}^{2}}}}{{2L_{{\max }}^{2}}}} \right). \\ \end{gathered} $

Если положить

$H\; \geqslant \;\sqrt \chi \log \left[ {\chi \left( {4 + \frac{{\frac{1}{2}{\text{||}}{{z}^{0}} - z{\kern 1pt} *{\text{|}}{{{\text{|}}}^{2}} + \frac{{{{Q}^{2}}}}{{2L_{{\max }}^{2}}}}}{{\varepsilon _{0}^{2}}}} \right)} \right],$
то

$\frac{1}{M}\sum\limits_{m = 1}^M {\text{||}}z_{m}^{{k + 1/2}} - {{z}^{{k + 1/2}}}{\text{|}}{{{\text{|}}}^{2}}\;\leqslant \;\varepsilon _{0}^{2}.$

Аналогично получается точно такая же оценка для H, дающая

$\frac{1}{M}\sum\limits_{m = 1}^M {\text{||}}z_{m}^{{k + 1}} - {{z}^{{k + 1}}}{\text{|}}{{{\text{|}}}^{2}}\;\leqslant \;\varepsilon _{0}^{2}.$

Следовательно, для достижения точности ${{\varepsilon }_{0}}$, необходимо выполнить

$H = \mathcal{O}\left( {\sqrt \chi \log \left[ {\chi \left( {4 + \frac{{\frac{1}{2}{\text{||}}{{z}^{0}} - z{\kern 1pt} *{\text{|}}{{{\text{|}}}^{2}} + \frac{{{{Q}^{2}}}}{{2L_{{\max }}^{2}}}}}{{\varepsilon _{0}^{2}}}} \right)} \right]} \right)$

коммуникаций.

Теорема 2 (Теорема 6 в [3]). Пусть ${{\{ z_{m}^{k}\} }_{{k \geqslant 0}}}$ – итерации алгоритма 2 для решения задачи (1). Пусть выполняются предположения 1, 3. Тогда, если $\gamma \;\leqslant \;\frac{1}{{4{{L}_{{\max }}}}}$, имеем следующие оценки

${\text{||}}{{\bar {z}}^{N}} - z{\kern 1pt} *{\text{||}} = \mathcal{O}\left( {{\text{||}}{{z}^{0}} - z{\kern 1pt} *{\text{|}}{{{\text{|}}}^{2}}\exp \left( { - \frac{{\mu K}}{{8L \cdot H}}} \right)} \right).$

Следствие 2.1. В условиях теоремы 1 и теоремы 2, если $H = \mathcal{O}\left( {\sqrt \chi \log \chi \log (1{\text{/}}\varepsilon )} \right)$, тогда количество коммуникационных раундов, требующихся алгоритму 2 для достижения точности $\varepsilon $, ограничено сверху следующим выражением:

$\mathcal{O}\left( {\sqrt \chi \log \chi \frac{L}{\mu }\mathop {\log }\nolimits^2 \frac{1}{\varepsilon }} \right),$
и количество локальных вычислений на каждом устройстве не превосходит

$\mathcal{O}\left( {\frac{L}{\mu }\log \frac{1}{\varepsilon }} \right).$

Консенсус в сетях с марковскими изменениями

Данный раздел посвящен медленно меняющимся графам со случайными изменениями. На каждой итерации несколько случайно выбранных ребер появляются или исчезают. Выбор ребер зависит только от текущей топологии графа, поэтому последовательность графов является марковским процессом.

Введем предположения на переменный граф с марковскими изменениями.

Предположение 4. Коммуникационная сеть удовлетворяет следующим условиям.

1. $\{ {{W}^{k}}\} _{{k = 0}}^{\infty }$ является стационарной марковской цепью на $({{W}_{G}},{{W}_{\sigma }})$, где ${{W}_{G}}$ – набор всевозможных матриц коммуникации, ${{W}_{\sigma }}$$\sigma $-поле над ${{W}_{G}}$ и цепь $\{ {{W}^{k}}\} _{{k = 0}}^{\infty }$ имеет марковское ядро Q и единственное стационарное распределение $\pi $.

2. Q является равномерно геометрически эргодичным со временем перемешивания $\tau \in \mathbb{N}$, т.е. для каждого $m \in \mathbb{N}$,

$\begin{gathered} \Delta ({{Q}^{m}}) = \mathop {\sup }\limits_{W,W' \in {{W}_{G}}} (1{\text{/}}2){\text{||}}{{Q}^{m}}(W, \cdot ) - {{Q}^{m}}(W{\kern 1pt} ', \cdot ){\text{|}}{{{\text{|}}}_{{TV}}}\;\leqslant \\ \leqslant \;{{(1{\text{/}}4)}^{{\left\lfloor {m/\tau } \right\rfloor }}}. \\ \end{gathered} $

3. Для всех $k\, \in \,\mathbb{N}\, \cup \,\{ 0\} $ выполняется ${{\mathbb{E}}_{\pi }}[W(q)]\, = \,\bar {W}$ и $\bar {W}$ удовлетворяет предположению 2.

Обозначим ${{\lambda }_{{\max }}} = {{\lambda }_{{\max }}}(\bar {W})$, $\lambda _{{\min }}^{ + } = \lambda _{{\min }}^{ + }(\bar {W})$, $\chi = \frac{{{{\lambda }_{{\max }}}}}{{{{\lambda }_{{\min }}}}}$.

4. Для всякого графа $\mathcal{G}$ в последовательности сетей выполняется:

${\text{||}}W(\mathcal{G}) - \bar {W}{\text{||}}\, \leqslant \,\rho .$

Рассмотрим следующую задачу поиска консенсуса

(5)
$\begin{gathered} \mathop {\min }\limits_{{\mathbf{z}} \in {{\mathbb{R}}^{{M{{n}_{z}}}}}} \text{[}r({\mathbf{z}}) = {\text{||}}(\sqrt {\bar {W}} \otimes {{{\mathbf{I}}}_{{{{n}_{z}}}}}){\mathbf{z}}{\text{|}}{{{\text{|}}}^{2}}] \\ {\text{s}}{\text{.t}}{\text{.}}\;\;\sum\limits_{m = 1}^M {{z}_{m}} = \sum\limits_{m = 1}^M z_{m}^{0}, \\ \end{gathered} $
где ${\mathbf{z}} = (z_{1}^{T}, \ldots ,z_{M}^{T}{{)}^{T}}$.

Algorithm 3. Ускоренный консенсус для графов с марковскими изменениями (ACOGWMC)

Вход: Размер шага $\gamma > 0$, коэффициенты инерции $\theta ,\;\eta ,\;\beta ,\;p$, количество итераций $N$, предельный             размер батча $S$

1:       Выбрать $z_{f}^{0} = {{z}^{0}}$, ${{T}^{0}} = 0$, одинаково инициализировать генератор случайных чисел $\{ {{J}_{k}}\} $ на всех             устройствах

2:        for $k = 0,1, \ldots ,N - 1$ do

3:              $z_{g}^{k} = \theta z_{f}^{k} + (1 - \theta ){{z}^{k}}$

4:             Сгенерировать ${{J}_{k}} \sim {\text{Geom}}(1{\text{/}}2)$

5:             Разослать $z_{g}^{k}$ соседям в сетях $\{ {{\mathcal{G}}^{{{{T}^{k}} + i}}}\} _{{i = 1}}^{{{{2}^{{^{{{{J}_{k}}}}B}}}}}$

6:              Вычислим ${{g}^{k}} = g_{0}^{k} + \left( \begin{gathered} {{2}^{{{{J}_{k}}}}}(g_{{{{J}_{k}}}}^{k} - g_{{{{J}_{k}} - 1}}^{k}),\quad {\text{если}}\;{{2}^{{{{J}_{k}}}}}\;\leqslant \;S \hfill \\ 0,\quad {\text{иначе}} \hfill \\ \end{gathered} \right.$

             с $g_{j}^{k}{{ = 2}^{{ - j}}}{{B}^{{ - 1}}}\sum\limits_{i = 1}^{{{2}^{j}}B} {{{W}^{{{{T}^{k}} + i}}}z_{g}^{k}} $

7:              $z_{f}^{{k + 1}} = z_{g}^{k} - p\gamma {{g}^{k}}$

8:              ${{z}^{{k + 1}}} = \eta z_{f}^{{k + 1}} + (p - \eta )z_{f}^{k} + (1 - p)(1 - \beta ){{z}^{k}} + (1 - p)\beta z_{g}^{k}$

9:              ${{T}^{{k + 1}}} = {{T}^{k}} + {{2}^{{{{J}_{k}}}}}B$

10: end for

Теорема 3 (Теорема 1 из [11]). Пусть выполнены предположения 4. Пусть задача (5) решается алгоритмом 3. Тогда для любого $b \in \mathbb{N}$,

$\gamma \in \left( {0;\min \left\{ {\frac{3}{{4{{\lambda }_{{\max }}}}};\frac{{\lambda _{{\min }}^{3}}}{{{{{[1800{{\rho }^{2}}(\tau {{b}^{{ - 1}}} + {{\tau }^{2}}{{b}^{{ - 2}}})]}}^{2}}}}} \right\}} \right),$
и $\beta ,\;\theta ,\;\eta ,\;p,\;S,\;B$, удовлетворяющих
$\begin{gathered} p = \frac{1}{4},{\kern 1pt} \quad \beta = \sqrt {\frac{{4{{p}^{2}}\mu \gamma }}{3}} , \\ \eta = \frac{{3\beta }}{{p\mu \gamma }} = \sqrt {\frac{{12}}{{\mu \gamma }}} ,\quad \theta = \frac{{p{{\eta }^{{ - 1}}} - 1}}{{\beta p{{\eta }^{{ - 1}}} - 1}}, \\ \end{gathered} $
выполняется
$\begin{gathered} \mathbb{E}\left[ {{\text{||}}{{z}^{N}} - z{\kern 1pt} *{\text{|}}{{{\text{|}}}^{2}} + \frac{{24}}{{{{\lambda }_{{\min }}}}}(r(z_{f}^{N}) - r(z{\kern 1pt} *))} \right] = \\ \, = \mathcal{O}\left( {\exp \left( { - N\sqrt {\frac{{{{p}^{2}}{{\lambda }_{{\min }}}\gamma }}{3}} } \right)} \right. \times \\ \, = \left. {\left[ {{\text{||}}{{z}^{0}} - z{\kern 1pt} *{\text{|}}{{{\text{|}}}^{2}} + \frac{{24}}{{{{\lambda }_{{\min }}}}}(r({{z}^{0}}) - r(z{\kern 1pt} *))} \right]} \right), \\ \end{gathered} $
где $z_{M}^{*} = \frac{1}{M}\sum\limits_{i = 1}^M {{{z}_{i}}} $ для $m = 1, \ldots ,M$.

Следствие 3.1. В предположениях теоремы 3, если $b = \tau $ и $\gamma \simeq {\text{min}}\left\{ {\frac{1}{{{{\lambda }_{{{\text{max}}}}}}};\frac{{\lambda _{{{\text{min}}}}^{3}}}{{{{\rho }^{4}}}}} \right\}$, тогда для достижения решения с точностью $\varepsilon $ (в терминах $\mathbb{E}[{\text{||}}z - z{\kern 1pt} *{\text{|}}{{{\text{|}}}^{2}}] \lesssim \varepsilon $) требуется

$\begin{gathered} \tilde {\mathcal{O}}\left( {\tau \left[ {\sqrt \chi + \frac{{{{\rho }^{2}}}}{{\lambda _{{{\text{min}}}}^{2}}}\log \frac{1}{\varepsilon }} \right]} \right) \\ {\text{коммуникаций}}{\text{.}} \\ \end{gathered} $

Algorithm 4. Экстраградиентный метод на переменных сетях с марковскими изменениями

Вход: Размер шага $\gamma \;\leqslant \;\frac{1}{{4L}}$, количество ACOGWMC шагов $H$, количество итераций N

  1: Выбрать $({{x}^{0}},{{y}^{0}}) = {{z}^{0}} \in \mathcal{Z}$, $z_{m}^{0} = {{z}^{0}}$

  2: for k = 0, 1, 2, ..., N do

  3:  Каждая машина $m$ вычисляет $\hat {z}_{m}^{{k + 1/2}} = z_{m}^{k} - \gamma \cdot {{F}_{m}}(z_{m}^{k})$

  4:  Коммуникация: $\tilde {z}_{1}^{{k + 1/2}}, \ldots ,\tilde {z}_{M}^{{k + 1/2}}$ = ACOGWMC$(\hat {z}_{1}^{{k + 1/2}}, \ldots ,\hat {z}_{M}^{{k + 1/2}},H)$

  5:  Каждая машина m вычисляет $z_{m}^{{k + 1/2}} = {\text{pro}}{{{\text{j}}}_{\mathcal{Z}}}(\tilde {z}_{m}^{{k + 1/2}}$)

  6:  Каждая машина m вычисляет $\hat {z}_{m}^{{k + 1}} = z_{m}^{k} - \gamma \cdot {{F}_{m}}(z_{m}^{{k + 1}})$

  7:  Коммуникация: $\tilde {z}_{1}^{{k + 1}}, \ldots ,\tilde {z}_{M}^{{k + 1}}$ = ACOGWMC$(\hat {z}_{1}^{{k + 1}}, \ldots ,\hat {z}_{M}^{{k + 1}},H)$

  8:  Каждая машина m вычисляет $z_{m}^{{k + 1}} = {\text{pro}}{{{\text{j}}}_{\mathcal{Z}}}(\tilde {z}_{m}^{{k + 1}}$)

  9: end for

Теорема 4. Пусть выполнены предположения 1, 4. Пусть проблема (1) решается алгоритмом 4. Тогда, если $\gamma \,\leqslant \,\frac{1}{{4{{L}_{{\max }}}}}$ и H = $\mathcal{O}\left( {\tau \left[ {\sqrt \chi \, + \,\frac{{{{\rho }^{2}}}}{{\lambda _{{{\text{min}}}}^{2}}}{\text{log}}\frac{1}{\varepsilon }} \right]} \right)$, то для достижения $\varepsilon $-решения (такого что $\mathbb{E}[f(z)\, - \,f(z{\kern 1pt} *)]\, \lesssim \,\varepsilon $) требуется

$\begin{gathered} \tilde {\mathcal{O}}\left( {\tau \left[ {\sqrt \chi + \frac{{{{\rho }^{2}}}}{{\lambda _{{{\text{min}}}}^{2}}}} \right]\frac{L}{\mu }\;{\text{lo}}{{{\text{g}}}^{2}}\frac{1}{\varepsilon }} \right) \\ {\text{коммуникаций}}\;{\text{и}} \\ \end{gathered} $
$\begin{gathered} \mathcal{O}\left( {\frac{L}{\mu }\;{\text{log}}\frac{1}{\varepsilon }} \right)\;{\text{локальных}}\;{\text{вызовов}} \\ {\text{оракула}}\;{\text{на}}\;{\text{каждом}}\;{\text{узле}}{\text{.}} \\ \end{gathered} $

4. НИЖНИЕ ОЦЕНКИ

Предыдущий раздел был посвящен применению новых алгоритмов консенсуса для конкретных типов меняющихся сетей: сетей со связным остовом и графам, меняющимся по марковскому закону. В этом разделе мы покажем, что без конкретных ограничений на сети, таких как связный остов или марковские изменения, ускорение не достигается на медленно меняющихся графах общего вида, даже если ограничения на скорость изменений очень высоки. То есть при постоянных сетевых ограничениях, когда за итерацию изменяется не более постоянного числа ребер в сети, наихудшая зависимость от $\chi $ не может быть улучшена по сравнению с произвольно меняющимися сетями. В частности, мы показываем, что за итерацию достаточно изменить только два ребра.

Мы начнем с определения класса алгоритмов в модели черного ящика, на основе которого мы будем строить нижнюю оценку.

Определение 1. Алгоритм с T локальными итерациями и $K$ коммуникационных раундами, удовлетворяющими следующим свойствам, работающий в модели черного ящика, обозначается $BBP(T,K)$.

Каждый узел $m$ поддерживает локальную память с $\mathcal{M}_{m}^{x}$ и $\mathcal{M}_{m}^{y}$ для $x$- и $y$-переменных, которые инициализируются как $\mathcal{M}_{m}^{x} = \mathcal{M}_{m}^{y} = \{ 0\} $. $\mathcal{M}_{m}^{x}$ и $\mathcal{M}_{m}^{y}$ обновляются следующим образом:

$ \bullet $ Локальные вычисления: Каждый узел $m$ вычисляет и добавляет к своим $\mathcal{M}_{m}^{x}$ и $\mathcal{M}_{m}^{y}$ конечное число точек $x$, $y$, каждая из которых удовлетворяет

$\begin{gathered} x \in {\text{span}}\{ x{\kern 1pt} ',{{\nabla }_{x}}{{f}_{m}}(x{\kern 1pt} '{\kern 1pt} ',y{\kern 1pt} '{\kern 1pt} ')\} , \\ y \in {\text{span}}\{ y{\kern 1pt} ',{{\nabla }_{y}}{{f}_{m}}(x{\kern 1pt} '{\kern 1pt} ',y{\kern 1pt} '{\kern 1pt} ')\} , \\ \end{gathered} $

для данных $x{\kern 1pt} ',x{\kern 1pt} '{\kern 1pt} ' \in \mathcal{M}_{m}^{x}$ и $y{\kern 1pt} ',y{\kern 1pt} '{\kern 1pt} ' \in \mathcal{M}_{m}^{y}$.

$ \bullet $ Коммуникация: $\mathcal{M}_{m}^{x}$ и $\mathcal{M}_{m}^{y}$ обновляются следующим образом

$\mathcal{M}_{m}^{x}\,: = \,{\text{span}}\left\{ {\bigcup\limits_{(i,m) \in {{\mathcal{E}}^{k}}} \mathcal{M}_{i}^{x}} \right\},\quad \mathcal{M}_{m}^{y}\,: = \,{\text{span}}\left\{ {\bigcup\limits_{(i,m) \in {{\mathcal{E}}^{k}}} \mathcal{M}_{i}^{y}} \right\},$
где ${{\mathcal{G}}^{k}} = (\mathcal{V},{{\mathcal{E}}^{k}})$ – текущее состояние сети.

$ \bullet $ Выход: Окончательный глобальный результат в текущий момент времени рассчитывается как:

$\hat {x} \in span\left\{ {\bigcup\limits_{m = 1}^M \mathcal{M}_{m}^{x}} \right\},\quad \hat {y} \in {\text{span}}\left\{ {\bigcup\limits_{m = 1}^M \mathcal{M}_{m}^{y}} \right\}.$

Чтобы оценить нижнюю оценку распределенной минимаксной проблемы (1), нам нужно предоставить “плохую функцию” и “плохую последовательность графов”, такие, что никакой алгоритм не может решить задачу, используя меньше данного количества шагов. Используя меняющуюся сеть из [11] и целевую функцию из [20], мы можем доказать следующую теорему.

Теорема 5. Для любых $L > \mu > 0$ и любого $\chi \; \geqslant \;1$, существует децентрализованная распределенная седловая задача на $\mathcal{X} \times \mathcal{Y} = {{\mathbb{R}}^{n}} \times {{\mathbb{R}}^{n}}$ (где $n$ достаточно велико) с $x{\kern 1pt} *,y{\kern 1pt} * \ne 0$, последовательностью графов $\{ {{\mathcal{G}}^{k}} = (\mathcal{V},{{\mathcal{E}}^{k}})\} _{{k = 0}}^{\infty }$, где последовательные графов отличаются не более чем двумя ребрами, и последовательность соответствующих матриц коммуникации $\{ {{W}^{k}}\} _{{k = 0}}^{\infty }$ c числом обусловленности $\chi $, такие, что для любого выхода $\hat {x},\;\hat {y}$ после $K$ коммуникационных раундов любой процедуры $BBP(T,K)$ имеется следующая оценка:

$\begin{gathered} {\text{||}}\hat {x} - x{\kern 1pt} *{\text{|}}{{{\text{|}}}^{2}}\; + \;{\text{||}}\hat {y} - y{\kern 1pt} *{\text{|}}{{{\text{|}}}^{2}}\; \geqslant \\ \geqslant \;\Omega \left( {{\text{exp}}\left( { - \frac{{32\mu }}{{L - \mu }} \cdot \frac{K}{\chi }} \right){\text{||}}{{y}_{0}} - y{\kern 1pt} *{\text{|}}{{{\text{|}}}^{2}}} \right). \\ \end{gathered} $

Доказательство. Представим граф ${{T}_{{a,b}}}$ из [11]. Этот граф содержит два разбиения: левое и правое, эти разбиения состоят из a и b вершин соответственно. Каждая вершина в разбиении соединена со своим корнем. Эти корни соединены с другой вершиной, называемой центральным корнем.

Рассмотрим сеть с ${\text{|}}\mathcal{V}{\text{|}} = 2d + 3$ узлов ($d\; \geqslant \;2$). Мы выбираем узел в качестве центрального корня и два других узла в качестве левого и правого корней. Центральный корень может со временем меняться, но корни разбиения фиксированы. Также для каждого разбиения выбираем $\left[ {\frac{d}{2}} \right]$ фиксированных вершин и обозначаем их ${{\mathcal{V}}_{1}}$ (левое разбиение) и ${{\mathcal{V}}_{2}}$ (правое разбиение). На каждом коммуникационном раунде $k$, граф ${{\mathcal{G}}^{k}}$ имеет вид ${{T}_{{a,b}}}$, где $a + b = 2d$ и $a,b\; \geqslant \;\left[ {\frac{d}{2}} \right]$.

Коммуникационная сеть меняется поочередно в две фазы. Первая фаза начинается с графа ${{T}_{{2d - \left[ {\frac{d}{2}} \right],\left[ {\frac{d}{2}} \right]}}}$ и заканчивается графом ${{T}_{{\left[ {\frac{d}{2}} \right],2d - \left[ {\frac{d}{2}} \right]}}}$.

На каждой итерации центральный корень перемещается в правое разбиение, центральным корнем становится одна вершина из левого разбиения, но не в ${{\mathcal{V}}_{1}}$. Вторая фаза проходит по тому же принципу, но справа налево.

Мы модифицируем целевую функцию из раздела B.1 в [3] на основе нашего типа графов:

(6)
${{f}_{m}}(x,y) = \left( \begin{gathered} {{f}_{1}}(x,y) = \frac{M}{{2{\text{|}}{{\mathcal{V}}_{2}}{\text{|}}}} \cdot \frac{L}{2}{{x}^{T}}{{A}_{1}}y + \frac{\mu }{2}{\text{||}}x{\text{|}}{{{\text{|}}}^{2}} - \,\frac{\mu }{2}{\text{||}}y{\text{|}}{{{\text{|}}}^{2}} + \frac{M}{{2{\text{|}}{{\mathcal{V}}_{2}}{\text{|}}}} \cdot \frac{{{{L}^{2}}}}{{2\mu }}e_{1}^{T}y,\quad m \in {{\mathcal{V}}_{2}} \hfill \\ {{f}_{2}}(x,y) = \frac{M}{{2{\text{|}}{{\mathcal{V}}_{1}}{\text{|}}}} \cdot \frac{L}{2}{{x}^{T}}{{A}_{2}}y + \frac{\mu }{2}{\text{||}}x{\text{|}}{{{\text{|}}}^{2}} - \frac{\mu }{2}{\text{||}}y{\text{|}}{{{\text{|}}}^{2}},\quad m \in {{\mathcal{V}}_{1}} \hfill \\ {{f}_{3}}(x,y) = \frac{\mu }{2}\parallel x{{\parallel }^{2}} - \frac{\mu }{2}\parallel y{{\parallel }^{2}},\quad {\text{иначе}} \hfill \\ \end{gathered} \right.{\kern 1pt} .$
где ${{e}_{1}} = (1,0, \ldots ,0)$ и

${{A}_{1}} = \left( {\begin{array}{*{20}{c}} {}&1&0&{}&{}&{}&{}&{}&{}&{} \\ {}&{}&1&{ - 2}&{}&{}&{}&{}&{}&{} \\ {}&{}&{}&1&0&{}&{}&{}&{}&{} \\ {}&{}&{}&{}&1&{ - 2}&{}&{}&{}&{} \\ {}&{}&{}&{}&{}& \ldots & \ldots &{}&{}&{} \\ {}&{}&{}&{}&{}&{}&1&{ - 2}&{}&{} \\ {}&{}&{}&{}&{}&{}&{}&1&0&{} \\ {}&{}&{}&{}&{}&{}&{}&{}&1&{} \end{array}} \right),\quad {{A}_{2}} = \left( {\begin{array}{*{20}{c}} {}&1&{ - 2}&{}&{}&{}&{}&{}&{}&{} \\ {}&{}&1&0&{}&{}&{}&{}&{}&{} \\ {}&{}&{}&1&{ - 2}&{}&{}&{}&{}&{} \\ {}&{}&{}&{}&1&0&{}&{}&{}&{} \\ {}&{}&{}&{}&{}& \ldots & \ldots &{}&{}&{} \\ {}&{}&{}&{}&{}&{}&1&0&{}&{} \\ {}&{}&{}&{}&{}&{}&{}&1&{ - 2}&{} \\ {}&{}&{}&{}&{}&{}&{}&{}&1&{} \end{array}} \right).$

Рассмотрим задачу с глобальной целевой функцией:

$f(x,y): = \frac{1}{M}\sum\limits_{m = 1}^M {{f}_{m}}(x,y) = \frac{1}{M}({\text{|}}{{\mathcal{V}}_{2}}{\text{|}} \cdot {{f}_{1}}(x,y) + $
(7)
$\begin{gathered} + \;{\text{|}}{{\mathcal{V}}_{1}}{\text{|}} \cdot {{f}_{2}}(x,y) + (M - \;{\text{|}}{{\mathcal{V}}_{1}}{\text{|}}\; - \;{\text{|}}{{\mathcal{V}}_{2}}{\text{|}}) \cdot {{f}_{3}}(x,y) = \\ = \frac{L}{2}{{x}^{T}}Ay + \frac{\mu }{2}{\text{||}}x{\text{|}}{{{\text{|}}}^{2}} - \frac{\mu }{2}{\text{||}}y{\text{|}}{{{\text{|}}}^{2}} + \frac{{{{L}^{2}}}}{{4\mu }}e_{1}^{T}y, \\ \end{gathered} $
${\text{где}}\quad A = \frac{1}{2}({{A}_{1}} + {{A}_{2}}).$

Мы оцениваем количество коммуникационных раундов, необходимых для получения нового ненулевого элемента в локальной памяти, используя следующую лемму.

Лемма 2. Пусть задача (1) решается некоторым алгоритмом $BBP(T,K)$. Тогда после K коммуникаций не более $\left\lfloor {\frac{K}{d}} \right\rfloor $ первых координат выхода алгоритма могут быть ненулевыми, в то время как оставшиеся $n - \left\lfloor {\frac{K}{d}} \right\rfloor $ координат строго равны нулю.

Доказательство. Заметим, что новая ненулевая координата появляется, только когда информация доходит от вершин ${{\mathcal{V}}_{1}}$ до вершин ${{\mathcal{V}}_{2}}$ и происходит градиентный шаг на одной из вершин ${{\mathcal{V}}_{2}}$ (или в обратном направлении). После каждого такого распространения информации добавляется не более одной координаты.

Между двумя последовательными коммуникационными раундами только узлы из ${{\mathcal{V}}_{1}}$ и ${{\mathcal{V}}_{2}}$ могут добавлять в свою локальную память новую ненулевую координату, но в этом интервале два узла из ${{\mathcal{V}}_{1}}$ и ${{\mathcal{V}}_{2}}$ не могут выполнять одновременно. Более того, между двумя раундами связи можно добавить не более одной новой ненулевой координаты (подробнее см. [3]).

Следовательно, нам постоянно приходится передавать информацию из множества узлов ${{\mathcal{V}}_{1}}$ в ${{\mathcal{V}}_{2}}$ и обратно, чтобы получить новые ненулевые координаты. Для каждой новой ненулевой координаты нам нужно хотя бы одно локальное вычисление. Таким образом, требуется $T > K$. Из [11] мы знаем, что каждая передача требуется как минимум $d$ коммуникационных раундов. Таким образом, после K коммуникационных раундов не более первых $\left\lfloor {\frac{K}{d}} \right\rfloor $ координат выхода алгоритма могут быть ненулевыми.

Следующие вспомогательные леммы позволяют получить нижние оценки сложности.

Лемма 3 (Лемма 4 из [3].) Пусть $\alpha = \frac{{4{{\mu }^{2}}}}{{{{L}^{2}}}}$ и q = = $\frac{1}{2}(2 + \alpha - \sqrt {{{\alpha }^{2}} + 4\alpha } ) \in (0;1)$ – меньший корень уравнения ${{q}^{2}} - (2 + \alpha )q + 1 = 0$. Также введем $\bar {y}{\kern 1pt} *$

$\bar {y}_{i}^{*} = \frac{{{{q}^{i}}}}{{1 - q}}.$

Тогда ошибка между аппроксимацией и реальным решением задачи (7) может быть ограничена как

${\text{||}}\bar {y}{\kern 1pt} *\; - y{\kern 1pt} *{\text{||}}\;\leqslant \;\frac{{{{q}^{{n + 1}}}}}{{\alpha (1 - q)}}.$

Лемма 4 (Лемма 5 из [3]). Рассмотрим распределенную седловую задачу вида (6), (7) с последовательностью графов $\{ {{\mathcal{G}}_{k}} = (\mathcal{V},{{\mathcal{E}}_{k}})\} _{{k = 0}}^{\infty }$ и соответствующей последовательностью матриц коммуникации $\{ W({{\mathcal{G}}_{k}})\} _{{k = 0}}^{\infty }$. Для всех пар $T,K(T > K)$ можно показать, что размер задачи $n\, \geqslant \,{\text{max}}\left\{ {2{\text{lo}}{{{\text{g}}}_{q}}\left( {\frac{\alpha }{{4\sqrt 2 }}} \right),2K} \right\}$, где $\alpha = \frac{{4{{\mu }^{2}}}}{{{{L}^{2}}}}$ и q = $\frac{1}{2}(2 + \alpha - \sqrt {{{\alpha }^{2}} + 4\alpha } ) \in (0;1)$. Тогда для всякой пары $\hat {x},\;\hat {y}$, выданной некоторым алгоритмом ${\mathbf{BBP}}(T,K)$ после K коммуникационных раундов и $T$ локальных вычислений, выполняется

${\text{||}}\hat {x} - x{\kern 1pt} *{\text{|}}{{{\text{|}}}^{2}}\; + \;{\text{||}}\hat {y} - y{\kern 1pt} *{\text{|}}{{{\text{|}}}^{2}}\; \geqslant \;{{q}^{{\frac{{2K}}{d}}}}\frac{{{\text{||}}{{y}_{0}} - y{\kern 1pt} *{\text{|}}{{{\text{|}}}^{2}}}}{{16}}.$

Используя результаты доказательства из утверждения 3.6 из [20], получаем

${\text{ln}}(q)\; \geqslant \;\frac{{q - 1}}{q} = \frac{2}{{1 - \sqrt {\frac{{{{L}^{2}}}}{{{{\mu }^{2}}}} + 1} }}\; \geqslant \;\frac{2}{{1 - \frac{L}{\mu }}} = \frac{{ - 2\mu }}{{L - \mu }}.$

Каждому графу в нашей последовательности сопоставим взвешенный лапласиан из леммы 8 в [11], так что $\chi \;\leqslant \;8d$. Имеем

${\text{ln}}(q) \cdot \frac{{2K}}{d}\; \geqslant \;\frac{{ - 4\mu }}{{L - \mu }} \cdot \frac{K}{d}\; \geqslant \;\frac{{ - 32\mu }}{{L - \mu }} \cdot \frac{K}{\chi }.$

Далее, получаем

${{q}^{{\frac{{2K}}{d}}}} = {\text{exp}}\left( {{\text{ln}}(q) \cdot \frac{{2K}}{d}} \right)\; \geqslant \;{\text{exp}}\left( {\frac{{ - 32\mu }}{{L - \mu }} \cdot \frac{K}{\chi }} \right).$

Таким образом,

$\begin{gathered} {\text{||}}\hat {x} - x{\kern 1pt} *{\text{|}}{{{\text{|}}}^{2}}\; + \;{\text{||}}\hat {y} - y{\kern 1pt} *{\text{|}}{{{\text{|}}}^{2}} = \\ \, = \Omega \left( {{\text{exp}}\left( { - \frac{{32\mu }}{{L - \mu }} \cdot \frac{K}{\chi }} \right){\text{||}}{{y}_{0}} - y{\kern 1pt} *{\text{|}}{{{\text{|}}}^{2}}} \right). \\ \end{gathered} $

Следствие 5.1. Для достижения точности $\varepsilon $ в условиях теоремы 5, количество коммуникационных раундов ограничено снизу величиной

$\Omega \left( {\chi \frac{L}{\mu } \cdot {\text{log}}\left( {\frac{{{\text{||}}y{\kern 1pt} *{\text{|}}{{{\text{|}}}^{2}}}}{\varepsilon }} \right)} \right),$
а количество локальных вызовов оракула ограничено снизу величиной

$\Omega \left( {\frac{L}{\mu } \cdot {\text{log}}\left( {\frac{{{\text{||}}y{\kern 1pt} *{\text{|}}{{{\text{|}}}^{2}}}}{\varepsilon }} \right)} \right).$

5. ЗАКЛЮЧЕНИЕ

В статье изучались децентрализованные минимаксные задачи на медленно меняющихся сетях. Мы показали, что если изменения графа враждебны и меняется константное число ребер на каждой итерации, то нижние оценки сложности совпадают с произвольными переменными сетями. Более того, мы показали, что для определенного класса переменных графов – сетей со связным остовом и сетей с марковскими изменениями – возможно ускорение коммуникационной процедуры. Были предложены соответствующие алгоритмы для седловых задач для данных двух классов сетей.

ИСТОЧНИК ФИНАНСИРОВАНИЯ

Исследование выполнено за счет гранта Российского научного фонда (проект № 23-11-00229), https://rscf.ru/project/23-11-00229/.

Список литературы

  1. Bazerque J.A., Giannakis G.B. Distributed spectrum sensing for cognitive radio networks by exploiting sparsity. IEEE Transactions on Signal Processing. 2009. V. 58. № 3. P. 1847–1862.

  2. Beznosikov A., Rogozin A., Kovalev D., Gasnikov A. Near-optimal decentralized algorithms for saddle point problems over time-varying networks. In International Conference on Optimization and Applications, pages 246–257. Springer, 2021.

  3. Beznosikov A., Samokhin V., Gasnikov A. Distributed saddle-point problems: Lower bounds, near-optimal and robust algorithms. arXiv preprint arXiv:2010.13112, 2020.

  4. Beznosikov A., Samokhin V., Gasnikov A. Distributed saddle-point problems: Lower bounds, optimal algorithms and federated gans. arXiv preprint arXiv:2010.13112, 2021.

  5. Forero P.A., Cano A., Giannakis G.B. Consensus-based distributed support vector machines. Journal of Machine Learning Research. 2010. V. 11. № 5.

  6. Gan L., Topcu U., Low S.H. Optimal decentralized protocol for electric vehicle charging. IEEE Transactions on Power Systems. 2012. V. 28. № 2. P. 940–951.

  7. Kovalev D., Beznosikov A., Sadiev A., Persiianov M., Richt’arik P., Gasnikov A. Optimal algorithms for decentralized stochastic variational inequalities. Advances in Neural Information Processing Systems. 2022. V. 35. P. 31073–31088.

  8. Kovalev D., Gasanov E., Gasnikov A., Richtarik P. Lower bounds and optimal algorithms for smooth and strongly convex decentralized optimization over time-varying networks. Advances in Neural Information Processing Systems. 2021. V. 34.

  9. Kovalev D., Salim A., Richt’arik P. Optimal and practical algorithms for smooth and strongly convex decentralized optimization. Advances in Neural Information Processing Systems. 2020. V. 33.

  10. Kovalev D., Shulgin E., Richt’arik P., Rogozin A., Gasnikov A. Adom: Accelerated decentralized optimization method for time-varying networks. arXiv preprint arXiv:2102.09234, 2021.

  11. Metelev D., Beznosikov A., Rogozin A., Gasnikov A., Proskurnikov A. Decentralized optimization over slowly time-varying graphs: Algorithms and lower bounds. arXiv preprint arXiv:2307.12562, 2023.

  12. Metelev D., Rogozin A., Kovalev D., Gasnikov A. Is consensus acceleration possible in decentralized optimization over slowly time-varying networks? In International Conference on Machine Learning. PMLR, 2023. P. 24532–24554.

  13. Nedic A. Distributed gradient methods for convex machine learning problems in networks: Distributed optimization. IEEE Signal Processing Magazine. 2020. V. 37. № 3. P. 92–101.

  14. Nedi’c A., Olshevsky A., Uribe C.A. Fast convergence rates for distributed non-bayesian learning. IEEE Transactions on Automatic Control. 2017. V. 62. № 11. P. 5538–5553.

  15. Nedic A., Ozdaglar A. Cooperative distributed multi-agent optimization. Convex optimization in signal processing and communications. 2010. V. 340.

  16. Rabbat M., Nowak R. Distributed optimization in sensor networks. In Proceedings of the 3rd international symposium on Information processing in sensor networks. 2004. P. 20–27.

  17. Ram S.S., Veeravalli V.V., Nedic A. Distributed non-autonomous power control through distributed convex optimization. In IEEE INFOCOM 2009, IEEE, 2009. P. 3001–3005.

  18. Ren W., Beard R.W. Distributed consensus in multi-vehicle cooperative control, V. 27. Springer, 2008.

  19. Scaman K., Bach F., Bubeck S., Lee Y.T., Massouli’e L. Optimal algorithms for smooth and strongly convex distributed optimization in networks. In Proceedings of the 34th International Conference on Machine Learning-Volume 70, JMLR. org, 2017. P. 3027–3036.

  20. Zhang J., Hong M., Zhang S. On lower iteration complexity bounds for the saddle point problems. arXiv preprint arXiv:1912.07481, 2019.

Дополнительные материалы отсутствуют.

Инструменты

Доклады Российской академии наук. Математика, информатика, процессы управления