Автоматика и телемеханика, № 9, 2019
© 2019 г. А.В. НАЗИН, д-р физ.-мат. наук (nazine@ipu.ru)
(Институт проблем управления им. В.А. Трапезникова РАН, Москва),
А.С. НЕМИРОВСКИЙ, д-р физ.-мат. наук (nemirovs@isye.gatech.edu)
(ISyE, Технологический институт Джорджии, Атланта, США),
А.Б. ЦЫБАКОВ, д-р физ.-мат. наук (alexandre.tsybakov@ensae.fr)
(CREST, ENSAE, Франция),
А.Б. ЮДИЦКИЙ, канд. техн. наук (anatoli.juditsky@univ-grenoble-alpes.fr)
(LJK, Университет Гренобль Альпы, Гренобль, Франция)
АЛГОРИТМЫ РОБАСТНОЙ СТОХАСТИЧЕСКОЙ ОПТИМИЗАЦИИ
НА ОСНОВЕ МЕТОДА ЗЕРКАЛЬНОГО СПУСКА1
Предлагается подход к построению робастных неевклидовых итератив-
ных алгоритмов выпуклой композитной стохастической оптимизации, ос-
нованный на усечении стохастических градиентов. Для таких алгорит-
мов устанавливаются субгауссовские доверительные границы точности
при слабых предположениях о хвостах распределения шума в выпуклой
и сильно выпуклой постановках. Также предлагаются робастные оценки
точности стохастических алгоритмов общего вида.
Ключевые слова: робастные итеративные алгоритмы, алгоритмы стоха-
стической оптимизации, выпуклая композитная стохастическая оптими-
зация, метод зеркального спуска, робастные доверительные множества.
DOI: 10.1134/S000523101909006X
1. Введение
В данной статье рассматривается задача выпуклой композитной стоха-
стической оптимизации
(1)
min
F (x), F (x) = E{Φ(x, ω)} + ψ(x),
x∈X
где X — компактное выпуклое подмножество конечномерного векторного
пространства E с нормой ∥ · ∥, ω — случайная переменная на вероятностном
пространстве Ω с распределением P , функция ψ выпуклая и непрерывная,
а функция Φ : X × Ω R. Предполагается, что математическое ожидание
φ(x) := E{Φ(x, ω)} = Φ(x, ω)dP (ω)
Ω
1 Работа А.Б. Юдицкого поддержана грантом PGMO
2016-2032H и совместно
А.Б. Юдицкого с А.С. Немировским — грантом NSF CCF-1523768. Работа А.В. Назина
поддержана Российским научным фондом (грант №16-11-10015). Работа А.Б. Цыбакова
поддержана институтом GENES и грантом Labex Ecodec (ANR-11-LABEX-0047).
64
конечно при всех x ∈ X и является выпуклой и дифференцируемой функцией
от x. При этих предположениях задача (1) имеет решение с оптимальным
значением F = minx∈X F (x).
Предполагается, что доступен механизм (оракул), который для заданной
на входе точки (x, ω) ∈ X × Ω возвращает случайный градиент — вектор
G(x, ω), удовлетворяющий условиям
{
}
(2)
E{G(x, ω)} = ∇φ(x) и E
∥G(x, ω) - ∇φ(x)2
σ2
,
∀x∈X,
где ∥ · ∥ — сопряженная норма к ∥ · ∥, а σ > 0 — некоторая постоянная. Цель
данной работы состоит в построении (1 - α)-надежных приближенных реше-
ний задачи (1), т.е. решений xN , основанных на N вызовах стохастического
оракула и удовлетворяющих условию
(3)
Prob{F(xN ) - F δN
(α)} 1 - α,
∀α ∈ (0,1),
с насколько возможно малым δN (α) > 0.
Заметим, что задачи стохастической оптимизации типа (1) возникают в
контексте минимизации пенализованного риска, где доверительные грани-
цы (3) напрямую преобразуются в доверительные границы для точности по-
лучаемых оценок. В этой статье отыскиваются границы (3) с δN (α) порядка
ln(1)/N . Такие границы часто называют субгауссовскими доверитель-
ными границами. Стандартные результаты о субгауссовских доверительных
границах для алгоритмов стохастической оптимизации предполагают конеч-
ность экспоненциальных или субэкспоненциальных моментов стохастическо-
го шума оракула G(x, ω)- ∇φ(x) (ср. [1-3]). В настоящей работе строятся ро-
бастные стохастические алгоритмы, которые удовлетворяют субгауссовским
границам типа (3) при существенно менее ограничительном условии (2).
Напомним, что понятие робастности процедур принятия статистических
решений было введено Дж. Тьюки [4] и П. Хубером [5-7] в 1960-е гг., что по-
служило основой для последующей разработки робастных алгоритмов стоха-
стической аппроксимации. В частности, в 1970-1980-х гг. алгоритмы, устой-
чивые к широким классам распределений шумов, были предложены для
задач стохастической оптимизации и параметрической идентификации. Их
асимптотические (с ростом размера выборки) свойства были хорошо изучены,
см., например, [8-16] и ссылки в них. Важный вклад в развитие робастного
подхода внес Я.З. Цыпкин. Так, исследованию итеративных алгоритмов ро-
бастной идентификации уделено значительное место в монографиях [17, 18].
Интерес к проблематике робастного оценивания возобновился в 2010-х
гг. в связи с необходимостью разработки статистических процедур, устойчи-
вых к шумам с тяжелыми хвостами в задачах большой размерности. Неко-
торые недавние работы [19-29] связаны с развитием метода медианы сред-
них (median-of-means) [30] для построения оценок, удовлетворющих субгаус-
совским доверительным границам при шумах с тяжелыми хвостами. Так,
в [27] была использована процедура median-of-means для построения (1 - α)-
надежной версии стохастической аппроксимации с усреднением (“пакетного”
алгоритма) в постановке стохастической оптимизации, подобной (1). Были
65
разработаны и другие оригинальные подходы [31-35], в частности, исполь-
зующие геометрическую медиану для робастной оценки сигналов и ковариа-
ционных матриц с субгауссовыми гарантиями [34, 35]. Также возобновился
интерес к робастным итеративным алгоритмам. Так, было показано, что ро-
бастность алгоритмов стохастической аппроксимации может быть повыше-
на за счет использования геометрической медианы стохастических градиен-
тов [36, 37]. Другой вариант процедуры стохастическoй аппроксимации для
вычисления геометрической медианы был изучен в [38, 39], где особая струк-
тура задачи — ограниченность стохастических градиентов — позволила по-
строить (1 - α)-надежные оценки при чрезвычайно слабом предположении о
хвостах распределения шума.
В настоящей статье рассматривается подход к построению робастных сто-
хастических алгоритмов методом усечения стохастических градиентов. По-
казывается, что этот метод удовлетворяет субгауссовским доверительным
границам. В разделах 2 и 3 определяются основные компоненты рассмат-
риваемой задачи оптимизации. В разделе 4 дается определение алгоритма
робастного стохастического зеркального спуска и для него устанавливаются
доверительные границы. В разделе 5 строятся робастные оценки точности
для стохастических алгоритмов общего вида. Наконец, в разделе 6 устанав-
ливаются робастные доверительные границы для задач, в которых F име-
ет квадратичный рост. Приложение содержит доказательства утверждений
статьи.
2. Обозначения и определения
Пусть E — конечномерное вещественное векторное пространство с нор-
мой ∥ · ∥, а E — сопряженное к E пространство. Обозначим через 〈s, x〉
значение линейной функции s ∈ E в точке x ∈ E и через ∥ · ∥ сопряженную
к ∥ · ∥ норму на E, т.е.
∥s∥ = max{〈s, x〉 : ∥x∥ 1}, s ∈ E.
x
Рассмотрим непрерывную выпуклую функцию θ : B → R на единичном шаре
B = {x ∈ E : ∥x∥ 1},
обладающую следующим свойством:
7
8
(4)
θ(x) - θ(x),x - x
∥x - x2,
∀x,x
∈ B,
где θ(·) — непрерывная в Bo = {x ∈ B : ∂θ(x) = ∅} версия субградиента θ(·),
а ∂θ(x) — субдифференциал функции θ(·) в точке x, т.е. множество всех суб-
градиентов в данной точке. Иными словами, функция θ(·) сильно выпукла
на B с коэффициентом 1 относительно нормы ∥ · ∥. Будем называть θ(·) нор-
мализованной прокс-функцией. Примерами таких функций являются:
1
• θ(x) =
∥x∥22 для (E, ∥ · ∥) = (Rn, ∥ · ∥2);
2
1
• θ(x) = 2e(ln n)∥x∥p при p = p(n) := 1 +
для (E, ∥ · ∥) = (Rn, ∥ · ∥1);
2 ln n
66
• θ(x) = 4e(ln n)
i(x)|p при p = p(n), для E = Sn, где Sn — пространство
i=1
симметричных n × n матриц, оснащенное ядерной нормой ∥x∥ =
i(x)|,
i=1
а λi(x) — собственные значения матрицы x.
Здесь и далее через ∥ · ∥p обозначаетсяp-норма в Rn, p 1. Без ограничения
общности, будем предполагать в дальнейшем, что
0 = arg min θ(x).
x∈B
Введем также обозначение
1
Θ = maxθ(x) - minθ(x)
x∈B
x∈B
2
Пусть теперь X — выпуклое компактное подмножество в E, и пусть x0 ∈ X
и R > 0 таковы, что maxx∈X ∥x - x0R. Снабдим X прокс-функцией
)
(x-x0
ϑ(x) = R2θ
R
Обратим внимание, что ϑ(·) сильно выпукла с коэффициентом 1 и
maxϑ(x) - min ϑ(x) R2Θ.
x∈X
x∈X
Пусть D := max ∥x - x — диаметр множества X. Тогда D 2R.
x,x∈X
Далее также понадобится расхождение Брегмана
Vx(z) = ϑ(z) - ϑ(x) - 〈ϑ(x),z - x〉,
∀z,x ∈ X.
В дальнейшем через C и C обозначаются положительные числовые констан-
ты, не обязательно одинаковые в различных случаях.
3. Предположения
Рассмотрим выпуклую стохастическую композитную задачу оптимиза-
ции (1) на выпуклом компактном множестве X ⊂ E. В дальнейшем пред-
полагается, что функция
φ(x) = E{Φ(x, ω)}
выпукла на X, дифференцируема в каждой точке множества X и ее градиент
удовлетворяет условию Липшица
(5)
∥∇φ(x) - ∇φ(x) L∥x - x∥,
∀ x,x
∈ X.
Предположим также, что функция ψ является выпуклой и непрерывной. Да-
лее предположим, что доступен стохастический оракул, который, имея на
67
входе точку (x, ω) ∈ X × Ω, возвращает случайный вектор G(x, ω), удовле-
творяющий условиям (2). Кроме того, предполагается, что при любых a ∈ E
и β > 0 доступно точное решение задачи на минимум
min {〈a, z〉 + ψ(z) + βϑ(z)} .
z∈X
Это предположение выполняется для типичных штрафных функций ψ, та-
ких как выпуклые степенные функции отp-нормы (если X — выпуклый
компакт в Rn) или отрицательная энтропия ψ(x) = κ xj ln xj , где k > 0 и
j=1
0 · ln0 = 0 (если X — стандартный симплекс в Rn). Наконец, предполагается,
что доступен вектор g(x), где x ∈ X — некоторая точка в X, такой что
(6)
∥g(x) - ∇φ(x)
υσ,
где υ 0 — некоторая постоянная. Это предположение мотивируется следую-
щим образом.
Во-первых, если априори известно, что глобальный минимум функции φ
достигается во внутренней точке xφ множества X (что часто имеет место в
статистических приложениях стохастической оптимизации), имеем ∇φ(xφ) =
= 0. Поэтому, выбирая x = xφ, можно положить g(x) = 0, и предположе-
ние (6) автоматически выполнено с υ = 0.
Во-вторых, в общей ситуации можно взять в качестве x произвольную точ-
ку множества X и в качестве g(x) геометрическую медиану стохастических
градиентов G(x, ωi(, i =)1, . . . , m, по m вызовам оракула. Из [34] следует, что
если m порядка ln
ε-1
при некотором достаточно малом ε > 0, то
(7)
Prob{∥g(x) - ∇φ(x)
> υσ} ε.
Таким образом, доверительные границы, полученные ниже, останутся в силе
с точностью до поправки ε в вероятности уклонений.
4. Границы точности алгоритма РСЗС
Далее везде считается, что выполнены предположения, сформулирован-
ные в разделе 3. Введем композитное проксимальное преобразование
{
}
Proxβ,x(ξ) := arg min
〈ξ, z〉 + ψ(z) + βVx(z)
=
z∈X
{
}
(8)
= arg min
〈ξ - βϑ(x), z〉 + ψ(z) + βϑ(z)
,
z∈X
где β > 0 — параметр настройки.
Для i = 1, 2, . . . определим алгоритм Робастного Стохастического Зер-
кального Спуска (РСЗС) следующими рекуррентными соотношениями:
(9)
xi = Proxβi-1,xi-1(yi), x0
∈ X,
{G(xi-1, ωi), если ∥G(xi-1, ωi) - g(x) L∥x - xi-1 + λ + υσ,
(10)
yi =
g(x)
в противном случае.
68
Здесь βi > 0, i = 0, 1, . . ., и λ > 0 — параметры настройки, которые будут
определены ниже, а ω1, ω2, . . .
— независимые одинаково распределенные
(н.о.р.) реализации случайной величины ω, соответствующие вызовам ора-
кула на каждом шаге алгоритма.
Приближенное решение задачи (1) после N итераций определим как взве-
шенное среднее
[
]-1
(11)
β-1
β-1i-1xi.
xN =
i-1
i=1
i=1
В случае, когда глобальный минимум φ достигается во внутренней точке X
и υ = 0, определение (10) упрощается. В этом случае, заменяя ∥x - xi-1 на
верхнюю границу D и полагая υ = 0 и g(x) = 0 в (10), усеченный стохастиче-
ский градиент вычисляем по формуле
{G(xi-1, ωi), если ∥G(xi-1, ωi) LD + λ,
yi =
0
в противном случае.
Следующее утверждение описывает некоторые полезные свойства рекур-
сии зеркального спуска (9). Обозначим:
ξi = yi - ∇φ(xi-1)
и
1
(12)
ε(xN , z) =
β-1i-1[〈∇φ(xi-1),xi - z〉 + ψ(xi) - ψ(z)] +
Vxi-1(xi
),
2
i=1
где xN = (x0, . . . , xN ).
Предложение 1. Пусть βi2L при всех i = 0,1,... и пусть xN опре-
делено в (11), где xi - итерации (9) при любом yi, не обязательно заданным
соотношением (10). Тогда для любого z ∈ X имеем
[
]
β-1
[F (xN ) - F (z)]
β-1i-1[F(xi) - F(z)] ε(xN ,z)
i-1
i=1
i=1
]
[ 〈ξi, z - xi-1
∥ξi2
(13)
Vx0(z) +
+
βi-1
β2
i=1
i-1
]
[ 〈ξi, zi-1 - xi-1
3 ∥ξi2
(14)
2Vx0 (z) +
+
,
βi-1
2 β2
i-1
i=1
где zi - случайный вектор со значениями в X, зависящий только от
x01,... ,ξi.
69
Используя предложение 1, получим следующие границы для математическо-
го ожидания ошибки F (xN ) - F приближенного решения задачи (1), ос-
нованного на алгоритме РСЗС. В дальнейшем будем обозначать через E{·}
математическое ожидание по распределению ωN = (ω1, . . . , ωN ) Ω⊗N .
Следствие 1. Обозначим: M = LR. Пусть λ max{M,σ
N}+υσ и
βi 2L при всех i = 0,1,... Пусть xN - приближенное решение (11), где
xi - итерации РСЗС, определяемые соотношениями (9) и (10). Тогда
[
]-1 [
(
)]
2
4σ2
(15)
E{F (xN )} - F
β-1
R2Θ +
+
i-1
βi-1
N
β2
i=1
i=1
i-1
В частности, если βi
β при всех i = 0,1,..., где
{
}
σ
N
(16)
β = max
2L,
,
R
Θ
то выполняются неравенства
{
}
{
}
β
LR2Θ
σR
Θ
(17)
E{F (xN )} - F
E sup
ε(xN , z)
C max
,
N
z∈X
N
N
Более того, в этом случае неравенство с явными константами имеет вид
{
}
2LR2Θ
4(1 +
Θ)
2(1 + 4
Θ)
E{F (xN )} - F max
+
,
N
N
N
Из этого результата видно, что если порог усечения λ достаточно велик,
то математическое ожидание ошибки предложенного алгоритма оценивает-
ся аналогично математическому ожиданию ошибки стандартного алгоритма
зеркального спуска с усреднением, т.е. алгоритма, в котором стохастические
градиенты берутся без усечения: yi = G(xi-1, ωi).
Следующая теорема дает доверительные границы для предложенного ал-
горитма.
Теорема 1. Пусть βi
β 2L при всех i = 0,1,... и пусть 1 τ
N/υ2,
{
}
N
(18)
λ = max σ
,M
+ υσ.
τ
Пусть xN - приближенное решение (11), где xi - итерации РСЗС, опреде-
ляемые соотношениями (9) и (10). Тогда существует случайное событие
AN Ω⊗N вероятности не менее 1 - 2e такое, что при всех ωN ∈ AN
выполняется неравенство
β
F(xN) - F
sup ε(xN ,z)
N
z∈X
(
{
}
)
C
βR2Θ + R max σ
τN,Mτ
+
β-1 max{Nσ2,M2τ}
N
70
В частности, выбира
β по формуле (16), при всех ωN ∈ AN имеем
{
}
LR2[τ ∨ Θ]
τ∨Θ
(19)
F(xN ) - F max C1
, C2σR
,
N
N
где C1 > 0 и C2 > 0 — числовые постоянные.
Значения постоянных C1 и C2 в (19) можно получить из доказательства
теоремы, ср. границу в (Π.12).
Доверительная граница (19) в теореме 1 содержит два члена, соответст-
вующие детерминированной и случайной ошибкам. В отличие от случая шу-
ма с “легким хвостом” (см., например, [40]) и от границы в среднем (17) де-
терминированная ошибка LR2[τ ∨ Θ]/N зависит от τ. Заметим также, что
теорема 1 дает субгауссовскую доверительную границу (ср. порядок стохас-
тической ошибки σR
[τ ∨ Θ]/N). Однако при этом порог усечения λ зави-
сит от доверительного уровня τ. Это может быть неудобно при реализации
алгоритмов. Некоторые простые, но более грубые, доверительные границы
могут быть получены, если исльзовать универсальный порог, не завися-
щий от τ, а именно, λ = max
N,M} + υσ. В частности, верно следующее
утверждение.
Теорема 2. Пустьβi
β 2L при всех i = 0,1,... и пусть Nυ2. По-
ложим
{
}
λ = max σ
N,M
+ υσ.
Пусть
xN = N-1 xi,
i=1
где xi - итерации РСЗС, определяемые соотношениями (9) и (10). Тогда
существует случайное событие AN Ω⊗N вероятности не менее 1 - 2e
такое, что при всех ωN ∈ AN выполняется неравенство
β
F(xN) - F
sup ε(xN ,z)
N
z∈X
(
{
}
)
C
βR2Θ + τR max σ
N,M
+
β-1 max{Nσ2,M2}
N
В частности, выбира
β по формуле (16), при всех ωN ∈ AN имеем
{
}
β
LR2[τ ∨ Θ]
Θ
(20)
F(xN ) - F
sup
ε(xN , z) C max
, τσR
N
z∈X
N
N
Значения числовых постоянных C в теореме 2 можно получить из ee доказа-
тельства, ср. границу в (Π.12).
71
5. Робастные доверительные границы
для методов стохастической оптимизации
Рассматриваются произвольные алгоритмы решения задачи (1) по N
(ызовам стох)стического оракула. Пусть имеется последовательность
xi,G(xii+1)
, i = 0,...,N, где xi ∈ X — точки поиска некоторого сто-
хастического алгоритма, а G(xi, ωi+1)
— соответствующие наблюдения
стохастического градиента. Предполагается, что xi зависит только от
{(xj-1, ωj ), j = 1, . . . , i}. Приближенное решение задачи (1) определим в виде:
xN = N-1 xi.
i=1
Целью является построение доверительного интервала субгауссовской точно-
сти для величины F (xN ) - F. Для этого воспользуемся следующим фактом.
Заметим, что для любого t L значение
{
}
∑[
]
(21) ϵN (t) = N-1 sup
〈∇φ(xi-1), xi - z〉 + ψ(xi) - ψ(z) + tVxi-1 (xi)
z∈X i=1
является верхней границей точности приближенного решения xN :
(22)
F(xN) - F ϵN
(t)
(см. лемму 1 в Приложении). Этот факт верен для любой последовательности
точек x0, . . . , xN в X вне зависимости от того, как они получены. Однако
поскольку функция ∇φ(·) не известна, оценка (22) на практике не реализуема.
Заменяя в (21) градиенты ∇φ(xi-1) на их усеченные оценки yi, определенные
в (10), получим реализуемый аналог величины ϵN (t):
{
}
∑[
]
(23)
ϵN (t) = N-1 sup
〈yi, xi - z〉 + ψ(xi) - ψ(z) + tVxi-1 (xi)
z∈X i=1
Заметим, что вычисление ϵN (t) сводится к решению задачи вида (8) с β = 0.
Таким образом, оно не сложнее, чем, например, один шаг алгоритма РСЗС.
Замена ∇φ(xi-1) на yi вносит случайную ошибку, для компенсации которой
необходимо несколько увеличить ϵN (t), чтобы получить надежную верхнюю
границу для ϵN (t). А именно, добавим к ϵN (t) величину
{
}
ρN (τ) = 4R
5Θ max{Nσ2, M2τ} + 16R max σ
Nτ,Mτ
+
{
}
+ min
20μ max{Nσ2, M2τ} + μ-1
Vxi-1(xi)
,
μ≥0
i=1
где τ > 0.
72
(
)N
Предложение 2. Пусть
xi,G(xii+1)
— траектория стохасти-
i=0
ческого алгоритма, для которого xi зависит только от
{(xj-1, ωj ),
j = 1,...,i}. Пусть 0 < τN/υ2 и пусть yi = yi(τ) — усеченные стохасти-
ческие градиенты, определенные в (10), где порог λ = λ(τ) выбран в виде (18).
Тогда при любом t L величина
ΔN(τ,t) = ϵN(t) + ρN(τ)/N
является верхней границей для ϵN (t) с вероятностью 1 - 2e , так что
{
}
Prob
F(xN) - F ΔN(τ,t)
1 - 2e.
Так как ΔN (τ, t) монотонно возрастает по t, поэтому L известно, то доста-
точно использовать эту границу при t = L. Заметим, что хотя ΔN (τ, t) и
дает верхнюю границу для ϵN (t), предложение 2 не гарантирует, что ΔN (τ, t)
достаточно близко к ϵN (t). Тем не менее для алгоритма РСЗС с постоян-
ным шагом это свойство имеет место, как явствует из следующего утверж-
дения.
Следствие 2. Пусть в условиях предложения 2 векторы x0,...,xN за-
даются соотношениями РСЗС рекурсии (9)-(10), где βi
β2L, i = 0,
...,N - 1. Тогда
ρN (τ)N
β) + 4R
5Θ max {Nσ2, M2τ} +
{
}
{
}
(24)
+16R max σ
Nτ,Mτ
+ 2
β-1 max
2,M2τ
Если, более того,
{
}
σ
N
β max
2L,
,
R
Θ
то
ρN (τ)N
β) + C3LR2∨ τ] + C4σR
N ∨ τ],
исвероятностьюнеменее1-4e величинаΔN(τ
β) удовлетворяет нера-
венствам
LR2 ∨ τ]
∨ τ]
(25)
ϵN
β) ΔN(τ
β)3ϵN
β) + 2C3
+ 2C4σR
,
N
N
где C3 > 0 и C4 > 0 — числовые постоянные.
Значения постоянных C3 и C4 можно вывести из доказательства данного
следствия.
73
6. Робастные доверительные границы для задач
с квадратичным ростом
В этом разделе предполагается, что F — функция квадратичного роста
на X в следующем смысле (ср. [41]). Пусть функция F непрерывна на X и
пусть X ⊂ X — множество ее точек минимума на X. Тогда F называется
функцией квадратичного роста на X, если существует постоянная κ > 0 та-
кая, что для любого x ∈ X найдется x(x) ∈ X, для которого выполняется
неравенство
κ
(26)
F (x) - F
∥x - x(x)2.
2
Заметим, что всякая сильно выпуклая на X функция F с коэффициентом
сильной выпуклости κ является функцией квадратичного роста на X. Однако
предположение о сильной выпуклости, если одновременно с ним накладывать
еще и условие Липшица с константой L на градиент F , имеет тот недоста-
ток, что за исключением случая, когда ∥ · ∥ является евклидовой нормой,
отношение L/κ зависит от размерности пространства E. Например, в важ-
ных случаях, когда ∥ · ∥ является1-нормой, ядерной нормой, нормой полной
вариации, и ряде других, можно легко проверить (ср. [2]), что не существу-
ет функции с липшицевым градиентом, для которой отношение L/κ было бы
меньше, чем размерность пространства. Замена сильной выпуклости на усло-
вие роста (26) устраняет эту проблему, см. примеры в [41]. С другой стороны,
предполагать (26) в задаче композитной оптимизации вполне естественно по
той причине, что во многих интересных примерах составляющая φ гладкая,
а негладкая часть ψ целевой функции сильно выпуклая. В частности, ес-
ли E = Rn и норма ∥ · ∥ является1-нормой, это позволяет рассматривать
такие сильно выпуклые компоненты, как отрицательная энтропия ψ(x) =
= κ xj lnxj (если X — стандартный симплекс в Rn), ψ(x) = γ(κ)∥x∥p с
j=1
1 p 2 и соответствующим выбором γ(κ) > 0 (если X — выпуклый ком-
пакт в Rn) и др. Во всех этих случаях условие (26) выполнено с известной
постоянной κ, что позволяет применять подход [2, 42] для улучшения дове-
рительных границ стохастического зеркального спуска.
Алгоритм РСЗС для квадратично растущих функций определим поэтап-
но. На каждом этапе для специально подобранных r > 0 и y ∈ X решается
вспомогательная задача
min F (x)
x∈Xr(y)
с использованием РСЗС. Здесь
Xr(y) = {x ∈ X : ∥x - y∥ r}.
Инициализируем алгоритм, выбирая произвольные y0 = x0 ∈ X и r0
max∥z - x0. Положим r2k = 2-kr20, k = 1, 2, . . . Пусть C1 и C2 — число-
z∈X
вые постоянные в границе (19) теоремы 1. Для заданного параметра τ > 0 и
74
k = 1,2,... определим значения
{
}
L[τ ∨ Θ]
σ2[τ ∨ Θ]
(27)
Nk = max
4C1
, 16C2
, Nk =⌋Nk
⌊.
κ
κ2r2
k-1
Здесь ⌋t⌊ — наименьшее целое число, большее или равное t > 0. Обозначим:
k
m(N) := max
k:
Nj N
j=1
Пусть теперь k ∈ {1, 2, . . . , m(N)}. На k-м этапе алгоритма решаем задачу ми-
нимизации F на множестве Xrk-1 (yk-1), вычисляем ее приближенное реше-
ние xNk в соответствии с (9)-(11), где заменяем x0 на yk-1, X на Xrk-1 (yk-1),
R на rk-1, N на Nk, и полагаем
{
}
Nk
λ = max σ
,Lrk-1
+ υσ
τ
и
{
}
σ√Nk
βi max
2L,
rk-1
Θ
Предполагается, что на каждом этапе k алгоритма доступно точное решение
задачи минимизации
min
{〈a, z〉 + ψ(z) + βϑ(z)}
z∈Xrk-1 (yk-1)
при любых a ∈ E и β > 0. На выходе k-го этапа алгоритма получаем yk:=xNk .
Теорема 3. Предположим, что m(N) 1, т.е. хотя бы один этап опи-
санного выше алгоритма завершен. Тогда существует случайное событие
Bm(N)Ω⊗N вероятности не менее 1-2m(N)e такое, что для ωN ∈ Bm(N)
приближенное решение ym(N) после m(N) этапов алгоритма удовлетворяет
неравенству
{
(
)
}
CκN
σ2[τ ∨ Θ]
(28)
F (ym(N)) - F C max κr202-N/4, κr20 exp
-
,
L[τ ∨ Θ]
κN
Теорема 3 показывает, что для функций квадратичного роста можно суще-
ственно уменьшить детерминированную составляющую ошибки, сделав ее
экспоненциально убывающей по N. Стохастическая составляющая ошибки
также существенно уменьшается. Заметим, что множитель m(N) логариф-
мического порядка слабо влияет(на вероя)ность уклонений. Действительно,
Cκ2r20N
из (27) следует, что m(N) C ln
. Пренебрегая этим множителем в
σ2(τ∨Θ)
вероятности уклонений и рассматривая стохастическую составляющую ошиб-
ки, видим, что доверительная граница теоремы 3 является приближенно суб-
экспоненциальной, а не субгауссовской.
75
7. Заключение
Рассмотрены алгоритмы гладкой стохастической оптимизации в ситуации,
когда распределения шумов наблюдений имеют тяжелые хвосты. Показано,
что при усечении наблюдений градиента c соответствующим порогом мож-
но построить доверительные множества для приближенных решений, анало-
гичные имеющимся в случае “легких хвостов”. Стоит отметить, что порядок
детерминированной ошибки в полученных границах является субоптималь-
ным — он значительно больше оптимальных оценок (O(LR2N-2) в случае
выпуклой целевой функции и O(exp(-N
κ/L)) в сильно выпуклом случае),
достигаемых ускоренными алгоритмами [3, 40]. С другой стороны, предлага-
емый подход не может быть использован для робастизации ускоренных ал-
горитмов, так как при его применении для таких алгоритмов накапливается
смещение, вносимое усечением градиентов. Задача построения ускоренных
робастных стохастических алгоритмов с оптимальными гарантиями остается
открытой.
ПРИЛОЖЕНИЕ
П.1. Предварительные замечания. Начнем со следующего известного ре-
зультата.
Лемма 1. Предположим, что φ и ψ удовлетворяют предположениям
раздела 3, и пусть x0, . . . , xN - некоторые точки множества X. Обозначим:
εi+1(z) := 〈∇φ(xi),xi+1 - z〉 + 〈ψ(xi+1),xi+1 - z〉 + LVxi(xi+1).
Тогда для любого z ∈ X выполнено неравенство
F (xi+1) - F (z) εi+1(z).
Кроме того, для xN =1N xi имеем
i=1
F(xN ) - F(z) N-1
[F (xi) - F(z)] N-1
εi+1(z).
i=1
i=0
Доказательство. Используя свойство Vx(z)12∥x - z∥2, выпуклость
функций φ и ψ и условие Липшица на ∇φ, для любого z ∈ X будем иметь:
F (xi+1) - F (z) = [φ(xi+1) - φ(z)] + [ψ(xi+1) - ψ(z)] =
= [φ(xi+1) - φ(xi)] + [φ(xi) - φ(z)] + [ψ(xi+1) - ψ(z)]
[〈∇φ(xi), xi+1 - xi + LVxi (xi+1)] +
+ 〈∇φ(xi), xi - z〉 + ψ(xi+1) - ψ(z)
〈∇φ(xi), xi+1 - z〉 + 〈ψ(xi+1), xi+1 - z〉 + LVxi (xi+1) =
= εi+1(z).
Просуммировав эту границу по i от 0 до N - 1 и воспользовавшись выпук-
лостью F , получим второе утверждение леммы.
76
В дальнейшем будем обозначать через Exi {·} условное математическое
ожидание при фиксированном xi.
Лемма 2. Пусть выполнены предположения раздела 3 и пусть xi и yi
удовлетворяют рекурсии РСЗС, ср. (9) и (10). Тогда
(a)
∥ξi 2(M + υσ) + λ,
)2
(σ
σ2
(Π.1)
(b)
Exi-1i}∥ (M + υσ)
+
,
λ
λ
σ
(c) (Exi-1 {∥ξi2})1/2 σ + (M + υσ)
λ
Доказательство. Обозначим χi = 1{∥G(xi-1i)-g(x)>L∥xi-1-x∥+λ+υσ}.
Заметим, что по построению χi ηi := 1{∥G(xi-1i)-∇φ(xi-1)>λ}.Имеем
ξi = yi - ∇φ(xi-1) = [G(xi-1i) - ∇φ(xi-1)](1 - χi) + [g(x) - ∇φ(xi-1)]χi =
= [G(xi-1, ωi) - g(x)](1 - χi) + [g(x) - ∇φ(xi-1)] =
= [G(xi-1, ωi) - ∇φ(xi-1)] + [g(x) - G(xi-1, ωi)]χi.
Следовательно,
∥ξi ∥G(xi-1, ωi) - g(x)(1 - χi) + ∥g(x) - ∇φ(xi-1) 2(M + υσ) + λ.
Кроме того, поскольку Exi-1 {G(xi-1, ωi)} = ∇φ(xi-1), имеем
Ex
Exi-1i}∥ =
{[(G(xi-1, ωi) - ∇φ(xi-1)) - (g(x) - ∇φ(xi-1))]χi}
i-1
≤ Exi-1{[∥G(xi-1i) - ∇φ(xi-1) + ∥g(x) - ∇φ(xi-1)]χi}
}
≤ Exi-1{∥G(xi-1i) - ∇φ(xi-1)ςi
+ (M + υσ)Exi-1i}
2
)2
σ
(σ
+ (M + υσ)
λ
λ
Далее,
∥ξi ∥G(xi-1, ωi) - ∇φ(xi-1)(1 - χi) + ∥g(x) - ∇φ(xi-1)χi
и
{
}1/2
Exi-1{∥ξi2}1/2 ≤ Exi-1
∥G(xi-1, ωi) - ∇φ(xi-1)2
+
{
}1/2
+ Exi-1
∥g(x) - ∇φ(xi-1)2χi
σ + (M + υσ)Ei}1/2σ + (M + υσ)Exi-1i}1/2
σ
σ + (M + υσ)
λ
В следующей лемме даются границы для отклонений сумм
〈ξi, xi-1 - z〉 и
i
∥ξi2.
i
77
Лемма 3. Пусть выполнены предположения раздела 3 и пусть xi и yi
удовлетворяют рекурсии РСЗС, ср. (9) и (10).
{ √
}
(i) Если τ N/υ2 и λ = max σ , M
+ υσ, то для произвольного z ∈ X
{
}
(Π.2)
Prob
〈ξi, z - xi-1 16R max
Nτ,Mτ}
e
i=1
и
{
}
(Π.3)
Prob
∥ξi2 40 max{Nσ2, M2τ}
e.
i=1
{
}
(ii) Если N υ2 и λ = max σ
N,M
+ υσ, то для произвольного z ∈ X
{
}
(Π.4)
Prob
〈ξi, z - xi-1 8(1 + τ)R max
N,M}
e
i=1
и
{
}
(Π.5)
Prob
∥ξi2 8(2 + 3τ) max{Nσ2, M2}
e.
i=1
Доказательство. Положим ζi = 〈ξi,z - xi-1 и ςi = ∥ξi2, i = 1,2,...
Используя лемму 2, нетрудно проверить, что выполняются неравенства
[
]
(a)
|Exi-1i}| D
(M + υσ)(σ/λ)2 + σ2
,
(Π.6)
(b)
i| D[2(M + υσ) + λ],
(c) (Exi-12i})1/2 D[σ + (M + υσ)σ/λ]
и
(a)
Exi-1i} [σ + (M + υσ)σ/λ]2,
(Π.7)
(b)
ςi [2(M + υσ) + λ]2,
(c) (Exi-12i})1/2 [σ + (M + υσ)σ/λ] [2(M + υσ) + λ].
Далее несколько раз применяется неравенство Бернштейна и каждый раз
используются одинаковые обозначения r, A, s для величин, которые задают
равномерные верхние оценки для соответственно математического ожидания,
максимального модуля и среднеквадратического уклонения случайных вели-
чин.
1o. Докажем сначала утверждение (i). Начнем со случая M σ .
Из (Π.6) следует, что в этом случае
τ
|Exi-1i}| 22 4
=: r,
N
(Π.8)
i| A := 3λD 6Rλ,
(Exi-12i})1/2 s := 2 4Rσ.
78
Используя (Π.8) и неравенство Бернштейна для мартингалов (см., напри-
мер, [43]), получим
{
}
{
}
Prob
ζi 16
Prob
ζi Nr + 3s
i=1
i=1
9τ
exp
-
√τA
2+23
3 s
N
{
}
9τ
exp
-
(
)
e
2+3
1+υ
τ /N
для всех τ > 0, удовлетворяющих условию τ 16N/(9υ2). С другой стороны,
в рассматриваемом случае выполняются неравенства (ср. (Π.7) и (Π.8))
})1/2 6λσ%&'( .
&'(i
%&'(,(Exi-1{
i
=:r
=:A
=:s
Таким образом,
Nr + 3s
τN = 42 + 18λσ
τN = 222 + 18υσ2
402
для 0 < τ N/υ2. Применяя снова неравенство Бернштейна, получим
{
}
{
}
9τ
Prob
ςi
402
exp
-
(
)
e
2+
3 + 3υ
τ /N
i=1
для всех τ > 0, удовлетворяющих условию τ N/υ2.
2o. Предположим теперь, что M > σ , так что λ = M + υσ и σ2
M2τ/N. Тогда
|Exi-1 ζi| 42 4RMτ/N,
i| R(2(M + υσ) + λ) = 6R(M + υσ),
% &'
(
%
&'
(
=:r
=:A
(Exi-12i})1/2 4 4MR
τ /N
%
&'
(
=:s
Далее,
Nr + 3s
τN = 4RMτ + 12RMτ = 16RMτ,
79
и, снова применяя неравенство Бернштейна, получим
{
}
9τ
Prob
ζi 16RMτ
exp
-
2
3√τA
2+
i=1
3 s
N
{
}
9τ
exp
-
(
)
2+
3 + 3υσ/M
{
}
9τ
exp
-
e
5 + 3υ
τ /N
для всех τ > 0, удовлетворяющих условию τ 16N/(9υ2). Кроме того, в рас-
сматриваемом случае
Exi-1i} 4σ2 4τM2/N
})1/2 6λσ%&'( ≤ 6λM
τ /N.
&'(,(Exi-1{
i
% &'
(
=:A
=:s
=:r
Теперь
Nr + 3s
τN = 4τM2 + 18λσ
τN22M2τ + 18υσ2
40M2τ
при 0 < τ N/υ2. Применяя еще раз неравенство Бернштейна, получим
{
}
{
}
9τ
Prob
ςi
40τM2
exp
-
(
)
e
2+
3 + 3υ
τ /N
i=1
для всех τ > 0, удовлетворяющих условию τ N/υ2.
3o. Теперь рассмотрим случай λ = max{M,σ
N}+συ, и пусть Mσ
N,
так что λ = σ(
N + υ). Рассуждаем точно так же, как в доказательстве (i).
В силу (Π.6) имеем
σ
|Exi-1i}| 4R√
=: r,
N
(Exi-12i})1/2 4 =: s,
i| 6 12
N = 3s
N,
так что, используя неравенство Бернштейна, получим
{
}
{
}
Prob
ζi 8
N (τ + 1)
Prob
ζi Nr + (2τ + 1)s
N
i=1
i=1
{
}
{
}
2
(2τ + 1)2s2N
(2τ + 1)
exp
-
exp
-
e.
2s2N +23 3s2N(2τ + 1)
2 + 2(2τ + 1)
80
Из (Π.7) также имеем
&'(,
=:r
(Exi-12i})1/2 6λσ 12σ2
N =: s,
ςi 9λ2 36σ2N = 4s
N.
Теперь, снова применив неравенство Бернштейна, получим
{
}
{
}
Prob
ςi 162 + 242τ
= Prob
ςi Nr + (2τ + 1)s
N
i=1
i=1
{
}
(2τ + 1)s2N
exp
-
e.
[2 + 2(2τ + 1)]s2N
Доказательство границ (Π.4) и (Π.5) в случае M > σ
N и λ = M + συ вы-
текает из таких же рассмотрений.
П.2. Доказательство предложения 1. Докажем сначала неравенство (13).
Ввиду (8) условие оптимальности в (9) имеет вид
〈yi+1 + ψ(xi+1) + βi[ϑ(xi+1) - ϑ(xi)], z - xi+1 0, ∀z∈X,
или в эквивалентной форме
〈yi+1 + ψ(xi+1), xi+1 - z〉 βi[ϑ(xi+1) - ϑ(xi)], z - xi+1 =
= 〈βiV ′x
(xi+1), z - xi+1 =
i
= βi[Vxi(z) - Vxi+1(z) - Vxi(xi+1)],
∀z∈X,
где последнее равенство вытекает из следующего замечательного тождества
(см., например, [44]): для любых u, u и w ∈ X
〈V′u(u), w - u = Vu(w) - Vu (w) - Vu(u).
Принимая во внимание определение ξi = yi - ∇φ(xi-1), получим
〈∇φ(xi), xi+1 - z〉 + 〈ψ(xi+1), xi+1 - z〉 βi[Vxi (z) - Vxi+1 (z) - Vxi (xi+1)] -
(Π.9)
-〈ξi+1, xi+1
− z〉.
Из леммы 1 и условия βi 2L следует, что
F (xi+1) - F (z) εi+1(z)
βi
〈∇φ(xi), xi+1 - z〉 + 〈ψ(xi+1), xi+1 - z〉 +
Vxi(xi+1).
2
Вместе с (Π.9) это неравенство влечет, что
[
]
1
εi+1(z) βi Vxi(z) - Vxi+1(z) -
Vxi(xi+1)
- 〈ξi+1, xi+1 - z〉.
2
81
С другой стороны, благодаря сильной выпуклости Vx(·) имеем
βi
βi
〈ξi+1, z - xi+1〉 -
Vxi (xi+1) = 〈ξi,z - xi + 〈ξi+1,xi - xi+1〉 -
Vxi(xi+1)
2
2
∥ξi+12
〈ξi+1, z - xi +
βi
Соединяя эти неравенства, получим, что
F (xi+1) - F (z) εi+1(z)
(Π.10)
∥ξi+12
βi[Vxi(z) - Vxi+1(z)] - 〈ξi+1,xi - z〉 +
βi
при всех z ∈ X. Деля (Π.10) на βi и затем суммируя по i от 0 до N - 1,
получим (13).
Докажем теперь границу (14). Применяя лемму 6.1 из [1] с z0 = x0, будем
иметь
1
(Π.11)
∀z ∈ X,
β-1i-1〈ξi,z - zi-1 Vx0 (z) +
β-2i-1∥ξi2,
2
i=1
i=1
{
}
где zi = arg minz∈X
μi-1〈ξi,z〉 + Vzi-1 (z)
зависит только от z0, ξ1, . . . , ξi. Да-
лее,
β-1i-1〈ξi,z - xi-1 =
β-1i-1[〈ξi,zi-1 - xi-1 + 〈ξi,z - zi-1]
i=1
i=1
1
Vx0(z) +
β-1i-1〈ξi,zi-1 - xi-1 +
β-2i-1∥ξi2.
2
i=1
Соединяя это неравенство с (13), получим (14).
П.3. Доказательство следствия 1. Заметим, что (15) является непосред-
ственным следствием (13) и оценок для моментов ∥ξi, приведенных в лем-
ме 2. В самом деле, (Π.1)(b) влечет, что в условиях следствия 1
[
]
)2
(σ
σ2
22
2
|Exi-1 {〈ξi, z - xi-1〉}| D (M + υσ)
+
λ
λ
λ
N
Далее, ввиду (Π.1)(c)
σ
Exi-1{∥ξi2}1/2 σ + (M + υσ)
2σ.
λ
Беря математическое ожидание от обеих частей (13) и используя два по-
следних неравенства, получим (15). Граница (17) доказывается аналогич-
ным образом, с той лишь разницей, что вместо неравенства (13) использу-
ется (14).
82
П.4. Доказательство теоремы 1. В силу утверждения (i) леммы 3 при
условии τ N/υ2 с вероятностью не менее 1 - 2e имеем
〈ξi, zi-1 - xi-1 16R max
Nτ,Mτ},
i=1
∥ξi2 40 max{Nσ2, M2τ}.
i=1
Подставляя эти оценки в неравенство (14), получим, что с вероятностью не
менее 1 - 2e верно следующее:
[
]
3
β sup ε(xN ,z)
βVx0(z) +
〈ξi, zi-1 - xi-1 +
β-1∥ξi2
z∈X
2
i=1
βR2Θ + 16R max
Nτ,Mτ}+6
β-1 max{Nσ2,M2τ}.
{
}
Далее, полага
β = max
2L,σNRΘ
, будем иметь
N [F (xN ) - F (z)] max{4LR2Θ, 2σR
NΘ} + 16R max
Nτ,Mτ}+
+ 60 max{LR2τ/2, σR
NΘ}
(Π.12)
max{46LR2τ,4LR2Θ,62σR
N Θ, 16σR
Nτ}
при 1 τ N/υ2. Это влечет (19).
П.5. Доказательство теоремы 2. Действуем точно так же, как при до-
казательстве теоремы 1 с той только разницей, что вместо утверждения (i)
леммы 3 используем утверждения (ii) той же леммы, которое влечет, что при
условии N υ2 с вероятностью не менее 1 - 2e выполнены неравенства
〈ξi, z - xi-1 8(1 + τ)R max
N,M},
i=1
∥ξi2 8(2 + 3τ) max{Nσ2, M2}.
i=1
П.6. Доказательство предложения 2. Обозначим:
ρN(τ;μ,ν) = ν-1R2Θ + 16R max
Nτ,Mτ}+
+ 20(μ + ν) max{Nσ2, M2τ} + μ-1 Vxi-1 (xi).
i=1
Утверждение предложения является непосредственным следствием следую-
щего результата.
83
Лемма 4. Положим
ρN (τ) = min
ρN(τ;μ,ν) =
μ,ν>0
{
}
= 4R
5Θ max {Nσ2, M2τ} + 16R max σ
Nτ,Mτ
+
{
}
{
}
(Π.13)
+min
20μ max
2,M2τ
+μ-1
Vxi-1 (xi)
μ>0
i=1
Тогда при 0 < τ N/υ2 и t L справедливы неравенства
(a) ProbN (t) - ϵN (t) ρN (τ)/N} 2e ,
(Π.14)
(b) ProbN (t) - ϵN (t) ρN (τ)/N} 2e .
Доказательство леммы. Докажем первое неравенство в (Π.14). На-
помним, что ξi = yi - ∇φ(xi-1), i = 1, . . . , N . Ввиду сильной выпуклости Vx(·)
имеем для любых z ∈ X и μ 0
〈ξi, z - xi = 〈ξi, z - xi-1 + 〈ξi, xi-1 - xi
μ
1
〈ξi, z - xi-1 +
∥ξi2 +
Vxi-1 (xi).
2
μ
Таким образом, для любых ν > 0
[
]
μ
1
〈ξi, z - xi
〈ξi, z - xi-1 +
∥ξi2 +
Vxi-1 (xi)
2
μ
i=1
i=1
]
1
[ν
1
μ
Vx0(z)+
∥ξi2 + 〈ξi, zi-1 - xi-1 +
Vxi-1 (xi)+
∥ξi2
ν
2
μ
2
i=1
(для получения последнего неравенства использовалась лемма 6.1 из [1] с
z0 = x0 так же, как в доказательстве предложения 1). По лемме 3 существу-
ет множество AN в пространстве реализаций ωN с вероятностью не менее
1 - 2e, такое что для всех ωN ∈ AN
〈ξi, zi-1 - xi-1 16R max
Nτ,Mτ}
i=1
и
∥ξi2 40 max{Nσ2, M2τ}.
i=1
Вспоминая, что Vx0 (z) R2Θ, приходим к заключению, что при всех z ∈ X
и всех ωN ∈ AN верно неравенство
〈ξi, z - xi ρN (τ; μ, ν).
i=1
84
Следовательно, для ωN ∈ AN имеем
ϵN(t) - ϵN(t) = N-1 sup
〈ξi, z - xi N-1 min
ρN(τ;μ,ν) = N-1 ρN(τ),
μ,ν≥0
z∈X i=1
что доказывает первое неравенство в (Π.14). Доказательство второго нера-
венства в (Π.14) аналогично и потому опускается.
П.7. Доказательство следствия 2. Из определения ϵN (·) заключаем, что
β Vxi-1(xi)ϵN
β),
i=1
и получаем (24), подставляя μ = 1
β. С другой стороны, можно убедиться,
{
}
N
что дл
β max
2L,σ
выполняется неравенство
R
Θ
{
}
ρN (τ)N
β)+max
[(20 + 4
5)
Θ+16√τ]Rσ√N,(4τ +26τ)LR2
N
β) + C1
N ∨ τ] + C2LR2 ∨ τ].
Наконец, так как ϵN
β) ϵN
β) + ρN(τ)/N с вероятностью не менее 1 - 2e
(ср. (Π.14)(b)), то
ΔN(τ
β)=ϵN
β) + ρN(τ)/N ϵN
β) + 2ρN(τ)/N
с той же вероятностью. Это влечет (25).
П.8. Доказательство теоремы 3.
1o. Покажем сначала, что для каждого k = 1,... ,m = m(N) верно сле-
дующее.
Утверждение Ik. Существует случайное событие BkΩ⊗N вероят-
ности не менее 1 - 2ke такое, что для всех ωN ∈ Bk выполнены неравен-
ства
(a)
∥yk - x(yk)2 r2k = 2-kr20 для некоторого x(yk) ∈ X,
(Π.15)
κ
(b) F (yk) - F
r2k = 2-k-1κr20.
2
Доказательство утверждения Ik проведем по индукции. Заметим, что
(Π.15)(a) выполняется с вероятностью 1 для k = 0. Положим B0 = Ω⊗N .
Предположим, что (Π.15)(a) справедливо для некоторого k ∈ {0, . . . , m - 1}
с вероятностью не менее 1 - 2ke , и покажем, что тогда верно утверждение
Ik+1.
Обозначим: Fk∗ = min
F (x). Пусть Xk∗ — множество точек минимума F
x∈Xrk (yk)
на Xrk (yk). В силу теоремы 1 и определения Nk (ср. (27)) существует собы-
тие Ak вероятности не менее 1 - 2e такое, что для ωN ∈ Ak после (k + 1)-го
85
этапа алгоритма имеем
κ
∥yk+1 - xk(yk+1)2 F (yk+1) - Fk∗
2
{
}
Lr2k[τ ∨ Θ]
[τ ∨ Θ]
max C1
,C2σrk
Nk+1
Nk+1
κ
κ
r2k =
r2k+1,
4
2
где xk(yk+1) — проекция yk+1 на Xk∗. Положим теперь Bk+1 = Bk ∩ Ak. Тогда
Prob{Bk+1} Prob{Bk} + Prob{Ak} - 1 1 - 2(k + 1)e .
Кроме того, по индуктивному предположению на Bk (и, следовательно,
на Bk+1) имеем
∥yk - x(yk) rk,
т.е. расстояние от yk до множества точек глобального минимума X не пре-
восходит rk, и, значит множество Xrk (yk) имеет непустое пересечение с X.
Следовательно, Xk∗ ⊆ X, точка xk(yk+1) содержится в X и Fk∗ совпадает с
оптимальным значением F исходной задачи. Отсюда заключаем, что
κ
κ
∥yk+1 - x(yk+1)2 F (yk+1) - F
r2k+1 = 2-kκr20
2
2
для некоторого x(yk+1) ∈ X.
2o. Докажем теорему в случае, когда N1 1. Это условие эквивалентно
тому, что Nk 1 при всех k = 1, . . . , m(N), ибо по построению N1 N2 · · ·
··· Nm(N). Предположим, что ωN ∈ Bm(N), так что (Π.15) выполняется с
k = m(N). Так как Nk1, то Nk2Nk. Кроме того, Nk+12Nk. Учитывая
эти замечания и определение m(N), получим
m(N)+1
m(N)+1
m(N)
m(N)
(Π.16) N
Nk 2
Nk 2
Nk + 4Nm(N) 6
Nk.
k=1
k=1
k=1
k=1
Итак, в силу определения Nk (ср. (27)) имеем
{
}
m(N)
L[τ ∨ Θ]
σ2[τ ∨ Θ]
N6
max
4C1
, 16C2
κ
κ2r2
k=1
k-1
m(N)
C1L[τ ∨ Θ]
C2σ2[τ ∨ Θ]
24
+ 96
,
κ
κ2r2k-1
k=1
k=k
%
&'
(
%
&'
(
S1
S2
86
где
{
}
2
k= min k :4C2σ
C1L
κr2
k-1
Возможны два случая: либо S1 N/2, либо S2 N/2. Если S1 N/2, то
kCκN
,
L[τ ∨ Θ]
так что если ωN ∈ Bm(N), то
κ
κ
F (ym(N)) - F
r2m(N)
r¯k =
2
2
{
}
(Π.17)
CκN
= 2-k-1κr20 Cκr20 exp -
L[τ ∨ Θ]
Если же S2 N/2, то справедливы неравенства
m(N)
κ2r20N
2r20
σ2[τ ∨ Θ]
2k
C2m(N)-k.
σ2[τ ∨ Θ]
σ2[τ ∨ Θ]
κ2r2
0
k=k
Следовательно, в этом случае для ωN ∈ Bm(N) имеем
κ
F (ym(N)) - F
r2m(N) =
2
(Π.18)
κ
[τ ∨ Θ]
=
r¯k2-m(N)+kκr202-m(N)+k2
2
2
κN
3o. Наконец, рассмотрим случай, когда
{
}
L[τ ∨ Θ]
σ2[τ ∨ Θ]
(Π.19)
N1 := max
4C1
, 16C2
< 1.
κ
κ2r2
0
Пусть k 2 — наименьшее целое k такое, что Nk 1. Если k > N/4, то
нетрудно видеть, что m(N) N/4, и, следовательно, для ωN ∈ Bm(N) имеем
κ
κ
(Π.20)
F (ym(N)) - F
r2m(N)
r20 2-N/4.
2
2
Если же 2 k N/4, то верна цепочка неравенств
m(N)
m(N)
3
Nk Nm(N)+1 +
Nk =
k=k
k=k
m(N)+1
m(N)+1
=
Nk - Nk
Nk - N/4 N/4,
k=1
k=1
k=1
87
где в первом неравенстве учтено, что Nm(N)+1 2Nm(N), а последнее следует
из определения m(N). Используя эти замечания и то, что Nk/2k Nk /2k
при k k, находим
m(N)
m(N)
N
Nk
2k-k Nk 2m(N)-k+2,
12
k=k
k=k
где в последнем неравенстве учтено, что Nk 2Nk-1 < 2. Итак, принимая
во внимание (Π.15)(b), для ωN ∈ Bm(N) будем иметь
F (ym(N)) - F κr2k
2-m(N)+k κr202-m(N)+k Cκr20/N.
Соединяя последнюю оценку с (Π.17), (Π.18) и (Π.20), получим (28).
СПИСОК ЛИТЕРАТУРЫ
1.
Nemirovski A., Juditsky A., Lan G., Shapiro A. Robust stochastic approximation
approach to stochastic programming // SIAM J. Optim. 2009. V. 19. No. 4.
P. 1574-1609.
2.
Juditsky A., Nesterov Y. Deterministic and stochastic primal-dual subgradient
algorithms for uniformly convex minimization // Stochast. Syst. 2014. V. 4. No. 1.
P. 44-80.
3.
Ghadimi S., Lan G. Optimal stochastic approximation algorithms for strongly convex
stochastic composite optimization I: A generic algorithmic framework // SIAM J.
Optim. 2012. V. 22. V. 4. P. 1469-1492.
4.
Tukey J.W. A survey of sampling from contaminated distributions / I. Olkin,
Contribut. Probab. Statist. 1960. P. 448-485.
5.
Huber P.J. Robust estimation of a location parameter // Ann. Math. Statist. 1964.
P. 73-101.
6.
Huber P.J. The 1972 Wald lecture. Robust statistics: A review // Ann. Math.
Statist. 1972. V. 43. No. 4. P. 1041-1067.
7.
Хьюбер П. Робастность в статистике. М.: Мир, 1984.
8.
Martin R., Masreliez C. Robust estimation via stochastic approximation // IEEE
Transact. Inform. Theory. 1975. V. 21. No. 3. P. 263-271.
9.
Поляк Б.Т., Цыпкин Я.З. Адаптивные алгоритмы оценивания (сходимость, оп-
тимальность, стабильность) // АиТ. 1979. № 3. С. 71-84.
Polyak B., Tsypkin Ya.Z. Adaptive Estimation Algorithms: Convergence, Optimality,
Stability // Autom. Remote Control. 1979. V. 40. No. 3. P. 378-389.
10.
Поляк Б.Т., Цыпкин Я.З. Робастные псевдоградиентные алгоритмы адапта-
ции // АиТ. 1980. № 10. С. 91-97.
Polyak B.T., Tsypkin Ya.Z. Robust Pseudogradient Adaptation Algorithms //
Autom. Remote Control. 1981. V. 41. No. 10. P. 1404-1409.
11.
Polyak B., Tsypkin J.Z. Robust identification. Automatica. 1980. V. 16. No. 1.
P. 53-63.
12.
Price E., VandeLinde V. Robust estimation using the Robbins-Monro stochastic
approximation algorithm // IEEE Transact. Inform. Theory. 1979. V. 25. No. 6.
P. 698-704.
88
13.
Stanković S.S., Kovačević B. D. Analysis of robust stochastic approximation
algorithms for process identification // Automatica. 1986. V. 22. No. 4. P. 483-488.
14.
Chen H.-F., Guo L., Gao A.J. Convergence and robustness of the Robbins-Monro
algorithm truncated at randomly varying bounds // Stochast. Proc. Appl. 1988.
V. 27. No. 2. P. 217-231.
15.
Chen H.-F., Gao A.J.
Robustness analysis for stochastic approximation
algorithms // Stochastics. 1988. V. 26. No. 1. P. 3-20.
16.
Nazin A.V., Polyak B.T., Tsybakov A.B. Optimal and robust kernel algorithms for
passive stochastic approximation // IEEE Transact. Inform. Theory. 1992. V. 38.
No. 5. P. 1577-1583.
17.
Цыпкин Я.З. Основы информационной теории идентификации. М.: Наука, 1984.
18.
Цыпкин Я.З. Информационная теория идентификации. М.: Наука, 1995.
19.
Kwon J., Lecué G., Lerasle M. Median of means principle as a divide-and-
conquer procedure for robustness, sub-sampling and hyper-parameters tuning //
arXiv:1812.02435.
20.
Chinot G., Lecué G., Lerasle M. Statistical learning with Lipschitz and convex loss
functions // arXiv:1810.01090.
21.
Lecué G., Lerasle M. Robust machine learning by median-of-means: theory and
practice // arXiv preprint. arXiv:1711.10306. Annals of Stat., 2017, to appear.
22.
Lecué G., Lerasle M., Mathieu T. Robust classification via MOM minimization //
arXiv preprint, 2018. arXiv:1808.03106.
23.
Lerasle M., Oliveira R.I. Robust empirical mean estimators // arXiv preprint, 2011.
arXiv:1112.3914.
24.
Lugosi G., Mendelson S. Risk minimization by median-of-means tournaments //
arXiv preprint, 2016. arXiv:1608.00757.
25.
Lugosi G., Mendelson S. Regularization, sparse recovery, and median-of-means
tournaments // arXiv preprint, 2017. arXiv:1701.04112.
26.
Lugosi G., Mendelson S. Near-optimal mean estimators with respect to general
norms // arXiv preprint, 2018. arXiv:1806.06233.
27.
Hsu D., Sabato S. Loss minimization and parameter estimation with heavy tails //
J. Machin. Learning Res. 2016. V. 17. No. 1. P. 543-582.
28.
Bubeck S., Cesa-Bianchi N., Lugosi G. Bandits with heavy tail // IEEE Transact.
Inform. Theory. 2013. V. 59. No. 11. P. 7711-7717.
29.
Devroye L., Lerasle M., Lugosi G., Oliveira R.I. Sub-gaussian mean estimators //
Ann. Statist. 2016. V. 44. No. 6. P. 2695-2725.
30.
Немировский А.С., Юдин Д.Б. Сложность задач и эффективность методов оп-
тимизации. М.: Наука, 1979.
31.
Lugosi G., Mendelson S. Sub-gaussian estimators of the mean of a random vector //
Ann. Statist. 2019. V. 47. No. 2. P. 783-794.
32.
Catoni O. Challenging the empirical mean and empirical variance: a deviation
study // Ann. l’IHP Probab. Statist. 2012. V. 48. No. 4. P. 1148-1185.
33.
Audibert J.-Y., Catoni O. Robust linear least squares regression // Ann. Statist.
2011. V. 39. No. 5. P. 2766-2794.
34.
Minsker S. Geometric median and robust estimation in Banach spaces // Bernoulli.
2015. V. 21. No. 4. P. 2308-2335.
35.
Wei X., Minsker S. Estimation of the covariance structure of heavy-tailed
distributions / Advances in Neural Information Processing Systems. 2017. P. 2859-
2868.
89
36. Chen Y., Su L., Xu J. Distributed statistical machine learning in adversarial settings:
Byzantine gradient descent / Proceedings of the ACM on Measurement and Analysis
of Computing Systems, ACM, 2017. V. 1. No. 2. P. 44.
37. Yin D., Chen Y., Ramchandran K., Bartlett P. Byzantine-robust distributed
learning: Towards optimal statistical rates. arXiv preprint, 2018. arXiv:1803.01498.
38. Cardot H., Cénac P., Chaouch M. Stochastic approximation for multivariate and
functional median / Proceedings of COMPSTAT’2010. P. 421-428. Springer, 2010.
39. Cardot H., Cénac P., Godichon-Baggioni A. Online estimation of the geometric
median in Hilbert spaces: Nonasymptotic confidence balls // Ann. Statist. 2017.
V. 45. No. 2. P. 591-614.
40. Lan G. An optimal method for stochastic composite optimization // Math.
Programm. 2012. V. 133. No. 1-2. P. 365-397.
41. Necoara I., Nesterov Y., Glineur F. Linear convergence of first order methods for
non-strongly convex optimization // Math. Programm. 2018. P. 1-39.
42. Juditsky A., Nemirovski A. First order methods for nonsmooth convex large-scale
optimization, I: general purpose methods / Sra, S., Nowozin, S., Wright, S.J. (eds.)
Optimization for Machine Learning, MIT Press, Cambridge, MA, 2011. P. 121-148.
43. Freedman D.A. On tail probabilities for martingales // Ann. Probab. 1975. V. 3.
No. 1. P. 100-118.
44. Chen G., Teboulle M. Convergence analysis of a proximal-like minimization
algorithm using Bregman functions // SIAM J. Optim. 1993. V. 3. No. 3. P. 538-543.
Статья представлена к публикации членом редколлегии П.В. Пакшиным.
Поступила в редакцию 18.07.2018
После доработки 03.09.2018
Принята к публикации 08.11.2018
90