Автоматика и телемеханика, № 1, 2019
© 2019 г. В.Н. КРУТИКОВ, д-р техн. наук (krutikovvn@rambler.ru),
Н.С. САМОЙЛЕНКО (nostienataly@mail.ru),
В.В. МЕШЕЧКИН, канд. физ.-мат. наук (vvm@kemsu.ru)
(Кемеровский государственный университет)
О СВОЙСТВАХ МЕТОДА МИНИМИЗАЦИИ ВЫПУКЛЫХ ФУНКЦИЙ,
РЕЛАКСАЦИОННОГО ПО РАССТОЯНИЮ ДО ЭКСТРЕМУМА
Представлен субградиентный метод минимизации — аналог метода ми-
нимальных итераций решения систем уравнений, наследующий от послед-
него свойства сходимости на квадратичных функциях. Предложенный
алгоритм при определенном наборе параметров совпадает с известным
ранее методом минимизации кусочно-линейных функций и является эле-
ментом разработанного Б.Т. Поляком семейства релаксационных по рас-
стоянию до экстремума методов минимизации, длина шага которых вы-
числяется на основе заданного значения минимума функции. Параметры
метода увязаны с ограничением на степень однородности функции, полу-
чены оценки его скорости сходимости на выпуклых функциях. Доказано,
что на некоторых классах функций он сходится со скоростью геометри-
ческой прогрессии. Обсуждаются вычислительные возможности метода
при решении задач высокой размерности.
Ключевые слова: субградиент, выпуклая функция, линейная алгебра, ми-
нимум функции, скорость сходимости.
DOI: 10.1134/S0005231019010094
1. Введение
Рассматривается задача минимизации выпуклой, но не обязательно диф-
ференцируемой функции f(x), x ∈ Rn, где Rn — конечномерное евклидово
пространство. Основная цель работы заключается в том, чтобы представить
релаксационный по расстоянию до экстремума субградиентный метод мини-
мизации — аналог метода минимальных итераций, наследующий от последне-
го свойства сходимости на квадратичных функциях, сформулировать и обос-
новать ограничения на выбор параметров метода в зависимости от свойств
функции, получить оценки его скорости сходимости на выпуклых функциях
и привести некоторые обнадеживающие результаты вычислительных экспе-
риментов относительно эффективности метода при решении задач высокой
размерности.
Активные исследования в области субградиентных методов начались по-
сле появления работ [1, 2]. В области построения методов, релаксационных
по функции, метод сопряженных градиентов для решения систем уравнений
был распространен на решение задач гладкой (см., например, [3]) и неглад-
кой оптимизации [4, 5]. Существенного повышения эффективности удалось
достичь в результате создания методов негладкой оптимизации с изменением
метрики пространства [6-9]. Совершенствование нересурсоемких релаксаци-
онных субградиентных методов отражено в [10-12].
126
Одно из активно развиваемых направлений работ по созданию методов
негладкой оптимизации основано на построении и использовании приближе-
ний функции [13-16]. В [14-16] рассматривается подход создания гладких
приближений для негладких функций. На этой основе удалось получить и
теоретически обосновать широкий спектр методов [14-16], предназначенных
для решения выпуклых задач оптимизации, задач композитной и стохасти-
ческой композитной оптимизации. Методы этого класса применимы для ши-
рокого круга (по величине размерности и условиям гладкости) задач. Алго-
ритмы для решения сверхбольших задач оптимизации предложены в [17].
В работах Б.Т. Поляка [3, 18] предложено и исследовано семейство релак-
сационных по расстоянию до экстремума методов минимизации. В алгорит-
мах этого типа длина шага вычисляется (а не находится подбором) на осно-
вании известного минимального значения функции f = infx∈Rn f(x). Про-
стейший из них следующий [3, 18]:
γ(f(xk) - f)
(1)
xk+1 = xk -
gk, gk ∈ ∂f(xk
),
k = 0,1,2,
(gk, gk)
Здесь и далее g, g(x) — некоторый субградиент из субградиентного множе-
ства ∂f(x) функции f(x), gk = g(xk), γ — шаговый множитель, определяемый
свойствами минимизируемой функции f(x), (x, y) — скалярное произведение
векторов. Согласно [3, 18] метод (1) является релаксационным по расстоя-
нию до экстремума. В [19] показано, что процесс (1) при γ = 2 является
аналогом метода минимальных ошибок для решения систем линейных урав-
нений [20, 21], в котором при минимизации квадратичных функций выпол-
няется операция минимизации расстояния до экстремума вдоль направления
антиградиента. В [17] алгоритм (1) используется как один из представителей
простейших субградиентных методов, встроенных в схему решения сверх-
больших задач оптимизации [17].
В [22] для минимизации кусочно-линейных функций предложен метод —
элемент отмеченного выше семейства [18], в котором направление движения
формируется на основе текущего субградиента и предыдущего направления,
а длина шага вычисляется на основе известного значения минимума функ-
ции, аналогично тому, как это делается в (1):
(f(xk) - f)
(2)
xk+1 = xk - γkpk, γk = γ
,
k = 0,1,2,...,
(pk, pk)
(3)
p0 = g0, pk = gk + βkpk-1,
(gk, pk-1)
k
при (gk, pk-1) < 0,
0 αk2;
(4)
βk =
(pk-1, pk-1)
0
в противном случае,
где наложено ограничение 0 < γ 1. Идея вычисления текущего направле-
ния движения на основе предыдущего множества субградиентов [18] здесь
воплощена в виде использования аккумулированного вектора pk. Ряд резуль-
татов о качестве направления движения в методе (2)-(4), полученных в [22]
для кусочно-линейных функций, обоснован для выпуклых функций в [7].
127
В настоящей работе метод AA-минимальных итераций (см., например,
[20, 21]) распространен на задачу минимизации. Полученный метод эквива-
лентен алгоритму (2)-(4) при αk = 1 и γ = 2 и наследует свойство конечной
сходимости метода минимальных итераций на квадратичных функциях. На
выпуклых функциях получена оценка скорости сходимости метода, где огра-
ничения на выбор параметра γ в (2) увязаны с ограничением на степень одно-
родности функции аналогично тому, как это сделано в [20] для процесса (1).
Доказано, что на некоторых классах выпуклых функций метод имеет ско-
рость сходимости геометрической прогрессии. Простота реализации, отсут-
ствие необходимости выполнения вспомогательных операций минимизации
и незначительные вычислительные затраты на итерации с учетом представ-
ленных результатов вычислительного эксперимента позволяют надеяться на
эффективность метода при решении задач высокой размерности.
2. Аналог метода минимальных итераций в оптимизации
Покажем, что в случае специального вида квадратичной функции метод
(2)-(4) при αk = 1 и γ = 2 является аналогом метода AA-минимальных ите-
раций (см., например, [20, 21]). Для этого необходимо перейти от записи ме-
тода минимальных итераций в терминах линейной алгебры к записи в форме
метода минимизации, использующего только характеристики функции (зна-
чения функции и градиента).
Используем способ вывода метода AA-минимальных итераций [20, с. 481;
21, раздел 8.36], описанный в [20, c. 481], для получения метода (2)-(4) при
αk = 1 и γ = 2. Пусть требуется решить систему уравнений
(5)
Bx = b, x,b ∈ Rn, B ∈ Rn×n,
где B — невырожденная матрица. Образуем вспомогательную систему урав-
нений посредством второй трансформации Гаусса, где после замены BTy = x
получим
(6)
BBT
y = b.
Обозначим:
A = BBT, r(x) = Bx - b, rk = Bxk - b.
Для решения системы (6) используем метод сопряженных градиентов:
(rk, rk)
(7)
yk+1 = yk - γksk, γk =
,
k = 0,1,2,... ,
(sk, Ask)
(rk, Ask-1)
(8)
sk = rk + bksk-1, bk = -
> 0.
(pk, pk)
Отметим, что в (7)-(8) использованы только те выражения для γk и bk,
которые приводят к схеме (2)-(4). Для того чтобы получить запись метода
128
минимальных итераций в форме (2)-(4), введем квадратичную функцию
(Bx - b, Bx - b)
(r, r)
(9)
f (x) =
+f =
+f,
2
2
где f — минимальное значение функции (9). Точка минимума x функции (9)
совпадает с решением системы (5). Градиент функции задается выражением
g(x) = ∇f(x) = BT(Bx - b) = BTr.
Обозначим
BTsk = pk.
Используя равенства A = BBT, (rk, rk) = 2(f(xk) - f),
(Ask, sk) = (BBTsk, sk) = (BTsk, BTsk) = (pk, pk),
(Ask-1, rk) = (BBTsk-1, rk) = (BTsk-1, BTrk) = (pk-1, gk),
умножая на BT векторные равенства в (7), (8), с учетом BTy = x получим
расчетные формулы, аналогичные (2)-(4) при αk = 1 и γ = 2:
(10)
xk+1 = xk - γkpk,
(11)
pk = gk + bkpk-1,
(rk, rk)
2(f(xk) - f)
(12)
γk =
=
,
(sk, Ask)
(pk, pk)
(rk, Ask-1)
(gk, pk-1)
(13)
bk = -
=-
> 0.
(Ask-1, sk-1)
(pk-1, pk-1)
Поскольку для решения системы (6) используется метод сопряженных
градиентов, минимум специальной функции (9) будет найден процессом
(10)-(13) за конечное число шагов, не превосходящее размерности простран-
ства n. Таким образом, для специального вида квадратичной функции уда-
лось сформулировать метод минимизации, использующий в своей записи
только выражения функции и градиента. Относительно сходимости метода
на квадратичных функциях справедливо следующее.
Теорема 1. Минимум квадратичной функции со строго положитель-
но определенной матрицей Гессе будет найден процессом (2)-(4) при αk = 1
и γ = 2 за конечное число шагов, не превосходящее размерности простран-
ства n.
Доказательство. Квадратичная функция с невырожденной матрицей
вторых производных A имеет вид
(14)
f (x) = (x, Ax)/2 - (b, x) + c.
Ее точка минимума равна x = A-1b, а значение минимума — f = c -
-(A-1b, b)/2. Обозначим: d = B-1b, где B — матрица такая, что B = BT,
129
BB = A. Тогда несложно установить, что функцию (14) можно представить
в виде, аналогичном (9):
f (x) = (Bx - d, Bx - d)/2 + f.
Точка минимума последней f(x) совпадает с решением системы Bx = d, ко-
торое согласно показанному ранее может быть найдено методом (2)-(4) при
αk = 1 и γ = 2, использующим только характеристики функции. Теорема до-
казана.
3. Оценки скорости сходимости
Пусть f(x) — выпуклая функция на Rn, а ее множество точек миниму-
ма X не пусто. В предыдущем разделе метод (2)-(4) при γ = 2 рассмотрен
на квадратичной функции, степень однородности которой γf = 2. В [3] вы-
бор γ метода (1) увязывается со степенью однородности функции. При этом
показано, что для анализа сходимости метода (1) вместо условия однородно-
сти можно использовать неравенство [3]
(15)
γf(f(x) - f) (g(x),x - x),
∀x ∈ Rn,
∀x ∈ X, γf
1.
Как увидим далее, метод (2)-(4) сравнительно с (1) более требователен к вы-
бору шага γ. При условии (15) оценки скорости сходимости метода (2)-(4)
удается получить на интервале 0 < γ γf , что в 2 раза меньше интервала
релаксационности по расстоянию для метода (1). В силу отмеченного огра-
ничения на интервал для γ и необходимости анализа скорости сходимости
метода, например на квадратичных функциях, на класс функций наклады-
валось условие (15).
В леммах 1 и 2 изложены предварительные результаты, где ограничение
0 < γγf существенно и позволяет получить их доказательство. В [7] по-
добные результаты получены для выпуклых функций, т.е. при γf = 1 в (15).
Лемма 1. Пусть f(x) — выпуклая функция на Rn, ее множество точек
минимума X непусто и выполнено (15). Тогда для последовательности,
генерируемой процессом (2)-(4) при 0 < γ γf, справедлива оценка
(16)
(xk - x, pk) (xk - x, gk
),
k = 0,1,2,
Доказательство. Отметим, что согласно (4) βk0. Докажем (16) ме-
тодом индукции по k. Допустим, что оценка справедлива для k = m. Докажем
ее для k = m + 1.
(xm+1 - x, pm+1) = (xm+1 - x, gm+1) + βm+1(xm - γmpm - x, pm) =
= (xm+1 - x, gm+1) + βm+1[(xm - x, pm) - γm(pm, pm)].
Преобразуем выражение в квадратных скобках:
(xm - x, pm) - γm(pm, pm) = (xm - x, pm) - γ(f(xm) - f)
(xm - x, gm) - γ(f(xm) - f) (γf - γ)(f(xm) - f) 0.
130
С учетом βk 0 и неравенства 0 < γ γf преобразуем предыдущее равен-
ство:
(xm+1 - x, pm+1) (xm+1 - x, gm+1).
Последнее доказывает лемму.
Отметим, что неравенство (16) играет важную роль в обосновании схо-
димости метода. В силу ограничения леммы 0 < γ γf при использовании
γf = 1 не удалось бы получить доказательство сходимости метода на неко-
торых классах функций, где более эффективным является выбор парамет-
ра γ > 1.
Лемма 2. Пусть f(x) — выпуклая функция на Rn, ее множество точек
минимума X непусто и выполнено (15). Тогда для последовательности, ге-
нерируемой процессом (2)-(4) при 0 < γ γf , направление pk сравнительно
с gk образует меньший угол с направлением xk - x.
Доказательство. Для метода (2)-(4) справедлива оценка
(17)
∥pk ∥gk
∥.
Действительно, при βk = 0 имеем (pk, pk) = (gk, gk). В противном случае с
учетом ограничений на αk в (4) получим:
(gk, pk-1)
2
(gk, pk-1)2
∥pk2
= gk - αk
pk-1
= ∥gk2 - (2 - αk)
∥gk2.
(pk-1, pk-1)
(pk-1, pk-1)
Из (16) и (17) следует(xk-x,pk)∥p
(xk-x,gk)∥g
. После деления последнего ра-
k
k
венства на ∥xk - x получим неравенство для косинусов соответствующих
углов, которое доказывает утверждение леммы.
Обозначим достигнутое на множестве итераций процесса (2)-(4) «рекорд-
ное» значение функции ϕk = mini=0,...,k f(xk). В следующей теореме дана
оценка скорости сходимости для последовательности «рекордных» значе-
ний ϕk.
Теорема 2. Пусть f(x) — выпуклая функция на Rn, ее множество то-
чек минимума X непусто и выполнено (15). Тогда для последовательно-
сти xk, k = 0,1,2,... , генерируемой процессом (2)-(4) при 0 < γ γf , имеет
место xk → x ∈ X, а для последовательности «рекордных» значений ϕk
справедлива оценка
c∥x0 - x
(18)
ϕk - f
,
(k + 1)γ(2γf - γ)
где c — константа, такая что ∥g(x) c на множестве {x : ∥x - x
|x0 - x∥}.
131
Доказательство. Пусть y ∈ X— произвольная точка минимума
функции f(x). Тогда для процесса (2)-(4) получим:
f (xk) - f)
2
∥xk+1 - y∥2 =xk - y - γ(
(pk
=
(pk, pk)
2
(f(xk) - f)
(f(xk) - f)
= ∥xk - y∥2 - γ
(xk - y, pk) + γ2
(pk, pk)
(pk, pk)
Отсюда с учетом (16) и (15) следует
2
(f(xk) - f)
∥xk+1 - y∥2 ∥xk - y∥2 - γ(2γf - γ)
(pk, pk)
Преобразуем последнее неравенство с учетом (17):
2
(f(xk - f)
(19)
∥xk+1 - y∥2 ∥xk - y∥2 - γ(2γf - γ)
∥g(xk2
Отсюда следует (f(xk) - f)/∥g(xk )∥ → 0. Так как последовательность xk
ограничена: ∥xk - y∥ ∥x0 - y∥, то ∥g(x) c [3, лемма 8, § 1, гл. 5]. Поэто-
му f(xk) → f. Следовательно, имеется подпоследовательность xki → x, где
x — некоторая точка минимума. Заменяя в (19) y на x, получим, что
∥xk - x монотонно убывает, а ∥xki - x∥ → 0. Отсюда следует xk → x.
С учетом сказанного преобразуем (19):
(2γf - γ
xk+1 - x
2
x0 - x2
(f(xi) - f)2.
c2
i=0
Отсюда получим:
γ(2γf - γ
(f(xi) - f)2
x0 - x2.
c2
i=0
Последнее неравенство приведем к следующему виду:
2
1
c2x0 - x
(20)
(f(xi) - f)2
k+1
(k + 1)γ(2γf - γ)
i=0
В левой части неравенства находится среднее арифметическое слагаемых.
Следовательно, хотя бы одно из этих слагаемых с индексом ik должно быть
не больше среднего, что с учетом определения ϕk приводит к неравенству
2
c2x0 -x
(ϕk - f)2 (f(xi
)-f)2
k
(k + 1)γ(2γf - γ)
Теорема доказана.
132
В случае острого минимума, определяемого соотношением
(21)
f (x) - f ρ∥x - x
∥, ρ > 0,
справедлив результат, приводимый ниже.
Теорема 3. Пусть f(x) — выпуклая на Rn функция, имеющая острый
минимум. Тогда для последовательности точек xk, k = 0,1,2,... , генери-
руемых процессом (2)-(4) при 0 < γ 1, имеет место оценка скорости схо-
димости геометрической прогрессии
∥xk+1 - x2 q∥xk - x2, q = 1 - γ(2 - γ)ρ2/c2,
где c — константа, такая что ∥g(x) c на множестве {x : ∥x - x
|x0 - x∥}.
Доказательство. Преобразуем (19) с учетом (15) при γf = 1:
∥xk+1 - y∥2 ∥xk - y∥2 - γ(2 - γ)ρ2∥xk - y∥2/c2 = q∥xk - y∥2,
что доказывает утверждение теоремы.
Теорема 4. Пусть f(x) — сильно выпуклая на Rn с константой m,
дифференцируемая функция, ее градиент удовлетворяет условию Липшица
с константой M на множестве S = {x : ∥x - x |x0 - x∥} и выполне-
но (15). Тогда для последовательности, генерируемой процессом (2)-(4) при
0 < γγf, имеет место оценка скорости сходимости геометрической про-
грессии
m2γ(2γf - γ)
∥xk+1 - x2 q∥xk - x2, q = 1 -
M2
Доказательство. Выполнены все условия теоремы 2, поэтому спра-
ведлива оценка (19) при y = x. Из сильной выпуклости функции сле-
дует [3] f(xk) - f m∥xk - x2, а из условия Липшица имеем ∥g(xk)
M∥xk - x. Объединяя эти оценки, получим
m2γ(2γf - γ)
∥xk+1 - x2 ∥xk - x2 -
∥xk - x2,
M2
что доказывает утверждение теоремы.
4. Результаты численного исследования
Целью является изучение возможностей метода (2)-(4) (АММИ) на осно-
ве анализа и сравнения его результатов численного исследования с результа-
тами для известных методов оптимизации. В методе АММИ задавались αk
в (4), γ = μγf в (2) (параметр γf соответствует минимальной предполагаемой
степени однородности функции) и предельное число итераций KO, проте-
кающих при βk = 0 в (3), после которого производилось обновление βk = 0,
т.е. набор (αk, μγf , KO), например (αk = 1,02, γ = 1,01γf , KO =). Во всех
методах функция и субградиент в точке вычислялись одновременно. Будем
133
обозначать через it число итераций метода, а через nfg количество вычисле-
ний функции и градиента, требуемые для достижения заданной точности
(22)
fk - f
ε.
В табл. 1-3 приведены результаты для методов на функциях:
f1(x) =
x2ii4, x0,i = 10, x∗i = 0, i = 0,1,2,... ,n,
i=1
f2(x) =
|xi|i, x0,i = 1, x∗i = 0, i = 0, 1, 2, . . . , n,
i=1
f3(x) =
x2i(1 + (i - 1)(100 - 1)/(n - 1))2,
i=1
x0,i = 1, x∗i = 0, i = 0,1,2,... ,n,
f4(x) =
|xi|(1 + (i - 1)(100 - 1)/(n - 1)),
i=1
x0,i = 1, x∗i = 0, i = 0,1,2,... ,n.
В качестве методов для сравнения использовались равноценные по затратам
памяти и вычислений на итерации метод сопряженных градиентов (МCГ) и
релаксационный субградиентный метод МСCГ [12].
В табл. 1 приведено число итераций для методов АММИ, МCГ и МСCГ
на первых двух функциях, необходимое для выполнения неравенства (22).
Функции характеризуются увеличением степени вытянутости линий уров-
ня с ростом размерности. Коэффициенты квадратичной функции выбраны
так, чтобы исчез эффект конечного окончания процесса для методов АММИ,
МCГ. Для методов МCГ и МСCГ затраты nfg примерно в 2 раза больше чис-
ла итераций. Для АММИ на f1(x) заданы параметры (αk = 1,0, γ = 1,0γf ,
KO = ), а на f2(x) — (αk = 1,02, γ = 1,01γf, KO = 10000).
На квадратичных функциях менее сложных, чем f1(x), методы АММИ
и МСГ достигают необходимой точности за конечное число шагов, что сви-
детельствует о наличии у метода АММИ конечной сходимости. Результаты
на f1(x) устанавливают, что для метода АММИ эффект потери скорости схо-
димости из-за ошибок округления при увеличении степени вырожденности
функции проявляется в меньшей степени по сравнению с МСГ.
Результаты для f2(x) позволяют судить о возможностях метода на неглад-
ких функциях при различных масштабах переменных по осям координат и
дают некоторое представление о границах возможностей метода. В данном
случае масштабы переменных функции f2(x) имеют разброс в n раз мень-
ший по сравнению с масштабами квадратичной функции f1(x). Для сравне-
ния, методу на основе (1) при n = 10 и n = 100 требуется соответственно 2318
и 2046203 итераций для достижения заданной точности, что свидетельствует
о наличии ускоряющих свойств у метода АММИ.
134
Таблица 1. Количество итераций
n
10
50
100
300
500
1000
f1(x) (ε = 10-10) МСГ
12
178
777
8496
25613
129356
f1(x) (ε = 10-10) АММИ
12
165
617
5682
17713
76204
f2(x) (ε = 10-5) АММИ
50
507
1948
6726
23970
23823
f2(x) (ε = 10-5) МССГ
1084
2529
4535
15333
32245
42977
Таблица 2. Количество вычислений функции и градиента при ε = 10-8
n
5000
10000
25000
50000
100000
500000
1000000
f3(x) АММИ it = nfg
642
658
679
696
713
753
771
it
656
672
695
711
728
767
783
f3(x) МССГ
nfg
1036
1064
1109
1134
1196
1328
1388
it
641
657
679
696
713
753
770
f3(x) МСГ
nfg
1287
1321
1368
1404
1441
1533
1574
Таблица 3. Количество вычислений градиента и функции при ε = 10-4
n
5000
10000
25000
50000
100000
500000
1000000
f4(x) АММИ1 it = nfg
9166
15885
15033
14739
24563
41528
43054
f4(x) АММИ2 it = nfg
11830
10290
13349
19104
15202
26614
28834
it
52200
53329
54978
56051
57178
59981
61154
f4(x) МССГ
nfg
104418
106682
109988
112145
114414
120062
122416
Число обусловленности функции f3(x) равно 10-4 и не зависит от раз-
мерности. Функция f4(x) имеет равный характер вытянутости линий уров-
ня по осям координат сравнительно с f3(x). Тесты на этих функциях про-
ведены с целью выявления характера скорости сходимости в зависимости
от размерности при не зависящем от размерности характере вытянутости
линий уровня по осям координат. Для АММИ на f3(x) заданы параметры
(αk = 1,02, γ = 1,0γf , KO = 1000), см. табл. 2.
Число итераций метода МCСГ несколько выше, чем у метода сопряжен-
ных градиентов, но общие затраты nfg у него в силу грубого одномерного
поиска ниже. Таким образом, на квадратичных функциях при невысокой сте-
пени обусловленности метод АММИ равноценен по числу итераций методам
МСГ и МCСГ, но имеет более низкие затраты по числу обращений к функции
и градиенту.
Результаты для функции f4(x) приведены в табл. 3. Точность миними-
зации функции выбиралась из расчета исключения возможности окончания
вычислений вдалеке от точки минимума за счет получения нужного значе-
ния в подпространстве малой размерности. Методом АММИ сделано 2 ва-
рианта счета с параметрами (αk = 1,0, γ = 1,0γf , KO = 500) для АММИ1 и
(αk = 1,02, γ = 1,01γf , KO = 1000) для АММИ2. Функция f4(x) имеет острый
минимум. Число итераций, затраченных методами на данной функции, су-
щественно ниже оценок, которые можно получить на основании теоремы 3.
Согласно результатам табл. 3 число итераций методов АММИ и МCСГ толь-
135
ко при росте размерности становится соизмеримым, но общие затраты обра-
щений к алгоритму вычислений функции и градиента разнятся значительно.
Таким образом, на большеразмерных квадратичных тестах выявлено, что
эффект потери скорости сходимости из-за ошибок округления при увеличе-
нии степени вырожденности функции у представленного алгоритма прояв-
ляется в меньшей степени по сравнению с методом сопряженных градиентов.
Результаты решения негладких задач высокой размерности позволяют сде-
лать вывод о стабильной работе метода и малой зависимости свойств его
скорости сходимости от размерности при условии равного характера вытяну-
тости линий уровня функций.
5. Заключение
Предложенный в статье субградиентный метод минимизации, полученный
распространением метода минимальных итераций на решение задач миними-
зации, пополняет семейство релаксационных по расстоянию до экстремума
методов [18], длина шага которых вычисляется на основе известного значе-
ния минимума функции, и наследует свойство конечной сходимости послед-
него на квадратичных функциях. Учет ограничения на степень однородности
функции [3] позволил сформулировать границы его параметров. Предложен-
ный алгоритм при определенном наборе параметров совпадает с известным
ранее методом минимизации кусочно-линейных функций [22].
В статье на классе выпуклых функций получена оценка скорости сходимо-
сти метода, совпадающая с точностью до мультипликативной константы с со-
ответствующей нижней оценкой для этого класса задач [6]. Показано, что на
сильно выпуклых функциях с липшицевым градиентом [3] и функциях с ост-
рым минимумом [3] метод сходится линейно. Проведенный вычислительный
эксперимент свидетельствует, что при умеренной степени вырожденности ме-
тод в меньшей мере подвержен проявлению нестабильности из-за ошибок
округления, нежели метод сопряженных градиентов, а на негладких задачах
высокой размерности показывает устойчивые результаты. В силу отсутствия
вспомогательных операций минимизации и незначительных вычислительных
затрат на итерации метод может оказаться предпочтительным при решении
определенных прикладных задач высокой размерности.
СПИСОК ЛИТЕРАТУРЫ
1. Шор Н.З. Применение метода градиентного спуска для решения сетевой транс-
портной задачи // Матер. научн. семинара по теорет. и прикл. вопр. кибернети-
ки и исследования операций. Киев: Науч. совет по кибернетике АН УССР. 1962.
Вып. 1. С. 9-17.
2. Поляк Б.Т. Один общий метод решения экстремальных задач // Докл. АН
СССР. 1967. Т. 174. Вып. 1. С. 33-36.
3. Поляк Б.Т. Введение в оптимизацию. М.: Наука, 1983.
4. Wolfe P. Note on a method of conjugate subgradients for minimizing
nondifferentiable functions // Math. Program. 1974. V. 7. No. 1. P. 380-383.
5. Lemarechal C. An extension of Davidon methods to non-differentiable problems //
Math. Program. Study. 1975. V. 3. P. 95-109.
136
6.
Немировский А.С., Юдин Д.Б. Сложность задач и эффективность методов оп-
тимизации. М.: Наука, 1979.
7.
Шор Н.З. Методы минимизации недифференцируемых функций и их приложе-
ния. Киев: Наук. думка, 1979.
8.
Крутиков В.Н., Петрова Т.В. Релаксационный метод минимизации с растяже-
нием пространства в направлении субградиента // Экономика и мат. методы.
2003. Т. 39. Вып. 1. С. 106-119.
9.
Крутиков В.Н., Горская Т.А. Семейство релаксационных субградиентных ме-
тодов с двухранговой коррекцией матриц метрики // Экономика и мат. методы.
2009. Т. 45. Вып. 4. С. 37-80.
10.
Нурминский Е.А., Тьен Д. Метод сопряженных субградиентов с ограниченной
памятью // АиТ. 2014. № 4. С. 67-80.
Nurminskii E.A., Tien D. Method of conjugate subgradients with constrained
memory // Autom. Remote Control. 2014. V. 75. No. 4. P. 646-656.
11.
Крутиков В.Н., Вершинин Я.Н. Многошаговый субградиентный метод для ре-
шения негладких задач минимизации высокой размерности // Вестн. Том. гос.
ун-та. Математика и механика. 2014. № 3. С. 5-19.
12.
Крутиков В.Н., Вершинин Я.Н. Субградиентный метод минимизации с коррек-
цией векторов спуска на основе пар обучающих соотношений // Вестн. КемГУ.
2014. № 1-1 (57). С. 46-54.
13.
Гольштейн Е.Г., Немировский А.С., Нестеров Ю.Е. Метод уровней, его обобще-
ния и приложения // Экономика и мат. методы. 1995. Т. 31. Вып. 3. С. 164-180.
14.
Nesterov Yu.E. Smooth minimization of non-smooth functions // Math. Program.
2005. V. 103. No. 1. P. 127-152.
15.
Nesterov Yu. Universal gradient methods for convex optimization problems // Math.
Program. Ser. A. 2015. V. 152. P. 381-404.
16.
Гасников А.В., Нестеров Ю.Е. Универсальный метод для задач стохастической
композитной оптимизации // e-print. 2016.
https://arxiv.org/ftp/arxiv/papers/1604/1604.05275.pdf
17.
Nesterov Yu. Subgradient methods for huge-scale optimization problems // Math.
Program. Ser. A. 2013. V. 146. No. 1-2. P. 275-297.
18.
Поляк Б.Т. Минимизация негладких функционалов // Журн. вычисл. мат. и
матем. физики. 1969. Т. 9. № 3. С. 507-521.
19.
Самойленко Н.С., Крутиков В.Н., Мешечкин В.В. Исследование одного вари-
анта субградиентного метода // Вестн. КемГУ. 2015. № 5 (2). С. 55-58.
20.
Фадеев Д.К., Фадеева Д.К. Вычислительные методы линейной алгебры. М.:
Физматгиз, 1963.
21.
Воеводин В.В., Кузнецов Ю.А. Матрицы и вычисления. М.: Наука, 1984.
22.
Camerini P., Fratta L., Maffioli F. On improving relaxation methods by modified
gradient techniques // Math. Program. 1975. No. 3. P. 26-34.
Статья представлена к публикации членом редколлегии Б.Т. Поляком.
Поступила в редакцию 15.02.2017
После доработки 15.03.2018
Принята к публикации 08.11.2018
137