Доклады Российской академии наук. Математика, информатика, процессы управления, 2021, T. 500, № 1, стр. 87-91

АДАПТИВНЫЙ МЕТОД ГАУССА–НЬЮТОНА В ЗАДАЧАХ РЕШЕНИЯ СИСТЕМ НЕЛИНЕЙНЫХ УРАВНЕНИЙ

Н. Е. Юдин 12*

1 Московский физико-технический институт (национальный исследовательский университет)
Долгопрудный, Московская обл., Россия

2 Федеральный исследовательский центр “Информатика и управление” Российской академии наук
Москва, Россия

* E-mail: iudin.ne@phystech.edu

Поступила в редакцию 27.05.2021
После доработки 03.07.2021
Принята к публикации 05.07.2021

Полный текст (PDF)

Аннотация

Предлагается новая версия метода Гаусса–Ньютона для решения системы нелинейных уравнений, основанная на идеях использования верхней оценки нормы невязки системы уравнений и квадратичной регуляризации. В рамках данного метода получена глобальная сходимость. При естественных предположениях установлена глобальная линейная сходимость. Предложенный метод использует адаптивную стратегию выбора гиперпараметров локальной модели, формируя гибкий и удобный в использовании метод, реализуемый на практике с помощью стандартных методов выпуклой оптимизации.

Ключевые слова: системы нелинейных уравнений, унимодальная оптимизация, метод Гаусса–Ньютона, условие Поляка–Лоясиевича, неточное проксимальное отображение, неточный оракул, недоопределенная модель, оценка сложности

ВВЕДЕНИЕ

Системы нелинейных уравнений часто фигурируют в различных приложениях, а сама проблема решения системы уравнений является фундаментальной в численных методах [13]. В работе рассматривается следующая гладкая система нелинейных уравнений:

(1)
$F(x) = {{{\mathbf{0}}}_{m}},\quad {\mathbf{0}}_{m}^{T} = (0, \ldots ,0).$

Решение данной задачи рассматривается в ключе релаксации через задачу безусловной минимизации евклидовой нормы невязки:

(2)
$\mathop {min}\limits_{x \in {{\mathbb{R}}^{n}}} \{ {{f}_{1}}(x)\mathop = \limits^{{\text{def}}} \left\| {F(x)} \right\|\} .$

Решение (2) ищется в рамках метода Гаусса–Ньютона. Данное решение полезно тем, что, используя только информацию о первых производных, при естественных предположениях возможна суперлинейная сходимость к решению задачи [4]. Такая быстрая скорость решения характерна для задач машинного обучения при решении недоопределенных систем уравнений. Также метод Гаусса–Ньютона возникает в анализе метода натурального градиента в задачах оптимизации регуляризованных вероятностных моделей. Условия, позволяющие доказать быструю сходимость метода Гаусса–Ньютона для недоопределенных моделей, часто назвываются условиями интерполяции, в добавок ко всему, они позволяют утверждать о наличии решения исходной системы нелинейных уравнений (1) [5]. Представленная в данной работе общая схема регуляризованного метода, в частности, имеет и явное правило вычисления приближения решения (3), фактически являющееся примером использования важного на практике механизма предобусловливания [1].

1. ОСНОВНЫЕ РЕЗУЛЬТАТЫ

Рассмотрим итеративную процедуру решения задачи (2), основанную на минимизации линеаризованной модели функционала:

$\begin{gathered} \phi (x,y)\mathop = \limits^{{\text{def}}} {\text{||}}F(x) + F{\kern 1pt} {\text{'}}(x)(y - x){\text{||}}, \\ (x,y) \in {{\mathbb{R}}^{n}} \times {{\mathbb{R}}^{n}}. \\ \end{gathered} $

Дополнительно вводятся изначальные предположения. Рассмотрим замкнутое выпуклое множество $\mathcal{F} \subseteq {{\mathbb{R}}^{n}}$, обладающее непустой внутренностью.

Предположение 1. Пусть $F(x)$ – многозначное отображение, удовлетворяющее условию Липшица на $\mathcal{F}$:

$\begin{gathered} \exists {{L}_{F}} > 0{\text{:}}\,\,\left\| {F{\kern 1pt} {\text{'}}(y) - F{\kern 1pt} {\text{'}}(x)} \right\| \leqslant {{L}_{F}}{\text{||}}y - x{\text{||}}, \\ \forall (x,y) \in {{\mathcal{F}}^{2}}. \\ \end{gathered} $

Введем понятие множества Лебега уровня ${{f}_{1}}({{x}_{k}})$ функции f1 относительно приближенного решения ${{x}_{k}}$:

$\mathcal{L}({{f}_{1}}({{x}_{k}}))\mathop = \limits^{{\text{def}}} \left\{ {x{\text{:}}\,\,{{f}_{1}}(x) \leqslant {{f}_{1}}({{x}_{k}})} \right\}.$

Предположим $\mathcal{L}({{f}_{1}}({{x}_{0}})) \subseteq \mathcal{F}$.

Предположение 2. Пусть для многозначного отображения выполнено условие Поляка–Лоясиевича [6]:

$\exists \mu > 0,\quad {{\sigma }_{{min}}}(F{\kern 1pt} {\text{'}}{{(x)}^{T}}) \geqslant \sqrt \mu ,\quad \forall x \in \mathcal{F},$
где ${{\sigma }_{{min}}}( \cdot )$ – минимальное сингулярное число матрицы.

Определим локальную мажоранту (локальную модель) ${{\psi }_{{x,L,\tau }}}$ функции f1 в точке y:

$\begin{gathered} {{f}_{1}}(y) \leqslant {{\psi }_{{x,L,\tau }}}(y)\mathop = \limits^{{\text{def}}} \frac{\tau }{2} + \frac{{\mathop {\left( {\phi (x,y)} \right)}\nolimits^2 }}{{2\tau }} + \frac{L}{2}{\text{||}}y - x{\text{|}}{{{\text{|}}}^{2}}, \\ L \geqslant {{L}_{F}},\quad \tau > 0,\quad (x,y) \in {{\mathcal{F}}^{2}}. \\ \end{gathered} $

Приведенная мажоранта позволяет определить правило обновления решения xk на итерации $k \in {{\mathbb{Z}}_{ + }}$ с ${{\tau }_{k}} > 0$, ${{L}_{k}} \in [{{L}_{0}},2{{L}_{F}}]$ и ${{L}_{0}} \in (0,{{L}_{F}}]$:

(3)
$\begin{gathered} {{T}_{{{{L}_{k}},{{\tau }_{k}}}}}({{x}_{k}})\mathop = \limits^{{\text{def}}} \mathop {\arg \min }\limits_{y \in {{\mathbb{R}}^{n}}} \left\{ {{{\psi }_{{{{x}_{k}},{{L}_{k}},{{\tau }_{k}}}}}(y)} \right\} = \\ = {{x}_{k}} - {{(F{\kern 1pt} {\text{'}}{{({{x}_{k}})}^{T}}F{\kern 1pt} {\text{'}}({{x}_{k}}) + {{\tau }_{k}}{{L}_{k}})}^{{ - 1}}}F{\kern 1pt} {\text{'}}{{({{x}_{k}})}^{T}}F({{x}_{k}}). \\ \end{gathered} $

В [7] показано удобство выбора ${{\tau }_{k}} = {{f}_{1}}({{x}_{k}})$, в процессе оптимизации можно на каждой итерации варьировать ${{\tau }_{k}}$ и ${{L}_{k}}$, используя процедуру поиска оценки локальной постоянной Липшица на отрезке $[{{L}_{0}},2{{L}_{F}}]$. Значение ${{\tau }_{k}} = \phi ({{x}_{k}},y)$ соответствует ближайшей верхней оценке на ${{f}_{1}}(y)$ относительно ${{\tau }_{k}}$ с ${{L}_{k}} \geqslant {{L}_{F}}$, ${{\tau }_{k}} > 0$:

$\begin{gathered} {{f}_{1}}(y) \leqslant \frac{{{{L}_{k}}}}{2}{\text{||}}y - {{x}_{k}}{\text{|}}{{{\text{|}}}^{2}} + \phi ({{x}_{k}},y) \leqslant \hfill \\ \leqslant \frac{{{{L}_{k}}}}{2}{\text{||}}y - {{x}_{k}}{\text{|}}{{{\text{|}}}^{2}} + \frac{{{{\tau }_{k}}}}{2} + \frac{{\mathop {\left( {\varphi ({{x}_{k}},y)} \right)}\nolimits^2 }}{{2{{\tau }_{k}}}}, \hfill \\ \end{gathered} $
где $\phi ({{x}_{k}},y) = {\text{||}}F({{x}_{k}}) + F{\kern 1pt} {\text{'}}({{x}_{k}})(y - {{x}_{k}}){\text{||}},$, $({{x}_{k}},y) \in {{\mathcal{F}}^{2}}.$ В силу этого неравенства в [7] установлена глобальная линейная сходимость в условии предположения 2 при использовании мажоранты ${{\psi }_{{{{x}_{k}},{{L}_{k}},\phi ({{x}_{k}},y)}}}(y)$. Введем обозначение:
${{T}_{{{{L}_{k}}}}}({{x}_{k}})\mathop = \limits^{{\text{def}}} \mathop {\arg \min }\limits_{\tau > 0} \left\{ {{{\psi }_{{{{x}_{k}},{{L}_{k}},\tau }}}({{T}_{{{{L}_{k}},\tau }}}({{x}_{k}}))} \right\},$
которое позволяет упростить вычисление приближения точки минимума по y в случае $\tau = \phi ({{x}_{k}},y)$, $\mathcal{L}({{f}_{1}}({{x}_{k}})) \subseteq \mathcal{F}$, ${{L}_{k}} \geqslant {{L}_{F}}$:

$\begin{gathered} {{f}_{1}}({{T}_{{{{L}_{k}},{{\mathcal{T}}_{{{{L}_{k}}}}}({{x}_{k}})}}}({{x}_{k}})) \leqslant \mathop {min}\limits_{y \in \mathcal{F}} \left\{ {\frac{{{{L}_{k}}}}{2}{\text{||}}y - {{x}_{k}}{\text{|}}{{{\text{|}}}^{2}} + \phi ({{x}_{k}},y)} \right\} = \\ = \mathop {min}\limits_{\tau > 0} \left\{ {\frac{\tau }{2} + \mathop {min}\limits_{y \in \mathcal{F}} \left\{ {\frac{{{{L}_{k}}}}{2}{\text{||}}y - {{x}_{k}}{\text{|}}{{{\text{|}}}^{2}} + \frac{{\mathop {\left( {\phi ({{x}_{k}},y)} \right)}\nolimits^2 }}{{2\tau }}} \right\}} \right\} = \\ = \mathop {min}\limits_{\tau > 0} \left\{ {{{\psi }_{{{{x}_{k}},{{L}_{k}},\tau }}}({{T}_{{{{L}_{k}},\tau }}}({{x}_{k}}))} \right\} \Rightarrow \\ \Rightarrow {{T}_{{{{L}_{k}},{{\mathcal{T}}_{{{{L}_{k}}}}}({{x}_{k}})}}}({{x}_{k}}) \in \mathop {{\text{Argmin}}}\limits_{y \in \mathcal{F}} \left\{ {\frac{{{{L}_{k}}}}{2}{\text{||}}y - {{x}_{k}}{\text{|}}{{{\text{|}}}^{2}} + \phi ({{x}_{k}},y)} \right\}. \\ \end{gathered} $

Обозначим процедуру получения ${{x}_{{k + 1}}}$ на итерации k через отображение $\mathcal{X}{\text{:}}\,\,\mathcal{F} \times \mathbb{R}_{{ + + }}^{2} \to \mathcal{F}$. Дополнительно введем обозначение $\tau _{k}^{{{{\varepsilon }_{k}}}}$ – приближение значения ${{\mathcal{T}}_{{{{L}_{k}}}}}({{x}_{k}})$, удовлетворяющее неравенству:

$\begin{gathered} {{\psi }_{{{{x}_{k}},{{L}_{k}},\tau _{k}^{{{{\varepsilon }_{k}}}}}}}(\mathcal{X}({{x}_{k}},{{L}_{k}},\tau _{k}^{{{{\varepsilon }_{k}}}})) - \\ - \,{{\psi }_{{{{x}_{k}},{{L}_{k}},{{T}_{{{{L}_{k}}}}}({{x}_{k}})}}}({{T}_{{{{L}_{k}},{{\mathcal{T}}_{{{{L}_{k}}}}}({{x}_{k}})}}}({{x}_{k}})) \leqslant {{\varepsilon }_{k}}. \\ \end{gathered} $

Таким образом, схема оптимизации с подбором ${{\tau }_{k}}$ на шаге k заключается в следующем:

1. Получить $\tau _{k}^{{{{\varepsilon }_{k}}}}$ как приближение оптимального значения ${{\mathcal{T}}_{{{{L}_{k}}}}}({{x}_{k}})$;

2. Получить значение ${{x}_{{k + 1}}} = \mathcal{X}({{x}_{k}},{{L}_{k}},\tau _{k}^{{{{\varepsilon }_{k}}}})$ как приближение ${{T}_{{{{L}_{k}},\tau _{k}^{{{{\varepsilon }_{k}}}}}}}({{x}_{k}})$.

В этой схеме вместе с поиском ${{x}_{{k + 1}}}$ происходит оптимизация отображения $\mathcal{X}$, и в таком виде метод ведет себя в режиме, близком к режиму при использовании мажоранты ${{\psi }_{{{{x}_{k}},{{L}_{k}},\phi ({{x}_{k}},y)}}}(y)$, что формально отражено в теоремах 1 и 2.

Теорема 1. Пусть выполнено предположение 1, ${{\varepsilon }_{k}} = \varepsilon \geqslant 0$, $k \in \mathbb{N},r > 0$. Определим функции

$\kappa (t)\mathop = \limits^{{\text{def}}} \left[ \begin{gathered} \frac{{{{t}^{2}}}}{2},\quad если\quad t \in [0,1]; \hfill \\ t - \frac{1}{2},\quad если\quad t > 1; \hfill \\ 0\quad если\quad t < 1. \hfill \\ \end{gathered} \right.$
${{\tilde {\Delta }}_{r}}(x)\mathop = \limits^{{\text{def}}} {{f}_{1}}(x) - \mathop {\min }\limits_{y \in {{\mathbb{R}}^{n}}} \{ \phi (x,y):{\text{||}}y - x{\text{||}} \leqslant r\} .$

Тогда для метода с правилом обновления $\mathcal{X}$ верны следующие оценки:

$\begin{gathered} \frac{{8L_{F}^{2}}}{{{{L}_{0}}}}\left( {\varepsilon + \frac{{({{f}_{1}}({{x}_{0}}) - {{f}_{1}}({{x}_{k}}))}}{k}} \right) \geqslant \\ \geqslant \mathop {\min }\limits_{i \notin \overline {0,k - 1} } \{ ||2{{L}_{F}}({{T}_{{2{{L}_{F}},{{\mathcal{T}}_{{2{{L}_{F}}}}}({{x}_{i}})}}}({{x}_{i}}) - {{x}_{i}}){\text{|}}{{{\text{|}}}^{2}}\} ; \\ \end{gathered} $
$\begin{gathered} {{L}_{F}}\left( {\varepsilon + \frac{{({{f}_{1}}({{x}_{0}}) - {{f}_{1}}({{x}_{k}}))}}{k}} \right) \geqslant \\ \geqslant \mathop {\min }\limits_{i \in \overline {0,k - 1} } \left\{ {2{{{(r{{L}_{F}})}}^{2}}\kappa \left( {\frac{{{{{\tilde {\Delta }}}_{r}}({{x}_{i}})}}{{2{{r}^{2}}{{L}_{F}}}}} \right)} \right\}. \\ \end{gathered} $

Теорема 2. Пусть выполнены предположения 1 и 2. Определим функцию f2(x) $\mathop = \limits^{{\text{def}}} $ (f1(x))2. Тогда для метода с правилом обновления $\mathcal{X}$ выполняются следующие соотношения:

$\begin{gathered} {{f}_{1}}({{x}_{{k + 1}}}) \leqslant {{\varepsilon }_{k}} + \\ + \left[ \begin{gathered} \frac{{{{L}_{F}}}}{\mu }{{f}_{2}}({{x}_{k}}) \leqslant \frac{1}{2}{{f}_{1}}({{x}_{k}}),\quad если\quad {{f}_{1}}({{x}_{k}}) \leqslant \frac{\mu }{{2{{L}_{F}}}}; \hfill \\ {{f}_{1}}({{x}_{k}}) - \frac{\mu }{{4{{L}_{F}}}},\quad иначе{\text{.}} \hfill \\ \end{gathered} \right. \\ \end{gathered} $

Если в правиле обновления $\mathcal{X}$ зафиксирована Lk = LF, то данные соотношения выражаются по-другому:

$\begin{gathered} {{f}_{1}}({{x}_{{k + 1}}}) \leqslant {{\varepsilon }_{k}} + \\ + \left[ \begin{gathered} \frac{{{{L}_{F}}}}{{2\mu }}{{f}_{2}}({{x}_{k}}) \leqslant \frac{1}{2}{{f}_{1}}({{x}_{k}}),\quad если\quad {{f}_{1}}({{x}_{k}}) \leqslant \frac{\mu }{{{{L}_{F}}}}; \hfill \\ {{f}_{1}}({{x}_{k}}) - \frac{\mu }{{2{{L}_{F}}}},\quad иначе{\text{.}} \hfill \\ \end{gathered} \right. \\ \end{gathered} $

Согласно теореме 2, предложенная схема демонстрирует более быструю линейную сходимость относительно итераций по сравнению с выбором τk = f1(xk) [7], однако на практике часто это означает усложнение вычисления каждой итерации, что приходится соизмерять для определения наиболее оптимальной стратегии решения задачи.

Минимизация величины ${{\psi }_{{{{x}_{k}},{{L}_{k}},\tau }}}$($\mathcal{X}$(xk, Lk, τ)) по τ > 0 может быть достаточно трудоемкой процедурой. Более того, отображение $\mathcal{X}$(⋅) может быть негладким по τ, а в случае дифференцируемости по τ практическая реализация может представлять собой разновидность алгоритма распространения ошибки через итерации метода оптимизации, аппроксимирующего отображение ${{T}_{{{{L}_{k}},\tau }}}$(xk). При использовании правила вычисления xk + 1 (3) в качестве отображения $\mathcal{X}$(⋅) величина ${{\psi }_{{{{x}_{k}},{{L}_{k}},\tau }}}$($\mathcal{X}$(xk, Lk, τ)) принимает следующий вид:

$\begin{gathered} {{\psi }_{{{{x}_{k}},{{L}_{k}},\tau }}}(\mathcal{X}({{x}_{k}},{{L}_{k}},\tau )) = \frac{\tau }{2} + \frac{{{{f}_{2}}({{x}_{k}})}}{{2\tau }} - \\ - \frac{1}{{2\tau }}\langle {{(F{\kern 1pt} '{{({{x}_{k}})}^{T}}F{\kern 1pt} '({{x}_{k}}) + \tau {{L}_{k}})}^{{ - 1}}}F{\kern 1pt} '{{({{x}_{k}})}^{T}}F({{x}_{k}}), \\ F{\kern 1pt} '{{({{x}_{k}})}^{T}}F({{x}_{k}})\rangle . \\ \end{gathered} $

Данная функция является строго выпуклой по τ, так как локальная мажоранта ${{\psi }_{{x,L,\tau }}}$(y) строго выпукла по τ и сильно выпукла по y, ${{\psi }_{{{{x}_{k}},{{L}_{k}},\tau }}}$($\mathcal{X}$(xk, Lk, τ)) представляет собой проекцию по y локальной мажоранты ψx,L, τ(y) [2, Theorem 3.1.7], поэтому в рассматриваемом случае приближение оптимального τ можно эффективно найти с помощью стандартных средств выпуклой оптимизации, в частности, процедур одномерного поиска.

2. ЭКСПЕРИМЕНТЫ

На основе предложенного метода проведена серия экспериментов на модельных задачах. Метод протестирован на задаче решения гладкой нелинейной системы уравнений в трех вариантах, различающихся выбором τk. Вариант c τk = f1(xk) называется “методом трех квадратов” [7]. Вариант, в котором на итерации k значение τk оптимизируется через минимизацию ${{\psi }_{{{{x}_{k}},{{L}_{k}},\tau }}}$($\mathcal{X}$(xk, Lk, τ)) с помощью быстрого градиентного метода, называется адаптивным методом. Вариант, в котором τk = ϕ(xk, y), называется методом Гаусса–Ньютона. Приняв за xT$\mathop = \limits^{{\text{def}}} $ (x1, …, xn), x${{\mathbb{R}}^{n}}$, n = 100, рассмотрим два вида F:

1.  Система уравнений на основе функции Розенброка–Скокова:

FR(x) = 0m, где m = 2n – 2 и ${{F}_{{{{R}_{{2i - 1}}}}}}$(x) $\mathop = \limits^{{\text{def}}} $ i(xi – (xi + 1)2), ${{F}_{{{{R}_{{2i}}}}}}$(x) $\mathop = \limits^{{\text{def}}} $ 1 – xi + 1, i ∈ {1, …, n – 1}.

2. Hat-система: FH(x) $\mathop = \limits^{{\text{def}}} $ ∇(||x||2 – 1)2 = 0m.

Для обозначенных отображений FR и FH исследуемый метод был применен в трех вариантах для решения нелинейной системы уравнений, результаты экспериментов представлены на рис. 1. На данном рисунке изображены графики, усредненные по пяти запускам, отличающимися начальным приближением, полученным сэмплированием из стандартного многомерного нормального распределения, смещенного на вектор, элементы которого равны –7, в каждом случае расстояние между начальным приближением и ближайшей точкой экстремума функции f1 не меньше 2$\sqrt n $ в пространстве ${{\mathbb{R}}^{n}}$. В результате для каждого  f1(xk) ≤ 10–6 расстояние между xk и ближайшей точкой экстремума f1 не превосходит 10–6 по метрике Чебышева.

Рис. 1.

Сравнение работы методов. Горизонтальная линия – допустимое значение нормы невязки 10–6 вблизи искомого решения уравнения.

Согласно представленным результатам, все три варианта выбора τk демонстрируют сопоставимые результаты в случае FH, на системе FR “метод трех квадратов” и адаптивный метод существенно лучше справились, чем метод Гаусса–Ньютона. Хотя теоремы 1 и 2 утверждают схожесть поведения адаптивного метода и метода Гаусса–Ньютона в худшем случае, однако при решении системы FR адаптивный метод справился лучше метода Гаусса–Ньютона. Также стоит заметить, что при решении системы FR происходит оптимизация разновидности функции Розенброка–Скокова:

${{f}_{2}}(x) = \sum\limits_{i = 1}^{n - 1} {({{i}^{2}}{{{({{x}^{i}} - {{{({{x}^{{i + 1}}})}}^{2}})}}^{2}} + {{{(1 - {{x}^{{i + 1}}})}}^{2}}).} $

При этом выбор τk = f1(xk) позволяет аналитически вычислять xk + 1, в свою очередь оптимизация ${{\psi }_{{{{x}_{k}},{{L}_{k}},\tau }}}$($\mathcal{X}$(xk, Lk, τ)) в добавок к аналитическому вычислению xk + 1 позволяет динамически контролировать близость мажоранты к оптимизируемой функции, выполняя процедуру одномерной минимизации, в то время как выбор τk = ϕ(xk, y) на практике часто требует выполнение итеративной процедуры многомерной минимизации для вычисления xk + 1. Эксперименты продемонстрировали, что предлагаемый метод применим не только для минимизации унимодальных функционалов f1 с гладким отображением F, обладающим свойством Липшица, но также и для оптимизации некоторых f1 с несколькими точками глобального минимума и с F, не обладающим свойством Липшица, например, FH.

Более подробный отчет о результатах экспериментов с методом Гаусса–Ньютона в предложенных вариантах изложен в [8].

Список литературы

  1. Голиков А.И., Евтушенко Ю.Г., Капорин И.Е. Метод ньютоновского типа для решения систем линейных уравнений и неравенств // ЖВМиМФ. 2019. Т. 59. № 12. С. 2086–2101. https://doi.org/10.1134/S0044466919120093

  2. Nesterov Yu. Lectures on convex optimization. V. 137. Berlin, Germany: Springer, 2018.

  3. Гасников А. В. Современные численные методы оптимизации. Метод универсального градиентного спуска. М.: МЦНМО, 2020.

  4. Nesterov Yu. Modified Gauss-Newton scheme with worst case guarantees for global performance //Optimisation methods and software. 2007. V. 22. № 3. P. 469–483.

  5. Gorbunov E., Hanzely F., Richtárik P. A unified theory of sgd: Variance reduction, sampling, quantization and coordinate descent //International Conference on Artificial Intelligence and Statistics. PMLR. 2020. P. 680–690.

  6. Поляк Б.Т. Градиентные методы минимизации функционалов // ЖВМиМФ. 1963. Т. 3. № 4. С. 643–653.

  7. Nesterov Yu. Flexible Modification of Gauss-Newton Method //CORE Discussion Papers. 2021.

  8. Yudin N., Gasnikov A. Flexible Modification of Gauss-Newton Method and Its Stochastic Extension // WIAS Preprint No. 2813. 2021. https://doi.org/10.20347/WIAS.PREPRINT.2813

Дополнительные материалы отсутствуют.

Инструменты

Доклады Российской академии наук. Математика, информатика, процессы управления