Журнал вычислительной математики и математической физики, 2021, T. 61, № 5, стр. 827-844

Приближенные алгоритмы малоранговой аппроксимации в задаче восполнения матрицы на случайном шаблоне

О. С. Лебедева 1, А. И. Осинский 2**, С. В. Петров 1*

1 ИВМ РАН им. Г.И. Марчука
119333 Москва, ул. Губкина, 8, Россия

2 Сколтех
121205 Москва, Большой бульвар, 30, стр. 1, Россия

** E-mail: sasha_o@list.ru
* E-mail: spetrov.msk@gmail.com

Поступила в редакцию 24.11.2020
После доработки 24.11.2020
Принята к публикации 14.01.2021

Полный текст (PDF)

Аннотация

Изучается возможность ускорения алгоритма проектирования на старшие сингулярные пространства в задаче “восполнения” матрицы малого ранга по небольшому числу ее элементов. Идея работы состоит в замене процедуры поиска наилучшего приближения во фробениусовой норме на быстрые приближенные алгоритмы. Рассматриваются два метода вычисления таких приближенний: (а) проектирование на случайные подпространства; (б) метод крестовой аппроксимации. Доказаны теоремы о геометрической сходимости алгоритмов с приближенными проекциями. Проведены численные эксперименты, показывающие эффективность обоих вариантов по сравнению с точной проекцией. Библ. 18. Фиг. 4.

Ключевые слова: матрицы малого ранга, восполнение матриц, Singular Value Projection, метод крестовой аппроксимации, случайные подпространства.

1. ВВЕДЕНИЕ

Пусть $X \in {{\mathbb{R}}^{{m \times n}}}$ – неизвестная матрица ранга $k,$ причем $k \ll min(m,n)$, а $\Omega $ – случайный набор пар индексов $(i,j)$, где $i \in 1,2, \ldots ,m$ и $j \in 1,2, \ldots ,n.$ Задача восстановления всей матрицы $X$ лишь по элементам ${{X}_{{ij}}}$ для $(i,j) \in \Omega $ называется задачей матричного восполнения (Matrix completion problem).

Современные приложения задачи матричного восполнения включают рекомендательные системы (см. [1]), обработку коррелирующих сигналов (см. [2]–[4]), машинное обучение (см. [5], [6]) и многое другое.

Одним из эффективных методов, применяемых для решения задачи восполнения, является алгоритм проекции на главные сингулярные пространства (Singular Value Projection method), предложенный в [7], [8] (далее для краткости мы будем называть этот метод SVP).

По своей структуре алгоритм SVP относится к классу методов проективного градиента. Каждая его итерация состоит из двух шагов: шага градиентного спуска и последующей проекции полученного приближения на многообразие матриц ранга $k.$ Cложность одной итерации SVP практически полностью определяется сложностью построения наилучшего приближения с помощью сингулярного разложения (SVD), применяемого к m × n-матрицам общего вида.

В работе рассматриваются способы ускорения метода SVP за счет замены медленного алгоритма SVD наилучшего приближения матрицами предписанного ранга $k$ на известные быстрые методы построения малоранговых приближений. При этом не предполагается высокой точности получаемых приближений. Напротив, достаточно такой точности, при которой алгоритм восполнения сохраняет свойство глобальной сходимости к искомой матрице $X,$ а возможное увеличение общего числа итераций компенсируется скоростью построения приближениями малого ранга на каждой итерации. Как будет показано, применение такого подхода во многих случаях приводит к существенному сокращению времени работы всего алгоритма. Семейство алгоритмов, использующих алгоритмы приближенного проектирования будем называть методом ASVP (Approximate Singular Value Projection).

В работе рассматриваются два быстрых алгоритма малоранговых приближений:

• метод проектирования на случайные пространства (см. [9], [10]);

• метод псевдо-крестовой аппроксимации, основанной на принципе большого проективного объема (см. [11]–[13]).

Нашей целью является построение алгоритма ASVP, допускающего теоретическое обоснование, а также получение значимых оценок на его сложность.

Как было отмечено в [4], алгоритм SVP может проявлять нерегулярное поведение. По ходу работы алгоритма гипотезы, используемые в доказательстве его сходимости могут начать нарушаться, даже если они верны для искомой матрицы и исходного приближения; в таких случаях на практике алгоритм расходится. Для восстановления сходимости метода в [4] предложено ограничивать длину шага в градиентном спуске. Последнее замедляет сходимость и увеличивает сложность SVP. В случае метода ASVP нерегулярное поведение имеет даже большее значение. Более того, на практике нерегулярное поведение является типичным! В работе дается анализ причин нерегулярного поведения алгоритмов SVP и ASVP и предлагаются изменения, которые сохраняют сходимость алгоритма без уменьшения скорости сходимости.

2. TEОРИЯ СХОДИМОСТИ АЛГОРИТМА SVP

Следуя [7], мы рассматриваем теорию алгоритма SVP в несколько более общей постановке задачи восполнения.

А именно, пусть на множестве $m \times n$-матриц задан аффинный оператор $\mathcal{A}:{{\mathbb{R}}^{{m \times n}}} \to {{\mathbb{R}}^{M}},$ где $M$ обозначает число аффинных соотношений на элементах $m \times n$-матриц. Тогда для произвольного вектора ${\mathbf{B}} \in {{\mathbb{R}}^{M}}$ задачу малорангового восполнения можно поставить как задачу оптимизации

(1)
${{\psi }_{\mathcal{A}}}(X) = \frac{1}{2}\mathop {\left\| {\mathcal{A}(X) - {\mathbf{B}}} \right\|}\nolimits_F^2 \to {\text{inf}},\quad \operatorname{rank} (X) \leqslant k,$
с квадратичным функционалом ${{\psi }_{\mathcal{A}}}(X)$. Следуя [7], заметим, что градиент $\nabla {{\psi }_{\mathcal{A}}}(Y)$ функционала (1) в произвольной точке $Y \in {{\mathbb{R}}^{{m \times n}}}$ может быть записан в виде
$\nabla {{\psi }_{\mathcal{A}}}(Y) = {{\mathcal{A}}^{{\text{T}}}}(\mathcal{A}(Y) - {\mathbf{B}}),$
где оператор является транспонированным к $\mathcal{A}$ (везде предполагается, что в пространствах ${{\mathbb{R}}^{{m \times n}}}$ и ${{\mathbb{R}}^{M}}$ задано стандартное скалярное произведение).

Алгоритм SVP состоит из двух шагов: шага градиентного спуска и проекции нового приближения на многообразие матриц ранга не выше $k$. Другими словами, если ${{X}_{t}}$ – приближение, полученное на шаге $t$ алгоритма, то следующее приближение ${{X}_{{t + 1}}}$ получается в виде

(2)
где $\tau \in \mathbb{R}$ – некоторый шаг градиентного спуска, который мы определим позже, а – наилучший во фробениусовой норме проектор на множество матриц ранга не выше $k$. Для сходимости SVP алгоритма в [7] доказана следующая теорема.

Теорема 1 (см. [7]). Пусть ${{X}_{*}}$решение (1), для которого ${{\psi }_{\mathcal{A}}}({{X}_{*}}) = 0$, а оператор $\mathcal{A}$ удовлетворяет условию ограниченной изометрии вида

(3)
$(1 - \sigma )\mathop {\left\| X \right\|}\nolimits_F^2 \leqslant \mathop {\left\| {\mathcal{A}(X)} \right\|}\nolimits_2^2 \leqslant (1 + \sigma )\mathop {\left\| X \right\|}\nolimits_F^2 $
c параметром $0 < \sigma < 1$ для всех матриц $X$ ранга не выше $2k.$ Если дополнительно
$\frac{{2\sigma }}{{1 - \sigma }} < 1,$
то алгоритм SVP с постоянным шагом $\tau = 1{\text{/}}(1 + \sigma )$ сходится к решению ${{X}_{*}}$, а скорость сходимости определяется соотношением

${{\psi }_{\mathcal{A}}}({{X}_{{t + 1}}}) \leqslant \frac{{2\sigma }}{{1 - \sigma }}{{\psi }_{\mathcal{A}}}({{X}_{t}}).$

Из (2) следует, что алгоритмическая сложность SVP определяется сложностью вычисления наилучшей проекции ${{\mathcal{P}}_{k}}$ на многообразие матриц ранга не выше $k.$ Если $m \approx n,$ то сложность такого вычисления, основанного на сингулярном разложении, будет порядка $\mathcal{O}({{n}^{3}})$. Цель настоящей работы состоит в исследовании возможности ускорения SVP путем замены оптимального проектора на быстро вычисляемый приближенный ${{\hat {\mathcal{P}}}_{k}}$.

3. ТЕОРИЯ СХОДИМОСТИ АЛГОРИТМА SVP С ПРИБЛИЖЕННЫМ ВЫЧИСЛЕНИЕМ ПРОЕКЦИЙ (ASVP)

Формализуем понятие приближенного проектирования на многообразие матриц ранга не выше $k$. Пусть оператор ${{\hat {\mathcal{P}}}_{k}}:{{\mathbb{R}}^{{m \times n}}} \to {{\mathbb{R}}^{{m \times n}}}$, заданный произвольным образом, всегда возвращает матрицу ранга не выше $k$. Будем называть ${{\hat {\mathcal{P}}}_{k}}$ оператором приближенного проектирования, если для любой матрицы $Y$ выполнено

(4)
с некоторой константой $\varepsilon > 0$.

По аналогии с алгоритмом SVP определим итерацию приближенного алгоритма ASVP равенством

${{X}_{{t + 1}}} = {{\hat {\mathcal{P}}}_{k}}({{X}_{t}} - \tau {{\mathcal{A}}^{{\text{T}}}}(\mathcal{A}(X) - {\mathbf{B}})).$
Покажем, что для такого алгоритма ASVP справедлива теорема, аналогичная теореме 1.

Теорема 2. Пусть на матрице ${{X}_{*}}$ ранга не выше $k$ достигается минимум функционала

(5)
${{\psi }_{\mathcal{A}}}(X) = \frac{1}{2}\mathop {\left\| {\mathcal{A}(X) - {\mathbf{B}}} \right\|}\nolimits_F^2 \to {\text{inf}},\quad {\text{rank}}(X) \leqslant k,$
с оператором $\mathcal{A}$, для которого условие ограниченной изометрии
(6)
$(1 - \sigma )\mathop {\left\| X \right\|}\nolimits_F^2 \leqslant \mathop {\left\| {\mathcal{A}(X)} \right\|}\nolimits_2^2 \leqslant (1 + \sigma )\mathop {\left\| X \right\|}\nolimits_F^2 $
выполняется на всех матрицах ранга не выше $2k$.

В этом случае для алгоритма ASVP с постоянным шагом $1{\text{/}}(1 + \sigma )$ и оператором ${{\hat {\mathcal{P}}}_{k}}$ приближенного проектирования, удовлетворяющим условию (4) с константой $\varepsilon $, справедливо неравенство

$\begin{gathered} {{\psi }_{\mathcal{A}}}({{X}_{{t + 1}}}) \leqslant (1 + \varepsilon ){{\psi }_{\mathcal{A}}}({{X}_{*}}) - \varepsilon {{\psi }_{\mathcal{A}}}({{X}_{t}}) + \\ \, + \left( {1 + \varepsilon } \right)\frac{\sigma }{{1 - \sigma }}\mathop {\left\| {\mathcal{A}({{X}_{*}} - {{X}_{t}})} \right\|}\nolimits_F^2 + \frac{{\varepsilon {{{\left\| {{{\mathcal{A}}^{{\text{T}}}}} \right\|}}^{2}}}}{{2(1 + \sigma )}}\left\| {\mathcal{A}({{X}_{t}}) - {\mathbf{B}}} \right\|_{F}^{2}. \\ \end{gathered} $

Доказательство. Используя арифметическое тождество

${{(b - a)}^{2}} - {{(c - a)}^{2}} = {{(b - c)}^{2}} + 2(c - a)(b - c)$
и символьную подстановку
$a \leftrightarrow {\mathbf{B}},\quad b \leftrightarrow \mathcal{A}(X),\quad c \leftrightarrow \mathcal{A}({{X}_{t}}),$
для произвольной матрицы $X$ можно записать
(7)
$\begin{gathered} {{\psi }_{\mathcal{A}}}(X) - {{\psi }_{\mathcal{A}}}({{X}_{t}}) = \frac{1}{2}\mathop {\left\| {\mathcal{A}(X) - {\mathbf{B}}} \right\|}\nolimits_F^2 - \frac{1}{2}\mathop {\left\| {\mathcal{A}({{X}_{t}}) - {\mathbf{B}}} \right\|}\nolimits_F^2 = \\ \, = ({{\mathcal{A}}^{{\text{T}}}}(\mathcal{A}({{X}_{t}}) - {\mathbf{B}}),X - {{X}_{t}}) + \frac{1}{2}\mathop {\left\| {\mathcal{A}(X - {{X}_{t}})} \right\|}\nolimits_F^2 , \\ \end{gathered} $
где скалярное произведение $(U,V)$ для матриц $U,V \in {{\mathbb{R}}^{{m \times n}}}$ определяется соотношением $(U,V) = \operatorname{tr} ({{V}^{{\text{T}}}}U).$ Для произвольной матрицы $X$ ранга не выше $k$ воспользуемся во втором слагаемом (7) свойством ограниченной изометрии оператора $\mathcal{A}$ и установим верхнюю оценку для разности:
(8)
$\begin{gathered} {{\psi }_{\mathcal{A}}}(X) - {{\psi }_{\mathcal{A}}}({{X}_{t}}) = ({{\mathcal{A}}^{{\text{T}}}}(\mathcal{A}({{X}_{t}}) - {\mathbf{B}}),X - {{X}_{t}}) + \frac{1}{2}\mathop {\left\| {\mathcal{A}(X - {{X}_{t}})} \right\|}\nolimits_F^2 \leqslant \\ \, \leqslant ({{\mathcal{A}}^{{\text{T}}}}(\mathcal{A}({{X}_{t}}) - {\mathbf{B}}),X - {{X}_{t}}) + \frac{{1 + \sigma }}{2}\left\| {X - {{X}_{t}}} \right\|_{F}^{2}. \\ \end{gathered} $
Правую часть (8) обозначим через ${{f}_{t}}(X).$ Таким образом,
(9)
${{f}_{t}}(X) = ({{\mathcal{A}}^{{\text{T}}}}(\mathcal{A}({{X}_{t}}) - {\mathbf{B}}),X - {{X}_{t}}) + \frac{{\left( {1 + \sigma } \right)}}{2}\left\| {X - {{X}_{t}}} \right\|_{F}^{2}$
и
(10)
${{\psi }_{\mathcal{A}}}(X) - {{\psi }_{\mathcal{A}}}({{X}_{t}}) \leqslant {{f}_{t}}(X)$
для всех матриц $X,$ ранг которых не превосходит $k.$

Значения ${{f}_{t}}(X)$ дают оценку на падение функционала невязки на всем множестве матриц ранга не выше $k,$ а вид ${{f}_{t}}(X)$ позволяет найти в явном виде матрицу ранга не выше $k,$ на которой падение невязки является значительным.

Действительно, используем арифметическое тождество

$\frac{{1 + \sigma }}{2}(2pq + {{p}^{2}}) = \frac{{1 + \sigma }}{2}[{{(p + q)}^{2}} - {{q}^{2}}]$
вместе с соответствием
$p \leftrightarrow X - {{X}_{t}},\quad q \leftrightarrow \frac{1}{{1 + \sigma }}{{\mathcal{A}}^{{\text{T}}}}(\mathcal{A}({{X}_{t}}) - {\mathbf{B}}),\quad {{f}_{t}}(X) \leftrightarrow \frac{{1 + \sigma }}{2}(2pq + {{p}^{2}}).$
После замен ${{f}_{t}}(X)$ принимает вид
${{f}_{t}}(X) = \frac{{1 + \sigma }}{2}\mathop {\left\| {X - \left( {{{X}_{t}} - \frac{1}{{1 + \sigma }}{{\mathcal{A}}^{{\text{T}}}}(\mathcal{A}({{X}_{t}}) - {\mathbf{B}})} \right)} \right\|}\nolimits_F^2 - \frac{1}{{2(1 + \sigma )}}\left\| {{{\mathcal{A}}^{{\text{T}}}}(\mathcal{A}({{X}_{t}}) - {\mathbf{B}})} \right\|_{F}^{2}.$
Определяя ${{Y}_{{t + 1}}}$ равенством
${{Y}_{{t + 1}}} = {{X}_{t}} - \frac{1}{{1 + \sigma }}{{\mathcal{A}}^{{\text{T}}}}(\mathcal{A}({{X}_{t}}) - {\mathbf{B}}),$
представим ${{f}_{t}}(X)$ в виде суммы:
(11)
${{f}_{t}}(X) = \frac{{1 + \sigma }}{2}\left\| {X - {{Y}_{{t + 1}}}} \right\|_{F}^{2} - \frac{1}{{2(1 + \sigma )}}\left\| {{{\mathcal{A}}^{{\text{T}}}}(\mathcal{A}({{X}_{t}}) - {\mathbf{B}})} \right\|_{F}^{2}.$
Так как второе слагаемое в (11) не зависит от $X,$ то минимум ${{f}_{t}}(X)$ на множестве всех матриц ранга не выше $k$ достигается на матрице ${{Z}_{{t + 1}}} = {{\mathcal{P}}_{k}}({{Y}_{{t + 1}}})$. При этом сама матрица ${{Y}_{{t + 1}}}$ формально совпадает с матрицей, полученной градиентным спуском из точки ${{X}_{t}}$ с величиной шага $\tau = 1{\text{/}}(1 + \sigma ),$ не зависящей от его номера $t$.

Видно, что ${{Z}_{{t + 1}}}$ совпадает с приближением на шаге $t + 1$ в алгоритме SVP.

Так как ${{Z}_{{t + 1}}}$ дает минимум ${{f}_{t}}(X)$, то значение ${{f}_{t}}({{Z}_{{t + 1}}})$ можно оценить сверху значением ${{f}_{t}}({{X}_{*}})$:

${{f}_{t}}({{Z}_{{t + 1}}}) \leqslant {{f}_{t}}({{X}_{*}}) = ({{\mathcal{A}}^{{\text{T}}}}(\mathcal{A}({{X}_{t}}) - {\mathbf{B}}),{{X}_{*}} - {{X}_{t}}) + \frac{{1 + \sigma }}{2}\left\| {{{X}_{*}} - {{X}_{t}}} \right\|_{F}^{2}.$
Используя свойство ограниченной изометрии оператора $\mathcal{A}$ на матрице $({{X}_{*}} - {{X}_{t}})$, ранг которой очевидным образом не превосходит $2k,$ преобразуем последнее выражение к виду
${{f}_{t}}({{Z}_{{t + 1}}}) \leqslant ({{\mathcal{A}}^{{\text{T}}}}(\mathcal{A}({{X}_{t}}) - {\mathbf{B}}),{{X}_{*}} - {{X}_{t}}) + \frac{{1 + \sigma }}{{2(1 - \sigma )}}\left\| {\mathcal{A}({{X}_{*}} - {{X}_{t}})} \right\|_{F}^{2}.$
Теперь воспользуемся формулой (7) для первого слагаемого, чтобы получить
(12)
${{f}_{t}}({{Z}_{{t + 1}}}) \leqslant {{\psi }_{\mathcal{A}}}({{X}_{*}}) - {{\psi }_{\mathcal{A}}}({{X}_{t}}) + \frac{\sigma }{{1 - \sigma }}\left\| {\mathcal{A}({{X}_{*}} - {{X}_{t}})} \right\|_{F}^{2}.$
Положим ${{X}_{{t + 1}}} = {{\hat {\mathcal{P}}}_{k}}({{Y}_{{t + 1}}})$. В силу определения ${{\hat {\mathcal{P}}}_{k}}$ выполняется неравенство
(13)
$\left\| {{{X}_{{t + 1}}} - {{Y}_{{t + 1}}}} \right\|_{F}^{2} \leqslant (1 + \varepsilon )\left\| {{{Z}_{{t + 1}}} - {{Y}_{{t + 1}}}} \right\|_{F}^{2}.$
Рассмотрим разность ${{f}_{t}}({{X}_{{t + 1}}}) - {{f}_{t}}({{Z}_{{t + 1}}}).$ Подставляя для ${{f}_{t}}({{X}_{{t + 1}}})$ и ${{f}_{t}}({{Z}_{{t + 1}}})$ их представление из (11), сокращая постоянное слагаемое и учитывая (13), получаем
(14)
${{f}_{t}}({{X}_{{t + 1}}}) - {{f}_{t}}({{Z}_{{t + 1}}}) = \frac{{1 + \sigma }}{2}\left( {\left\| {{{X}_{{t + 1}}} - {{Y}_{{t + 1}}}} \right\|_{F}^{2} - \left\| {{{Z}_{{t + 1}}} - {{Y}_{{t + 1}}}} \right\|_{F}^{2}} \right) \leqslant \varepsilon \frac{{1 + \sigma }}{2}\mathop {\left\| {{{Z}_{{t + 1}}} - {{Y}_{{t + 1}}}} \right\|_{F}^{2}.}\nolimits^{} $
Еще раз применим (11) теперь к правой части (14). Тогда
$\begin{gathered} {{f}_{t}}({{X}_{{t + 1}}}) - {{f}_{t}}({{Z}_{{t + 1}}}) \leqslant \varepsilon {{f}_{t}}({{Z}_{{t + 1}}}) + \varepsilon \frac{1}{{2(1 + \sigma )}}\mathop {\left\| {{{\mathcal{A}}^{{\text{T}}}}(\mathcal{A}({{X}_{t}}) - {\mathbf{B}})} \right\|}\nolimits_F^2 \leqslant \\ \, \leqslant \varepsilon {{f}_{t}}({{Z}_{{t + 1}}}) + \varepsilon \frac{{\mathop {\left\| {{{\mathcal{A}}^{{\text{T}}}}} \right\|}\nolimits^2 }}{{2(1 + \sigma )}}\mathop {\left\| {\mathcal{A}({{X}_{t}}) - {\mathbf{B}}} \right\|}\nolimits_F^2 , \\ \end{gathered} $
где $\left\| {{{\mathcal{A}}^{{\text{T}}}}} \right\|$ – операторная норма ${{\mathcal{A}}^{{\text{T}}}}$, подчиненная второй норме в пространстве ${{\mathbb{R}}^{M}}$ и фробениусовой норме в пространстве ${{\mathbb{R}}^{{m \times n}}}$. Теперь мы готовы оценить разность $\psi ({{X}_{{t + 1}}}) - \psi ({{X}_{t}}).$ Действительно, как следует из (10),
$\begin{gathered} {{\psi }_{\mathcal{A}}}({{X}_{{t + 1}}}) - {{\psi }_{\mathcal{A}}}({{X}_{t}}) \leqslant {{f}_{t}}({{X}_{{t + 1}}}) = {{f}_{t}}({{X}_{{t + 1}}}) - \left( {{{f}_{t}}({{Z}_{{t + 1}}}) - {{f}_{t}}({{Z}_{{t + 1}}})} \right) = \\ = \left( {{{f}_{t}}({{X}_{{t + 1}}}) - {{f}_{t}}({{Z}_{{t + 1}}})} \right) + {{f}_{t}}({{Z}_{{t + 1}}}) \leqslant (1 + \varepsilon ){{f}_{t}}({{Z}_{{t + 1}}}) + \varepsilon \frac{{\mathop {\left\| {{{\mathcal{A}}^{{\text{T}}}}} \right\|}\nolimits^2 }}{{2(1 + \sigma )}}\mathop {\left\| {\mathcal{A}({{X}_{t}}) - {\mathbf{B}}} \right\|}\nolimits_F^2 . \\ \end{gathered} $
Заменяя ${{f}_{t}}({{Z}_{{t + 1}}})$ выражением (12), преобразуем последнее соотношение к окончательному виду
$\begin{gathered} {{\psi }_{\mathcal{A}}}({{X}_{{t + 1}}}) - {{\psi }_{\mathcal{A}}}({{X}_{t}}) \leqslant (1 + \varepsilon )\left( {{{\psi }_{\mathcal{A}}}({{X}_{*}}) - {{\psi }_{\mathcal{A}}}({{X}_{t}})} \right) + \\ + \;\left( {1 + \varepsilon } \right)\frac{\sigma }{{1 - \sigma }}\mathop {\left\| {\mathcal{A}({{X}_{*}} - {{X}_{t}})} \right\|}\nolimits_F^2 + \frac{{\varepsilon {{{\left\| {{{\mathcal{A}}^{{\text{T}}}}} \right\|}}^{2}}}}{{2(1 + \sigma )}}\left\| {\mathcal{A}({{X}_{t}}) - {\mathbf{B}}} \right\|_{F}^{2}. \\ \end{gathered} $
Откуда после сокращения слагаемого $\psi ({{X}_{t}})$ в левой и правой частях неравенства заканчиваем доказательство.

Следствие 1. Пусть существует матрица ${{X}_{*}}$ ранга не выше $k$, для которой ${{\psi }_{\mathcal{A}}}({{X}_{*}}) = 0$ и выполняется условие ограниченной изометрии (3). Алгоритм ASVP с постоянным шагом $\tau = \tfrac{1}{{1 + \sigma }}$ сходится к решению ${{X}_{*}}$, а скорость сходимости определяется соотношением

(15)
${{\psi }_{\mathcal{A}}}({{X}_{{t + 1}}}) \leqslant {{\psi }_{\mathcal{A}}}({{X}_{t}})\left( {\frac{{2\sigma }}{{1 - \sigma }} + \varepsilon \frac{{\mathop {\left\| {{{\mathcal{A}}^{{\text{T}}}}} \right\|}\nolimits^2 }}{{1 + \sigma }}} \right).$

Доказательство. Из предыдущей теоремы и в силу соотношений

$\begin{gathered} {{\psi }_{\mathcal{A}}}({{X}_{*}}) = 0, \\ \mathcal{A}({{X}_{*}}) = {\mathbf{B}}, \\ {{\psi }_{\mathcal{A}}}({{X}_{t}}) = \frac{1}{2}\mathop {\left\| {\mathcal{A}({{X}_{t}} - {{X}_{*}})} \right\|}\nolimits_F^2 = \frac{1}{2}\mathop {\left\| {\mathcal{A}({{X}_{t}}) - {\mathbf{B}}} \right\|}\nolimits_F^2 \\ \end{gathered} $
имеем

(16)
$\begin{gathered} {{\psi }_{\mathcal{A}}}({{X}_{{t + 1}}}) \leqslant \left( {\frac{{2\sigma (1 + \varepsilon )}}{{1 - \sigma }} + \varepsilon \frac{{\mathop {\left\| {{{\mathcal{A}}^{{\text{T}}}}} \right\|}\nolimits_{}^2 }}{{1 + \sigma }} - \varepsilon } \right){{\psi }_{\mathcal{A}}}({{X}_{t}}) = \\ \, = \left[ {\frac{{2\sigma }}{{1 - \sigma }} + \varepsilon \left( {\frac{{2\sigma }}{{1 - \sigma }} + \frac{{\mathop {\left\| {{{\mathcal{A}}^{{\text{T}}}}} \right\|}\nolimits^2 }}{{1 + \sigma }} - 1} \right)} \right]{{\psi }_{\mathcal{A}}}({{X}_{t}}). \\ \end{gathered} $

В предположении $\sigma < 1{\text{/}}3,$ аналогичном тому, что используется для доказательства сходимости SVP в [7], видим, что $\varepsilon $ можно выбрать достаточно малой константой, чтобы из неравенства (16) следовала геометрическая сходимость ASVP.

Как следует из формулы (15), использование приближенного проектора ${{\hat {\mathcal{P}}}_{k}}$ в алгоритме ASVP ухудшает коэффициент линейной сходимости, что, конечно, не является неожиданным. Однако, как будет показано далее, выигрыш, получаемый за счет упрощения , превосходит проигрыш, связанный с увеличением числа итераций в ASVP.

В следствии 1 предполагается существование решения ${{X}_{*}}$, для которого ${{\psi }_{\mathcal{A}}}({{X}_{*}}) = 0$. Однако на практике для заданного вектора ${\mathbf{B}} \in {{\mathbb{R}}^{M}}$ минимум функционала может быть не равен нулю, например, в случае ${\mathbf{B}} = \mathcal{A}(X) + \Delta $, где $X$ – матрица малого ранга, а $\Delta $ имеет малую норму. Оценки для такого случая представлены в следствии 2.

Следствие 2. Пусть на матрице ${{X}_{*}}$ достигается минимум функционала ${{\psi }_{\mathcal{A}}}(X)$ среди всех матриц ранга не выше $k$, а $\Delta = {\mathbf{B}} - \mathcal{A}({{X}_{*}})$ имеет норму $\delta = \mathop {\left\| \Delta \right\|}\nolimits_2 $.

Если для приближения ${{X}_{t}}$ выполняется неравенство ${{\psi }_{\mathcal{A}}}({{X}_{t}}) \geqslant {{C}^{2}}\tfrac{{{{\delta }^{2}}}}{2}$ с константой $C > 0,$ то для следующего приближения, получаемого в методе ASVP, справедливо соотношение

${{\psi }_{\mathcal{A}}}({{X}_{{t + 1}}}) < \kappa {{\psi }_{\mathcal{A}}}({{X}_{t}})$
с константой $\kappa $, удовлетворяющей неравенству
(17)
где

${{D}_{0}} = \tfrac{1}{{{{C}^{2}}}} + \tfrac{{2\sigma }}{{1 - \sigma }}\mathop {\left( {1 + \tfrac{1}{C}} \right)}\nolimits^2 ,$
${{D}_{1}} = \tfrac{{\mathop {\left\| {{{\mathcal{A}}^{{\text{T}}}}} \right\|}\nolimits^2 }}{{1 + \sigma }} - 1.$

Доказательство. Из теоремы 2

${{\psi }_{\mathcal{A}}}({{X}_{{t + 1}}}) \leqslant \left( {1 + \varepsilon } \right)\frac{{{{\delta }^{2}}}}{2} + \left( {1 + \varepsilon } \right)\frac{\sigma }{{1 - \sigma }}\mathop {\left\| {{\mathbf{B}} - \mathcal{A}({{X}_{t}}) - \Delta } \right\|}\nolimits_F^2 + \varepsilon \left( {\frac{{\mathop {\left\| {{{\mathcal{A}}^{{\text{T}}}}} \right\|}\nolimits^2 }}{{1 + \sigma }} - 1} \right){{\psi }_{\mathcal{A}}}({{X}_{t}}).$
Учитывая, что ${{\delta }^{2}} \leqslant \tfrac{2}{{{{C}^{2}}}}\psi ({{X}_{t}})$, и раскрывая второе слагаемое, получаем
$\begin{gathered} {{\psi }_{\mathcal{A}}}({{X}_{{t + 1}}}) \leqslant \frac{{(1 + \varepsilon )}}{{{{C}^{2}}}}{{\psi }_{\mathcal{A}}}({{X}_{t}}) + \left( {1 + \varepsilon } \right)\frac{{2\sigma }}{{1 - \sigma }}\left( {{{\psi }_{\mathcal{A}}}({{X}_{t}}) + \frac{2}{C}{{\psi }_{\mathcal{A}}}({{X}_{t}}) + \frac{1}{{{{C}^{2}}}}{{\psi }_{\mathcal{A}}}({{X}_{t}})} \right) + \\ \, + \varepsilon \left( {\frac{{\mathop {\left\| \mathcal{A} \right\|}\nolimits^2 }}{{(1 + \sigma )}} - 1} \right){{\psi }_{\mathcal{A}}}({{X}_{t}}) \leqslant \left[ {\frac{1}{{{{C}^{2}}}} + \frac{{2\sigma }}{{1 - \sigma }}\mathop {\left( {1 + \frac{1}{C}} \right)}\nolimits^2 } \right]{{\psi }_{\mathcal{A}}}({{X}_{t}}) + \\ \, + \varepsilon \left[ {\frac{1}{{{{C}^{2}}}} + \frac{{2\sigma }}{{1 - \sigma }}\mathop {\left( {1 + \frac{1}{C}} \right)}\nolimits^2 + \frac{{\mathop {\left\| {{{\mathcal{A}}^{{\text{T}}}}} \right\|}\nolimits^2 }}{{1 + \sigma }} - 1} \right]{{\psi }_{\mathcal{A}}}({{X}_{t}}). \\ \end{gathered} $
Полагая

${{D}_{0}} = \tfrac{1}{{{{C}^{2}}}} + \tfrac{{2\sigma }}{{1 - \sigma }}\mathop {\left( {1 + \tfrac{1}{C}} \right)}\nolimits^2 \quad {\text{и}}\quad {{D}_{1}} = \tfrac{{\mathop {\left\| {{{\mathcal{A}}^{{\text{T}}}}} \right\|}\nolimits^2 }}{{1 + \sigma }} - 1,$

окончательно получаем

(18)
${{\psi }_{\mathcal{A}}}({{X}_{{t + 1}}}) \leqslant [{{D}_{0}} + \varepsilon ({{D}_{0}} + {{D}_{1}})]{{\psi }_{\mathcal{A}}}({{X}_{t}}).$

4. ПРИМЕНЕНИЕ АЛГОРИТМОВ SVP И ASVP К ЗАДАЧЕ ВОСПОЛНЕНИЯ МАТРИЦ МАЛОГО РАНГА

Рассмотрим применение алгоритма ASVP к задаче восполнения матриц малого ранга по случайному набору элементов (на случайном шаблоне). С точки зрения анализа сходимости алгоритмов SVP и ASVP задача восполнения сводится к специальному способу выбора аффинного преобразования $\mathcal{A}$.

Пусть ${{X}_{*}} \in {{\mathbb{R}}^{{m \times n}}}$ – неизвестная матрица ранга $k,$ причем $k \ll min(m,n),$ а $\Omega $ – случайный набор пар индексов $(i,j),$ где $i \in 1,2, \ldots ,m$ и $j \in 1,2, \ldots ,n$, причем любая пара $(i,j)$ может быть выбрана равновероятно среди всех $mn$ пар с вероятностью $q,$ которую мы определим позже. Обозначим мощность множества $\Omega $ как $M = {\text{|}}\Omega {\kern 1pt} {\text{|}}$, будем считать, что пары $(i,j) \in \Omega $ линейно упорядочены; будем также для простоты считать, что выполнено в точности $M = qmn$, а $q$ будем также называть плотностью известных элементов матрицы.

Определим линейный оператор $\mathcal{S}:{{\mathbb{R}}^{{m \times n}}} \to {{\mathbb{R}}^{M}}$ по правилу

(19)
${{(\mathcal{S}(X))}_{k}} = \frac{1}{{\sqrt q }}{{X}_{{ij}}},\quad k = 1,2, \ldots ,M,$
где ${{(\mathcal{S}(X))}_{k}}$ – компонента вектора $\mathcal{S}(X)$, соответствующая паре $(i,j)$ в выбранном линейном упорядочении. Определим $B$ формулой $B = \mathcal{S}({{X}_{*}}) \in {{\mathbb{R}}^{M}}$ и зададим функционал ${{\psi }_{\mathcal{S}}}(X) = \tfrac{1}{2}\mathop {\left\| {\mathcal{S}(X) - {\mathbf{B}}} \right\|}\nolimits_2^2 $. Задача восполнения матрицы ${{X}_{*}}$ по части ее элементов записывается в виде
(20)
${{\psi }_{\mathcal{S}}}(X) = \frac{1}{2}\mathop {\left\| {\mathcal{S}(X) - {\mathbf{B}}} \right\|}\nolimits_2^2 \to {\text{inf}},\quad {\text{rank}}(X) \leqslant k.$
Для упрощения записи в дальнейшем индекс $\mathcal{S}$ в обозначении функционала $\psi $ опускается.

В качестве оператора ${{\hat {\mathcal{P}}}_{k}}$ при этом можно использовать произвольный алгоритм построения малоранговой аппроксимации $\tilde {A} = {{\hat {\mathcal{P}}}_{k}}A$, достаточно близкой к проекции с использованием сингулярного разложения

$\mathop {\left\| {A - \tilde {A}} \right\|}\nolimits_F \leqslant (1 + \varepsilon )\mathop {\left\| {A - {{A}_{k}}} \right\|}\nolimits_F .$
Нижний индекс $k$ у матрицы здесь и далее обозначает наилучшее приближение ранга $k$ по норме Фробениуса, которое можно получить с помощью сингулярного разложения.

При $\sigma \approx 0$ из следствия 2 подстановкой $\mathcal{A} = \mathcal{S}$, используя тривиальную оценку $\mathop {\left\| {{{\mathcal{S}}^{{\text{T}}}}} \right\|}\nolimits^2 \leqslant \tfrac{1}{q}$, мы получаем условие

$\varepsilon \mathop {\left\| {{{\mathcal{S}}^{{\text{T}}}}} \right\|}\nolimits^2 < 1,\quad \frac{\varepsilon }{q} < 1,$
а потому для сходимости метода восполнения матриц достаточно $\varepsilon = O(q)$.

Отметим, что для задачи восполнения матрицы малого ранга по значениям ее элементов на разреженном шаблоне $\Omega $ напрямую воспользоваться результатами разд. 2 и 3 нельзя.

Так, например, в случае произвольного шаблона $\Omega $ оператор $\mathcal{S}(X)$, определенный ранее, не удовлетворяет условию ограниченной изометрии, которое является ключевым при доказательстве сходимости метода. Тем не менее, как показано в [7], если $\Omega $ имеет случайный характер, то условие ограниченной изометрии для оператора $\mathcal{S}$ выполняется с вероятностью, неотличимой от $1,$ на почти всем множестве матриц ранга, не превосходящего $2k.$ Чтобы сформулировать соответствующее утверждение, нам потребуется понятие $\mu $-некогерентных матриц.

Определение 1. Пусть для матрицы $X \in {{\mathbb{R}}^{{m \times n}}}$ задано ее сингулярное разложение $X = U\Sigma {{V}^{{\text{T}}}}.$ Матрица $X$ называется $\mu $-некогерентной, если для матриц сингулярных векторов $U$ и $V$ справедливы неравенства

$\mathop {max}\limits_{i,j} {\text{|}}{{U}_{{ij}}}{\kern 1pt} {\text{|}} \leqslant \frac{{\sqrt \mu }}{{\sqrt m }},\quad \mathop {max}\limits_{i,j} {\text{|}}{{V}_{{ij}}}{\kern 1pt} {\text{|}} \leqslant \frac{{\sqrt \mu }}{{\sqrt n }}.$

Используя определение 1, сформулируем следующий результат о выполнении свойства ограниченной изометрии для оператора $\mathcal{S}$.

Теорема 3 [Теорема 4.2 из [7]]. Существует константа $C \geqslant 0$ такая, что для любого $0 < \sigma < 1$, любых $\mu \geqslant 1$ и $n \geqslant m \geqslant 3$, и для любого шаблона разреженности $\Omega $, пары индексов которого выбираются случайно в соответствии с моделью Бернулли с параметром

$q \geqslant C\frac{{{{\mu }^{2}}{{k}^{2}}}}{{{{\sigma }^{2}}}}\frac{{log(n)}}{m},$
определяющим вероятность для пары индексов $(i,j)$ принадлежать маске $\Omega ,$ оператор $\mathcal{S}$ удовлетворяет на множестве всех $\mu $-некогерентных матриц свойству ограниченной изометрии вида
$(1 - \sigma )\mathop {\left\| X \right\|}\nolimits_F^2 \leqslant \mathop {\left\| {\mathcal{S}(X)} \right\|}\nolimits_F^2 \leqslant (1 + \sigma )\mathop {\left\| X \right\|}\nolimits_F^2 $
с вероятностью не меньше $1 - exp( - nlog(n))$.

Из теорем 2 и 3 следует сходимость алгоритмов SVP и ASVP в случае, если на всех итерациях (т.е. для всех $t$) матрицы ${{X}_{{t + 1}}} - {{X}_{t}}$ и ${{X}_{t}} - {{X}_{ * }}$ обладают ограниченной константой некогерентности $\mu $. Отметим, что для разности ${{X}_{{t + 1}}} - {{X}_{t}}$ формальная проверка $\mu $-некогерентности является возможной и вычислительно недорогой процедурой. В то же время для разности ${{X}_{t}} - {{X}_{*}}$ на практике оценить константу некогерентности невозможно.

Из сказанного выше следует, что для задачи восполнения матриц малого ранга, заданных на случайном шаблоне, обоснование алгоритмов SVP и ASVP не является безусловным. Формальные реализации этих методов могут и проявляют нерегулярное поведение, т.е. расходятся при выборе теоретически обоснованного шага градиентного спуска $\tau $ (см., например, [4]) или в том случае, когда сингулярные числа решения ${{X}_{*}}$ быстро убывают.

На практике получение (быстро) сходящихся реализаций алгоритмов возможно только с использованием дополнительных приемов, среди которых мы выделяем два: последовательный набор ранга приближения и выбор шага $\tau $ в градиентном методе.

4.1. Последовательный набор ранга приближения

Этот прием необходим в ситуациях, когда сингулярные числа решения ${{X}_{*}}$ задачи восполнения быстро убывают, или когда ранг ${{X}_{*}}$ заранее неизвестен. Причиной нерегулярного поведения алгоритмов SVP и ASVP алгоритмов в этом случае является существование решений задачи восполнения c большим рангом и обладающих большой константой некогерентности.

Рассмотрим искусственный, но проясняющий ситуацию пример. Пусть $E \in {{\mathbb{R}}^{{m \times n}}}$ – матрица ранга $1$, каждый элемент которой равен единице. Такая матрица является $\mu $-некогерентной с параметром некогерентности $\mu = 1.$ Зададим $M \ll min(m,n)$ пар индексов $(i,j)$ и поставим задачу восполнения матрицы $E$ среди матриц ранга $M.$ Среди возможных решений этой задачи существует разреженное решение ранга $M,$ все исходно неизвестные компоненты которого равны нулю. Однако такое решение имеет константу некогерентности порядка $max\left( {\sqrt m ,\sqrt n } \right).$

Чтобы избежать нерегулярного поведения ASVP в рассматриваемых ситуациях, предлагается использовать последовательный набор ранга приближений. Другими словами, вместо того, чтобы решать задачу восполнения сразу для предписанного ранга $k,$ задачу восполнения предлагается последовательно решать для рангов $1,$ $2,$ $ \ldots ,$ $k$, и для каждого последующего ранга решение, соответствующее предыдущему рангу, использовать в качестве начального приближения.

Наиболее примитивный подход к набору ранга решения состоит в том, чтобы заранее фиксировать время работы алгоритма и отвести константные отрезки времени на работу алгоритма с каждым рангом приближения $k$. При этом можно, например, отвести первую половину всего времени работы алгоритма на стадию набора ранга, а вторую – на итерации с необходимым конечным рангом приближения.

Другой более обоснованный способ набора ранга может быть основан на проверке выполнения условия $\mu $-некогерентности для разности ${{X}_{t}} - {{X}_{{t - 1}}}.$ Анализ численных экспериментов показал, что при нерегулярном поведении алгоритмов SVP и ASVP параметр $\mu $-некогерентности последовательности матиц ${{X}_{{t + 1}}} - {{X}_{t}}$ увеличивается от итерации к итерации и стремится к максимально возможному значению $max\left( {\sqrt m ,\sqrt n } \right).$ Таким образом, на каждой итерации можно вычислять текущее значение некогерентности ${{X}_{{t + 1}}} - {{X}_{t}}$ и проводить увеличение ранга приближения на единицу только в случае, если на протяжении нескольких итераций эта величина оказывается достаточно малой; для определения допустимой величины некогерентности полезно иметь априорную оценку на эту величину для искомой матрицы.

Сложность вычисления $\mu $ для матрицы ${{X}_{t}} - {{X}_{{t - 1}}}$ определяется сложностью вычисления сингулярного разложения объединенных левых и объединенных правых факторов матриц ${{X}_{t}},{{X}_{{t - 1}}}$, что в случае $m = n$ требует $O(n{{k}^{2}}) \ll {{n}^{3}}$ операций.

При этом точно указать необходимое число последовательных шагов алгоритма, при которых величина некогерентности ${{X}_{t}} - {{X}_{{t - 1}}}$ остается ниже допустимой границы, затруднительно; на основе проведенных экспериментов установлено, что в случае матриц порядка $1000$ и случайных факторов достаточно около пяти шагов. Это число последовательных шагов можно оценивать по числу предшествующих шагов, при которых величины некогерентности были, наоборот, большими, например, используя следующую процедуру.

Алгоритм 1

Входные данные: граничное значение ${{\mu }_{{{\text{crit}}}}}$, по которому определяется, что некогерентность на текущей итерации достаточно мала. Константа минимального числа последовательных итераций с низкой некогерентностью ${{s}_{{{\text{crit}}}}}$. Вводятся переменные, сохраняющие число предшествующих итераций SVP (ASVP) с большими и малыми величинами $\mu $: ${{s}_{{{\text{high}}}}} = 0$, ${{s}_{{{\text{low}}}}} = 0$.

Цель: ранг $k$ увеличивается, если на протяжении нескольких итераций $\mu < {{\mu }_{{{\text{crit}}}}}$.

1: если $\mu \left( {{{X}_{t}} - {{X}_{{t - 1}}}} \right) > {{\mu }_{{{\text{crit}}}}}$, то

2:  ${{s}_{{{\text{high}}}}}: = {{s}_{{{\text{high}}}}} + 1$

3:  ${{s}_{{{\text{crit}}}}}: = max\left( {{{s}_{{{\text{high}}}}},{{s}_{{{\text{crit}}}}}} \right)$

4: иначе

5:  ${{s}_{{{\text{low}}}}}: = {{s}_{{{\text{low}}}}} + 1$

6: если ${{s}_{{{\text{low}}}}} > {{s}_{{{\text{crit}}}}}$, то

7:  $k: = k + 1$

8:  ${{s}_{{{\text{low}}}}}: = 0$

9:  ${{s}_{{{\text{high}}}}}: = 0$

Такой способ набора ранга оказался особенно эффективен для варианта ASVP, основанного на псевдоскелетном методе с использованием подматриц большого объема (см. далее в п. 5.2).

4.2. Выбор параметра шага градиентного метода

Численные эксперименты показывают, что нерегулярного поведения алгоритмов SVP, ASVP можно избежать путем понижения параметра шага градиентного метода $\tau $. Так, теорема 2 гарантирует, что в условиях теоремы метод SVP сходится геометрически при $\tau = 1{\text{/}}(1 + \sigma ) \approx 3{\text{/}}4$ с учетом того, что, согласно определению оператора задачи восполнения матриц $\mathcal{S}$, все элементы на маске $\Omega $ скалируются на константу $1{\text{/}}\sqrt q $, использование такого шага интуитивно неустойчиво при критически малых значениях плотности известных элементов $q$. На практике оказывается, что при таком шаге в случае малых $q$ и быстром падении сингулярных чисел искомой матрицы алгоритмы SVP, ASVP могут расходиться, но при тех же условиях и малом шаге порядка $q$ расходимости не наблюдается. Экспериментально установлено, что при шаге $\tau $ в пределах от $[q,2q]$ при достаточно малых $q$ сходимость SVP, ASVP наблюдается всегда.

Случаи расходимости SVP метода с большим шагом были замечены уже в [4]. Для повышения устойчивости алгоритма ее авторы также предложили выбирать $\tau $ из интервала $[q,2q]$. Не проводя формального доказательства сходимости алгоритма SVP с шагом $\tau = q,$ приведем некоторые соображения в пользу его устойчивости.

Действительно, если ${{X}_{t}}$ и ${{X}_{{t + 1}}}$ – приближения с номерами $t$ и $t + 1$ и $B = S({{X}_{ * }})$, то шаг градиентного метода $\tau = q$ соответствует присваиванию каждому элементу текущего приближения, лежащему на маске известных элементов, соответствующего известного элемента. Это значит, что

(21)
$\mathop {\left\| {{{X}_{t}} - {{X}_{*}}} \right\|}\nolimits_{F,\Omega } = \mathop {\left\| {{{X}_{t}} - {{Y}_{{t + 1}}}} \right\|}\nolimits_F \geqslant \mathop {\left\| {{{Y}_{{t + 1}}} - {{X}_{{t + 1}}}} \right\|}\nolimits_F \geqslant \mathop {\left\| {{{X}_{{t + 1}}} - {{X}_{*}}} \right\|}\nolimits_{F,\Omega } ,$
где $\mathop {\left\| X \right\|}\nolimits_{F,\Omega } = \mathop {\left\| {\mathcal{S}(X)} \right\|}\nolimits_F .$ Неравенство (21) можно записать в эквивалентной форме:
$\psi ({{X}_{{t + 1}}}) \leqslant \psi ({{X}_{t}}),$
откуда имеем, что невязка на итерациях SVP алгоритма с шагом $\tau = q$ монотонно не возрастает.

Тем не менее эксперименты показывают, что в случаях, когда при использовании шага $\tau \approx 3{\text{/}}4$ на практике не нарушаются гипотезы о некогерентности, сходимость алгоритмов SVP, ASVP с шагом $\tau \approx 3{\text{/}}4$ значительно быстрее, чем с шагом $\tau \approx q$, т.е. на практике использование большого шага является предпочтительным. Чтобы на практике использовать преимущество большого шага в скорости сходимости, но не допускать нерегулярного поведения алгоритмов, предлагается использовать адаптивные процедуры изменения шага $\tau $ по ходу алгоритма. Для этого предлагается рассматривать изменение невязки $\mathop {\left\| {\mathcal{S}({{X}_{t}} - {{X}_{*}})} \right\|}\nolimits_F $ между итерациями SVP, ASVP. Если отношение невязок на итерациях $t + 1$ и $t$

${{\alpha }_{{t + 1,t}}}: = \frac{{\mathop {\left\| {\mathcal{S}({{X}_{{t + 1}}} - {{X}_{*}})} \right\|}\nolimits_2 }}{{\mathop {\left\| {\mathcal{S}({{X}_{t}} - {{X}_{*}})} \right\|}\nolimits_2 }} > {{\alpha }_{{{\text{crit}}}}} > 1,$
то делается вывод, что алгоритм начал вести себя нерегулярно, в связи с чем шаг градиентного метода понижается, а последняя итерация пересчитывается с уменьшенным шагом. Формально после выполения итерации $t + 1$ алгоритмов SVP, ASVP выполняется следующий

Алгоритм 2

Входные данные: пограничная величина ${{\alpha }_{{{\text{crit}}}}} > 1$; стартовое значение шага $\tau = 3{\text{/}}4$; константы увеличения и уменьшения шага ${{\beta }_{{{\text{inc}}}}} < 1$, ${{\beta }_{{{\text{dec}}}}} < 1$.

Цель: шаг $\tau $ изменяется в зависимости от роста или падения погрешности.

1: если $({{\alpha }_{{t + 1,t}}} > {{\alpha }_{{{\text{crit}}}}})$, то

2:  $\tau : = \tau + {{\beta }_{{{\text{dec}}}}}(q - \tau )$

3:  Итерация $t + 1$ проводится заново с уменьшенным шагом.

4: иначе

5:  $\tau : = \tau + {{\beta }_{{{\text{inc}}}}}\left( {\tfrac{3}{4} - \tau } \right).$

Этот адаптивный алгоритм выбора шага оказался эффективен на практике для ASVP с обоими вариантами метода приближенного проектирования, которые будут рассмотрены далее. Однако вычисление невязки может быть асимптотически сложной процедурой, так как требует не менее $O(mnqk)$ операций, поэтому возможно использовать эту процедуру обновления величины шага не после каждой итерации, а например, после каждой десятой итерации ASVP.

5. ВОЗМОЖНЫЕ МЕТОДЫ ПРИБЛИЖЕННОГО ПРОЕКТИРОВАНИЯ ASVP

5.1. Проектирование на случайные подпространства

Рассмотрим один из возможных методов случайного проектирования, необходимых для построения алгоритма ASVP. Будем использовать способ приближенного вычисления частичного сингулярного разложения на основе проектирования на случайные подпространства. Такой способ введен и исследован в [9]. Будем использовать вспомогательную матрицу

$J \in {{\mathbb{R}}^{{n \times l}}},\quad l = k + p,\quad p > 0,$
все элементы которой выбираются независимо и случайно по стандартному нормальному распределению. Тогда в качестве проектора $\hat {\mathcal{P}}$ предлагается использовать
${{\hat {\mathcal{P}}}_{k}}(Y) = Q{{({{Q}^{{\text{T}}}}Y)}_{k}},\quad Y \in {{\mathbb{R}}^{{m \times n}}},$
где матрица $Q$ определяется как ортогональный базис столбцов $YJ$: $YJ = QR$, а ${{({{Q}^{{\text{T}}}}Y)}_{k}}$ – наилучшее приближение матрицы $({{Q}^{{\text{T}}}}Y)$ матрицей ранга $k$, вычисляемое с помощью сингулярного разложения вытянутой матрицы. Из леммы 6.1 в [18], которая обобщает результаты из [9], следует, что для любой матрицы $Y \in {{\mathbb{R}}^{{m \times n}}}$ справедлива

Лемма 1 (см. [18]):

(22)
${{\mathbb{E}}_{J}}\mathop {\left\| {Y - Q{{{({{Q}^{{\text{T}}}}Y)}}_{k}}} \right\|}\nolimits_F^2 \leqslant \left( {1 + \frac{k}{{p - 1}}} \right)\left\| {Y - {{Y}_{k}}} \right\|_{F}^{2}.$

В [9], [18] приведены оценки на отклонение от матожидания, которые опустим в силу их громоздкости. Таким образом, в [9] предложен следующий алгоритм вычисления приближенного частичного сингулярного разложения матрицы $Y$.

1. Создается случайная матрица $J \in {{\mathbb{R}}^{{n \times l}}}$.

2. Вычисляется произведение $YJ$.

3. Для произведения $YJ$ вычисляется $QR$-разложение: $YJ = QR$.

4. Вычисляется произведение ${{Q}^{{\text{T}}}}Y$.

5. Вычисляется сокращенное сингулярное разложение для вытянутой матрицы

${{({{Q}^{{\text{T}}}}Y)}_{k}} = U\Sigma {{V}^{{\text{T}}}},\quad {\text{где}}\quad U \in {{\mathbb{R}}^{{l \times k}}},\quad {{V}^{{\text{T}}}} \in {{\mathbb{R}}^{{k \times n}}}.$

6. Так как

$(QU)\Sigma {{V}^{{\text{T}}}} = Q{{({{Q}^{{\text{T}}}}Y)}_{k}},$

то матрицы $QU$ и ${{V}^{{\text{T}}}}$ являются искомым приближением сингулярных векторов матрицы $Y$.

Согласно оценке (22), введенный таким образом оператор $\hat {\mathcal{P}}$ удовлетворяет определению оператора приближенного проектирования (4) с точностью $\varepsilon = k{\text{/}}(p - 1)$ в среднем. Оценим сложность одной итерации полученного приближенного алгоритма ASVP.

• Умножение на случайную матрицу: так как приближенное сингулярное разложение вычисляется для суммы матрицы малого ранга (матрица предыдущей итерации) и разреженной матрицы (градиент), имеем $O\left( {(n + m)kl + mnlq} \right)$ операций.

• QR-разложение $YJ$: $O(m{{l}^{2}})$ операций.

• Умножение на матрицу $Q{\kern 1pt} *$ слева: аналогично первому пункту, $O\left( {(n + m)kl + mnlq} \right)$ операций.

• Сингулярное разложение вытянутой матрицы: $O(n{{l}^{2}})$ операций.

• Восстановление левого сингулярного базиса: $O(m{{l}^{2}})$ операций.

Таким образом, имеем суммарную сложность одной итерации приближенного алгоритма SVP $O\left( {(m + n){{l}^{2}} + mnlq} \right)$. С учетом оценки $\epsilon = O\left( {\tfrac{k}{p}} \right)$ можно считать, что при малых $\varepsilon $ выполнено $p \gg k$, $l \approx p$, а вычислительная сложность одной итерации соответственно оценивается величиной

$O\left( {(m + n){{p}^{2}} + mnpq} \right).$

5.2. Псевдоскелетный метод на матрицах большого проективного объема

Опишем метод ASVP с использованием в качестве проектора ${{\hat {\mathcal{P}}}_{k}}$ аппроксимации на основе крестового (псевдоскелетного) $CGR$-приближения, в котором используются строки $R \in {{\mathbb{R}}^{{p \times n}}}$ и столбцы $C \in {{\mathbb{R}}^{{m \times p}}}$ приближаемой матрицы

$Y = {{X}_{t}} - \tau {{\mathcal{S}}^{{\text{T}}}}(\mathcal{S}({{X}_{t}}) - {\mathbf{B}}).$

Один из самых быстрых способов построения аппроксимации – построение Fast CGR из [17].

Построение аппроксимации состоит из следующих этапов.

1. Использование алгоритма $maxvol$ (см. [16]) для поиска подматрицы $\hat {Y} \in {{\mathbb{R}}^{{2k \times 2k}}}$.

Увеличенный в 2 раза ранг позволяет позже использовать усеченное сингулярное разложение для увеличения точности аппроксимации (по сравнению с прямым поиском аппроксимации ранга $k$), а также позволяет алгоритму не “зацикливаться” на одной и той же подматрице.

Эксперименты в [17] показывают, что в случае прямого построения аппроксимации $\tilde {Y} = C{{\hat {Y}}^{{ - 1}}}R$, коэффициент $\varepsilon $ растет линейно с ростом $r$, поэтому нельзя гарантировать произвольную точность приближения $\varepsilon $, ограничиваясь лишь алгоритмом $maxvol$.

При фиксированном числе шагов алгоритм требует $O\left( {\left( {m + n} \right){{k}^{2}}} \right)$ операций и знания $O\left( k \right)$ строк и столбцов матрицы.

2. Увеличение числа строк и столбцов до $p$.

Новые строки и столбцы выбираются с помощью ускоренного варианта алгоритма $maxvol2$ (см. [15]). Расширение требует лишь знания уже найденных с помощью $maxvol$ строк и столбцов и занимает $O\left( {\left( {m + n} \right)kp} \right)$ операций.

Согласно гипотезе из [17], для аппроксимации ранга $2k$ с $p$ столбцами справедлива оценка коэффициента

(23)
$1 + \varepsilon \leqslant 1 + \frac{k}{{p - k + 1}},$
а потому достаточно набрать $p = O(k{\text{/}}\varepsilon )$ строк и столбцов. При этом в качестве ядра $CGR$-аппроксимации выбирается матрица $G = \hat {Y}_{{2k}}^{ + }$, для чего потребуется сингулярное разложение матрицы $\hat {A}$, занимающее $O({{p}^{3}})$ операций.

3. Сингулярное разложение аппроксимации.

Найденная на предыдущем шаге $CGR$-аппроксимация ранга $2k$ подвергается сингулярному разложению с сохранением лишь $k$ максимальных сингулярных чисел.

Сингулярное разложение произведения $C\hat {Y}_{{2k}}^{ + }R$ требует $O\left( {\left( {m + n} \right)kp} \right)$ операций и выполняется в следующем порядке.

(a) Факторы $\hat {U} \in {{\mathbb{R}}^{{p \times 2k}}}$ и ${{\hat {V}}^{{\text{T}}}} \in {{\mathbb{R}}^{{2k \times p}}}$ сингулярного разложения матрицы $\hat {Y}_{{2k}}^{ + }$ умножаются на $C$ и $R$ соответственно.

(б) Для матрицы $C\hat {U}$ вычисляется представление в виде произведения матрицы с ортогональными столбцами и верхней треугольной матрицы; для матрицы ${{\hat {V}}^{{\text{T}}}}R$ вычисляется представление в виде произведения нижней треугольной матрицы и матрицы с ортогональными строками.

(в) Выполняется сингулярное разложение произведения двух полученных треугольных матриц, с помощью которого находится оптимальное приближение этого произведения матрицей ранга $k$.

Полученная таким образом аппроксимация ранга $k$ найденной на предыдущем шаге матрицы $CGR$ считается искомым приближением для ${{Y}_{k}}$.

Таким образом, полная сложность алгоритма аппроксимации составляет $O\left( {\left( {m + n} \right)kp + {{p}^{3}}} \right) = O\left( {\left( {m + n} \right){{p}^{2}}q + {{p}^{3}}} \right)$ $O\left( {\left( {m + n} \right)kp + {{p}^{3}}} \right) = O\left( {\left( {m + n} \right){{p}^{2}}q + {{p}^{3}}} \right)$. Данная аппроксимация может быть использована в качестве оператора приближенного проектирования ${{\hat {\mathcal{P}}}_{k}}$ для алгоритма ASVP.

Полученное $CGR$-разложение записывается в виде $CGR = {{X}_{{t + 1}}} = {{U}_{{t + 1}}}V_{{t + 1}}^{{\text{T}}}$ с ${{U}_{{t + 1}}} \in {{\mathbb{R}}^{{m \times k}}}$, $V_{{t + 1}}^{{\text{T}}} \in {{\mathbb{R}}^{{k \times n}}}$.

Напомним, что приближенное проектирование (аппроксимация) проводится для матрицы вида

$Y = {{X}_{t}} - \tau {{\mathcal{S}}^{{\text{T}}}}(\mathcal{S}({{X}_{t}}) - {\mathbf{B}}).$
Всего нам требуется $O(p)$ ее строк и столбцов, которые легко найти на основе матрицы ${{X}_{t}} = {{U}_{t}}V_{t}^{{\text{T}}}$ за $O\left( {\left( {m + n} \right)kp} \right)$ операций, что не увеличивает асимптотическую сложность алгоритма.

Заметим, что на практике число шагов алгоритма $maxvol$ можно считать константой, так как по ходу итераций алгоритма ASVP приближение каждой итерации меняется медленно, откуда имеем, что и объем подматриц приближения меняется слабо. Алгоритм tmaxvol основан на максимизации объема, а потому будет слабо реагировать на небольшие изменения входных данных.

Более того, на основе сингулярных чисел, которые отбрасываются на стадии сингулярного разложения аппроксимации $CGR$, можно судить о скорости сходимости алгоритма и иногда вообще не изменять выбранные ранее строки и солбцы.

В численных экспериментах использовались

$p = 2k + \left\lceil {0.7\frac{k}{q}} \right\rceil $
строк и столбцов. Это число намеренно ниже оценки (23): численные эксперименты из [17] показали, что реальные значения погрешности гораздо ниже верхних оценок, хотя те и предсказывают верную асимптотическую зависимость.

6. СРАВНИТЕЛЬНЫЙ АНАЛИЗ ВЫЧИСЛИТЕЛЬНОЙ СЛОЖНОСТИ АЛГОРИТМОВ ASVP И SVP

Рассмотрим соотношения сложностей алгоритма SVP с использованием полного сингулярного разложения матрицы и алгоритма ASVP с использованием приближенного проектирования матрицы. Для анализа отметим следующие особенности алгоритмов.

1. Доказательство сходимости алгоритмов SVP и ASVP базируется на использовании свойства ограниченной изометрии (3) рассматриваемого оператора $A$.

2. В случае, если $A$ – оператор задачи матричного восполнения, существует асимптотическая оценка на минимальное количество известных элементов матрицы, которого достаточно для полного восполнения. Эта оценка определяется размерами неизвестной матрицы, рангом неизвестной матрицы, и “некогерентностью” неизвестной матрицы, численной величиной, характеризующей разреженность сингулярных факторов матрицы.

3. Не обязательно использовать именно такой порядок числа известных элементов матрицы, допустимо использовать и большие порядки.

4. В случае алгоритма ASVP гарантируется геометрическая сходимость алгоритма с порядком не менее $O\left( {\tfrac{\epsilon }{q}} \right)$, где $q$ – плотность известных элементов матрицы, а $\varepsilon $ – относительная ошибка приближенного проектирования. Таким образом, при уменьшении числа известных элементов матрицы требуется большая точность приближенного проектирования.

5. И в случае ASVP с использованием проектирования на случайные подпространства, и в случае ASVP с использованием псевдоскелетного метода, вводится дополнительный параметр $p$, определяющий некую вспомогательную размерность метода, причем с увеличением $p$ увеличивается и точность, и вычислительная сложность приближенного проектирования, и наоборот.

6. Таким образом, с уменьшением плотности известных элементов матрицы требуется большая точность приближения, что приводит к увеличению вспомогательных размерностей рассматриваемых методов случайного проектирования, что может привести к увеличению сложности алгоритма ASVP.

Проведем формальное сравнение алгоритмов. Сложность SVP и ASVP удобно выразить через параметры $m,\;n,\;k,\;q,\;p$. Кроме того, $q \geqslant {{q}_{{{\text{min}}}}}(m,n,k,\mu )$; также и для псевдоскелетного метода, и для случайного проектирования выполнено $\epsilon = O\left( {\tfrac{k}{p}} \right)$; считая множитель геометрической сходимости константой, чтобы обеспечить константный порядок числа итераций алгоритма, имеем $\epsilon = O(q)$, откуда $p = O\left( {\tfrac{k}{q}} \right)$.

Алгоритм SVP состоит из двух основных операций, оценим их сложность.

1. Вычисление невязки на маске известных элементов покомпонентно: $O(k)$ операций на каждый элемент, $O(mnkq)$ операций всего.

2. Вычисление сингулярного разложения для получения приближения следующей итерации: $O(mnmin(m,n))$.

Так как $q < 1$, $k < min(m,n)$, имеем сложность одной итерации алгоритма $O(mnmin(m,n))$, кубическую в случае квадратной матрицы.

Рассмотрим полученные выше оценки на сложность итерации алгоритма ASVP.

$O((m + n){{p}^{2}}) + O(mnpq)$ для случайного проектирования,

$O((m + n)kp) + O({{p}^{3}})$ для псевдоскелетного метода.

С учетом $q = O(\epsilon ) = O\left( {\tfrac{k}{p}} \right)$ для метода случайного проектирования имеем, что асимптотика сложности одной итерации псевдоскелетного метода в $O\left( {min\left( {m,n} \right){\text{/}}p} \right)$ раз меньше сложности одной итерации метода случайного проектирования.

Теперь рассмотрим сложности ASVP в зависимости от различных $q$. Пусть $n \geqslant m$. В случае минимально возможного $q = {{q}_{{{\text{min}}}}} = O\left( {\tfrac{{{{k}^{2}}{{\mu }^{2}}logn}}{m}} \right)$ имеем сложность порядка

$O\left( {\tfrac{{(m + n){{m}^{2}}}}{{{{k}^{2}}{{\mu }^{4}}lo{{g}^{2}}n}}} \right) + O(mnk)$ для случайного проектирования;

$O\left( {\tfrac{{{{m}^{3}}}}{{{{\mu }^{6}}{{k}^{3}}{{{\log }}^{3}}n}}} \right) + O\left( {\tfrac{{(m + n)m}}{{{{\mu }^{2}}logn}}} \right)$ для псевдоскелетного метода.

Покажем, что при больших порядках $q$ можно достичь и более низкой сложности ASVP. Пусть $q = {{m}^{{ - 1/2}}} \gg \tfrac{{{{k}^{2}}{{\mu }^{2}}logn}}{m}$ (при малых порядках $\mu $, близких к константе или к логарифму от размеров матрицы); тогда подстановкой имеем сложность

$O((m + n)m{{k}^{2}})$ для случайного проектирования;

$O((m + n){{m}^{{1/2}}}{{k}^{2}}) + O({{m}^{{3/2}}}{{k}^{3}})$ для псевдоскелетного метода.

7. ЧИСЛЕННЫЕ ЭКСПЕРИМЕНТЫ

Проведем экспериментальное сравнение алгоритмов SVP и ASVP c двумя рассмотренными вариантами методов приближенного проектирования.

• Рассматриваются квадратные матрицы размера $m = n = 1000$. Рассматриваются ранги матриц $k$ от $5$ до $25$ и плотности распределения известных элементов $q$ от $0.1$ до $0.4$.

• Матрицы формируются случайно следующим образом.

– Формируются случайные матрицы ${{\hat {U}}_{k}} \in {{\mathbb{R}}^{{m \times k}}}$ и ${{\hat {V}}_{k}} \in {{\mathbb{R}}^{{n \times k}}}$, каждый элемент которых распределен случайно по стандартному нормальному распределению.

– Вычисляются ортогональные базисы ${{U}_{k}}$ и ${{V}_{k}}$ в пространствах столбцов ${{\hat {U}}_{k}}$ и ${{\hat {V}}_{k}}$ соответственно, например, с помощью $QR$-разложения. Экспериментально установлено, что некогерентность факторов ${{U}_{k}},\;{{V}_{k}}$, выбранных таким образом, растет логарифмически от $m,\;n$.

– Искомая матрица ${{X}_{*}}$ задается в виде ${{X}_{*}} = {{U}_{k}}{{\Sigma }_{k}}V_{k}^{{\text{T}}}$ с матрицей ${{\Sigma }_{k}}$ сингулярных значений ${{\sigma }_{1}} \geqslant {{\sigma }_{2}} \geqslant {{\sigma }_{3}} \geqslant \ldots $ . Экспериментально установлено, что сходимость методов SVP, ASVP зависит от характера убывания сингулярных чисел ${{\sigma }_{j}}$; в экспериментах рассмотрены следующие законы ${{\sigma }_{j}}$: ${{\sigma }_{i}} = 1$ (фиг. 1), ${{\sigma }_{i}} = 1{\text{/}}i$ (фиг. 2), ${{\sigma }_{i}} = 1{\text{/}}{{i}^{2}}$ (фиг. 3), ${{\sigma }_{i}} = 1{\text{/}}{{2}^{i}}$ (фиг. 4).

Фиг. 1.

Графики итоговой относительной невязки ${{\left\| {\mathcal{S}({{X}_{t}} - {{X}_{*}})} \right\|}_{2}}{\text{/}}{{\left\| {\mathcal{S}({{X}_{*}})} \right\|}_{2}}$ восполнения матриц с сингулярными числами вида ${{\sigma }_{i}} = 1$: (а), (в) – ASVP со случайным проектированием, ограничение по времени в 50 и в 10 итераций SVP соответственно; (б), (г) – псевдоскелетный ASVP, ограничение по времени в 50 и в 10 итераций SVP соответственно; (д), (е) – полный SVP (50 итераций) с параметрами шага $\tau = q$ и $\tau = 3{\text{/}}4$ соответственно.

Фиг. 2.

Графики итоговой относительной невязки ${{\left\| {\mathcal{S}({{X}_{t}} - {{X}_{*}})} \right\|}_{2}}{\text{/}}{{\left\| {\mathcal{S}({{X}_{*}})} \right\|}_{2}}$ восполнения матриц с сингулярными числами вида ${{\sigma }_{i}} = \tfrac{1}{i}$: (а), (в) – ASVP со случайным проектированием, ограничение по времени в 50 и в 10 итераций SVP соответственно; (б), (г) – псевдоскелетный ASVP, ограничение по времени в 50 и в 10 итераций SVP соответственно; (д), (е) – полный SVP (50 итераций) с параметрами шага $\tau = q$ и $\tau = 3{\text{/}}4$ соответственно.

Фиг. 3.

Графики итоговой относительной невязки ${{\left\| {\mathcal{S}({{X}_{t}} - {{X}_{*}})} \right\|}_{2}}{\text{/}}{{\left\| {\mathcal{S}({{X}_{*}})} \right\|}_{2}}$ восполнения матриц с сингулярными числами вида ${{\sigma }_{i}} = \tfrac{1}{{{{i}^{2}}}}$: (а), (в) – ASVP со случайным проектированием, ограничение по времени в 50 и в 10 итераций SVP соответственно; (б), (г) – псевдоскелетный ASVP, ограничение по времени в 50 и в 10 итераций SVP соответственно; (д), (е) – полный SVP (50 итераций) с параметрами шага $\tau = q$ и $\tau = 3{\text{/}}4$ соответственно.

Фиг. 4.

Графики итоговой относительной невязки ${{\left\| {\mathcal{S}({{X}_{t}} - {{X}_{*}})} \right\|}_{2}}{\text{/}}{{\left\| {\mathcal{S}({{X}_{*}})} \right\|}_{2}}$ восполнения матриц с сингулярными числами вида ${{\sigma }_{i}} = \tfrac{1}{{{{2}^{i}}}}$: (а), (в) – ASVP со случайным проектированием, ограничение по времени в 50 и в 10 итераций SVP соответственно; (б), (г) – псевдоскелетный ASVP, ограничение по времени в 50 и в 10 итераций SVP соответственно; (д), (е) – полный SVP (50 итераций) с параметрами шага $\tau = q$ и $\tau = 3{\text{/}}4$ соответственно.

• Сравнение проводится с ограничением по времени практической работы алгоритмов. Ограничение задается константой, которая определяется временем выполнения десяти или пятидесяти итераций алгоритма SVP с полным SVD; предполагается, что за это время приближенный алгоритм ASVP выполнит большее число итераций.

Ниже приведены графики зависимостей невязки от $q$ и $k$ при фиксированном размере матрицы в случае алгоритма SVP и двух рассмотренных вариантов алгоритма ASVP при различных законах падения сингулярных чисел неизвестной матрицы. Значения полных относительных ошибок по всей матрице на практике во всех экспериментах отличаются от относительных невязок на маске известных элементов не более, чем в два раза.

Графики сходимости в случае полного SVP приведены в двух вариантах: с шагом $q$ (фиг. 1д–4д) и c шагом $3{\text{/}}4$ (фиг. 1е–4е). Так как рассматривалось ограничение в 50 итераций SVP, вариант SVP с большим шагом на большой части графиков не достиг сходимости, так как такого числа итераций оказалось недостаточно для завершения последовательного набора ранга.

8. ЗАКЛЮЧЕНИЕ

В данной статье рассмотрено применение методов приближенного вычисления частичного сингулярного разложения к существующему итерационному алгоритму восполнения матриц малого  ранга, сходящемуся геометрически, основной операцией которого является сингулярное разложение матрицы с последующим отсечением всех неглавных компонент (SVD-проекция) на каждой итерации. Для этого алгоритма получен теоретический результат, при определенных предположениях гарантирующий сохранение геометрической сходимости даже в случае замены точного вычисления SVD-проекции на приближенное. Сформулировано условие приближения, выполнения которого достаточно для геометрической сходимости при произвольном методе получения самой приближенной проекции. Рассмотрены два возможных варианта таких методов, удовлетворяющих этому условию в среднем или с высокой вероятностью. Для обоих этих методов проведены численные эксперименты и получены похожие результаты, показывающие большую вычислительную эффективность использования приближенных SVD-проекций.

Список литературы

  1. Kang Z.,  Peng C.,  Cheng Q.  Top-N  Recommender  System  via  Matrix  Completion // arXiv preprint arXiv:1601.04800v1, 01/2016.

  2. Ahmed A., Romberg J. Compressive multeplexing of correlated signals // IEEE Trans. Inform. Theory. 2015. V. 61. № 1. P. 479–498.

  3. Davies M., Eldar Y. Rank awareness in joint sparse recovery // IEEE Trans. Inform. Theory. 2012. V. 58. № 2. P. 1135–1146.

  4. Hu R., Tong J., Xi J., Guo Q., Yu Y. Low-Complexity and Basis-Free Channel Estimation for Switch-Based mmWave MIMO Systems via Matrix Completion. arXiv preprint arXiv:1609.05693v2[cs.IT], 11/2016.

  5. Argyriou A., Evgeniou T., Pontil M. Convex multi-tasks feature learning // Machine Learn. 2008. V. 73. № 3. P. 243–272.

  6. Blei D. Probabilistic topics models // Comm. ACM. 2012. V. 55. № 4. P. 77–84.

  7. Inderjit S. Dhillon Paghu Meka, Prateek Jain. Guaranteed rank minimization via singular value projection // arXiv preprint arXiv:0909.5457, 09/2009.

  8. Tanner J., Wei K. Normalized iterative hard thresholding for matrix completion // SIAM J. Sci. Comput. 2013. V. 35. № 5. P. 104–125.

  9. Tropp J.A., Halko N., Martinsson P.G. Finding structure with randomness: probabilistic algorithms for constructing approximate matrix decompositions // SIAM Rev. 2011. V. 53. № 2. P. 217–288.

  10. Drienas P.,  Mahoney M.W.  Lectures  on  Randomized  Numerical  Linear  Algebra // arXiv preprint arXiv:1712.08880v1 [cs.DS], 12/2017.

  11. Goreinov S.A., Tyrtyshnikov E.E., Zamarashkin N.L. A theory of pseudoskeleton approximations // Linear Algebra and its Appl. 1996. V. 261. № 1–3. P. 1–21.

  12. Osinsky A.I., Zamarashkin N.L. Pseudo-skeleton approximations with better accuracy estimates // Linear Algebra and its Appl. 2018. V. 537. P. 221–249.

  13. Osinsky A.I., Zamarashkin N.L. New accuracy estimates for pseudoskeleton approximations of matrices // Doklady Math. 2016. V. 94. № 3. P. 643–645.

  14. Simon H.D., Zha H. Low-rank matrix approximation using the Lanczos Bidiagonalization process with applications // SIAM J. Sci. Comput. 2000. V. 21. № 6. P. 2257–2274.

  15. Mikhalev A.Y., Oseledets I.V. Rectangular submatrices of maximum volume and their computation // Doklady Math. 2015. V. 91. № 3. P. 267–268.

  16. Goreinov S.A., Oseledets I.V., Savostyanov D.V. et al. How to find a good submatrix / Matrix Methods: Theory, Algorithms, Applications. Ed. by V. Olshevsky, E. Tyrtyshnikov. World Sci. Publ., 2010. P. 247–256.

  17. Osinsky A.I. Rectangular maximum volume and projective volume search algorithms // arXiv 1809.02334 (Submitted on 7 Sep 2018)

  18. Boutsidis C., Drineas P., Magdon-Ismail M. Near-optimal column-based matrix reconstruction // SIAM J. Comput. 2014. V. 43. № 2. P. 687–717.

Дополнительные материалы отсутствуют.