Журнал вычислительной математики и математической физики, 2019, T. 59, № 2, стр. 211-216

Оценки аппроксимации тензорных поездов по норме Чебышёва

А. И. Осинский *

Ин-т вычисл. матем. РАН
119333 Москва, ул. Губкина, 8, Россия

* E-mail: sasha_o@list.ru

Поступила в редакцию 23.05.2018

Полный текст (PDF)

Аннотация

Получена новая поэлементная оценка точности крестовой аппроксимации, применяемой для приближения многоиндексного массива (тензора) в формате тензорного поезда. Новая оценка является первой известной оценкой точности, отличающейся от наилучшей на множитель, зависящий лишь от ранга приближения $r$ и размерности тензора $d$, причем зависимость от размерности при фиксированном ранге лишь порядка ${{d}^{{{\text{const}}}}}$, а не constd. Тем самым она обосновывает применение крестового метода даже для больших величин размерности тензора. Библ. 10.

Ключевые слова: многомерные массивы, нелинейные приближения, принцип максимального объема.

Тензорные поезда, впервые предложенные в [1], стали популярным инструментом приближения тензоров благодаря небольшим затратам памяти $O(dnr + d{{r}^{3}})$, высокой скорости выполнения операций (для малых рангов такая же асимптотика, как для канонического разложения) и быстрому алгоритму построения (см. [2]) с помощью крестовых аппроксимаций матриц развертки, для которых применяется алгоритм ${\text{maxvol}}$ [3]. Данный алгоритм позволяет найти подматрицу $\hat {A}$, объем которой ${{V}_{2}}(\hat {A}) = \operatorname{vol} (\hat {A}) = {\text{|}}\det \hat {A}{\text{|}}$ нельзя уменьшить заменой лишь одной строки или столбца. В том случае, когда объем найденной матрицы оказывается максимальным или почти максимальным (что часто выполняется на практике) среди подматриц, отличающихся не более, чем одной строкой и одним столбцом, можно гарантировать высокую точность построенной на основе $\hat {A}$ крестовой аппроксимации по норме Чебышёва.

Теорема 1 (см. [4]). Пусть матрица $A \in {{\mathbb{C}}^{{M \times N}}}$ имеет следующую блочную форму:

$A = \left[ {\begin{array}{*{20}{c}} {{{A}_{{11}}}}&{{{A}_{{12}}}} \\ {{{A}_{{21}}}}&{{{A}_{{22}}}} \end{array}} \right],$
где подматрица ${{A}_{{11}}} \in {{\mathbb{C}}^{{r \times r}}}$, $\operatorname{rank} {{A}_{{11}}} = r$ обладает максимальным объемом среди всех подматриц размера $r \times r$. Рассмотрим псевдоскелетную аппроксимацию матрицы $A$, построенную на столбцах $C = \left[ {\begin{array}{*{20}{c}} {{{A}_{{11}}}} \\ {{{A}_{{21}}}} \end{array}} \right]$ и строках $R = \left[ {\begin{array}{*{20}{c}} {{{A}_{{11}}}}&{{{A}_{{12}}}} \end{array}} \right]$, используя в качестве ядра $G$ матрицу $A_{{11}}^{{ - 1}}$. Тогда выполняется следующая оценка:
(1)
$\mathop {\left\| {A - CA_{{11}}^{{ - 1}}R} \right\|}\nolimits_C \leqslant {{(r + 1)}^{2}}{{\left\| E \right\|}_{C}},$
где ${{\left\| E \right\|}_{C}}$ ошибка наилучшего приближения $A$ по $C$-норме (норме Чебышёва),
${{\left\| A \right\|}_{C}} = \mathop {max}\limits_{i,j} \left| {{{A}_{{ij}}}} \right|.$
В случае, когда объем ${{A}_{{11}}}$ отличается от максимального в $\alpha \geqslant 1$ раз, получим

(2)
$\mathop {\left\| {A - CA_{{11}}^{{ - 1}}R} \right\|}\nolimits_C \leqslant \alpha {{(r + 1)}^{2}}{{\left\| E \right\|}_{C}}.$

Попытки прямого обобщения данной и похожих оценок на тензоры вызывают часто встречающуюся в таких случаях трудность – появление в коэффициенте множителя, экспоненциально зависящего от размерности тензора $d$. Такие оценки для разложения Таккера были впервые получены в [5] (случай $d = 3$) и обобщены и улучшены в [6].

В данной статье будут доказаны оценки погрешности аппроксимации тензоров по норме Чебышёва с коэффициентом, пропорциональным ${{r}^{{lo{{g}_{2}}d}}}$ вместо ${{r}^{d}}$, что гарантирует высокую точность аппроксимаций даже при большом числе размерностей тензора.

Стоит отметить, что в [7] уже была предложена похожая оценка, однако с коэффициентом, зависящим от максимального числа обусловленности $\kappa = {{\left\| {\hat {A}} \right\|}_{C}}{{\left\| {{{{\hat {A}}}^{{ - 1}}}} \right\|}_{C}}$ среди всех используемых при построении подматриц $\hat {A}$, который ничем не ограничен. Например, если

$A = \left[ {\begin{array}{*{20}{c}} 1&0 \\ 0&{\varepsilon I} \end{array}} \right],$
то матрица максимального объема размера $2 \times 2$ равна:
$\hat {A} = \left[ {\begin{array}{*{20}{c}} 1&0 \\ 0&\varepsilon \end{array}} \right],$
и $\kappa = 1{\text{/}}\varepsilon $. В результате оценка ошибки не будет убывать при уменьшении $\varepsilon $, хотя ошибка наилучшего приближения стремится к нулю.

Итак, пусть нам дан $d$-мерный тензор $A$ с индексами столбцов ${{i}_{1}},\;...,\;{{i}_{d}}$. Его мы будем обозначать через $A\left( {{{i}_{1}},\; \ldots ,\;{{i}_{d}}} \right)$. Буквой $J$ далее будем обозначать мультииндексы, содержащие в себе значения одновременно нескольких ${{i}_{k}}$. При записи в скобках это означает, что несколько индексов объединены в один, что уменьшает размерность тензора. Например, матрица $A({{i}_{k}},{{J}^{{ \ne k}}})$ является $k$-й матрицей развертки тензора $A$. Ее строки соответствуют индексу ${{i}_{k}}$, а столбцы, наоборот, соответствуют столбцам тензора $A$, когда все индексы, кроме ${{i}_{k}}$, фиксированы и их значения хранятся в мультииндексе ${{J}^{{ \ne k}}}$.

Мы будем приближать заданный нам тензор способом, аналогичным предложенному в [2]:

(3)
$\begin{gathered} A\left( {{{i}_{1}},\; \ldots ,\;{{i}_{d}}} \right) \approx \tilde {A} = \sum\limits_{\vec {s},\vec {t}} A\left( {{{i}_{1}},J_{{{{t}_{1}}}}^{{ > 1}}} \right)\mathop {\left[ {A\left( {J_{{{{s}_{1}}}}^{{ \leqslant 1}},J_{{{{t}_{1}}}}^{{ > 1}}} \right)} \right]}\nolimits_\tau ^ + \ldots A\left( {J_{{{{s}_{{d - 1}}}}}^{{ \leqslant d - 1}},{{i}_{d}}} \right) = \\ = \;\sum\limits_{\vec {s},\vec {t}} \prod\limits_{k = 1}^d A\left( {J_{{{{s}_{{k - 1}}}}}^{{ \leqslant k - 1}},{{i}_{k}},J_{{{{t}_{k}}}}^{{ > k}}} \right)\mathop {\left[ {A\left( {J_{{{{s}_{k}}}}^{{ \leqslant k}},J_{{{{t}_{k}}}}^{{ > k}}} \right)} \right]}\nolimits_\tau ^ + , \\ \end{gathered} $
где $d$ – число измерений тензора, $J_{{{{t}_{k}}}}^{{ > k}}$ – часть номеров столбцов, выбранных среди мультииндекса ${{J}^{{ > k}}} = \overline {{{i}_{{k + 1}}} \ldots {{i}_{d}}} $. Аналогично, $J_{{{{s}_{k}}}}^{{ \leqslant k}}$ представляет из себя выбор части номеров строк из мультииндекса ${{J}^{{ \leqslant k}}} = \overline {{{i}_{1}} \ldots {{i}_{k}}} $. Если все подматрицы вида
(4)
${{A}_{k}} = A\left( {J_{{{{s}_{k}}}}^{{ \leqslant k}},J_{{{{t}_{k}}}}^{{ > k}}} \right)$
состоят из $r$ строк и столбцов, то мы получаем некоторое приближение ранга $r$.

Для случая $d = 2$ мы получаем известное псевдоскелетное разложение матрицы:

(5)
$A\left( {{{i}_{1}},{{i}_{2}}} \right) = A\left( {{{i}_{1}},{{J}_{t}}} \right)\mathop {\left[ {A\left( {{{J}_{s}},{{J}_{t}}} \right)} \right]}\nolimits_\tau ^ + A\left( {{{J}_{s}},{{i}_{2}}} \right) + E\left( {{{i}_{1}},{{i}_{2}}} \right) = C\hat {A}_{\tau }^{ + }R + E.$
Здесь и далее индекс $\tau $ обозначает $\tau $-псевдообращение: перед взятием псевдообратной матрицы все сингулярные числа, меньшие $\tau $, зануляются. Это позволяет ограничить 2-норму $\tau $-псевдообратной матрицы значением $1{\text{/}}\tau $, так как при псевдообращении нулевые сингулярные числа остаются нулевыми. Индекс $r$ будет обозначать, что у матрицы все сингулярные числа после $r$-го (с нумерацией по убыванию) приравниваются нулю. Когда используются сразу два индекса, $\tau $ и $r$, это означает, что считаются нулевыми все сингулярные числа, меньшие $\tau $ или с номером, большим $r$. Индекс $k$ при этом, как и ранее, будет использоваться только для обозначения того, что это матрица вида (4).

Если ${{A}_{k}} \in {{\mathbb{C}}^{{r \times r}}}$ обладает максимальным объемом, а $\tau = 0$, то из теоремы 1 известна оценка на $C - {\text{н о р м у }}$ приближения (5):

$\mathop {\left\| {{{E}_{{\tau = 0}}}} \right\|}\nolimits_C = \mathop {\left\| {A - C{{{\hat {A}}}^{{ - 1}}}R} \right\|}\nolimits_C \leqslant \mathop {\left( {r + 1} \right)}\nolimits^2 \mathop {\left\| F \right\|}\nolimits_C ,$
где $F$ – наилучшее по $C$-норме приближение ранга $r$.

Вместо ${{i}_{1}}$ и ${{i}_{2}}$ в (5) можно подставить мультииндексы. В частности,

$\begin{gathered} A\left( {{{J}^{{ \leqslant k - 1}}},{{i}_{k}},{{i}_{{k + 1}}},{{J}^{{ > k + 1}}}} \right) = A\left( {{{J}^{{ \leqslant k - 1}}},{{i}_{k}},J_{{{{t}_{k}}}}^{{ > k}}} \right)A_{{k\tau }}^{ + }A\left( {J_{{{{s}_{k}}}}^{{ \leqslant k}},{{i}_{{k + 1}}},{{J}^{{ > k + 1}}}} \right) + E\left( {{{J}^{{ \leqslant k - 1}}},{{i}_{k}},{{i}_{{k + 1}}},{{J}^{{ > k + 1}}}} \right), \\ \mathop {\left\| {{{E}_{{\tau = 0}}}} \right\|}\nolimits_C \mathop { \leqslant \left( {r + 1} \right)}\nolimits^2 \mathop {\left\| F \right\|}\nolimits_C . \\ \end{gathered} $
Далее можно рассмотреть уже тензоры столбцов $C = A\left( {{{J}^{{ \leqslant k - 1}}},{{i}_{k}},J_{{{{t}_{k}}}}^{{ > k}}} \right)$ и строк $R = A\left( {J_{{{{s}_{k}}}}^{{ \leqslant k}},{{i}_{{k + 1}}},{{J}^{{ > k + 1}}}} \right)$ по отдельности, перегруппировать в них индексы и снова применить псевдоскелетное разложение. В конечном итоге, продолжая эту процедуру, получаем структуру вида (3). Оценим $C$-норму погрешности аппроксимации такого представления тензора.

Теорема 2. Для любого тензора $A = A\left( {{{i}_{1}},\; \ldots ,\;{{i}_{d}}} \right)$ существует его приближение $\tilde {A}$ вида (3) такое, что

(6)
$\mathop {\left\| {A - \tilde {A}} \right\|}\nolimits_C \leqslant \frac{{\mathop {\left( {4r} \right)}\nolimits^{\left\lceil {\mathop {log}\nolimits_2 d} \right\rceil } - 1}}{{4r - 1}}\mathop {\left( {r + 1} \right)}\nolimits^2 \mathop {\left\| F \right\|}\nolimits_C ,$
где $F$наилучшее по $C$-норме приближение тензора $A$ ранга $r$.

Доказательство. Итак, выбрав в матрице-развертке тензора подматрицу максимального объема $\hat {A}$, на первом шаге мы получим разложение следующего вида:

$A = CBR + E,$
$B = \hat {A}_{\tau }^{ + },$
где через $A$ будем уже обозначать матрицу развертки, а $\hat {A}$ – матрицу на пересечении столбцов $C$ и строк $R$, $E$ – погрешность такой аппроксимации.

Далее мы строим разложение для тензоров, соответствующих матрицам $C$ и $R$. В конечном итоге, получим некоторые приближения этих тензоров:

$C = \tilde {C} + {{E}_{C}},\quad R = \tilde {R} + {{E}_{R}}.$
На каждом шаге мы будем использовать разложение ранга $r$, то есть $r$ строк и столбцов. Если каждый раз при построении матриц развертки делить индексы примерно поровну, то конечный результат будет достигнут не более, чем за $\left\lceil {\mathop {log}\nolimits_2 d} \right\rceil $ шагов. При этом погрешность, которая окажется на $k$-м слое (шаге), будет оцениваться следующим образом (для простоты индекс $k$, который здесь является верхним, чтобы не путать с подматрицей ${{A}_{k}}$, далее будет опущен):
$\begin{gathered} \mathop {\left\| {{{A}^{k}} - {{{\tilde {A}}}^{k}}} \right\|}\nolimits_C = \mathop {\left\| {CBR + E - \tilde {C}B\tilde {R}} \right\|}\nolimits_C \leqslant \mathop {\left\| {{{E}_{C}}BR} \right\|}\nolimits_C + \mathop {\left\| {CB{{E}_{R}}} \right\|}\nolimits_C + \mathop {\left\| {{{E}_{C}}B{{E}_{R}}} \right\|}\nolimits_C + \mathop {\left\| E \right\|}\nolimits_C , \\ \mathop {\left\| {{{E}_{C}}} \right\|}\nolimits_C \leqslant {{\varepsilon }_{{k + 1}}},\quad \mathop {\left\| {{{E}_{R}}} \right\|}\nolimits_C \leqslant {{\varepsilon }_{{k + 1}}}, \\ \end{gathered} $
где ${{\varepsilon }_{{k + 1}}}$ – оценка для наибольшей погрешности на $k + 1$-м слое. Таким образом, нужно выбрать такую оценку ${{\varepsilon }_{k}}$, чтобы гарантировать неравенство
$\mathop {\left\| {{{A}^{k}} - {{{\tilde {A}}}^{k}}} \right\|}\nolimits_C \leqslant {{\varepsilon }_{k}}.$
При этом при $k = [\mathop {log}\nolimits_2 d]$ можно считать значение ${{\varepsilon }_{k}}$ равным оценке для ${{\left\| E \right\|}_{C}}$ для всего тензора.

Для начала оценим погрешность $E$:

$E = {{E}_{{\tau = 0}}} + C\left( {{{{\hat {A}}}^{{ - 1}}} - \hat {A}_{\tau }^{ + }} \right)R = {{E}_{{\tau = 0}}} + \left( {C{{{\hat {A}}}^{{ - 1}}}} \right)\left( {\hat {A} - {{{\hat {A}}}_{\tau }}} \right)\left( {{{{\hat {A}}}^{{ - 1}}}R} \right).$
Одним из свойств подматрицы максимального объема является то, что 2-норма строк $C{{\hat {A}}^{{ - 1}}}$ не превосходит $\sqrt r $. Оно следует напрямую из соотношения
${{\left\| {C{{{\hat {A}}}^{{ - 1}}}} \right\|}_{C}} \leqslant 1,$
которое доказано в [8]. То же верно и для 2-нормы столбцов ${{\hat {A}}^{{ - 1}}}R$. $C$-норма произведения трех матриц далее оценивается через произведение максимальной $2$-нормы строк первой матрицы, $2$-нормы второй матрицы и максимальной $2$-нормы столбцов третьей матрицы:
(7)
$\mathop {\left\| {ABC} \right\|}\nolimits_C = \mathop {max}\limits_{i,j} \left| {{{A}_{{i,:}}}B{{C}_{{:.j}}}} \right| \leqslant \mathop {max}\limits_{i,j} \mathop {\left\| {{{A}_{{i,:}}}} \right\|}\nolimits_2 \mathop {\left\| B \right\|}\nolimits_2 \mathop {\left\| {{{C}_{{:.j}}}} \right\|}\nolimits_2 .$
Поэтому для $C$-нормы погрешности будет верно следующее соотношение с учетом (7):
$\begin{gathered} \mathop {\left\| E \right\|}\nolimits_C \leqslant \mathop {\left\| {{{E}_{{\tau = 0}}}} \right\|}\nolimits_C + \mathop {\left\| {\left( {C{{{\hat {A}}}^{{ - 1}}}} \right)\left( {\hat {A} - {{{\hat {A}}}_{\tau }}} \right)\left( {{{{\hat {A}}}^{{ - 1}}}R} \right)} \right\|}\nolimits_C \leqslant \mathop {\left( {r + 1} \right)}\nolimits^2 \mathop {\left\| F \right\|}\nolimits_C + \mathop {max}\limits_{i,j} \mathop {\left\| {\mathop {\left( {C{{{\hat {A}}}^{{ - 1}}}} \right)}\nolimits_{i,:} } \right\|}\nolimits_2 \mathop {\left\| {\hat {A} - {{{\hat {A}}}_{\tau }}} \right\|}\nolimits_2 \mathop {\left\| {\mathop {\left( {{{A}^{{ - 1}}}R} \right)}\nolimits_{:,j} } \right\|}\nolimits_2 \leqslant \\ \leqslant \mathop {\left( {r + 1} \right)}\nolimits^2 \mathop {\left\| F \right\|}\nolimits_C + r\mathop {\left\| {\hat {A} - {{{\hat {A}}}_{\tau }}} \right\|}\nolimits_2 \leqslant \mathop {\left( {r + 1} \right)}\nolimits^2 \mathop {\left\| F \right\|}\nolimits_C + r\tau . \\ \end{gathered} $
Теперь оценим остальные слагаемые, применяя, где необходимо, выражение (7) и оценивая 2-норму строк и столбцов через $C$-норму:
(8)
$\begin{gathered} \mathop {\left\| {{{E}_{C}}BR} \right\|}\nolimits_C = \mathop {\left\| {{{E}_{C}}\hat {A}_{\tau }^{ + }R} \right\|}\nolimits_C = \mathop {\left\| {{{E}_{C}}\left( {\hat {A}\hat {A}_{\tau }^{ + }} \right)\left( {{{{\hat {A}}}^{{ - 1}}}R} \right)} \right\|}\nolimits_C \leqslant r\mathop {\left\| {{{E}_{C}}} \right\|}\nolimits_C \mathop {\left\| {\hat {A}\hat {A}_{\tau }^{ + }} \right\|}\nolimits_2 \leqslant r{{\varepsilon }_{{k + 1}}}, \\ \mathop {\left\| {CB{{E}_{R}}} \right\|}\nolimits_C \leqslant r{{\varepsilon }_{{k + 1}}},\quad \mathop {\left\| {{{E}_{C}}B{{E}_{R}}} \right\|}\nolimits_C \leqslant r\mathop {\left\| {{{E}_{C}}} \right\|}\nolimits_C \mathop {\left\| {\hat {A}_{\tau }^{ + }} \right\|}\nolimits_2 \mathop {\left\| {{{E}_{R}}} \right\|}\nolimits_C \leqslant r\frac{{\mathop {\left( {{{\varepsilon }_{{k + 1}}}} \right)}\nolimits^2 }}{\tau }. \\ \end{gathered} $
Взяв $\tau = {{\varepsilon }_{{k + 1}}}$, получим следующую оценку для погрешности на k-м слое:
$\begin{gathered} \mathop {\left\| {{{A}^{k}} - {{{\tilde {A}}}^{k}}} \right\|}\nolimits_C \leqslant r{{\varepsilon }_{{k + 1}}} + r{{\varepsilon }_{{k + 1}}} + r\frac{{\mathop {\left( {{{\varepsilon }_{{k + 1}}}} \right)}\nolimits^2 }}{\tau } + r\tau + \mathop {\left( {r + 1} \right)}\nolimits^2 \mathop {\left\| F \right\|}\nolimits_C = \\ = \;4r{{\varepsilon }_{{k + 1}}} + \mathop {\left( {r + 1} \right)}\nolimits^2 \mathop {\left\| F \right\|}\nolimits_C . \\ \end{gathered} $
Таким образом, достаточно взять
${{\varepsilon }_{k}} = 4r{{\varepsilon }_{{k + 1}}} + \mathop {\left( {r + 1} \right)}\nolimits^2 \mathop {\left\| F \right\|}\nolimits_C ,$
$k = \overline {1,[lo{{g}_{2}}d]} ,$
${{\varepsilon }_{{[lo{{g}_{2}}d]}}} = \mathop {\left( {r + 1} \right)}\nolimits^2 \mathop {\left\| F \right\|}\nolimits_C ,$
$\left\| {A - \tilde {A}} \right\| \leqslant {{\varepsilon }_{1}}.$
Суммируя полученную в результате раскрытия рекурренты геометрическую прогрессию, получаем оценку (6).

Оценку (6) можно улучшить, если использовать $n > r$ строк и столбцов. В этом случае в качестве $\hat {A}$ нужно использовать подматрицу максимального $r$-проективного объема, т.е. обладающую максимальным произведением первых $r$ сингулярных чисел:

$V_{2}^{r}(\hat {A}) = \prod\limits_{i = 1}^r \,{{\sigma }_{i}}(\hat {A}).$
Крестовая аппроксимация на основе максимального проективного объема была подробно исследована в [9], где, в частности, были получены следующие оценки:
(9)
${{\left\| {A - C\hat {A}_{r}^{ + }R} \right\|}_{C}} \leqslant \frac{{{{{(n + 1)}}^{2}}}}{{n - r + 1}}{{\left\| F \right\|}_{C}},$
(10)
${{\left\| {\hat {A}_{r}^{ + }{{R}_{i}}} \right\|}_{2}} \leqslant \sqrt {\frac{r}{{n - r + 1}}} ,\quad {{\left\| {{{C}_{j}}\hat {A}_{r}^{ + }} \right\|}_{2}} \leqslant \sqrt {\frac{r}{{n - r + 1}}} ,$
где ${{R}_{i}}$ – произвольная строка матрицы $R$, а ${{C}_{j}}$ – произвольный столбец $C$, не содержащиеся в $\hat {A}$. Для столбцов и строк из $\hat {A}$ в правой части неравенств будет 1, а потому они остаются верными, пока $n \leqslant 2r - 1$.

Теорема 3. Для любого тензора $A = A\left( {{{i}_{1}},\; \ldots ,\;{{i}_{d}}} \right)$ существует его приближение $\tilde {A}$ вида (3) такое, что

(11)
$\mathop {\left\| {A - \tilde {A}} \right\|}\nolimits_C \leqslant \frac{{\mathop {\left( {4\sqrt {\tfrac{{rn}}{{n - r + 1}}} } \right)}\nolimits^{\left\lceil {\mathop {log}\nolimits_2 d} \right\rceil } - 1}}{{4\sqrt {\tfrac{{rn}}{{n - r + 1}}} - 1}}\frac{{\mathop {\left( {n + 1} \right)}\nolimits^2 }}{{n - r + 1}}\mathop {\left\| F \right\|}\nolimits_C ,$
где $F$наилучшее по $C$-норме приближение тензора $A$ ранга $r$, а $n \leqslant 2r - 1$.

Доказательство проводится полностью аналогично случаю $n = r$. В качестве матрицы $B$ будем использовать $\hat {A}_{{\tau r}}^{ + }$. Нам снова нужно оценить каждое из слагаемых погрешности на $k$-м слое:

$\begin{gathered} \mathop {\left\| {{{A}^{k}} - \mathop {\tilde {A}}\nolimits^k } \right\|}\nolimits_C \mathop { \leqslant \left\| {{{E}_{C}}BR} \right\|}\nolimits_C + \mathop {\left\| {CB{{E}_{R}}} \right\|}\nolimits_C + \mathop {\left\| {{{E}_{C}}B{{E}_{R}}} \right\|}\nolimits_C + \mathop {\left\| E \right\|}\nolimits_C , \\ \mathop {\left\| {{{E}_{C}}} \right\|}\nolimits_C \leqslant {{\varepsilon }_{{k + 1}}},\quad \mathop {\left\| {{{E}_{R}}} \right\|}\nolimits_C \leqslant {{\varepsilon }_{{k + 1}}}. \\ \end{gathered} $
Для этого воспользуемся выражениями (9) и (10):
$\begin{gathered} \left\| {{{E}_{C}}} \right\| \leqslant {{\left\| {{{E}_{{\tau = 0}}}} \right\|}_{C}} + {{\left\| {\left( {C\hat {A}_{r}^{ + }} \right)\left( {\hat {A} - {{{\hat {A}}}_{\tau }}} \right)\left( {\hat {A}_{r}^{ + }R} \right)} \right\|}_{C}} \leqslant \frac{{{{{(n + 1)}}^{2}}}}{{n - r + 1}}{{\left\| F \right\|}_{C}} + \frac{r}{{n - r + 1}}{{\left\| {\hat {A} - {{{\hat {A}}}_{\tau }}} \right\|}_{2}} \leqslant \\ \leqslant \;\frac{{{{{(n + 1)}}^{2}}}}{{n - r + 1}}{{\left\| F \right\|}_{C}} + \frac{r}{{n - r + 1}}\tau , \\ \end{gathered} $
${{\left\| {{{E}_{C}}BR} \right\|}_{C}} = {{\left\| {{{E}_{C}}\hat {A}_{{\tau r}}^{ + }R} \right\|}_{C}} = {{\left\| {{{E}_{C}}\left( {\hat {A}\hat {A}_{\tau }^{ + }} \right)\left( {\hat {A}_{r}^{ + }R} \right)} \right\|}_{C}} \leqslant \frac{{\sqrt {rn} }}{{\sqrt {n - r + 1} }}{{\left\| {{{E}_{C}}} \right\|}_{C}}{{\left\| {\hat {A}\hat {A}_{\tau }^{ + }} \right\|}_{2}} \leqslant \frac{{\sqrt {rn} }}{{\sqrt {n - r + 1} }}{{\varepsilon }_{{k + 1}}},$
${{\left\| {CB{{E}_{R}}} \right\|}_{C}} \leqslant \frac{{\sqrt {rn} }}{{\sqrt {n - r + 1} }}{{\varepsilon }_{{k + 1}}},$
${{\left\| {{{E}_{C}}B{{E}_{R}}} \right\|}_{C}} \leqslant n{{\left\| {{{E}_{C}}} \right\|}_{C}}{{\left\| {\hat {A}_{{\tau r}}^{ + }} \right\|}_{2}}{{\left\| {{{E}_{R}}} \right\|}_{C}} \leqslant n\frac{{{{{\left( {{{\varepsilon }_{{k + 1}}}} \right)}}^{2}}}}{\tau }.$
Полагая $\tau = \sqrt {\tfrac{{n(n - r + 1)}}{r}} {{\varepsilon }_{{k + 1}}}$, получаем, что можно выбрать
${{\varepsilon }_{k}} = 4\sqrt {\frac{{rn}}{{n - r + 1}}} {{\varepsilon }_{{k + 1}}} + \frac{{{{{(n + 1)}}^{2}}}}{{n - r + 1}}\mathop {\left\| F \right\|}\nolimits_C .$
Здесь снова можно просуммировать геометрическую прогрессию, что даст в итоге (11).

Следствие. Выбрав $n = 2r - 1$, получим оценку

$\mathop {\left\| {A - \tilde {A}} \right\|}\nolimits_C \leqslant \frac{{\mathop {\left( {4\sqrt {2r - 1} } \right)}\nolimits^{\left\lceil {\mathop {log}\nolimits_2 d} \right\rceil } - 1}}{{4\sqrt {2r - 1} - 1}}4r\mathop {\left\| F \right\|}\nolimits_C .$

Как видим, в случае тензоров, как и в случае матриц, дополнительные $r - 1$ строк и столбцов позволяют уменьшить в два раза степенную зависимость коэффициента от $r$.

Насколько данные оценки могут быть близки к реальному положению дел? Рассмотрим для простоты оценку (1) для матриц. В ней присутствует коэффициент ${{(r + 1)}^{2}}$. Численные эксперименты со случайными матрицами в [9] показали коэффициент вида ${{(\alpha r + 1)}^{2}}$ с достаточно малым $\alpha $ вместо коэффициента ${{(r + 1)}^{2}}$. В результате предсказанная оценкой квадратичная зависимость наблюдалась лишь на очень больших рангах, когда ${{\alpha }^{2}}{{r}^{2}} > > 1$. Что касается коэффициента, который возводится в степень $lo{{g}_{2}}d$, то для него также разумно предположить, что, например, 2-норма строк ${{E}_{C}}$ изменяется как $\sqrt {q + \alpha n} {{\left\| {{{E}_{C}}} \right\|}_{C}}$. Это означает, что на практике экспоненциальная зависимость от $lo{{g}_{2}}d$ будет заметна лишь на очень больших рангах, в то время как при достаточно малых рангах зависимость будет не более, чем степенной или даже линейной: в случае малости погрешности даже при больших $\tau $ верно равенство ${{\hat {A}}_{\tau }} = {{\hat {A}}_{r}}$, которое исключает одно из слагаемых и почти сводит к нулю ${{\left\| {{{E}_{C}}B{{E}_{R}}} \right\|}_{C}}$, поэтому в итоге в степень $lo{{g}_{2}}d$ будет возводиться число, близкое к 2.

Например, для $r = 1$ можно выбрать $\tau = {{\sigma }_{1}}(\hat {A}) \geqslant {{\left\| A \right\|}_{C}} \geqslant {{\left\| F \right\|}_{C}}$, что уже исключает необходимость $\tau $-псевдообращения. И тогда

(12)
${{\left\| {A - \tilde {A}} \right\|}_{C}} \leqslant 4(d - 1){{\left\| F \right\|}_{C}} + O(\left\| F \right\|_{C}^{2}{\text{/}}{{\left\| A \right\|}_{C}}).$
Более того, ${{\left\| {{{E}_{C}}B{{E}_{R}}} \right\|}_{C}}$ может уменьшать погрешность, а не увеличивать, и тогда $O(\left\| F \right\|_{C}^{2}/{{\left\| A \right\|}_{C}})$ также исчезнет. Более глубокий анализ может позволить полностью избавиться от двух слагаемых даже при больших рангах.

Ранг 1 также можно рассматривать как частный случай канонического разложения, что при малых значениях погрешности приводит к оценке вида

(13)
${{\left\| {A - \tilde {A}} \right\|}_{C}} \leqslant 2d{{\left\| F \right\|}_{C}} + O(\left\| F \right\|_{C}^{2}{\text{/}}{{\left\| A \right\|}_{C}}).$
При $d = 2$ данная оценка совпадает с (12). При этом легко привести пример последовательности тензоров, для которой оценка (13) достигается, когда величина погрешности стремится к нулю. Например, для
$A = \left[ {\begin{array}{*{20}{c}} 1 \\ 1 \end{array}} \right] \times \ldots \times \left[ {\begin{array}{*{20}{c}} 1 \\ 1 \end{array}} \right] + \varepsilon \left[ {\begin{array}{*{20}{c}} 1 \\ { - 1} \end{array}} \right] \times \ldots \times \left[ {\begin{array}{*{20}{c}} 1 \\ { - 1} \end{array}} \right]$
${{\left\| F \right\|}_{C}} = \varepsilon $, а погрешность построенной на основе максимального элемента (что соответствует максимальному объему для $r = 1$) аппроксимации равна
$\mathop {\left\| {A - \frac{1}{{\mathop {\left( {1 + \varepsilon } \right)}\nolimits^{d - 1} }}\left[ {\begin{array}{*{20}{c}} {1 + \varepsilon } \\ {1 - \varepsilon } \end{array}} \right] \times \ldots \times \left[ {\begin{array}{*{20}{c}} {1 + \varepsilon } \\ {1 - \varepsilon } \end{array}} \right]} \right\|}\nolimits_C = 2d\varepsilon - O({{\varepsilon }^{2}}).$
Тем не менее, как уже было сказано, как минимум для матриц полученная оценка достигается крайне редко.

В целом точность полученной формулы по некоторым аспектам остается под вопросом и требует проведения соответствующих вычислительных экспериментов с тензорами.

Естественно, рассуждения для среднего не отменяют возможность существования худшего случая, на котором полученная оценка будет достигаться для рангов, больших 1, хотя на данный момент такие примеры неизвестны.

Конечно, возможно также существование оценок по норме Чебышёва, никак не связанных с максимальным объемом или крестовыми аппроксимациями, однако, в матричном случае никаких аналогов, дающих схожие оценки по $C$-норме, автору неизвестны и мало какие алгоритмы способны соревноваться по простоте и скорости построения аппроксимации с крестовым методом.

Также крайне интересны были бы оценки крестовых аппроксимаций, например, по норме Фробениуса, так как в матричном случае известны оценки, сколь угодно близкие к точности сингулярного разложения [10]. Однако за неимением полного аналога $SVD$ для тензоров получение таких оценок до сих пор является крайне сложной задачей.

Вышесказанное еще сильнее подчеркивает важность полученного результата – доказаны такие оценки, аналоги которых пока остаются практически недостижимыми для всех прочих норм и методов.

Список литературы

  1. Oseledets I.V. Tensor-train decomposition // SIAM J. Scientific Comput. 2011. V. 33. № 5. P. 2295–2317.

  2. Oseledets I.V., Tyrtyshnikov E.E. TT-cross approximation for multidimensional arrays // Linear Algebra and its Appl. 2010. V. 432. P. 70–88.

  3. Goreinov S.A., Oseledets I.V., Savostyanov D.V. et al. How to find a good submatrix // Matrix Methods: Theory, Algorithms, Applications. 2010. P. 247–256.

  4. Горейнов С.А., Тыртышников Е.Е. Квазиоптимальность скелетного приближения матрицы в чебышевской норме // Докл. АН. 2011. М. 438. № 5. С. 593–594.

  5. Oseledets I.V., Savostyanov D.V., Tyrtyshnikov E.E. Tucker dimensionality reduction of the three dimensional arrays in linear time // SIAM J. of Matrix Anal. Appl. 2008. V. 30. № 3. P. 939–956.

  6. Горейнов С.А. О крестовой аппроксимации многоиндексного массива // Докл. АН. 2008. Т. 420. № 4. С. 439–441.

  7. Savostyanov D.V. Quasioptimality of maximum-volume cross interpolation of tensors // Linear Algebra and its Applications. 2014. V. 458. P. 217–244.

  8. Goreinov S.A., Tyrtyshnikov E.E. The maximal-volume concept in approximation by low-rank matrices // Contemporary Math. 2001. V. 268. P. 47–51.

  9. Osinsky A.I., Zamarashkin N.L. Pseudo-skeleton approximations with better accuracy estimates // Linear Algebra and its Appl. 2018. V. 537. P. 221–249.

  10. Boutsidis C., Woodruff D.P. Optimal cur matrix decompositions // Proc. of the 46th Annual ACM Symposium on Theory of Comput. 2014. P. 353–362.

Дополнительные материалы отсутствуют.