Журнал вычислительной математики и математической физики, 2019, T. 59, № 2, стр. 211-216
Оценки аппроксимации тензорных поездов по норме Чебышёва
А. И. Осинский *
Ин-т вычисл. матем. РАН
119333 Москва, ул. Губкина, 8, Россия
* E-mail: sasha_o@list.ru
Поступила в редакцию 23.05.2018
Аннотация
Получена новая поэлементная оценка точности крестовой аппроксимации, применяемой для приближения многоиндексного массива (тензора) в формате тензорного поезда. Новая оценка является первой известной оценкой точности, отличающейся от наилучшей на множитель, зависящий лишь от ранга приближения $r$ и размерности тензора $d$, причем зависимость от размерности при фиксированном ранге лишь порядка ${{d}^{{{\text{const}}}}}$, а не constd. Тем самым она обосновывает применение крестового метода даже для больших величин размерности тензора. Библ. 10.
Тензорные поезда, впервые предложенные в [1], стали популярным инструментом приближения тензоров благодаря небольшим затратам памяти $O(dnr + d{{r}^{3}})$, высокой скорости выполнения операций (для малых рангов такая же асимптотика, как для канонического разложения) и быстрому алгоритму построения (см. [2]) с помощью крестовых аппроксимаций матриц развертки, для которых применяется алгоритм ${\text{maxvol}}$ [3]. Данный алгоритм позволяет найти подматрицу $\hat {A}$, объем которой ${{V}_{2}}(\hat {A}) = \operatorname{vol} (\hat {A}) = {\text{|}}\det \hat {A}{\text{|}}$ нельзя уменьшить заменой лишь одной строки или столбца. В том случае, когда объем найденной матрицы оказывается максимальным или почти максимальным (что часто выполняется на практике) среди подматриц, отличающихся не более, чем одной строкой и одним столбцом, можно гарантировать высокую точность построенной на основе $\hat {A}$ крестовой аппроксимации по норме Чебышёва.
Теорема 1 (см. [4]). Пусть матрица $A \in {{\mathbb{C}}^{{M \times N}}}$ имеет следующую блочную форму:
(1)
$\mathop {\left\| {A - CA_{{11}}^{{ - 1}}R} \right\|}\nolimits_C \leqslant {{(r + 1)}^{2}}{{\left\| E \right\|}_{C}},$(2)
$\mathop {\left\| {A - CA_{{11}}^{{ - 1}}R} \right\|}\nolimits_C \leqslant \alpha {{(r + 1)}^{2}}{{\left\| E \right\|}_{C}}.$Попытки прямого обобщения данной и похожих оценок на тензоры вызывают часто встречающуюся в таких случаях трудность – появление в коэффициенте множителя, экспоненциально зависящего от размерности тензора $d$. Такие оценки для разложения Таккера были впервые получены в [5] (случай $d = 3$) и обобщены и улучшены в [6].
В данной статье будут доказаны оценки погрешности аппроксимации тензоров по норме Чебышёва с коэффициентом, пропорциональным ${{r}^{{lo{{g}_{2}}d}}}$ вместо ${{r}^{d}}$, что гарантирует высокую точность аппроксимаций даже при большом числе размерностей тензора.
Стоит отметить, что в [7] уже была предложена похожая оценка, однако с коэффициентом, зависящим от максимального числа обусловленности $\kappa = {{\left\| {\hat {A}} \right\|}_{C}}{{\left\| {{{{\hat {A}}}^{{ - 1}}}} \right\|}_{C}}$ среди всех используемых при построении подматриц $\hat {A}$, который ничем не ограничен. Например, если
то матрица максимального объема размера $2 \times 2$ равна: и $\kappa = 1{\text{/}}\varepsilon $. В результате оценка ошибки не будет убывать при уменьшении $\varepsilon $, хотя ошибка наилучшего приближения стремится к нулю.Итак, пусть нам дан $d$-мерный тензор $A$ с индексами столбцов ${{i}_{1}},\;...,\;{{i}_{d}}$. Его мы будем обозначать через $A\left( {{{i}_{1}},\; \ldots ,\;{{i}_{d}}} \right)$. Буквой $J$ далее будем обозначать мультииндексы, содержащие в себе значения одновременно нескольких ${{i}_{k}}$. При записи в скобках это означает, что несколько индексов объединены в один, что уменьшает размерность тензора. Например, матрица $A({{i}_{k}},{{J}^{{ \ne k}}})$ является $k$-й матрицей развертки тензора $A$. Ее строки соответствуют индексу ${{i}_{k}}$, а столбцы, наоборот, соответствуют столбцам тензора $A$, когда все индексы, кроме ${{i}_{k}}$, фиксированы и их значения хранятся в мультииндексе ${{J}^{{ \ne k}}}$.
Мы будем приближать заданный нам тензор способом, аналогичным предложенному в [2]:
(3)
$\begin{gathered} A\left( {{{i}_{1}},\; \ldots ,\;{{i}_{d}}} \right) \approx \tilde {A} = \sum\limits_{\vec {s},\vec {t}} A\left( {{{i}_{1}},J_{{{{t}_{1}}}}^{{ > 1}}} \right)\mathop {\left[ {A\left( {J_{{{{s}_{1}}}}^{{ \leqslant 1}},J_{{{{t}_{1}}}}^{{ > 1}}} \right)} \right]}\nolimits_\tau ^ + \ldots A\left( {J_{{{{s}_{{d - 1}}}}}^{{ \leqslant d - 1}},{{i}_{d}}} \right) = \\ = \;\sum\limits_{\vec {s},\vec {t}} \prod\limits_{k = 1}^d A\left( {J_{{{{s}_{{k - 1}}}}}^{{ \leqslant k - 1}},{{i}_{k}},J_{{{{t}_{k}}}}^{{ > k}}} \right)\mathop {\left[ {A\left( {J_{{{{s}_{k}}}}^{{ \leqslant k}},J_{{{{t}_{k}}}}^{{ > k}}} \right)} \right]}\nolimits_\tau ^ + , \\ \end{gathered} $Для случая $d = 2$ мы получаем известное псевдоскелетное разложение матрицы:
(5)
$A\left( {{{i}_{1}},{{i}_{2}}} \right) = A\left( {{{i}_{1}},{{J}_{t}}} \right)\mathop {\left[ {A\left( {{{J}_{s}},{{J}_{t}}} \right)} \right]}\nolimits_\tau ^ + A\left( {{{J}_{s}},{{i}_{2}}} \right) + E\left( {{{i}_{1}},{{i}_{2}}} \right) = C\hat {A}_{\tau }^{ + }R + E.$Если ${{A}_{k}} \in {{\mathbb{C}}^{{r \times r}}}$ обладает максимальным объемом, а $\tau = 0$, то из теоремы 1 известна оценка на $C - {\text{н о р м у }}$ приближения (5):
Вместо ${{i}_{1}}$ и ${{i}_{2}}$ в (5) можно подставить мультииндексы. В частности,
Теорема 2. Для любого тензора $A = A\left( {{{i}_{1}},\; \ldots ,\;{{i}_{d}}} \right)$ существует его приближение $\tilde {A}$ вида (3) такое, что
(6)
$\mathop {\left\| {A - \tilde {A}} \right\|}\nolimits_C \leqslant \frac{{\mathop {\left( {4r} \right)}\nolimits^{\left\lceil {\mathop {log}\nolimits_2 d} \right\rceil } - 1}}{{4r - 1}}\mathop {\left( {r + 1} \right)}\nolimits^2 \mathop {\left\| F \right\|}\nolimits_C ,$Доказательство. Итак, выбрав в матрице-развертке тензора подматрицу максимального объема $\hat {A}$, на первом шаге мы получим разложение следующего вида:
где через $A$ будем уже обозначать матрицу развертки, а $\hat {A}$ – матрицу на пересечении столбцов $C$ и строк $R$, $E$ – погрешность такой аппроксимации.Далее мы строим разложение для тензоров, соответствующих матрицам $C$ и $R$. В конечном итоге, получим некоторые приближения этих тензоров:
На каждом шаге мы будем использовать разложение ранга $r$, то есть $r$ строк и столбцов. Если каждый раз при построении матриц развертки делить индексы примерно поровну, то конечный результат будет достигнут не более, чем за $\left\lceil {\mathop {log}\nolimits_2 d} \right\rceil $ шагов. При этом погрешность, которая окажется на $k$-м слое (шаге), будет оцениваться следующим образом (для простоты индекс $k$, который здесь является верхним, чтобы не путать с подматрицей ${{A}_{k}}$, далее будет опущен):Для начала оценим погрешность $E$:
(7)
$\mathop {\left\| {ABC} \right\|}\nolimits_C = \mathop {max}\limits_{i,j} \left| {{{A}_{{i,:}}}B{{C}_{{:.j}}}} \right| \leqslant \mathop {max}\limits_{i,j} \mathop {\left\| {{{A}_{{i,:}}}} \right\|}\nolimits_2 \mathop {\left\| B \right\|}\nolimits_2 \mathop {\left\| {{{C}_{{:.j}}}} \right\|}\nolimits_2 .$(8)
$\begin{gathered} \mathop {\left\| {{{E}_{C}}BR} \right\|}\nolimits_C = \mathop {\left\| {{{E}_{C}}\hat {A}_{\tau }^{ + }R} \right\|}\nolimits_C = \mathop {\left\| {{{E}_{C}}\left( {\hat {A}\hat {A}_{\tau }^{ + }} \right)\left( {{{{\hat {A}}}^{{ - 1}}}R} \right)} \right\|}\nolimits_C \leqslant r\mathop {\left\| {{{E}_{C}}} \right\|}\nolimits_C \mathop {\left\| {\hat {A}\hat {A}_{\tau }^{ + }} \right\|}\nolimits_2 \leqslant r{{\varepsilon }_{{k + 1}}}, \\ \mathop {\left\| {CB{{E}_{R}}} \right\|}\nolimits_C \leqslant r{{\varepsilon }_{{k + 1}}},\quad \mathop {\left\| {{{E}_{C}}B{{E}_{R}}} \right\|}\nolimits_C \leqslant r\mathop {\left\| {{{E}_{C}}} \right\|}\nolimits_C \mathop {\left\| {\hat {A}_{\tau }^{ + }} \right\|}\nolimits_2 \mathop {\left\| {{{E}_{R}}} \right\|}\nolimits_C \leqslant r\frac{{\mathop {\left( {{{\varepsilon }_{{k + 1}}}} \right)}\nolimits^2 }}{\tau }. \\ \end{gathered} $Оценку (6) можно улучшить, если использовать $n > r$ строк и столбцов. В этом случае в качестве $\hat {A}$ нужно использовать подматрицу максимального $r$-проективного объема, т.е. обладающую максимальным произведением первых $r$ сингулярных чисел:
Крестовая аппроксимация на основе максимального проективного объема была подробно исследована в [9], где, в частности, были получены следующие оценки:(9)
${{\left\| {A - C\hat {A}_{r}^{ + }R} \right\|}_{C}} \leqslant \frac{{{{{(n + 1)}}^{2}}}}{{n - r + 1}}{{\left\| F \right\|}_{C}},$(10)
${{\left\| {\hat {A}_{r}^{ + }{{R}_{i}}} \right\|}_{2}} \leqslant \sqrt {\frac{r}{{n - r + 1}}} ,\quad {{\left\| {{{C}_{j}}\hat {A}_{r}^{ + }} \right\|}_{2}} \leqslant \sqrt {\frac{r}{{n - r + 1}}} ,$Теорема 3. Для любого тензора $A = A\left( {{{i}_{1}},\; \ldots ,\;{{i}_{d}}} \right)$ существует его приближение $\tilde {A}$ вида (3) такое, что
(11)
$\mathop {\left\| {A - \tilde {A}} \right\|}\nolimits_C \leqslant \frac{{\mathop {\left( {4\sqrt {\tfrac{{rn}}{{n - r + 1}}} } \right)}\nolimits^{\left\lceil {\mathop {log}\nolimits_2 d} \right\rceil } - 1}}{{4\sqrt {\tfrac{{rn}}{{n - r + 1}}} - 1}}\frac{{\mathop {\left( {n + 1} \right)}\nolimits^2 }}{{n - r + 1}}\mathop {\left\| F \right\|}\nolimits_C ,$Доказательство проводится полностью аналогично случаю $n = r$. В качестве матрицы $B$ будем использовать $\hat {A}_{{\tau r}}^{ + }$. Нам снова нужно оценить каждое из слагаемых погрешности на $k$-м слое:
Следствие. Выбрав $n = 2r - 1$, получим оценку
Как видим, в случае тензоров, как и в случае матриц, дополнительные $r - 1$ строк и столбцов позволяют уменьшить в два раза степенную зависимость коэффициента от $r$.
Насколько данные оценки могут быть близки к реальному положению дел? Рассмотрим для простоты оценку (1) для матриц. В ней присутствует коэффициент ${{(r + 1)}^{2}}$. Численные эксперименты со случайными матрицами в [9] показали коэффициент вида ${{(\alpha r + 1)}^{2}}$ с достаточно малым $\alpha $ вместо коэффициента ${{(r + 1)}^{2}}$. В результате предсказанная оценкой квадратичная зависимость наблюдалась лишь на очень больших рангах, когда ${{\alpha }^{2}}{{r}^{2}} > > 1$. Что касается коэффициента, который возводится в степень $lo{{g}_{2}}d$, то для него также разумно предположить, что, например, 2-норма строк ${{E}_{C}}$ изменяется как $\sqrt {q + \alpha n} {{\left\| {{{E}_{C}}} \right\|}_{C}}$. Это означает, что на практике экспоненциальная зависимость от $lo{{g}_{2}}d$ будет заметна лишь на очень больших рангах, в то время как при достаточно малых рангах зависимость будет не более, чем степенной или даже линейной: в случае малости погрешности даже при больших $\tau $ верно равенство ${{\hat {A}}_{\tau }} = {{\hat {A}}_{r}}$, которое исключает одно из слагаемых и почти сводит к нулю ${{\left\| {{{E}_{C}}B{{E}_{R}}} \right\|}_{C}}$, поэтому в итоге в степень $lo{{g}_{2}}d$ будет возводиться число, близкое к 2.
Например, для $r = 1$ можно выбрать $\tau = {{\sigma }_{1}}(\hat {A}) \geqslant {{\left\| A \right\|}_{C}} \geqslant {{\left\| F \right\|}_{C}}$, что уже исключает необходимость $\tau $-псевдообращения. И тогда
(12)
${{\left\| {A - \tilde {A}} \right\|}_{C}} \leqslant 4(d - 1){{\left\| F \right\|}_{C}} + O(\left\| F \right\|_{C}^{2}{\text{/}}{{\left\| A \right\|}_{C}}).$Ранг 1 также можно рассматривать как частный случай канонического разложения, что при малых значениях погрешности приводит к оценке вида
(13)
${{\left\| {A - \tilde {A}} \right\|}_{C}} \leqslant 2d{{\left\| F \right\|}_{C}} + O(\left\| F \right\|_{C}^{2}{\text{/}}{{\left\| A \right\|}_{C}}).$В целом точность полученной формулы по некоторым аспектам остается под вопросом и требует проведения соответствующих вычислительных экспериментов с тензорами.
Естественно, рассуждения для среднего не отменяют возможность существования худшего случая, на котором полученная оценка будет достигаться для рангов, больших 1, хотя на данный момент такие примеры неизвестны.
Конечно, возможно также существование оценок по норме Чебышёва, никак не связанных с максимальным объемом или крестовыми аппроксимациями, однако, в матричном случае никаких аналогов, дающих схожие оценки по $C$-норме, автору неизвестны и мало какие алгоритмы способны соревноваться по простоте и скорости построения аппроксимации с крестовым методом.
Также крайне интересны были бы оценки крестовых аппроксимаций, например, по норме Фробениуса, так как в матричном случае известны оценки, сколь угодно близкие к точности сингулярного разложения [10]. Однако за неимением полного аналога $SVD$ для тензоров получение таких оценок до сих пор является крайне сложной задачей.
Вышесказанное еще сильнее подчеркивает важность полученного результата – доказаны такие оценки, аналоги которых пока остаются практически недостижимыми для всех прочих норм и методов.
Список литературы
Oseledets I.V. Tensor-train decomposition // SIAM J. Scientific Comput. 2011. V. 33. № 5. P. 2295–2317.
Oseledets I.V., Tyrtyshnikov E.E. TT-cross approximation for multidimensional arrays // Linear Algebra and its Appl. 2010. V. 432. P. 70–88.
Goreinov S.A., Oseledets I.V., Savostyanov D.V. et al. How to find a good submatrix // Matrix Methods: Theory, Algorithms, Applications. 2010. P. 247–256.
Горейнов С.А., Тыртышников Е.Е. Квазиоптимальность скелетного приближения матрицы в чебышевской норме // Докл. АН. 2011. М. 438. № 5. С. 593–594.
Oseledets I.V., Savostyanov D.V., Tyrtyshnikov E.E. Tucker dimensionality reduction of the three dimensional arrays in linear time // SIAM J. of Matrix Anal. Appl. 2008. V. 30. № 3. P. 939–956.
Горейнов С.А. О крестовой аппроксимации многоиндексного массива // Докл. АН. 2008. Т. 420. № 4. С. 439–441.
Savostyanov D.V. Quasioptimality of maximum-volume cross interpolation of tensors // Linear Algebra and its Applications. 2014. V. 458. P. 217–244.
Goreinov S.A., Tyrtyshnikov E.E. The maximal-volume concept in approximation by low-rank matrices // Contemporary Math. 2001. V. 268. P. 47–51.
Osinsky A.I., Zamarashkin N.L. Pseudo-skeleton approximations with better accuracy estimates // Linear Algebra and its Appl. 2018. V. 537. P. 221–249.
Boutsidis C., Woodruff D.P. Optimal cur matrix decompositions // Proc. of the 46th Annual ACM Symposium on Theory of Comput. 2014. P. 353–362.
Дополнительные материалы отсутствуют.
Инструменты
Журнал вычислительной математики и математической физики