Журнал вычислительной математики и математической физики, 2022, T. 62, № 5, стр. 723-741

ОБ АЛГОРИТМЕ НАИЛУЧШЕГО ПРИБЛИЖЕНИЯ МАТРИЦАМИ МАЛОГО РАНГА В НОРМЕ ЧЕБЫШЁВА

Н. Л. Замарашкин 1*, С. В. Морозов 1**, Е. Е. Тыртышников 1***

1 Институт вычислительной математики им. Г.И. Марчука РАН
119333 Москва, ул. Губкина, 8, Россия

* E-mail: nikolai.zamarashkin@gmail.com
** E-mail: stanis-morozov@yandex.ru
*** E-mail: eugene.tyrtyshnikov@gmail.com

Поступила в редакцию 18.11.2021
После доработки 18.11.2021
Принята к публикации 16.12.2021

Полный текст (PDF)

Аннотация

Задача приближения матрицами малого ранга встречается в вычислительной математике повсеместно. Традиционно эта задача решается в спектральной или фробениусовой нормах, где эффективность приближения связана со скоростью убывания сингулярных чисел матрицы. Однако недавние результаты показывают, что в других нормах это требование не является необходимым. В данной работе предлагается метод решения задачи о приближении матрицами малого ранга в чебышёвской норме, который способен за приемлемое время строить эффективные приближения для матриц без убывания сингулярных чисел. Библ. 12. Фиг. 3.

Ключевые слова: приближение матрицами малого ранга, алгоритм Ремеза, чебышёвское приближение.

1. ВВЕДЕНИЕ

Матрицы малого ранга встречаются в науке повсеместно. Они находят многочисленные применения в вычислительной математике [1], вычислительной гидродинамике [2], рекомендательных системах [3], машинном обучении [4] и многих других задачах, как инструмент малопараметрического приближения матриц.

Однако в большинстве известных случаев для приближаемых матриц делается разной степени обоснованности дополнительное предположение о быстром убывании их сингулярных чисел, удобство которого в первую очередь связано с наличием эффективных алгоритмов построения оптимальных или близких к оптимальным приближений в унитарно инвариантных нормах [5], [6], [7].

С другой стороны, в современных приложениях, в особенности относящихся к области больших данных, часто более естественно использовать другие матричные нормы. Например, в классической схеме рекомендательных систем рассматривается матрица рейтингов, строки которой соответствуют фильмам, музыкальным произведениям или некоторым товарам, а столбцы — пользователям. Значения элементов матрицы определяют рейтинги, которые выставили пользователи. Для восстановления отсутствующих рейтингов и построения последующих рекомендаций строится малоранговое приближение матрицы по известным элементам. В этом случае более естественным представляется приближать матрицу не в спектральной или фробениусовой нормах, а поэлементно, стараясь наилучшим образом приблизить значения всех рейтингов. Более того, как следует из статьи [8], статистические модели описания рейтинговых матриц приводят, вообще говоря, к матрицам с медленным убыванием сингулярных чисел, но допускающим поэлементное приближение матрицами малого ранга. Последнее означает, что использование алгоритмов малоранговой аппроксимации матриц на основе сингулярных разложений в рекомендательных системах едва ли можно считать обоснованным.

Введем в рассмотрение норму (такую норму естественно называть чебышёвской)

${\text{||}}X{\text{|}}{{{\text{|}}}_{C}} = \mathop {\max }\limits_{i,j} {\text{|}}{{x}_{{ij}}}{\text{|}},$
для которой рассмотрим задачу построения наилучшего малорангового приближения. А именно, пусть задана матрица $A \in {{\mathbb{C}}^{{m \times n}}},$ целое r и требуется найти $U \in {{\mathbb{C}}^{{m \times r}}}$ и $V \in {{\mathbb{C}}^{{n \times r}}}$ такие, что

(1)
$\mu = \mathop {{\text{inf}}}\limits_{U \in {{\mathbb{C}}^{{m \times r}}},V \in {{\mathbb{C}}^{{n \times r}}}} {\text{||}}A - U{{V}^{{\text{т}}}}{\text{|}}{{{\text{|}}}_{C}}.$

При этом матрицы $\widehat U$ и $\widehat V$, удовлетворяющие

${\text{||}}A - \widehat U{{\widehat V}^{{\text{т}}}}{\text{|}}{{{\text{|}}}_{C}} = \mu ,$
будем называть матрицами наилучшего приближения A ранга r.

Несмотря на естественность постановки ((1)), на сегодняшний день эта задача мало изучена. Известны асимптотические оценки на точность приближения ((1)) (см. [8]) и метод построения локальных минимумов задачи ((1)) в случае ранга 1 (см. [9]).

В настоящей работе предлагается и обосновывается алгоритм решения задачи

$\mu = \mathop {{\text{inf}}}\limits_{U \in {{\mathbb{R}}^{{m \times r}}}} {\text{||}}A - U{{V}^{{\text{т}}}}{\text{|}}{{{\text{|}}}_{C}}$
для произвольного ранга. На основе этого алгоритма развивается метод нахождения локальных минимумов задачи ((1)) для произвольного ранга. Большое количество численных экспериментов показывают, что асимптотические оценки, доказанные в [8], в общем случае не оптимальны.

Оставшаяся часть статьи организована следующим образом. В разд. 2 приведены известные в литературе результаты о рассматриваемой задаче. В разд. 3 приведены базовые результаты о свойствах решения задачи, включая вопросы существования, единственности и непрерывности решения. Кроме того, обсуждается вопрос о существовании и свойствах характеристических множеств, приводятся известные результаты о методах решения задачи с матрицей размера $(r + 1) \times r$. Наконец, мы рассматриваем критерии определения оптимальности решений, которые будут полезны в дальнейшем. В разд. 4 приводится и обосновывается комбинаторная формула решения задачи, а также предлагается обобщенный алгоритм Ремеза, позволяющий на практике находить решения за полиномиальное число операций. В разд. 5 приводится алгоритм решения задачи в случае, когда обе матрицы U и V считаются неизвестными. Численные эксперименты из разд. 6 демонстрируют эффективность предложенного метода, а также открывают ряд новых вопросов об асимптотической точности приближений матриц в чебышёвской норме. Разд. 7 завершает работу.

2. СУЩЕСТВУЮЩИЕ РЕЗУЛЬТАТЫ

Насколько нам известно, задача построения и анализа малоранговых приближений матриц в чебышёвской норме исследована мало. Мы будем опираться на две работы [8], [9]. Первая из них содержит результаты об асимптотических свойствах чебышёвских приближений матриц (в отсутствиe предположения об убывании сингулярных чисел), а вторая – метод нахождения локальных оптимумов в задаче (1) для ранга $1$.

Остановимся на этих работах подробнее. Одним из результатов, доказанных в [8], является

Теорема 1. Пусть $X \in {{\mathbb{R}}^{{m \times n}}}$, где $m \geqslant n$ и $0 < \varepsilon < 1$. Тогда при

$r = \left\lceil {72\log (2n + 1){\text{/}}{{\varepsilon }^{2}}} \right\rceil $
имеем

$\mathop {{\text{inf}}}\limits_{{\text{rank}}Y \leqslant r} {\text{||}}X - Y{\text{|}}{{{\text{|}}}_{C}} \leqslant \varepsilon {\text{||}}X{\text{|}}{{{\text{|}}}_{2}}.$

Из этой теоремы видно, что чебышёвские приближения малого ранга обладают большим потенциалом. Так, для любой последовательности матриц с ограниченной спектральной нормой, при фиксированной точности приближения $\varepsilon $, ранг чебышёвского приближения растет не более чем логарифмически. Например, при приближении единичной матрицы меньшим рангом в спектральной или фробениусовой норме, точность наилучшего приближения матрицы $n \times n$ рангом $n - 1$ равна 1. В то же время в чебышёвской норме единичная матрица может быть приближена с любой фиксированной точностью $\varepsilon > 0$ с рангом, который логарифмически возрастает с порядком матрицы $n$. В [8] это свойство чебышёвской нормы называется одной из основных причин, по которой матрицы, возникающие в анализе данных, могут быть эффективно приближены малым рангом.

Насколько нам известно, единственной статьей, в которой исследуется задача (1), является работа [9], где рассматривается случай приближения ранга 1. Для этого в [9] сначала решается задача вида

(2)
$\mu = \mathop {{\text{inf}}}\limits_{u \in {{\mathbb{R}}^{m}}} {\text{||}}A - u{{{v}}^{{\text{т}}}}{\text{|}}{{{\text{|}}}_{C}}.$

Легко видеть, что для каждой строки матрицы A задача (2) может быть решена независимо и, следовательно, сводится к задаче

$\mu = \mathop {\inf }\limits_{u \in \mathbb{R}} {{\left\| {a - u{v}} \right\|}_{\infty }}.$

Отсюда вытекает простой алгоритм решения задачи (2). Для того чтобы получить локальный минимум решения задачи (1), авторы применили метод альтернанса. Пусть задан некоторый начальный вектор ${{{v}}^{{(0)}}}$, решая задачу (2) при фиксированном ${v} = {{{v}}^{{(0)}}}$, найдем решение ${{u}^{{(1)}}}$. Далее при фиксированном $u = {{u}^{{(1)}}}$ решим задачу

$\mu = \mathop {{\text{inf}}}\limits_{{{{v}}^{{\text{т}}}} \in {{\mathbb{R}}^{n}}} {\text{||}}A - u{{{v}}^{{\text{т}}}}{\text{|}}{{{\text{|}}}_{C}}$
и найдем решение ${{{v}}^{{(1)}}}$. Продолжая по такой схеме, мы сойдемся к некоторому решению, которое, однако, не всегда является глобальным решением задачи (1). Кроме того, в [9] приведено необходимое условие оптимальности решения $U,V$ задачи (1) для ранга 1. Для простоты формулировок предположим, что все элементы U и V ненулевые.

Утверждение 1. Пусть все элементы векторов $u$ и ${v}$ ненулевые и они являются решением задачи (1). Пусть $R = A - u{{{v}}^{{\text{т}}}}$. Тогда в матрице R существует цикл, т.е. набор индексов $({{i}_{1}},{{j}_{1}}),({{i}_{1}},{{j}_{2}}),({{i}_{2}},{{j}_{2}})$, ..., $({{i}_{k}},{{j}_{k}}),({{i}_{k}},{{j}_{1}})$ такой, что

1) индексы ${{i}_{1}}, \ldots ,{{i}_{k}}$ различны;

2) индексы ${{j}_{1}}, \ldots ,{{j}_{k}}$ различны;

3) в каждой из этих позиций в матрице R достигается максимальное по модулю значение;

4) пусть $({{i}_{t}},{{j}_{p}})$ и $({{i}_{g}},{{j}_{h}})$ являются соседними в цикле, т.е. различными парами индексов такими, что $t = g$ или $p = h$. Тогда знаки величин ${{u}_{{{{i}_{t}}}}}{{{v}}_{{{{j}_{p}}}}}{{r}_{{{{i}_{t}}{{j}_{p}}}}}$ и ${{u}_{{{{i}_{g}}}}}{{{v}}_{{{{j}_{h}}}}}{{r}_{{{{i}_{g}}{{j}_{h}}}}}$ различны.

Далее мы докажем обобщения этих результатов на случай произвольного ранга.

3. ПРЕДВАРИТЕЛЬНЫЕ РЕЗУЛЬТАТЫ

Приведем некоторые базовые результаты, которые пригодятся нам в дальнейшем. Значительная их часть является переложением известных результатов теории чебышёвских приближений функций на матричный случай [10], [11]. В этом разделе нас будет интересовать задача

(3)
$\mu = \mathop {{\text{inf}}}\limits_{U \in {{\mathbb{C}}^{{m \times r}}}} {\text{||}}A - U{{V}^{{\text{т}}}}{\text{|}}{{{\text{|}}}_{C}}.$

Матрицу $\widehat U$, удовлетворяющую

${\text{||}}A - \widehat U{{V}^{{\text{т}}}}{\text{|}}{{{\text{|}}}_{C}} = \mu ,$
будем называть матрицей наилучшего приближения A по системе векторов V. Задача состоит в том, чтобы по заданной матрице $A \in {{\mathbb{C}}^{{m \times n}}}$ и матрице $V \in {{\mathbb{C}}^{{n \times r}}}$ найти матрицу $\widehat U \in {{\mathbb{C}}^{{m \times r}}}$ наилучшего приближения. Легко понять, что эта задача разбивается на $m$ независимых подзадач для каждой строки матрицы A, для которой требуется найти соответствующую строку матрицы $\widehat U$. Поэтому далее будем решать следующую задачу. Пусть заданы матрица $V \in {{\mathbb{C}}^{{n \times r}}}$ и вектор $a \in {{\mathbb{C}}^{n}}$. Требуется найти
(4)
$\mu = \mathop {\inf }\limits_{u \in {{\mathbb{C}}^{r}}} {{\left\| {a - Vu} \right\|}_{\infty }}$
и вектор $\hat {u} \in {{\mathbb{C}}^{r}}$, удовлетворяющий

${{\left\| {a - V\widehat u} \right\|}_{\infty }} = \mu .$

3.1. Существование, единственность, непрерывность

Приведем результаты о существовании, единственности и непрерывности решения задачи (4). Существование решения, т.е. такого $\hat {u} \in {{\mathbb{C}}^{r}}$, что

${{\left\| {a - V\widehat u} \right\|}_{\infty }} = \mu ,$
очевидно, поэтому перейдем сразу к вопросу о единственности решения. Здесь и далее будем обозначать нижним индексом столбец матрицы, а верхним индексом строку. Введем понятие чебышёвской системы векторов.

Определение 1. Столбцы матрицы $V \in {{\mathbb{C}}^{{n \times r}}}$ образуют чебышёвскую систему векторов, если любые r строк матрицы V линейно независимы.

Это понятие тесно связано с единственностью решения задачи наилучшего приближения. А именно, верна следующая

Теорема 2 (Хаар [10]). Пусть матрица $V \in {{\mathbb{C}}^{{n \times r}}}$ и $n > r$. Тогда для того, чтобы для любого вектора $a \in {{\mathbb{C}}^{n}}$ существовал единственный вектор $\hat {u} \in {{\mathbb{C}}^{r}}$ ее наилучшего равномерного приближения необходимо и достаточно, чтобы столбцы матрицы V образовывали чебышёвскую систему.

Также верно

Утверждение 2. Пусть столбцы матрицы $V \in {{\mathbb{C}}^{{n \times r}}}$, где $n > r$, образуют чебышёвскую систему и $V\widehat u$ — вектор наилучшего равномерного приближения. Тогда, по крайней мере, в r + 1 точке достигается максимальное значение, т.е. существуют ${{i}_{1}}, \ldots ,{{i}_{{r + 1}}}$, в которых выполняется равенство

${\text{|}}{{a}_{{{{i}_{j}}}}} - {{(V\hat {u})}_{{{{i}_{j}}}}}{\text{|}} = {\text{||}}a - V\hat {u}{\text{|}}{{{\text{|}}}_{\infty }},\quad j = 1, \ldots ,r + 1.$

Доказательство. Пусть точек, в которых достигается максимальное по модулю значение ${{r}_{1}} < r + 1$. Тогда решив систему с ${{r}_{1}}$ уравнениями и $r$ неизвестными, строки которой линейно независимы, мы можем получить вектор $p \in {{\mathbb{C}}^{r}}$ такой, что

${{(Vp)}_{{{{i}_{j}}}}} = {{a}_{{{{i}_{j}}}}} - {{(V\hat {u})}_{{{{i}_{j}}}}},\quad j = 1, \ldots ,{{r}_{1}}.$

Но тогда вектор $V(\widehat u + \delta p)$ при достаточно малом $\delta $ отклоняется от a меньше, чем $V\hat {u}$. Пришли к противоречию.

Рассмотрим вопрос о непрерывности решения.

Теорема 3 (Никольский [10]). Пусть система столбцов матрицы $V \in {{\mathbb{C}}^{{n \times r}}}$, где $n > r$, является чебышёвской. Тогда коэффициенты вектора наилучшего равномерного приближения $\widehat u$ непрерывно зависят от приближаемого вектора a, и системы столбцов V, т.е. $\forall \varepsilon > 0$ $\exists \delta = \delta (a,V,\varepsilon ) > 0$ такое, что если ${\text{||}}a - b{\text{|}}{{{\text{|}}}_{\infty }} + \,{\text{||}}V - W{\text{||}} < \delta $, то ${\text{||}}\hat {u}(a,V) - \hat {u}(b,W){\text{|}}{{{\text{|}}}_{\infty }} < \varepsilon $, где через $\widehat u(a,V)$ и $\widehat u(b,W)$ обозначены коэффициенты оптимального решения для векторов a по системе V и b по системе W соответственно.

3.2. Характеристические множества

Пусть J обозначает набор индексов $J = \left\{ {1,2, \ldots ,n} \right\},$ а $J{\kern 1pt} '$ и $J{\kern 1pt} ''$ – некоторые подмножества J. Пусть

$\mu (J{\kern 1pt} ') = \mathop {\inf }\limits_{u \in {{\mathbb{C}}^{r}}} {{\left\| {a(J{\kern 1pt} ') - V(J{\kern 1pt} ')u} \right\|}_{\infty }},$
где через $V(J{\kern 1pt} ')$ обозначена подматрица матрицы V, содержащая строки с номерами из множества $J{\kern 1pt} '$, а через $a(J{\kern 1pt} ')$ обозначен подвектор вектора a, содержащий элементы с номерами из $J{\kern 1pt} '$.

Определение 2. Множество $J{\kern 1pt} '$ называется характеристическим множеством, если $\mu (J) = \mu (J{\kern 1pt} ')$ и для любого подмножества $J{\kern 1pt} '' \subsetneq J{\kern 1pt} '$ $\mu (J{\kern 1pt} '') < \mu (J)$.

Далее мы докажем, что если система столбцов матрицы V линейно независима, то существует по крайней мере одно характеристическое множество, содержащее не более $2r + 1$ точек в комплексном и не более $r + 1$ точек в вещественном случае.

Для дальнейшего нам понадобятся следующие обозначения [10], [11]. Пусть $\lambda \geqslant 0$ и пусть

$F(j,u) = \left| {{{a}_{j}} - {{u}^{{\text{т}}}}{{{v}}^{j}}} \right|,$
$K(j,\lambda ) = \left\{ {u \in {{\mathbb{C}}^{r}}|F(j,u) \leqslant \lambda } \right\},$
$K(J{\kern 1pt} ',\lambda ) = \bigcap\limits_{j \in J{\kern 1pt} '} K(j,\lambda ) = \left\{ {u \in {{\mathbb{C}}^{r}}|F(j,u) \leqslant \lambda ,\forall j \in J{\kern 1pt} '} \right\}.$

Утверждение 3. Верны следующие вложения

$K(j,\lambda {\kern 1pt} ') \subset K(j,\lambda {\kern 1pt} '{\kern 1pt} '),\quad K(J{\kern 1pt} ',\lambda {\kern 1pt} ') \subset K(J{\kern 1pt} ',\lambda {\kern 1pt} '{\kern 1pt} '),\quad 0 \leqslant \lambda {\kern 1pt} ' < \lambda {\kern 1pt} '{\kern 1pt} ',$
$K(J{\kern 1pt} '{\kern 1pt} ',\lambda ) \subset K(J{\kern 1pt} ',\lambda ),\quad J{\kern 1pt} ' \subset J{\kern 1pt} '{\kern 1pt} '.$

Лемма 1. Пусть столбцы матрицы V линейно независимы. Тогда множество $K(j,\lambda )$ выпукло и замкнуто, а множество $K(J,\lambda )$ ограничено для любых $\lambda \geqslant 0$.

Доказательство. Докажем замкнутость множеств $K(j,\lambda )$. Пусть u1 – предельная точка множества $K(j,\lambda )$. Тогда в любой ее окрестности существуют точки $u \in K(j,\lambda )$

$F(j,{{u}_{1}}) \leqslant {\text{|}}F(j,{{u}_{1}}) - F(j,u){\text{|}} + F(j,u).$

Так как $u \in K(j,\lambda )$, то $F(j,u) \leqslant \lambda $. Функция

$F(j,u) = {\text{|}}{{a}_{j}} - {{u}^{{\text{т}}}}{{{v}}^{j}}{\text{|}}$
очевидно непрерывна по u при любом фиксированном j. Тогда для любого $\varepsilon > 0$ существует $\delta > 0$ такая, что если ${\text{|}}u - {{u}_{1}}{\text{|}} < \delta $, то ${\text{|}}F(j,{{u}_{1}}) - F(j,u){\text{|}} < \varepsilon $. Таким образом, имеем
$F(j,{{u}_{1}}) < \varepsilon + \lambda $
для любого $\varepsilon > 0$, откуда ${{u}_{1}} \in K(j,\lambda )$. Замкнутость доказана.

Докажем ограниченность $K(J,\lambda )$. Рассмотрим вектор Vu при ${\text{||}}u{\text{|}}{{{\text{|}}}_{1}} = 1$. Величина ${\text{||}}Vu{\text{|}}{{{\text{|}}}_{\infty }}$ является непрерывной по u функцией на компактном множестве, поэтому достигает в некоторой точке своего минимального значения

$M = {\text{||}}V\hat {u}{\text{|}}{{{\text{|}}}_{\infty }} \leqslant {\text{||}}Vu{\text{|}}{{{\text{|}}}_{\infty }}.$

Поскольку столбцы V линейно независимы, любая их нетривиальная линейная комбинация не равна 0 и $M > 0$.

Пусть ${\text{||}}u{\text{|}}{{{\text{|}}}_{1}} \geqslant \frac{{C + 1}}{M}$, где $C > 0$ — некоторая константа. Тогда

${\text{||}}a - Vu{\text{|}}{{{\text{|}}}_{\infty }} \geqslant {\text{||}}Vu{\text{|}}{{{\text{|}}}_{\infty }} - \,{\text{||}}a{\text{|}}{{{\text{|}}}_{\infty }} \geqslant {\text{||}}u{\text{|}}{{{\text{|}}}_{1}}M - \,{\text{||}}a{\text{|}}{{{\text{|}}}_{\infty }} \geqslant C + 1 - \,{\text{||}}a{\text{|}}{{{\text{|}}}_{\infty }}.$

Тогда при ${\text{||}}u{\text{|}}{{{\text{|}}}_{1}} \geqslant \frac{{C + 1}}{M}$ не может быть выполнено условие $F(J,u) \leqslant \lambda = C\, - \,{\text{||}}a{\text{|}}{{{\text{|}}}_{\infty }}$, т.е. $u \notin K(j,\lambda )$ при $\lambda \leqslant C - \,{\text{||}}a{\text{|}}{{{\text{|}}}_{\infty }}$. В силу произвольности $C$ ограниченность доказана.

Докажем выпуклость множества $K(j,\lambda )$. Пусть ${{u}_{1}},{{u}_{2}} \in K(j,\lambda )$, т.е. $F(j,{{u}_{1}}) \leqslant \lambda $ и $F(j,{{u}_{2}}) \leqslant \lambda $. Нужно доказать, что $F(j,\tau {{u}_{1}} + (1 - \tau ){{u}_{2}}) \leqslant \lambda $ для любого $\tau \in (0,1)$:

$F(j,\tau {{u}_{1}} + (1 - \tau ){{u}_{2}}) = {\text{|}}{{a}_{j}} - {{(\tau {{u}_{1}} + (1 - \tau ){{u}_{2}})}^{{\text{т}}}}{{{v}}^{j}}{\text{|}} = $
$ = {\text{|}}\tau ({{a}_{j}} - u_{1}^{{\text{т}}}{{{v}}^{j}}) + (1 - \tau )({{a}_{j}} - u_{2}^{{\text{т}}}{{{v}}^{j}}){\text{|}} \leqslant $
$ \leqslant \tau F(j,{{u}_{1}}) + (1 - \tau )F(j,{{u}_{2}}) \leqslant \lambda .$

Обозначим через Mk множество всевозможных упорядоченных подмножеств Jk, состоящих из k элементов ${{i}_{1}}, \ldots ,{{i}_{k}}$, взятых из множества J. Обозначим через ${{\mu }_{k}}(J)$ точную верхнюю грань наименьших отклонений от нуля функции $F(j,u)$ на всевозможных подмножествах ${{J}_{k}} \in {{M}_{k}}$:

${{\mu }_{k}}(J) = \mathop {\max }\limits_{{{J}_{k}} \in {{M}_{k}}} \mu ({{J}_{k}}) = \mathop {\max }\limits_{{{J}_{k}} \in {{M}_{k}}} \mathop {\min }\limits_{u \in {{\mathbb{C}}^{r}}} \mathop {\max }\limits_{j \in {{J}_{k}}} F(j,u).$

Легко доказать

Утверждение 4. Верно неравенство ${{\mu }_{k}}(J) \leqslant {{\mu }_{{k + 1}}}(J) \leqslant \mu (J) \forall k$.

Для дальнейшего анализа понадобится следующая

Теорема 4 (Хелли). Если множество K замкнутых выпуклых множеств точек $x \in {{\mathbb{R}}^{r}}$ содержит не менее $r + 1$ множеств (среди которых могут быть одинаковые), пересечение любых $r + 1$ множеств из K не пусто и пересечение некоторого конечного числа множеств из K ограничено, то пересечение всех множеств из K не пусто.

Основываясь на теореме Хелли, докажем следующий результат.

Теорема 5 (Шнирельман [10]). Если существует такое ${{\lambda }_{0}} > {{\mu }_{{2r + 1}}}$ (${{\lambda }_{0}} > {{\mu }_{{r + 1}}}$ в вещественном случае), что для любого j и любом $\lambda $, ${{\mu }_{{2r + 1}}} < \lambda < {{\lambda }_{0}}$ (${{\mu }_{{r + 1}}} < \lambda < {{\lambda }_{0}}$ в вещественном случае), множество $K(j,\lambda )$ замкнуто и выпукло, и пересечение некоторого конечного числа множеств $K(j,\lambda )$ ограничено, то ${{\mu }_{{2r + 1}}}(J) = \mu (J)$ (${{\mu }_{{r + 1}}}(J) = \mu (J)$ в вещественном случае).

Доказательство. Пусть $k = r + 1$ в вещественном случае и $k = 2r + 1$ в комплексном. В силу конечности множеств Jk и Mk имеем, что максимумы и минимумы достигаются, поэтому при любом $\lambda > {{\mu }_{k}}(J)$ множество $K({{J}_{k}},\lambda )$ не пусто. Кроме того, так как $K(j,\lambda )$ по условию выпукло и замкнуто, то

$K({{J}_{k}},\lambda ) = \bigcap\limits_{j \in {{J}_{k}}} K(j,\lambda )$
не пусто и выпукло для любого ${{J}_{k}} \in {{M}_{k}}$.

Убедимся, что выполнены все условия теоремы Хелли. В качестве совокупности множеств K возьмем множества $K(j,\lambda )$, $j \in J$. По условию теоремы они замкнуты и выпуклы, и пересечение некоторого конечного числа этих множеств ограничено. В вещественном случае то, что пересечение любых $j + 1$ множеств не пусто, эквивалентно тому, что $K({{J}_{{r + 1}}},\lambda )$ не пусто, что было показано выше. В комплексном случае нам нужно работать с пространством ${{\mathbb{C}}^{r}}$, которое мы отождествим с ${{\mathbb{R}}^{{2r}}}$, поэтому нам требуется, чтобы пересечение любых $2r + 1$ множеств  было не пусто, что также было показано выше. Итак, все условия теоремы Хелли выполнены и мы имеем, что

$K(J,\lambda ) = \bigcap\limits_{j \in J} K(j,\lambda )$
не пусто, замкнуто, выпукло и ограничено.

Пусть последовательность $\{ {{\lambda }_{t}}\} $ убывающая, ${{\mu }_{k}} < {{\lambda }_{t}} < {{\lambda }_{0}}$ и стремится к ${{\mu }_{k}}$. При этом $K(J,{{\lambda }_{{t + 1}}}) \subset K(J,{{\lambda }_{t}})$ и пересечение

$K = \bigcap\limits_{t = 1}^\infty K(J,{{\lambda }_{t}})$
не пусто, замкнуто и ограничено. Пусть ${{u}_{0}} \in K$. Это значит, что ${{u}_{0}} \in K(J,{{\lambda }_{t}})$, что значит, что $F(j,{{u}_{0}}) \leqslant {{\lambda }_{t}}$ для любых $j \in J$ и любого t. В пределе при $t \to \infty $ получаем, что $F(j,{{u}_{0}}) \leqslant {{\mu }_{k}}(J)$ для любого $j \in J$, откуда

$\mu (J) \leqslant \mathop {\max }\limits_{j \in J} F(j,{{u}_{0}}) \leqslant {{\mu }_{k}}(J).$

Но, как было отмечено выше, ${{\mu }_{k}}(J) \leqslant \mu (J)$.

Эта теорема позволяет сформулировать следующий результат.

Теорема 6. Пусть столбцы матрицы $V \in {{\mathbb{C}}^{{n \times r}}}$, где $n \geqslant r$ линейно независимы и вектор a не принадлежит образу матрицы V. Тогда существует по крайней мере одно характеристическое множество, состоящее не более чем из $2r + 1$ точек в комплексном случае и $r + 1$ точек в вещественном. Кроме того, если система столбцов матрицы V является чебышёвской, то любое характеристическое множество состоит не менее чем из $r + 1$ точек.

Доказательство. Результат для произвольной системы сразу следует из леммы 0 и теоремы 5. В случае чебышёвской системы на любом множестве из r и менее точек можно решить систему и точно приблизить вектор в этих точках, а поскольку множество является характеристическим, то это противоречит условию, что a не принадлежит образу V.

3.3. О задаче поиска равноудаленных точек

Введем понятие равноудаленной точки системы.

Определение 3. Пусть $V \in {{\mathbb{R}}^{{(r + 1) \times r}}}$ и $a \in {{\mathbb{R}}^{{r + 1}}}$. Пусть система

$Vu = a$
несовместна. Будем называть точку $u$ равноудаленной точкой системы, если

$\rho (u) = {\text{|}}({{{v}}^{1}},u) - {{a}_{1}}{\text{|}} = {\text{|}}({{{v}}^{2}},u) - {{a}_{2}}{\text{|}} = \ldots = {\text{|}}({{{v}}^{{r + 1}}},u) - {{a}_{{r + 1}}}{\text{|}}.$

Будем называть точку $u$ наилучшей равноудаленной точкой системы, если она является равноудаленной и величина $\rho (u)$ минимальна.

Приведем результаты [12] о том, как устроено множество всех равноудаленных точек системы в вещественном случае.

Пусть

${{\hat {V}}_{j}} = \left[ {\begin{array}{*{20}{c}} {{v}_{1}^{1}}&{{v}_{2}^{1}}& \ldots &{{v}_{r}^{1}} \\ {{v}_{1}^{2}}&{{v}_{2}^{2}}& \ldots &{{v}_{r}^{2}} \\ \vdots & \vdots & \vdots & \vdots \\ {{v}_{1}^{{j - 1}}}&{{v}_{2}^{{j - 1}}}& \ldots &{{v}_{r}^{{j - 1}}} \\ {{v}_{1}^{{j + 1}}}&{{v}_{2}^{{j + 1}}}& \ldots &{{v}_{r}^{{j + 1}}} \\ \vdots & \vdots & \vdots & \vdots \\ {{v}_{1}^{{r + 1}}}&{{v}_{2}^{{r + 1}}}& \ldots &{{v}_{r}^{{r + 1}}} \end{array}} \right]$
и ${{\hat {a}}_{j}} = ({{a}_{1}},{{a}_{2}}, \ldots ,{{a}_{{j - 1}}},{{a}_{{j + 1}}}, \ldots ,{{a}_{{r + 1}}}{{)}^{{\text{т}}}}$. Тогда обозначим через ${{D}_{j}} = \det {{\hat {V}}_{j}}$ и ${{\hat {u}}^{j}}$ решение системы ${{\hat {V}}_{j}}u = {{\hat {a}}_{j}}$. Верны следующие теоремы о множестве равноудаленных точек системы.

Теорема 7 (Дзядык [12]). Пусть задана несовместная система уравнений $Vu = a$, где $V \in {{\mathbb{R}}^{{(r + 1) \times r}}}$ и $a \in {{\mathbb{R}}^{{r + 1}}}$. Тогда верно следующее.

1) При каждом $j = 1, \ldots ,r + 1$ имеет место равенство

$({{{v}}^{j}},{{\hat {u}}^{j}}) - {{a}_{j}} = \frac{{{{{( - 1)}}^{{j + 1}}}}}{{{{D}_{j}}}}\sum\limits_{\nu = 1}^{r + 1} {{( - 1)}^{\nu }}{{a}_{\nu }}{{D}_{\nu }}.$

2) Для любых действительных kj, $j = 1, \ldots ,r + 1$, таких, что

$\sum\limits_{j = 1}^{n + 1} {\text{|}}{{D}_{j}}{\text{|}}{{e}^{{i{{k}_{j}}}}} \ne 0$
точка u, определяемая по формуле
$u = \rho \sum\limits_{j = 1}^{r + 1} \frac{{{{{\hat {u}}}^{j}}{{e}^{{i{{k}_{j}}}}}}}{{{\text{|}}({{{v}}^{j}},{{{\hat {u}}}^{j}}) - {{a}_{j}}{\text{|}}}} = \rho \frac{{\sum\limits_{j = 1}^{r + 1} {\text{|}}{{D}_{j}}{\text{|}}{{{\hat {u}}}^{j}}{{e}^{{i{{k}_{j}}}}}}}{{\left| {\sum\limits_{j = 1}^{r + 1} {{{( - 1)}}^{j}}{{D}_{j}}{{a}_{j}}} \right|}},$
где
$\rho = {{\left( {\sum\limits_{j = 1}^{r + 1} \frac{{{{e}^{{i{{k}_{j}}}}}}}{{{\text{|}}({{{v}}^{j}},{{{\hat {u}}}^{j}}) - {{a}_{j}}{\text{|}}}}} \right)}^{{ - 1}}} = \frac{{\left| {\sum\limits_{j = 1}^{r + 1} {{{( - 1)}}^{j}}{{D}_{j}}{{a}_{j}}} \right|}}{{\sum\limits_{j = 1}^{r + 1} {\text{|}}{{D}_{j}}{\text{|}}{{e}^{{i{{k}_{j}}}}}}}$
является равноудаленной точкой системы $Vu = a$, при этом |ρ| выражает V-расстояние от точки $u$ до a.

3. Всякая V-равноудаленная точка u системы $Vu = a$ может быть при некоторых действительных kj представлена по формуле выше. При этом kj могут, в частности, быть выражены по формуле

${{k}_{j}} = \arg (({{{v}}^{j}},u) - {{a}_{j}}) - \arg (({{{v}}^{j}},{{\hat {u}}^{j}}) - {{a}_{j}}).$

Теорема 8 (Дзядык [12]). Пусть задана несовместная система уравнений $Vu = a$, где $V \in {{\mathbb{R}}^{{(r + 1) \times r}}}$ и $a \in {{\mathbb{R}}^{{r + 1}}}$. Тогда наилучшая равноудаленная от системы точка u определяется по формуле

$u{\text{*}} = \rho {\text{*}}\sum\limits_{j = 1}^{r + 1} \frac{{{{{\hat {u}}}^{j}}}}{{{\text{|}}({{{v}}^{j}},{{{\hat {u}}}^{j}}) - {{a}_{j}}{\text{|}}}} = \frac{{\sum\limits_{j = 1}^{r + 1} {\text{|}}{{D}_{j}}{\text{|}}{{{\hat {u}}}^{j}}}}{{\sum\limits_{j = 1}^{r + 1} {\text{|}}{{D}_{j}}{\text{|}}}},$
где

$\rho {\text{*}} = {{\left( {\sum\limits_{j = 1}^{r + 1} \frac{1}{{{\text{|}}({{{v}}^{j}},{{{\hat {u}}}^{j}}) - {{a}_{j}}{\text{|}}}}} \right)}^{{ - 1}}} = \frac{{\left| {\sum\limits_{j = 1}^{r + 1} {{{( - 1)}}^{j}}{{D}_{j}}{{a}_{j}}} \right|}}{{\sum\limits_{j = 1}^{r + 1} {\text{|}}{{D}_{j}}{\text{|}}}}.$

Доказательство. Достаточно заметить, что величина

$\rho = {{\left( {\sum\limits_{j = 1}^{r + 1} \frac{{{{e}^{{i{{k}_{j}}}}}}}{{{\text{|}}({{{v}}^{j}},{{{\widehat u}}^{j}}) - {{a}_{j}}{\text{|}}}}} \right)}^{{ - 1}}}$
принимает наименьшее значение, когда все слагаемые сонаправлены, т.е. ${{e}^{{i{{k}_{1}}}}} = {{e}^{{i{{k}_{2}}}}} = \ldots = {{e}^{{i{{k}_{{r + 1}}}}}}$.

3.4. Критерии оптимальности

Приведем несколько критериев оптимальности приближений. Эти критерии интересны как сами по себе, так и позволяют получить новые важные сведения о задаче.

Теорема 9 (Колмогоров). Пусть заданы система векторов с матрицей $V \in {{\mathbb{C}}^{{n \times r}}}$ и вектор $a \in {{\mathbb{C}}^{n}}$, который следует приблизить линейной комбинацией столбцов V. Для того чтобы вектор $V\widehat u$ был для a вектором наилучшего равномерного приближения, необходимо и достаточно, чтобы на множестве $E = E(V\widehat u)$ всех точек, на которых для вектора $V\widehat u$ достигается максимальное по модулю значение разности, для всех векторов вида $Vu$ выполнялось

$\mathop {\min }\limits_{j \in E} \operatorname{Re} ({{(Vu)}_{j}}\overline {({{a}_{j}} - {{{(V\widehat u)}}_{j}})} ) \leqslant 0.$

Доказательство. Необходимость. Пусть $V\widehat u$ является вектором наилучшего равномерного приближения для a. От противного, пусть

$\mathop {\min }\limits_{j \in E} \operatorname{Re} ({{(Vu)}_{j}}\overline {({{a}_{j}} - {{{(V\hat {u})}}_{j}})} ) > c > 0$
для некоторого вектора $u \in {{\mathbb{C}}^{r}}$. Пусть

$G = \mathop {\max }\limits_{j \in E} {\text{|}}{{a}_{j}} - {{(V\widehat u)}_{j}}{\text{|,}}\quad G' = \mathop {\max }\limits_{j \notin E} {\text{|}}{{a}_{j}} - {{(V\widehat u)}_{j}}{\text{|}},$
$h = G - G' > 0,\quad M = \mathop {\max }\limits_j {\text{|}}{{(Vu)}_{j}}{\text{|}},\quad \lambda = \max \left\{ {\frac{c}{{{{M}^{2}}}},\frac{h}{{2M}}} \right\} > 0.$

Докажем, что тогда вектор $V(\widehat u + \lambda u)$ приближает вектор a лучше.

1. Пусть $j \in E$. Тогда

${\text{|}}{{a}_{j}} - {{(\widehat u + \lambda u)}^{{\text{т}}}}{{{v}}^{j}}{{{\text{|}}}^{2}} = ({{a}_{j}} - {{\widehat u}^{{\text{т}}}}{{{v}}^{j}} - \lambda {{u}^{{\text{т}}}}{{{v}}^{j}}) \cdot (\overline {({{a}_{j}} - {{{\widehat u}}^{{\text{т}}}}{{{v}}^{j}})} - \lambda \overline {({{u}^{{\text{т}}}}{{{v}}^{j}})} ) = $
$ = {\text{|}}{{a}_{j}} - {{\widehat u}^{{\text{т}}}}{{{v}}^{j}}{{{\text{|}}}^{2}} + {{\lambda }^{2}}{\text{|}}{{u}^{{\text{т}}}}{{{v}}^{j}}{{{\text{|}}}^{2}} - 2\lambda \operatorname{Re} ({{(Vu)}_{j}}\overline {({{a}_{j}} - {{{(V\widehat u)}}_{j}})} ) \leqslant $
$ \leqslant {{G}^{2}} + {{\lambda }^{2}}{{M}^{2}} - 2\lambda \operatorname{Re} ({{(Vu)}_{j}}\overline {({{a}_{j}} - {{{(V\widehat u)}}_{j}})} ) < $
$ < {{G}^{2}} + {{\lambda }^{2}}{{M}^{2}} - 2\lambda c \leqslant {{G}^{2}} + \lambda \frac{c}{{{{M}^{2}}}}{{M}^{2}} - 2\lambda c = $
$ = {{G}^{2}} - \lambda c < {{G}^{2}}.$

2. Пусть $j \notin E$. Тогда имеем

${\text{|}}{{a}_{j}} - {{(\widehat u + \lambda u)}^{{\text{т}}}}{{{v}}^{j}}{\text{|}} \leqslant {\text{|}}{{a}_{j}} - {{\widehat u}^{{\text{т}}}}{{{v}}^{j}}{\text{|}} + \lambda {\text{|}}{{u}^{{\text{т}}}}{{{v}}^{j}}{\text{|}} \leqslant G{\kern 1pt} '\, + \lambda M \leqslant G - h + \frac{h}{{2M}}M = G - h{\text{/}}2 < G.$

Отсюда следует, что вектор $V(\widehat u + \lambda u)$ приближает вектор a лучше. Получили противоречие.

Достаточность. Пусть выполнено условие критерия Колмогорова с вектором коэффициентов $\widehat u$ и пусть $u \in {{\mathbb{C}}^{r}}$ произвольный. Рассмотрим вектор $w = V(u - \hat {u})$. Выберем индекс ${{j}_{0}}$, для которого выполняется неравенство для вектора w:

$\operatorname{Re} ({{(V(u - \widehat u))}_{{{{j}_{0}}}}}\overline {({{a}_{{{{j}_{0}}}}} - {{{(V\widehat u)}}_{{{{j}_{0}}}}})} ) \leqslant 0.$

Тогда имеем

${\text{|}}{{a}_{{{{j}_{0}}}}} - {{(Vu)}_{{{{j}_{0}}}}}{{{\text{|}}}^{2}} = {\text{|}}{{a}_{{{{j}_{0}}}}} - {{(V\widehat u)}_{{{{j}_{0}}}}} - ((Vu{{)}_{{{{j}_{0}}}}} - {{(V\widehat u)}_{{{{j}_{0}}}}}){{{\text{|}}}^{2}} = $
$ = {\text{|}}{{a}_{{{{j}_{0}}}}} - {{(V\widehat u)}_{{{{j}_{0}}}}}{{{\text{|}}}^{2}}\, + {\text{|}}{{(Vu)}_{{{{j}_{0}}}}} - {{(V\widehat u)}_{{{{j}_{0}}}}}{{{\text{|}}}^{2}} - 2\operatorname{Re} ({{(V(u - \widehat u))}_{{{{j}_{0}}}}}\overline {({{a}_{{{{j}_{0}}}}} - {{{(V\widehat u)}}_{{{{j}_{0}}}}})} ) \geqslant $
$ \geqslant {\text{|}}{{a}_{{{{j}_{0}}}}} - {{(V\widehat u)}_{{{{j}_{0}}}}}{{{\text{|}}}^{2}}.$

Отсюда видно, что для любого вектора $u \in {{\mathbb{C}}^{r}}$, вектор $\widehat u$ дает приближение не хуже, т.е. является оптимальным.

Приведем другой, в некоторых ситуациях более удобный критерий оптимальности. В некотором смысле он является переформулировкой критерия Колмогорова с использованием следующей леммы.

Лемма 2. Пусть uij, $i = 1, \ldots ,m$, $j = 1, \ldots ,n$некоторые числа. Для того чтобы существовали числа ${{\delta }_{i}} \geqslant 0$, $i = 1, \ldots ,m$, не все равные нулю и такие, что

$\sum\limits_{i = 1}^m {{\delta }_{i}}{{u}_{{ij}}} = 0,\quad j = 1, \ldots ,n,$
необходимо и достаточно, чтобы для любой системы чисел cj, $j = 1, \ldots ,n$, неравенства
$\operatorname{Re} \sum\limits_{j = 1}^n {{c}_{j}}{{u}_{{ij}}} > 0,\quad i = 1, \ldots ,m,$
не выполнялись одновременно.

Доказательство. Необходимость. Пусть при ${{\delta }_{i}} \geqslant 0$, $i = 1, \ldots ,m$, выполнено

$\sum\limits_{i = 1}^m {{\delta }_{i}}{{u}_{{ij}}} = 0,\quad j = 1, \ldots ,n.$

Тогда имеем

$\sum\limits_{i = 1}^m {{\delta }_{i}}\operatorname{Re} \sum\limits_{j = 1}^n {{c}_{j}}{{u}_{{ij}}} = \operatorname{Re} \sum\limits_{j = 1}^n {{c}_{j}}\sum\limits_{i = 1}^m {{\delta }_{i}}{{u}_{{ij}}} = 0,$
откуда следует, что для любой системы cj условия
$\operatorname{Re} \sum\limits_{j = 1}^n {{c}_{j}}{{u}_{{ij}}} > 0,\quad i = 1, \ldots ,m,$
не могут быть выполнены одновременно.

Достаточность. Введем величину

${v} = {v}({{\delta }_{1}}, \ldots ,{{\delta }_{m}}) = \sum\limits_{j = 1}^n \left| {\sum\limits_{i = 1}^m {{\delta }_{i}}{{u}_{{ij}}}} \right|,\quad {{\delta }_{i}} \geqslant 0,\quad \sum\limits_{i = 1}^m {{\delta }_{i}} = 1.$

Так как функция ${v}$ непрерывна на компактном множестве, то она принимает минимальное значение ${{{v}}_{0}}$ при ${{\delta }_{i}} = \delta _{i}^{0}$. Покажем, что условие леммы эквивалентно тому, что если неравенства $\operatorname{Re} \sum\limits_{j = 1}^n {{c}_{j}}{{u}_{{ij}}} > 0$ не могут быть выполнены одновременно, то ${{{v}}_{0}} = 0$.

Докажем это от противного. Пусть неравенства не могут быть выполнены одновременно ни при каком выборе cj, но ${{{v}}_{0}} > 0$. Возьмем

${{c}_{j}} = \sum\limits_{i = 1}^m \delta _{i}^{0}{{\bar {u}}_{{ij}}}$
и пусть при таком выборе cj, не ограничивая общности, не выполнено неравенство при i = m:

$\operatorname{Re} \sum\limits_{j = 1}^n \left( {\sum\limits_{i = 1}^m \delta _{i}^{0}{{{\bar {u}}}_{{ij}}}} \right){{u}_{{mj}}} \leqslant 0.$

Пусть

${{{v}}_{*}} = \sum\limits_{j = 1}^m {\text{|}}{{u}_{{mj}}}{{{\text{|}}}^{2}},\quad \lambda = \frac{{{{{v}}_{*}}}}{{{{{v}}_{*}} + {{{v}}_{0}}}} < 1.$

Выберем ${{\delta }_{i}}$ следующим образом:

${{\delta }_{i}} = \left\{ \begin{gathered} \lambda \delta _{i}^{0},\quad i = 1,2, \ldots ,m - 1, \hfill \\ (1 - \lambda ) + \lambda \delta _{m}^{0},\quad i = m, \hfill \\ \end{gathered} \right.$
и покажем, что ${v}({{\delta }_{1}}, \ldots ,{{\delta }_{m}}) < {{{v}}_{0}}$. Действительно,

${v} = \sum\limits_{j = 1}^n \left| {\sum\limits_{i = 1}^m {{\delta }_{i}}{{u}_{{ij}}}} \right| = \sum\limits_{j = 1}^n \left| {(1 - \lambda ){{u}_{{mj}}} + \lambda \sum\limits_{i = 1}^m \delta _{i}^{0}{{u}_{{ij}}}} \right| = $
$ = (1 - \lambda {{)}^{2}}\sum\limits_j^n {\text{|}}{{u}_{{mj}}}{{{\text{|}}}^{2}} + {{\lambda }^{2}}\sum\limits_{j = 1}^n \left| {\sum\limits_{i = 1}^m \delta _{i}^{0}{{u}_{{ij}}}} \right| + 2\lambda (1 - \lambda )\operatorname{Re} \left( {\sum\limits_{j = 1}^n \sum\limits_{i = 1}^m \delta _{i}^{0}{{{\bar {u}}}_{{ij}}}{{u}_{{mj}}}} \right).$

Как было отмечено выше,

$\operatorname{Re} \left( {\sum\limits_{j = 1}^n \sum\limits_{i = 1}^m \delta _{i}^{0}{{{\bar {u}}}_{{ij}}}{{u}_{{mj}}}} \right) \leqslant 0,$
но $\lambda \geqslant 0$, $1 - \lambda > 0$, откуда

${v} \leqslant {{(1 - \lambda )}^{2}}{{{v}}_{*}} + {{\lambda }^{2}}{{{v}}_{0}} = \frac{{{v}_{0}^{2}}}{{{{{({{{v}}_{*}} + {{{v}}_{0}})}}^{2}}}}{{{v}}_{*}} + \frac{{{v}_{*}^{2}}}{{{{{({{{v}}_{*}} + {{{v}}_{0}})}}^{2}}}}{{{v}}_{0}} = {{{v}}_{0}}{{{v}}_{*}}\frac{{{{{v}}_{*}} + {{{v}}_{0}}}}{{{{{({{{v}}_{*}} + {{{v}}_{0}})}}^{2}}}} = \frac{{{{{v}}_{*}}}}{{{{{v}}_{*}} + {{{v}}_{0}}}}{{{v}}_{0}} = \lambda {{{v}}_{0}} < {{{v}}_{0}}.$

Пришли к противоречию с оптимальностью ${{{v}}_{0}}$, следовательно, ${{{v}}_{0}} = 0$.

Замечание 1. Если все ${{u}_{{ij}}} \in \mathbb{R}$, то cj достаточно выбирать вещественными.

Используя эту лемму и критерий Колмогорова, докажем другой критерий оптимальности поэлементного приближения

Теорема 10 (Ремез). Пусть заданы система векторов с матрицей $V \in {{\mathbb{C}}^{{n \times r}}}$ и вектор $a \in {{\mathbb{C}}^{n}}$, который следует приблизить линейной комбинацией столбцов V. Пусть вектор $V\widehat u$ достигает максимальных по модулю значений разности в позициях $E = \{ {{i}_{1}}, \ldots ,{{i}_{t}}\} $. Тогда $V\widehat u$ является вектором наилучшего равномерного приближения для $a$, тогда и только тогда, когда существуют ${{\delta }_{k}} \geqslant 0$, $k = 1, \ldots ,t$, не все из которых равны нулю, такие, что

$\sum\limits_{k \in E} {{\delta }_{k}}\overline {({{a}_{k}} - {{{\widehat u}}^{{\text{т}}}}{{{v}}^{k}})} {v}_{j}^{k} = 0,\quad j = 1, \ldots ,r.$

Доказательство. Достаточность. Пусть выполнены условия

$\sum\limits_{k \in E} {{\delta }_{k}}\overline {({{a}_{k}} - {{{\widehat u}}^{{\text{т}}}}{{{v}}^{k}})} {v}_{j}^{k} = 0,\quad j = 1, \ldots ,r.$

Пусть ${{u}_{{ij}}} = \overline {({{a}_{k}} - {{{\widehat u}}^{{\text{т}}}}{{{v}}^{k}})} {v}_{j}^{k}$ в терминах предыдущей леммы. Тогда, согласно лемме, условия

$\operatorname{Re} \sum\limits_{j \in E} {{c}_{j}}{v}_{j}^{k}\overline {({{a}_{k}} - {{{\widehat u}}^{{\text{т}}}}{{{v}}^{k}})} > 0$
не выполнены одновременно для любого выбора cj. Принимая во внимание, что $\sum\limits_{j \in E} {{c}_{j}}{v}_{j}^{k}$ задает произвольный вектор вида Vc на строках из E, получаем, что выполнен критерий Колмогорова и $V\widehat u$ является оптимальным приближением.

Необходимость. Если $V\widehat u$ – оптимальный, то выполнен критерий Колмогорова:

$\mathop {\min }\limits_{k \in E} \operatorname{Re} \sum\limits_{j \in E} {{c}_{j}}{v}_{j}^{k}\overline {({{a}_{k}} - {{{\widehat u}}^{{\text{т}}}}{{{v}}^{k}})} \leqslant 0,$
следовательно,
$\operatorname{Re} \sum\limits_{j \in E} {{c}_{j}}{v}_{j}^{k}\overline {({{a}_{k}} - {{{\widehat u}}^{{\text{т}}}}{{{v}}^{k}})} > 0$
не выполнены одновременно и тогда по лемме существуют ${{\delta }_{k}} \geqslant 0$, удовлетворяющие условиям Ремеза.

Замечание 2. Всегда существует оптимальное решение, в котором максимальные значения достигаются в t точках, где $1 \leqslant t \leqslant 2r + 1$ в комплексном случае и $1 \leqslant t \leqslant r + 1$ в вещественном, причем условие критерия Ремеза выполняется с ${{\delta }_{k}} > 0$.

Замечание 3. Заметим, что условие Ремеза может быть переписано в виде

$\sum\limits_{k \in E} {{\delta }_{k}}{\text{sign}}\{ \overline {({{a}_{k}} - {{{\hat {u}}}^{{\text{т}}}}{{{v}}^{k}})} \} {v}_{j}^{k} = 0,\quad j = 1, \ldots ,r.$

Пусть мы каким-либо образом нашли множество E. Тогда, используя критерий Ремеза, легко найти решение. Решим систему

$\sum\limits_{k \in E} {v}_{j}^{k}{{s}_{k}} = 0,\quad j = 1, \ldots ,r.$

Это система с $r + 1$ переменной и $r$ уравнениями, которая имеет нетривиальное решение. Найдем это решение. Тогда

(5)
${{\delta }_{k}} = \,{\text{|}}{{s}_{k}}{\text{|}},\quad {\text{sign}}\{ \overline {({{a}_{k}} - {{{\hat {u}}}^{{\text{т}}}}{{{v}}^{k}})} \} = {\text{sign}}{\kern 1pt} {{s}_{k}}.$

Поскольку чебышёвская система векторов всегда имеет характеристическое множество, состоящее ровно из $r + 1$ элементов, для чебышёвской системы из $r + 1$ уравнений и $r$ неизвестных, уравнение (5) задает знаки величин $\overline {({{a}_{k}} - {{{\hat {u}}}^{{\text{т}}}}{{{v}}^{k}})} $ для наилучшей равноудаленной точки. Кроме того, модули ${\text{|}}{{a}_{k}} - {{\hat {u}}^{{\text{т}}}}{{{v}}^{k}}{\text{|}}$ равны, что позволяет в вещественном случае выписать систему из $r$ с $r$ неизвестными, решением которой будет наилучшая равноудаленная точка. Таким образом, наилучшая равноудаленная точка чебышёвской системы $(r + 1) \times r$ может быть найдена за $O({{r}^{3}})$ операций с помощью двух решений систем линейных уравнений.

4. О ЗАДАЧЕ ПОИСКА ХАРАКТЕРИСТИЧЕСКИХ МНОЖЕСТВ В ВЕЩЕСТВЕННОМ СЛУЧАЕ

Перейдем к вопросу о методах решения задачи (4).

4.1. Комбинаторная формула решения

Пусть решается задача приближения вектора $a \in {{\mathbb{R}}^{n}}$ по системе векторов $V \in {{\mathbb{R}}^{{n \times r}}}$. Пусть $\widetilde V \in {{\mathbb{R}}^{{(r + 1) \times r}}}$ и $\tilde {a} \in {{\mathbb{R}}^{{r + 1}}}$. Тогда через $\left[ {\begin{array}{*{20}{c}} {\widetilde V}&{\widetilde a} \end{array}} \right] \in {{\mathbb{R}}^{{(r + 1) \times (r + 1)}}}$ мы обозначим матрицу, первые $r$ столбцов которой являются столбцами матрицы $\widetilde V$, а последний столбец $\tilde {a}$. Обозначим через $V({{i}_{1}}, \ldots ,{{i}_{k}})$ подматрицу матрицы V, содержащую строки ${{i}_{1}}, \ldots ,{{i}_{k}}$. Аналогично обозначим через $a({{i}_{1}}, \ldots ,{{i}_{k}})$ подвектор вектора a, содержащий элементы ${{i}_{1}}, \ldots ,{{i}_{k}}$. Кроме того, обозначим через ${{\widetilde V}_{{\backslash k}}}$ подматрицу матрицы $\widetilde V$, в которой удалена k-я строка.

Теорема 11. Пусть решается задача наилучшего равномерного приближения вектора $a \in {{\mathbb{R}}^{n}}$ по чебышёвской системе векторов $V \in {{\mathbb{R}}^{{n \times r}}}$. Пусть

$\mu = \mathop {\inf }\limits_{u \in {{\mathbb{R}}^{r}}} {{\left\| {a - Vu} \right\|}_{\infty }}.$

Тогда получаем

$\mu = \mathop {\max }\limits_{{{i}_{1}},{{i}_{2}}, \ldots ,{{i}_{{r + 1}}}} \frac{{\left| {\det \left[ {\begin{array}{*{20}{c}} {V({{i}_{1}},{{i}_{2}}, \ldots ,{{i}_{{r + 1}}})}&{a({{i}_{1}},{{i}_{2}}, \ldots ,{{i}_{{r + 1}}})} \end{array}} \right]} \right|}}{{\sum\limits_{k = 1}^{r + 1} \left| {\det \left( {V{{{({{i}_{1}},{{i}_{2}}, \ldots ,{{i}_{{r + 1}}})}}_{{\backslash k}}}} \right)} \right|}}.$

Доказательство. По теореме 5 имеем, что

$\mu (J) = {{\mu }_{{r + 1}}}(J),$
а согласно определению верно

${{\mu }_{{r + 1}}}(J) = \mathop {\max }\limits_{{{J}_{{r + 1}}} \in {{M}_{{r + 1}}}} \mu ({{J}_{{r + 1}}}).$

Остается применить теорему 8 для получения явного вида $\mu ({{J}_{{r + 1}}})$.

4.2. Аналог теоремы о чебышёвском альтернансе

В утверждении 2 было показано, что для оптимального решения в векторе невязки достигаются максимальные по модулю значения по крайней мере в $r + 1$ позициях. Широко известен результат о чебышёвском альтернансе для непрерывных функций. В этом случае помимо того, что в векторе невязки достигаются максимальные по модулю значения, имеет место чередование знаков. Аналогичный результат может быть доказан и в матричном случае.

Лемма 3. Пусть решается задача наилучшего равномерного приближения вектора $a \in {{\mathbb{R}}^{{n + 1}}}$ по чебышёвской системе векторов $V \in {{\mathbb{R}}^{{(n + 1) \times n}}}$ и вектор z* является вектором наилучшего равномерного приближения (наилучшей равноудаленной точкой системы). Обозначим через $w = a - Vz{\text{*}}$ вектор невязки. Тогда знаки величин

(6)
${{w}_{1}}{{D}_{1}},{{w}_{2}}{{D}_{2}}, \ldots ,{{w}_{{n + 1}}}{{D}_{{n + 1}}}$
чередуются.

Доказательство. В обозначениях теорем 7 и 8 имеем

$z{\text{*}} = \sum\limits_{j = 1}^{n + 1} \frac{{{\text{|}}{{D}_{j}}{\text{|}}}}{{\sum\limits_{\nu = 1}^{n + 1} {\text{|}}{{D}_{\nu }}{\text{|}}}}{{z}^{j}}.$

Кроме того, из теоремы 7 имеем

$({{v}^{j}},{{z}^{j}}) - {{a}_{j}} = \frac{{{{{( - 1)}}^{{j + 1}}}}}{{{{D}_{j}}}}\sum\limits_{\nu = 1}^{n + 1} {{( - 1)}^{\nu }}{{a}_{\nu }}{{D}_{\nu }} = \frac{{{{{( - 1)}}^{{j + 1}}}}}{{{{D}_{j}}}}X,$
где
$X = \sum\limits_{\nu = 1}^{n + 1} {{( - 1)}^{\nu }}{{a}_{\nu }}{{D}_{\nu }}$
не зависит от j. Согласно определению ${{z}^{j}}$ получаем
$V{{z}_{j}} = {{\left[ {\begin{array}{*{20}{c}} {{{a}_{1}}}&{{{a}_{2}}}& \ldots &{{{a}_{{j - 1}}}}&{{{{\widetilde a}}_{j}}}&{{{a}_{{j + 1}}}}& \ldots &{{{a}_{{n + 1}}}} \end{array}} \right]}^{{\text{т}}}},$
где ${{\widetilde a}_{j}} = ({{{v}}^{j}},{{z}^{j}})$. Тогда имеем

$Vz{\text{*}} = \sum\limits_{j = 1}^{n + 1} \frac{{{\text{|}}{{D}_{j}}{\text{|}}}}{{\sum\limits_{\nu = 1}^{n + 1} {\text{|}}{{D}_{\nu }}{\text{|}}}}\left[ {\begin{array}{*{20}{c}} {{{a}_{1}}} \\ {{{a}_{2}}} \\ \vdots \\ {{{a}_{{j - 1}}}} \\ {{{{\widetilde a}}_{j}}} \\ {{{a}_{{j + 1}}}} \\ \vdots \\ {{{a}_{{n + 1}}}} \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} {{{a}_{1}}} \\ {{{a}_{2}}} \\ \vdots \\ {{{a}_{{j - 1}}}} \\ {{{a}_{j}}} \\ {{{a}_{{j + 1}}}} \\ \vdots \\ {{{a}_{{n + 1}}}} \end{array}} \right] - \frac{1}{{\sum\limits_{\nu = 1}^{n + 1} {\text{|}}{{D}_{\nu }}{\text{|}}}}\left( {\left[ {\begin{array}{*{20}{c}} {{\text{|}}{{D}_{1}}{\text{|}}{{{\widetilde a}}_{1}}} \\ {{\text{|}}{{D}_{2}}{\text{|}}{{{\widetilde a}}_{2}}} \\ \vdots \\ {{\text{|}}{{D}_{{j - 1}}}{\text{|}}{{{\widetilde a}}_{{j - 1}}}} \\ {{\text{|}}{{D}_{j}}{\text{|}}{{{\widetilde a}}_{j}}} \\ {{\text{|}}{{D}_{{j + 1}}}{\text{|}}{{{\widetilde a}}_{{j + 1}}}} \\ \vdots \\ {{\text{|}}{{D}_{{n + 1}}}{\text{|}}{{{\widetilde a}}_{{n + 1}}}} \end{array}} \right] - \left[ {\begin{array}{*{20}{c}} {{\text{|}}{{D}_{1}}{\text{|}}{{a}_{1}}} \\ {{\text{|}}{{D}_{2}}{\text{|}}{{a}_{2}}} \\ \vdots \\ {{\text{|}}{{D}_{{j - 1}}}{\text{|}}{{a}_{{j - 1}}}} \\ {{\text{|}}{{D}_{j}}{\text{|}}{{a}_{j}}} \\ {{\text{|}}{{D}_{{j + 1}}}{\text{|}}{{a}_{{j + 1}}}} \\ \vdots \\ {{\text{|}}{{D}_{{n + 1}}}{\text{|}}{{a}_{{n + 1}}}} \end{array}} \right]} \right).$

Отсюда

$a - Vz{\text{*}} = \frac{1}{{\sum\limits_{\nu = 1}^{n + 1} {\text{|}}{{D}_{\nu }}{\text{|}}}}\left[ \begin{gathered} {\text{|}}{{D}_{1}}{\text{|}}({{a}_{1}} - {{\widetilde a}_{1}}) \\ {\text{|}}{{D}_{2}}{\text{|}}({{a}_{2}} - {{\widetilde a}_{2}}) \\ \vdots \\ {\text{|}}{{D}_{{n + 1}}}{\text{|}}({{a}_{{n + 1}}} - {{\widetilde a}_{{n + 1}}}) \\ \end{gathered} \right] = \frac{1}{{\sum\limits_{\nu = 1}^{n + 1} {\text{|}}{{D}_{\nu }}{\text{|}}}} \cdot \left[ \begin{gathered} {\text{|}}{{D}_{1}}{\text{|}}\frac{{{{{( - 1)}}^{1}}}}{{{{D}_{1}}}}X \\ {\text{|}}{{D}_{2}}{\text{|}}\frac{{{{{( - 1)}}^{2}}}}{{{{D}_{2}}}}X \\ \vdots \\ {\text{|}}{{D}_{{n + 1}}}{\text{|}}\frac{{{{{( - 1)}}^{{n + 1}}}}}{{{{D}_{{n + 1}}}}}X \\ \end{gathered} \right],$
поскольку

${{a}_{j}} - {{\widetilde a}_{j}} = {{a}_{j}} - ({{{v}}^{j}},{{z}^{j}}) = \frac{{{{{( - 1)}}^{j}}}}{{{{D}_{j}}}}X.$

Обозначая через

$C = \frac{X}{{\sum\limits_{\nu = 1}^{n + 1} {\text{|}}{{D}_{\nu }}{\text{|}}}},$
получаем, что

$w = a - Vz* = C\left[ \begin{gathered} {{( - 1)}^{1}}{\text{sign}}{\kern 1pt} {{D}_{1}} \\ {{( - 1)}^{2}}{\text{sign}}{\kern 1pt} {{D}_{2}} \\ \vdots \\ {{( - 1)}^{{n + 1}}}{\text{sign}}{\kern 1pt} {{D}_{{n + 1}}} \\ \end{gathered} \right].$

А тогда верно

${{w}_{j}}{{D}_{j}} = C{{( - 1)}^{j}}{\text{|}}{{D}_{j}}{\text{|}},$
и последовательность
${{w}_{1}}{{D}_{1}},{{w}_{2}}{{D}_{2}}, \ldots ,{{w}_{{n + 1}}}{{D}_{{n + 1}}}$
имеет чередующиеся знаки.

4.3. Обобщенный алгоритм Ремеза для матриц

Заметим, что лемма 3 показывает, что матричная задача о наилучшем равномерном приближении является более общей, чем аналогичная задача для непрерывных функций. Действительно, для непрерывных функций, также как и для матриц, известен результат, что существует характеристическое множество из $r + 1$ элементов при приближении по системе из r функций (т.е. полиномами степени $r - 1$). При известном характеристическом множестве задача сводится к решению матричной задачи с матрицей Вандермонда. Заметим, что определитель матрицы Вандермонда может быть вычислен по формуле

$W({{x}_{1}},{{x}_{2}}, \ldots ,{{x}_{r}}) = \prod\limits_{j < i} ({{x}_{i}} - {{x}_{j}}).$

Откуда легко видеть, что знак определителя матрицы Вандермонда зависит только от порядка, в котором берутся точки. Если точки каждый раз берутся в возрастающем порядке, то все определители имеют одинаковый знак и в формуле (6) остаются только знаки элементов невязки. Приведенные рассуждения позволяют обобщить известный для непрерывных функций алгоритм Ремеза для построения наилучшего чебышёвского приближения на матричный случай.

Заметим, что теорема 11 уже позволяет решать задачу (4) за конечное число операций. Для этого достаточно перебрать всевозможные варианты характеристических множеств (все $r + 1$-элементные подмножества строк) и решить для каждого из них задачу о поиске наилучшей равноудаленной точки. Однако находить характеристическое множество можно намного быстрее.

Приведем алгоритм решения задачи о наилучшем равномерном приближении в вещественном случае. Пусть имеются матрица $V \in {{\mathbb{R}}^{{n \times r}}}$ и вектор $a \in {{\mathbb{R}}^{n}}$.

1. Выберем произвольное множество из $r + 1$ индексов строк матрицы V. Обозначим это множество через ${{I}_{1}}$ и возьмем $t = 1$.

2. Решим задачу о наилучшем равномерном приближении для матрицы $V({{I}_{t}})$ и вектора $a({{I}_{t}})$. Эта задача может быть решена за $O({{r}^{3}})$ операций для чебышёвской системы векторов. Получим решение ${{u}_{t}}$.

3. Вычислим невязку ${{w}_{t}} = V{{u}_{t}} - a$ и найдем в векторе ${{w}_{t}}$ максимальный по модулю элемент. Эта операция требует $O(nr)$ операций. Обозначим позицию максимального по модулю элемента ${{j}_{t}}$. Если ${{j}_{t}} \in {{I}_{t}}$, то согласно замечанию к критерию Ремеза, множество ${{I}_{t}}$ является характеристическим и ${{u}_{t}}$ является решением задачи наилучшего равномерного приближения.

4. Если ${{j}_{t}} \notin {{I}_{t}}$, то попробуем заменить каждый из элементов множества ${{I}_{t}}$ на ${{j}_{t}}$. Пусть ${{I}_{t}} = \{ i_{1}^{{\text{т}}},i_{2}^{t}, \ldots ,i_{{r + 1}}^{t}\} $ и пусть $I_{t}^{k} = {{I}_{t}}{{\backslash }}\{ i_{k}^{t}\} \cup {{j}_{t}}$. Решим задачу с матрицей $V(I_{t}^{k})$ и вектором $a(I_{t}^{k})$ и найдем максимум модуля невязки на множестве $I_{t}^{k}$, $w_{t}^{k} = V(I_{t}^{k})u_{t}^{k} - a(I_{t}^{k})$. Пусть $l = \mathop {\arg \max }\limits_k {\text{||}}w_{t}^{k}{\text{|}}{{{\text{|}}}_{\infty }}$. Это шаг требует $O({{r}^{4}})$ операций.

5. ${{I}_{{t + 1}}} = I_{t}^{l}$, $t = t + 1$, и перейдем к шагу 2.

Теорема 12. Пусть система векторов $V \in {{\mathbb{R}}^{{n \times r}}}$ является чебышёвской и вектор $a \in {{\mathbb{R}}^{n}}$. Тогда обобщенный алгоритм Ремеза находит решение задачи о наилучшем равномерном приближении за конечное число операций.

Доказательство. Пусть ${{I}_{t}}$ – текущее множество индексов и ${{w}_{t}} = V{{u}_{t}} - a$. Пусть

${{E}_{t}} = \,{\text{||}}{{w}_{t}}({{I}_{t}}){\text{|}}{{{\text{|}}}_{\infty }}.$

Пусть в векторе ${{w}_{t}}$ максимальный по модулю элемент достигается в позиции ${{j}_{t}}$. Тогда рассмотрим задачу о наилучшем равномерном приближении для подматрицы, взятой на множестве строк с номерами ${{I}_{t}} \cup \{ {{j}_{t}}\} $. Для этой задачи существует характеристическое множество из $r + 1$ элементов. Заметим, что оно не может целиком состоять из элементов множества ${{I}_{t}}$, поскольку для оптимального решения на этом множестве в позиции ${{j}_{t}}$ достигается строго большее значение элемента невязки. Это означает, что характеристическое множество содержит ${{j}_{t}}$ и r элементов из множества ${{I}_{t}}$, т.е. получается заменой в ${{I}_{t}}$ одного из элементов на ${{j}_{t}}$. Обозначим это множество через ${{\hat {I}}_{t}}$. Покажем, что при этом ошибка оптимального приближения на новом множестве ${{\hat {I}}_{t}}$ строго больше, чем на множестве ${{I}_{t}}$. Действительно, пусть при оптимальном приближении на множестве ${{I}_{t}}$ получается ошибка $\delta $, а на элементе в позиции ${{j}_{t}}$ соответствующее решение дает ошибку $\varepsilon $. Заметим, что $\varepsilon > \delta $. Аналогично, пусть при оптимальном приближении на множестве ${{\hat {I}}_{t}}$ на самом множестве получается ошибка ${{\delta }_{1}}$, а на удаленном из ${{I}_{t}}$ элементе ошибка ${{\varepsilon }_{1}}$. Заметим, что поскольку ${{\hat {I}}_{t}}$ — характеристическое множество, то $\varepsilon \leqslant {{\delta }_{1}}$. Тогда получаем

$\delta < \varepsilon \leqslant {{\delta }_{1}},$
откуда следует, что ошибка оптимального приближения на новом множестве ${{\hat {I}}_{t}}$ строго больше, чем ошибка оптимального приближения на множестве ${{I}_{t}}$. Откуда следует, что

${{E}_{{t + 1}}} > {{E}_{t}}.$

Но поскольку существует конечное число $r + 1$–элементных подмножеств, последовательность $\{ {{E}_{t}}\} $ не может быть бесконечной и достигает своего максимального значения на некотором множестве, что согласно рассуждениям теоремы 11 говорит о том, что найденное множество является характеристическим и было построено оптимальное решение.

5. ЗАДАЧА О ЧЕБЫШЁВСКОМ ПРИБЛИЖЕНИИ МАТРИЦ

Построив метод решения задачи (3), мы можем перейти к задаче

(7)
$\mu = \mathop {\inf }\limits_{U \in {{\mathbb{R}}^{{m \times r}}},V \in {{\mathbb{R}}^{{n \times r}}}} {\text{||}}A - U{{V}^{{\text{т}}}}{\text{|}}{{{\text{|}}}_{C}}.$

5.1. Необходимое условие оптимальности

В [9] было доказано необходимое условие оптимальности решения задачи (7). В свете полученных выше результатов мы можем легко получить это условие, а также обобщить его на случай произвольного ранга. Пусть пара $(\widehat U,\widehat V)$ является решением задачи (7). Тогда матрица $\widehat U$ является решением задачи

$\mu = \mathop {\inf }\limits_{U \in {{\mathbb{R}}^{{m \times r}}}} {{\left\| {A - U{{{\widehat V}}^{{\text{т}}}}} \right\|}_{C}}.$

В матрице $A - \widehat U{{\widehat V}^{{\text{т}}}}$ в некоторой позиции $(i,j)$ достигается максимальный по модулю элемент. Рассмотрим задачу для i-й строки матрицы

(8)
$\mu = \mathop {\inf }\limits_{u \in {{\mathbb{R}}^{{m \times r}}}} {\text{||}}{{a}^{i}} - u{{\widehat V}^{{\text{т}}}}{\text{|}}{{{\text{|}}}_{C}}.$

Ясно, что ${{\widehat u}^{i}}$ является оптимальным решением задачи (8), в противном случае можно было бы заменить i-ю строку матрицы $\widehat U$ на оптимальное решение и получить лучший результат в задаче (7). В силу оптимальности решения мы имеем, что в векторе ${{a}^{i}} - {{\widehat u}^{i}}{{\widehat V}^{{\text{т}}}}$ максимальное по модулю значение достигается в $r + 1$ позиции и знаки невязки и определителей матрицы $\widehat V$ в этих позициях чередуются (см. лемму 3). Для получения необходимого условия из [9] достаточно заметить, что при $r = 1$ определителями являются элементы вектора $\widehat V$, а знак ${{\widehat u}^{i}}$, очевидно, не меняется в пределах одного столбца, откуда следует утверждение 1. В случае произвольного ранга в каждом столбце и каждой строке, в которых достигается максимальный по модулю элемент, максимальное по модулю значение достигается в $r + 1$ позиции и знаки невязки и определителей чередуются согласно лемме 3.

5.2. Метод решения

Построим итерационный процесс решения задачи (7). Пусть задана некоторая матрица $A \in {{\mathbb{R}}^{{m \times n}}}$. Пусть также задана некоторая чебышёвская матрица ${{U}_{0}}$. Найдем оптимальное чебышёвское приближение $A = {{U}_{0}}{{V}^{{\text{т}}}}$ и обозначим результат ${{V}_{1}}$. Предположим, что система векторов ${{V}_{1}}$ чебышёвская. Затем найдем оптимальное чебышёвское приближение $A = UV_{1}^{{\text{т}}}$ и обозначим результат через ${{U}_{1}}$, снова предполагая, что система ${{U}_{1}}$ чебышёвская. Найдем оптимальное чебышёвское приближение $A = {{U}_{1}}{{V}^{{\text{т}}}}$ и обозначим результат через ${{V}_{2}}$. Продолжая по описанной схеме, заметим, что при этом величина ${{\rho }_{k}} = {\text{||}}A - {{U}_{k}}V_{k}^{{\text{т}}}{\text{|}}{{{\text{|}}}_{C}}$ не возрастает и ограничена снизу и, следовательно, сходится.

6. ЧИСЛЕННЫЕ ЭКСПЕРИМЕНТЫ

В этом разделе мы приведем ряд численных экспериментов по применению метода, описанного в п. 5.2 , для построения малоранговых чебышёвских приближений для матриц, сингулярные числа которых не убывают. Для проведения экспериментов был реализован алгоритм из п. 5.2 на C++. В эксперименте генерировались случайные матрицы, сингулярные числа которых распределены равномерно на отрезке [1, 2]. Для этого генерировались две случайные матрицы из стандартного нормального распределения, для них строилось QR-разложение и факторы Q выбирались в качестве левых $U$ и правых V сингулярных векторов. В качестве матрицы сингулярных чисел $\Sigma $ генерировалась диагональная матрица, диагональные элементы которой равномерно распределены на отрезке [1, 2]. После этого строилась матрица $U\Sigma V$. Размеры матриц варьировались от 10 до 1400 с шагом 10, а ранг приближения выбирался как $r = \sqrt n $, где $n$ — размер матрицы. Для каждого размера генерировалось 10 случайных матриц и для каждой из них запускался метод альтернанса из 20 случайных точек. Таким образом, для каждого размера выполнялось 200 запусков метода альтернанса. Для каждой матрицы вычислялись среднее значение точности $\mu _{n}^{i}$ и дисперсия $\sigma _{n}^{i}$ чебышёвского приближения по 20 стартовым точкам. Далее для каждого размера эти величины усреднялись по 10 матрицам

${{\mu }_{n}} = \frac{1}{{10}}\sum\limits_{i = 1}^{10} \mu _{n}^{i},\quad {{\sigma }_{n}} = \frac{1}{{10}}\sum\limits_{i = 1}^{10} \sigma _{n}^{i}.$

На фиг. 1а приведен график зависимости ${{\mu }_{n}}$ от размера матрицы, а на фиг. 1б график зависимости ${{\sigma }_{n}}$ от размера матрицы. График для дисперсии приведен в логарифмическом масштабе. Одной из интересных особенностей, которые видны из этого графика, является то, что дисперсия падает с ростом размера задачи. Так, например, для матрицы размера 1400 × 1400 при приближении рангом $37$, при запуске с 20 случайных точек, получаются следующие значения ошибки приближения:

$\left[ {\begin{array}{*{20}{c}} {0.09111796}&{0.09098914}&{0.09103979}&{0.09101653}&{0.09097955} \\ {0.09112523}&{0.09102086}&{0.09097652}&{0.09099676}&{0.0909908} \\ {0.09106326}&{0.0911168}&{0.09108753}&{0.09101277}&{0.09098213} \\ {0.09103401}&{0.09106984}&{0.09097417}&{0.09094869}&{0.09092307} \end{array}} \right].$
Фиг. 1.

Усредненная ошибка приближения и дисперсия по 20 стартовым точкам и 10 случайным матрицам для различных размеров матриц.

Была оценена асимптотика зависимости точности приближения от размера матрицы. Точность приближения искалась в виде $\frac{{c{{{\log }}^{\alpha }}n}}{{{{n}^{\beta }}}}$. Оптимальными оказались следующие значения:

$c = 0.995139,$
$\alpha = 0.604346,$
$\beta = 0.495001.$

Кривая $\frac{{c{{{\log }}^{\alpha }}n}}{{{{n}^{\beta }}}}$ с оптимальными значениями параметров также изображена на фиг. 2. Заметим, что эта оценка соответствует

$\varepsilon \approx \frac{{\mathop {\log }\nolimits^{0.6} n}}{{{{n}^{{0.5}}}}},$
в то время как известная теоретическая оценка (см. [8, теорема 1]) при подстановке $r = \sqrt n $ дает
$\varepsilon \leqslant \frac{{6\sqrt 2 {{{\log }}^{{0.5}}}(2n + 1)}}{{{{n}^{{0.25}}}}},$
откуда следует неоптимальность последней оценки.

Фиг. 2.

Усредненная ошибка приближения по 20 стартовым точкам и 10 случайным матрицам для различных размеров матриц и ее аналитическое приближение.

Кроме того, в процессе эксперимента измерялось время работы программы. Для каждого размера матрицы время усреднялось по 200 запускам. На фиг. 3 приведен график зависимости времени работы от размера матрицы. Для времени работы также была оценена асимптотика в виде $c{{n}^{\alpha }}$. Оптимальными оказались следующие значения:

$c = 9.13302{\text{e}} - 09,$
$\alpha = 3.49745.$
Фиг. 3.

Усредненное время работы по 200 запускам для различных размеров матриц и его аналитическое приближение.

Это означает, что при $r = \sqrt n $ на практике сложность работы алгоритма составляет $O({{n}^{{3.5}}})$.

7. ЗАКЛЮЧЕНИЕ

В работе был предложен метод решения задачи о наилучшем малоранговом приближении матрицы в чебышёвской норме в случае, когда известен один из факторов разложения. С использованием предложенного метода и метода альтернанса был построен алгоритм построения малорангового приближения в чебышёвской норме для произвольного ранга. Описанный метод существенно обобщает все известные на сегодняшний день методы решения задачи о чебышёвских приближениях матриц и улучшает известные теоретические оценки приближения, описанные в [8]. Численные эксперименты показывают, что метод способен приближать матрицы с хорошей точностью даже при отсутствии убывания сингулярных чисел и имеет приемлемую асимптотическую сложность.

Список литературы

  1. Bebendorf M. A means to efficiently solve elliptic boundary value problems // Hierarchical Matrices. LNCS. 2008. V. 63. P. 49–98.

  2. Son S.W., Chen Z., Hendrix W., Agrawal A., Liao W.K., Choudhary A. Data compression for the exascale computing era-survey // Supercomputing Frontiers and Innovations. 2014. V. 1. N. 2. P. 76–88.

  3. He X., Zhang H., Kan M.Y., Chua T.S. Fast matrix factorization for online recommendation with implicit feedback // Proc. of the 39th Internat. ACM SIGIR conference on Research and Development in Information Retrieval. 2016. P. 549–558.

  4. Yang C., Akimoto Y., Kim D., Udell M. Oboe: Collaborative filtering for automl initialization // arXiv preprint arXiv:1808.03233. 2018.

  5. Goreinov S., Tyrtyshnikov E., Zamarashkin N. A theory of pseudoskeleton approximations // Linear Algebra and its Appl. 1997. V. 261. N. 1. P. 1–21.

  6. Osinsky A., Zamarashkin N. Pseudo-skeleton approximations with better accuracy estimates // Linear Algebra and its Appl. 2018. V. 537. P. 221–249.

  7. Halko P.M.N., Tropp J. Finding Structures with Randomness: Probabilistic Algorithms for Constructing Approximate Matrix Decompositions // SIAM Review. 2011. V. 53. N. 2. P. 217–288.

  8. Udell M., Townsend A. Why are big data matrices approximately low rank? // SIAM Journal on Math. of Data Sci. 2019. V. 1. N. 1. P. 144–160.

  9. Даугавет В. О равномерном приближении функции двух переменных, заданной таблично, произведением функций одной переменной // Ж. вычисл. матем. и матем. физ. 1971. T. 11. N. 2. C. 289–303.

  10. Дзядык В.К. Введение в теорию равномерного приближения функций полиномами. М.: Наука, 1977.

  11. Смирнов В.И., Лебедев Н.А. Конструктивная теория функций комплексного переменного // М.–Л.: Наука, 1964.

  12. Дзядык В.К. О приближении функций на множествах, состоящих из конечного числа точек // Сб. “Теория приближения функций и ее приложения”, Киев. 1974. P. 69–80.

Дополнительные материалы отсутствуют.

Инструменты

Журнал вычислительной математики и математической физики