Известия РАН. Теория и системы управления, 2023, № 3, стр. 14-37

УЛУЧШЕНИЕ НЕПОЛНОЙ МНОГОАСПЕКТНОЙ КЛАСТЕРИЗАЦИИ ТЕНЗОРНЫМ ВОССТАНОВЛЕНИЕМ ГРАФА СВЯЗНОСТИ

Х. Жанг a, С. Чен a*, Ю. Жу b, И. А. Матвеев c**

a Колледж математики Нанкинского ун-та аэронавтики и космонавтики
Нанкин, КНР

b Факультет экспериментального фундаментального обучения, Нанкинский ун-т аэронавтики и космонавтики
Нанкин, КНР

c ФИЦ ИУ РАН
Москва, Россия

* E-mail: lyandcxh@nuaa.edu.cn
** E-mail: matveev@ccas.ru

Поступила в редакцию 21.12.2022
После доработки 08.01.2023
Принята к публикации 06.02.2023

Полный текст (PDF)

Аннотация

С развитием технологий сбора данных появляется множество многоаспектных данных, и их кластеризация стала актуальной темой. Большинство методов многоаспектной кластеризации (multi-view clustering) предполагают, что все аспекты полностью наблюдаемы. Но во многих случаях это не так. Для работы с неполными многоаспектными данными были предложены некоторые тензорные методы. Однако традиционная тензорная норма требует больших вычислительных затрат, и такие методы, как правило, не могут обрабатывать неполные выборки и дисбаланс различных аспектов. Предлагается новый метод кластеризации неполных многоаспектных данных. Определяется новая тензорная норма для восстановления графа связности, графы регуляризируются до согласованного низкоразмерного представления образцов. Затем веса итеративно обновляются для каждого аспекта. По сравнению с существующими, предложенный метод не только определяет согласованность между аспектами, но и получает низкоразмерное представление образцов с помощью полученной проекционной матрицы. Для решения разработан эффективный оптимизационный алгоритм на основе метода неопределенных множителей Лагранжа. Экспериментальные результаты на четырех наборах данных демонстирируют эффективность метода.

Введение. Многоаспектные данные могут дать больше информации, чем данные с одним аспектом, во многих практических задачах. Многоаспектная кластеризация (МАК) стала актуальной в связи с получением большого количества таких данных [1]. Большинство существующих методов хорошо работают в предположении, что данные являются полными, т.е. для каждого образца есть его представление в каждом аспекте. Однако это предположение не всегда справедливо на практике. Например, при диагностике болезни Альцгеймера [2] по разным причинам не все виды обследований пациента доступны, что приводит к неполным многоаспектным данным. Соответственно кластеризация таких данных в последнее время привлекает все больше внимания.

В последние годы были разработаны некоторые методы многоаспектной кластеризации неполных данных (также неполная многоаспектная кластеризация, НМАК) (incomplete multi-view clustering, IMVC), некоторые из них кратко описаны в разд. 1. НМАК на основе графов привлекла внимание многих исследователей благодаря тому, что граф является мощным инструментом для анализа взаимосвязей [3]. Неполная многоаспектная спектральная кластеризация с адаптивным обучением графов (incomplete multi-view spectral clustering with adaptive graph learning, IMSC_AGL) [4] использует графы, построенные из низкорангового подпространства каждого аспекта для формирования согласованного низкоразмерного представления каждого образца. Обобщенная НМАК с гибким распространением структуры локальности (generalized incomplete multi-view clustering with flexible locality structure diffusion, GIMC_FLSD) [5] комбинирует обучение графов и факторизацию матриц для получения унифицированного представления, которое сохраняет информацию графа. Неполное обучение неотрицательного представления с несколькими графами (incomplete multi-view non-negative representation learning, IMNRL) [6] выполняет факторизацию матриц нескольких неполных графов для получения согласованного неотрицательного представления с ограничениями на графы. Адаптивная кластеризация неполных графов на основе пополнения графов (adaptive graph completion based incomplete multi-view clustering, AGC_IMC) [7] выполняет последовательное обучение на представлениях, используя представление графа каждого аспекта в качестве регуляризации неполных данных других аспектов, и далее получает согласованное низкоразмерное представление. Эти методы применяют обучение графов для фиксации локальной топологии представления. Однако при этом учитывается только внутриаспектное сходство представленных образцов и игнорируется межаспектное сходство. Поэтому эта группа методов не может эффективно найти дополнительную информацию, скрытую в различных аспектах.

Корреляция – классическая мера, которую можно применить для получения дополнительной информации из многоаспектных данных. Для работы с неполными многоаспектными данными, содержащими информацию о корреляции между аспектами, предложено несколько тензорных методов. В работе [8] используются представления подпространства с тензорными ограничениями низкого ранга, чтобы исследовать внутри- и межаспектные связи между образцами и одновременно улавливать корреляции высокого порядка между несколькими аспектами. Неполная многоаспектная тензорная спектральная кластеризация с выводом отсутствующих представлений (incomplete multi-view tensor spectral clustering with missing view inferring, IMVTSC-MVI) [9] объединяет в единую структуру пространство признаков, пополненное отсутствующими представлениями, и пространство многообразий, основанное на обучении графов сходства. Стоит отметить, что IMVTSC-MVI рассматривает каждый аспект одинаково, т.е. с одинаковым весом. В [10] предлагается получать полный граф для каждого аспекта, учитывая сходство графов между аспектами и применяя метод дополнения тензоров. Хотя вышеупомянутые методы на основе тензоров достигли хороших результатов, все еще существуют некоторые проблемы. В большинстве известных работ ограничение низкого ранга действует для преобразованного графа, что значительно увеличивает вычислительные затраты. Это связано с тем, что необходимо выполнение сингулярного разложения на каждом фронтальном срезе тензора $n \times m \times n$, где n и m – количество образцов и аспектов соответственно. С этой целью в данной работе для уменьшения вычислительной сложности определяется ядерная норма тензора, использующая полуортогональную матрицу.

Предлагаемый метод называется улучшение неполной многоаспектной кластеризации пополнением тензорного графа (enhancing incomplete multi-view clustering via tensor graph completion, EIMC_TGC). Метод объединяет пополнение тензорного графа, адаптивное взвешивание аспектов и последовательную кластеризацию подпространств в единую структуру. Отличительная особенность метода – переопределение ядерной нормы тензора на основе полуортогональной матрицы для сокращения вычислений и определение оператора сжатия для получения аналитических решений подзадач. Вклад данной работы сводится к следующим выводам.

1. Предлагается метод НМАК, использующий тензорное пополнение. В отличие от существующего метода МАК на основе тензорной нормы, мы переопределяем тензорную ядерную норму через полуортогональную, что снижает вычислительные затраты, и адаптивно назначаем веса каждому аспекту.

2. Для получения аналитического решения подзадачи с переопределенной ядерной нормой предусмотрен оператор сжатия. Предлагается алгоритм оптимизации на основе расширенного метода множителей Лагранжа (augmented Lagrange multiplier, ALM).

3. Эксперименты на четырех наборах данных подтверждают, что этот метод эффективен в задачах кластеризации.

Структура данной работы следующая. В разд. 1 кратко представлены известные аналогичные работы. В разд. 2 изложен предлагаемый метод и дан алгоритм решения. В разд. 3 описана проверка эффективности метода численными экспериментами. В разд. 3.4 подводятся итоги работы.

1. Известные аналоги. В этом разделе представлены известные из литературы последних лет методы обработки неполных многоаспектных данных, а также некоторые обозначения и базовые определения. Методы НМАК можно разделить на пять категорий по основному используемому подходу: кластеризация подпространств, факторизация неотрицательных матриц, обучение графов, глубокие нейронные сети, вероятностный подход.

Методы кластеризации подпространства [1116] проецируют все существующие аспекты в общее низкоразмерное подпространство и выравнивают все представления в этом подпространстве для получения согласованного низкоразмерного представления. Например, в [15] используется разреженное низкоранговое представление подпространства для совместного измерения внутриаспектных и межаспектных отношений. В [12] предложен полупарный обобщенный корреляционный анализ с частичным обучением (semi-paired and semi-supervised generalized correlation analysis, S2GCA) на основе канонического корреляционного анализа (canonical correlation analysis, CCA), который обрабатывает неполные данные и применим к сценарию с частичным привлечением учителя.

Методы на базе неотрицательной матричной факторизации (non-negative matrix factorization, NMF) [1722] направлены на разложение матрицы данных каждого аспекта на произведение одной общей (базисной) матрицы и матрицы, соответствующей каждому из аспектов. Например, в [17] предложена частичная МАК на основе NMF для изучения общего представления для полных выборок и частного скрытого представления с той же матрицей базиса. Многоаспектное обучение с неполными аспектами (multi-view learning with incomplete views, MVL-IV) [18] факторизует матрицу неполных данных каждого аспекта как произведение общей матрицы и базисной матрицы соответствующего аспекта, имеющей низкий ранг.

Методы на основе обучения графа [2327] строят общую матрицу графа связности (или матрицу ядра), так чтобы сохранить геометрическую структуру. Эти методы используют спектральную кластеризацию и многоядерное обучение. Например, НМАК адаптивным пополнением графа (adaptive graph completion based incomplete multi-view clustering, AGC_IMC) [7] получает общий граф с помощью специальной регуляризации и далее добивается согласованного низкоразмерного представления образцов. Метод неполных многоядерных k-средних с взаимным дополнением ядер (incomplete multiple kernel k-means with mutual kernel completion, MKKM-IK-MKC) [23] получает неполные матрицы ядер и осуществляет интерполяцию.

Методы на основе глубоких нейронных сетей [2832] используют мощную способность нейронной сети к выделению признаков. Например, в [29] разработан новый метод НМАК, который проецирует все данные нескольких видов на полное и единое представление с ограничением присущей геометрической структуры. В [31, 32] предложена НМАК с применением генеративной состязательной сети [33], которая порождает недостающие данные на основе имеющихся. В [34] единое представление получается путем максимизации взаимной информации между различными аспектами посредством контрастного обучения, недостающие данные восстанавливаются путем минимизации условной энтропии различных аспектов.

Методы, основанные на вероятностном подходе [3538], обычно используют байесовскую статистику, гауссовские модели, вариационный вывод и другие инструменты для моделирования многоаспектных данных с вероятностной точки зрения. Например, в [37] применяется модель латентных переменных общего гауссовского процесса для моделирования неполных многоаспектных данных для кластеризации. В [36] для обработки неполных многоаспектных данных предложено объединение байесовского канонического корреляционного анализа [39] и обучения с учителем [40].

Существует два подхода к использованию тензоров в многоаспектном обучении. Первый заключается в том, чтобы рассматривать различные аспекты как подпространства пространства высокой размерности и обрабатывать их соответственно. Представителем первого подхода является тензорный канонический корреляционный анализ (tensor canonical correlation analysis, TCCA) [41]. TCCA определяет ковариационный тензор для обработки многоаспектных данных с произвольным количеством аспектов, расширяя матрицу взаимной ковариации в каноническом корреляционном анализе. Глубокий TCCA (deep TCCA, DTCCA) [42] объединяет TCCA с глубоким обучением нейросетей. DTCCA может не только обрабатывать данные с произвольным количеством аспектов, но и не требует хранения всего тензора, что означает, что он может обрабатывать большое количество данных. В [43] рассматривались многоаспектные данные как тензор размерности 3, для вычисления низкоразмерного представления образцов использовано разложение Такера.

Второй подход предполагает, что графы различных представлений похожи, т.е. тензор данных имеет низкий ранг. Низкоранговая тензорная многоаспектная кластеризация подпространств (low-rank tensor constrained multi-view subspace clustering, LT-MSC) [44] рассматривает совокупность матриц данных различных аспектов как тензор, ранг которого должен быть ограничен, что уменьшает избыточность данных и повышает качество кластеризации. В [45] применен известный своей устойчивостью метод анализа главных компонент, сохраняющий низкий ранг тензора, построенного на основе вероятностых переходных матриц.

1.1. Обозначения. Матрицы обозначаются курсивными прописными буквами, например $X \in {{\mathbb{R}}^{{{{n}_{1}} \times {{n}_{2}}}}}$. Элемент матрицы задается двумя индексами (номерами строки и столбца), таким образом матрица имеет размерность 2. Несколько матриц размерности 2 одного размера можно объединить в матрицу размерности 3, далее называемую тензором22. Матрицы, составляющие тензор, называются слоями. Тензоры обозначаются заглавными каллиграфическими буквами, например $\mathcal{X} \in {{\mathbb{R}}^{{{{n}_{1}} \times {{n}_{2}} \times {{n}_{3}}}}}$ – тензор из ${{n}_{1}}$ строк, ${{n}_{2}}$ столбцов и ${{n}_{3}}$ слоев. Некоторые основные обозначения приведены в табл. 1.

Таблица 1.

Некоторые используемые обозначения

Обозначение Описание
${{\mathcal{X}}_{{(i,j,k)}}}$ Элемент i-й строки,  j-го столбца, k-го слоя тензора $\mathcal{X}$
${{\mathcal{X}}^{{(i)}}}$ i-й слой тензора $\mathcal{X}$
${{\mathcal{X}}_{{\left( {:,i,:} \right)}}}$ i-й боковой срез тензора $\mathcal{X}$
${{\mathcal{X}}_{{(i,j)}}}$ Элемент i-й строки,  j-го столбца матрицы X
${{X}_{{(:,i)}}}$ i-й столбец матрицы $\mathcal{X}$
${{X}^{ \top }}$ Транспонированная матрица X
${{\left\| X \right\|}_{*}}$ Ядерная (следовая) норма матрицы X
${{\left\| X \right\|}_{F}}$ Норма Фробениуса матрицы X, согласно (2.2)
${{\left\| \mathcal{X} \right\|}_{F}}$ Норма Фробениуса тензора $\mathcal{X}$, согласно (2.3)
${{\sigma }_{i}}\left( X \right)$ i-е наименьшее сингулярное значение матрицы X
$\left\langle {\mathcal{X},\mathcal{Y}} \right\rangle $ Скалярное произведение тензоров $\mathcal{X}$ и $\mathcal{Y}$, т.е. $\sum\limits_{i,j,k} {{{\mathcal{X}}_{{\left( {i,j,k} \right)}}}} {{\mathcal{Y}}_{{\left( {i,j,k} \right)}}}$
$\nabla f\left( x \right)$ Градиент функции f(x)
${{x}_{i}}$ i-й элемент вектора x

Определение 1. Рассмотрим тензор $\mathcal{X} \in {{\mathbb{R}}^{{{{n}_{1}} \times {{n}_{2}} \times {{n}_{3}}}}}$. Слой с номером k представляет собой матрицу, составленную из элементов тензора $\mathcal{X}$, с третьим индексом, равным k: ${{\mathcal{X}}_{{(:,:,k)}}} \in {{\mathbb{R}}^{{{{n}_{1}} \times {{n}_{2}}}}}$, $k = \overline {1,{{n}_{3}}} $. Для краткости будем обозначать ${{X}^{{(k)}}} \equiv {{\mathcal{X}}_{{(:,:,k)}}}$. Также можно называть слой фронтальным срезом.

Определение 2. Аналогично jбоковым срезом назовем матрицу, составленную из элементов тензора с фиксированным вторым индексом (номером столбца): ${{\mathcal{X}}_{{(:,j,:)}}} \in {{\mathbb{R}}^{{{{n}_{1}} \times {{n}_{3}}}}}$, $j = \overline {1,{{n}_{2}}} $.

Определение 3. Трубкой тензора $\mathcal{X}$ назовем вектор, составленный из элементов тензора с двумя фиксированными индексами. Здесь используются трубки с фиксированными первыми двумя индексами: $x = {{\mathcal{X}}_{{(i,j,:)}}} \in {{\mathbb{R}}^{{{{n}_{3}}}}}$.

Определение 4. Для тензора $\mathcal{X} \in {{\mathbb{R}}^{{{{n}_{1}} \times {{n}_{2}} \times {{n}_{3}}}}}$ введем операцию разворачивания:

(1.1)
${\text{unfold}}\left( \mathcal{X} \right) = \left[ {\begin{array}{*{20}{c}} {{{X}^{{(1)}}}} \\ {{{X}^{{(2)}}}} \\ \vdots \\ {{{X}^{{({{n}_{3}})}}}} \end{array}} \right] \in {{\mathbb{R}}^{{{{n}_{1}}{{n}_{3}} \times {{n}_{2}}}}},$
которая переводит его в матрицу.

Определение 5. Обратная операция сворачивания переводит матрицу в тензор:

(1.2)
${\text{fold}}\left( {{\text{unfold}}\left( \mathcal{X} \right)} \right) = \mathcal{X}.$

Определение 6. Для тензора $\mathcal{X} \in {{\mathbb{R}}^{{{{n}_{1}} \times {{n}_{2}} \times {{n}_{3}}}}}$ и матрицы $\Phi \in {{\mathbb{R}}^{{{{n}_{3}} \times {{n}_{3}}}}}$ определим трансформированный тензор ${{\mathcal{X}}_{\Phi }} \in {{\mathbb{R}}^{{{{n}_{1}} \times {{n}_{2}} \times {{n}_{3}}}}}$, составленный из боковых срезов исходного тензора, умноженных на матрицу Φ, так что ${{\mathcal{X}}_{\Phi }}_{{(:,i,:)}} = {{\mathcal{X}}_{{(:,i,:)}}}\Phi $.

2. Предлагаемый метод. Канонический корреляционный анализ (ККА) является классическим и эффективным методом для многоаспектного обучения. ККА может обрабатывать только два аспекта. По этой причине для обработки данных с большим числом аспектов предлагается обобщенный ККА (generalized CCA, GCCA) [46]. В частности, дается выборка из $n$ образцов в $m$ аспектах $\left\{ {{{X}_{i}} \in {{\mathbb{R}}^{{{{d}_{i}} \times n}}}} \right\}_{{i = 1}}^{m}$, где di – размерность $i$-го аспекта. Тогда модель GCCA представляется как

(2.1)
где запись s.t. обозначает “при условии”, I – единичная матрица, ${{\left\| A \right\|}_{F}}$ – норма Фробениуса матрицы A:
(2.2)
${{\left\| A \right\|}_{F}} = \sqrt {\sum\limits_{i = 1}^{{{n}_{1}}} \sum\limits_{j = 1}^{{{n}_{2}}} A_{{(i,j)}}^{2}} .$
Норма Фробениуса для тензора определяет аналогично:

(2.3)
${{\left\| \mathcal{A} \right\|}_{F}} = \sqrt {\sum\limits_{i = 1}^{{{n}_{1}}} \sum\limits_{j = 1}^{{{n}_{2}}} \sum\limits_{k = 1}^{{{n}_{3}}} \mathcal{A}_{{(i,j,k)}}^{2}} .$

Символы A и $\left\{ {{{W}_{i}}} \right\}_{{i = 1}}^{m}$ в уравнении (2.1) – это последовательное низкоразмерное представление образцов и матрица проекции каждого аспекта соответственно. Геометрическая структура среди образцов является достоверной априорной информацией, которая может быть эффективно закодирована графом. Следовательно, для получения согласованного низкоразмерного представления с сохранением структуры предлагается графовый многоаспектный ККА (graph multi-view CCA, GMCCA) [47], целевая функция приобретает следующий вид:

(2.4)
где ${{L}_{G}}$ – матрица лапласиана предварительно построенного графа G, а $\lambda > 0$ – параметр регуляризации.

К сожалению, вышеупомянутый метод применим только к полным многоаспектным данным. Здесь на основе GMCCA и восстановления тензоров разработан новый метод для неполных многоаспектных данных. Для заданного неполного набора данных $\{ {{X}_{i}} \in {{\mathbb{R}}^{{{{d}_{i}}}}} \times n\} _{{i = 1}}^{m}$ с $m$ аспектами и $n$ образцами, недостающие экземпляры которых заполняются нулевыми векторами, т.е. если j-й экземпляр i-го представления отсутствует, то ${{X}_{{i(:,j)}}} = \vec {0}$. Недостающая информация каждого представления записывается в диагональную матрицу $\left\{ {{{P}_{i}} \in {{\mathbb{R}}^{{n \times n}}}} \right\}_{{i = 1}}^{m}$. ${{P}_{i}}$ определяется следующим образом:

(2.5)
${{P}_{{i(j,j)}}} = \left\{ \begin{gathered} 1,\quad {\text{если}}\;j{\text{ - й}}\;{\text{образец}}\;{\text{описан}}\;{\text{в}}\;i{\text{ - м}}\;{\text{аспекте}}, \hfill \\ 0\quad {\text{иначе}}. \hfill \\ \end{gathered} \right.$

Символ ${{d}_{i}}$ обозначает размерность признака $i$-го представления. Наивная модель для обработки неполных многоаспектных данных, основанная на (2.4), выглядит следующим образом:

(2.6)
где ${{L}_{{{{G}_{i}}}}}$ – матрица лапласиана предварительно построенного графа ${{G}_{i}}$ $i$-го представления. Стоит отметить, что модель (2.6) рассматривает каждое представление одинаково, что обычно нереалистично. По этой причине аналогично [48] вводятся веса $\left\{ {{{{\bar {\delta }}}_{i}}} \right\}_{{i = 1}}^{m}$ для взвешивания важности различных представлений:

(2.7)
${{\bar {\delta }}_{i}} = \frac{1}{{\sqrt {\left\| {(A - W_{i}^{ \top }{{X}_{i}}){{P}_{i}}} \right\|_{F}^{2} + \lambda {\text{tr}}(A{{L}_{{{{G}_{i}}}}}{{A}^{ \top }})} }},\quad i = \overline {1,m} .$

Интуитивно понятно, что если i-й аспект может предоставить больше полезной информации, то $\left\| {\left( {A - W_{i}^{ \top }{{X}_{i}}} \right){{P}_{i}}} \right\|_{F}^{2}$ и ${\text{tr}}\left( {A{{L}_{{{{G}_{i}}}}}{{A}^{ \top }}} \right)$ должны быть малы, и поэтому вес ${{\bar {\delta }}_{i}}$ для этого аспекта будет большим в соответствии с уравнением (2.7) и наоборот. Однако если представление имеет высокий процент пропусков, то вес этого представления также будет больше. Это происходит потому, что высокий процент пропусков приводит к тому, что ${{P}_{i}}$ содержит больше нулей, что в свою очередь делает ${{\bar {\delta }}_{i}}$ больше. Чтобы избежать этого явления, вес изменен на

(2.8)
${{\delta }_{i}} = {{n}_{i}}{{\bar {\delta }}_{i}}\;,$
где ${{n}_{i}}$ – количество доступных экземпляров i-го аспекта.

Невозможно напрямую построить полный граф ${{G}_{i}}$ для каждого аспекта из-за неполноты данных. Поэтому его необходимо дополнить [7, 23]. Согласованность между аспектами является важным свойством реальных данных. Соответственно графы различных аспектов должны быть очень похожими. Это свойство хорошо отражается низким рангом тензора, составленного из этих графов (матриц смежности). Следовательно, исходя из восстановления тензора, целевая функция для восстановления графов выражается следующим образом:

(2.9)
$\begin{gathered} \mathop {\min }\limits_\mathcal{G} \quad \left\| \mathcal{G} \right\|_{{\Phi ,w,{{S}_{p}}}}^{p} + \frac{\gamma }{2}\left\| {{{P}_{\Omega }}\left( \mathcal{G} \right) - {{P}_{\Omega }}\left( \mathcal{M} \right)} \right\|_{F}^{2} \\ {\text{s}}{\text{.t}}{\text{.}}\quad {{G}_{i}} \geqslant 0,\quad {{G}_{i}}1 = 1, \\ \end{gathered} $
где $\mathcal{G} \in {{\mathbb{R}}^{{n \times m \times n}}}$ и ${{\mathcal{G}}_{{\left( {:,i,:} \right)}}} = {{G}_{i}}$, 1 – вектор соответствующей размерности со всеми единичными компонентами, $\mathcal{M} \in {{\mathbb{R}}^{{n \times m \times n}}}$ – тензор предварительно построенного неполного графа с недостающими позициями, заполненными нулями, где ${{\mathcal{M}}_{{\left( {:,i,:} \right)}}} = {{M}_{i}}$ – предварительно построенный граф i-го аспекта, ${{P}_{\Omega }}\left( \cdot \right)$ – ортогональная проекция на линейное подпространство тензора, определенного на $\Omega = \left\{ {\left( {i,j,k} \right)|{{\mathcal{M}}_{{\left( {i,j,k} \right)}}}{\text{не}}\,\,{\text{пропущено}}} \right\}$:

(2.10)
${{P}_{\Omega }}{{\left( \mathcal{M} \right)}_{{\left( {i,j,k} \right)}}} = \left\{ \begin{gathered} {{\mathcal{M}}_{{\left( {i,j,k} \right)}}},\quad {\text{если}}\left( {i,j,k} \right) \in \Omega , \hfill \\ 0\quad {\text{иначе}}. \hfill \\ \end{gathered} \right.$

Тензорная норма ${{\left\| \cdot \right\|}_{{\Phi ,w,{{S}_{p}}}}}$ определена следующим образом.

Определение 7. Пусть задан тензор $\mathcal{X} \in {{\mathbb{R}}^{{{{n}_{1}} \times {{n}_{2}} \times {{n}_{3}}}}}$, $h = {\text{min}}\left( {{{n}_{1}},{{n}_{3}}} \right)$, вектор весов $w \in {{\mathbb{R}}^{h}}$, при этом ${{w}_{1}} \geqslant {{w}_{2}} \geqslant \; \cdots \; \geqslant {{w}_{l}} \geqslant 0$, $0 < p \leqslant 1$, и матрица преобразования $\Phi \in {{\mathbb{R}}^{{{{n}_{3}} \times r}}}$, тогда

(2.11)
${{\left\| \mathcal{X} \right\|}_{{\Phi ,w,{{S}_{p}}}}} = {{\left( {\sum\limits_{i = 1}^{{{n}_{3}}} {\left\| {X_{\Phi }^{{\left( i \right)}}} \right\|_{{w,{{S}_{p}}}}^{p}} } \right)}^{{\frac{1}{p}}}} = {{\left( {\sum\limits_{i = 1}^{{{n}_{3}}} {\sum\limits_{j = 1}^h {{{w}_{j}}} } {{\sigma }_{j}}{{{\left( {X_{\Phi }^{{\left( i \right)}}} \right)}}^{p}}} \right)}^{{\frac{1}{p}}}},$
где $X_{\Phi }^{{(i)}}$i-й фронтальный срез тензора $\mathcal{X}$, трансформированного матрицей $\Phi $.

Примечание 1. Заметим, что в литературе [9, 10] матрица преобразования обычно является ортогональной квадратной матрицей, т.е. ${{\Phi }^{ \top }}\Phi = I$ и $r = {{n}_{3}}$. Наше эмпирическое исследование показывает, что в этом нет необходимости. Поэтому в данной работе в качестве матрицы преобразования используется полуортогональная матрица, т.е. ${{\Phi }^{ \top }}\Phi = I$ и $r < {{n}_{3}}$. Это позволит сократить вычислительные затраты, т.е. если раньше требовалось ${{n}_{3}}$ разложения по сингулярным значениям, то теперь требуется только r. Экспериментальное исследование в разд. 3.4 показывает, что $r = {{n}_{3}}$ может быть не оптимальным.

Объединив модель восстановления графов (2.9) с (2.6) и введя веса $\left\{ {{{\delta }_{i}}} \right\}_{{i = 1}}^{m}$ согласно (2.7) и (2.8), получаем следующую модель:

(2.12)
$\begin{gathered} \mathop {\min }\limits_{A,\left\{ {{{W}_{i}}} \right\}_{{i = 1}}^{m},\mathcal{G}} \left\{ {\sum\limits_{i = 1}^m {{{n}_{i}}} } \right.\sqrt {\left\| {(A - {{W}_{i}}^{ \top }{{X}_{i}}){{P}_{i}}} \right\|_{F}^{2} + \lambda {\text{tr}}(A{{L}_{{{{G}_{i}}}}}{{A}^{ \top }})} + \\ \left. {_{{_{{_{{_{{_{{_{{_{{_{{_{{_{{_{{_{{_{{}}}}}}}}}}}}}}}}}}}}}}}}}} + \;\mu \left\| \mathcal{G} \right\|_{{\Phi ,w,{{S}_{p}}}}^{p} + \frac{\gamma }{2}\left\| {{{P}_{\Omega }}\left( \mathcal{G} \right) - {{P}_{\Omega }}\left( \mathcal{M} \right)} \right\|_{F}^{2}} \right\} \\ {\text{s}}{\text{.t}}{\text{.}}\quad A{{A}^{ \top }} = I,\quad {{G}_{i}} \geqslant 0,\quad {{G}_{i}}{\mathbf{1}} = {\mathbf{1}}, \\ \end{gathered} $
где $\mu > 0$ – параметр регуляризации. Схема предложенного метода дана на рис. 1.

Рис. 1.

Схема метода EIMC_TGC

Примечание 2. Известно [49], что количество нулевых собственных значений матрицы Лапласиана ${{L}_{G}}$ должно быть равно количеству связных компонент графа G. Другими словами, для графа с $c$ компонент связности

(2.13)
$\sum\limits_{i = 1}^c {{{\sigma }_{i}}} \left( {{{L}_{G}}} \right) = 0.$
Имеет место следующее уравнение:

(2.14)
$\sum\limits_{i = 1}^c {{{\sigma }_{i}}} \left( {{{L}_{G}}} \right) = \mathop {\min }\limits_{F{{F}^{ \top }} = I,F \in {{\mathbb{R}}^{{c \times n}}}} {\text{tr(}}F{{L}_{G}}{{F}^{ \top }}).$

Поскольку правая часть (2.14) формально идентична члену ${\text{tr}}(A{{L}_{{{{G}_{i}}}}}{{A}^{ \top }})$ в целевой функции (2.12), можно ожидать, что решение задачи (2.12) породит разбиение на малое число компонент, т.е. хорошую кластеризацию. Примечательно, что наш метод может работать с неполными выборками с выученными $\left\{ {{{W}_{i}}} \right\}_{{i = 1}}^{m}$.

2.1. Решение. Для эффективного решения задачи (2.12) нам необходимо ввести вспомогательную переменную $\mathcal{Y}$, чтобы разделить взаимозависимые члены так, чтобы они могли быть решены независимо. Таким образом, можно переформулировать задачу (2.12) в следующую эквивалентную форму:

(2.15)
$\begin{gathered} \mathop {\min }\limits_{A,\left\{ {{{W}_{i}}} \right\}_{{i = 1}}^{m},\mathcal{G}} \left\{ {\sum\limits_{i = 1}^m {\left( {{{\delta }_{i}}\left\| {(A - {{W}_{i}}^{ \top }{{X}_{i}}){{P}_{i}}} \right\|_{F}^{2} + \lambda {{\delta }_{i}}{\text{tr}}(A{{L}_{{{{G}_{i}}}}}{{A}^{ \top }})} \right) + } } \right. \\ \left. {_{{_{{_{{_{{_{{_{{_{{_{{_{{_{{_{{_{{_{{_{{}}}}}}}}}}}}}}}}}}}}}}}}}}}} + \,\mu \left\| \mathcal{Y} \right\|_{{\Phi ,w,{{S}_{p}}}}^{p} + \frac{\gamma }{2}\left\| {{{P}_{\Omega }}\left( \mathcal{G} \right) - {{P}_{\Omega }}\left( \mathcal{M} \right)} \right\|_{F}^{2}} \right\} \\ {\text{s}}{\text{.t}}.\quad A{{A}^{ \top }} = I,\quad {{G}_{i}} \geqslant 0,\quad {{G}_{i}}{\mathbf{1}} = {\mathbf{1}},\quad \mathcal{G} = \mathcal{Y}, \\ \end{gathered} $
где ${{\delta }_{i}}$ задается (2.7). Воспользовавшись недавними достижениями в области методов переменных направлений, предложим эффективный алгоритм, основанный на методе неопределенных множителей Лагранжа (inexact augmented Lagrange multipliers, IALM) для решения (2.15). Расширенная функция Лагранжа задается следующим образом:
(2.16)
$\begin{gathered} {{L}_{\rho }}(A,\left\{ {{{W}_{i}}} \right\}_{{i = 1}}^{m},\mathcal{G},\mathcal{Y},\mathcal{C}) = \sum\limits_{i = 1}^m ({{\delta }_{i}}\left\| {(A - {{W}_{i}}^{ \top }{{X}_{i}}){{P}_{i}}} \right\|_{F}^{2} + \lambda {{\delta }_{i}}{\text{tr}}(A{{L}_{{{{G}_{i}}}}}{{A}^{ \top }})) + \\ + \;\mu \left\| \mathcal{Y} \right\|_{{\Phi ,w,{{S}_{p}}}}^{p} + \frac{\gamma }{2}\left\| {{{P}_{\Omega }}\left( \mathcal{G} \right) - {{P}_{\Omega }}\left( \mathcal{M} \right)} \right\|_{F}^{2} + \left\langle {\mathcal{C},\mathcal{G} - \mathcal{Y}} \right\rangle + \frac{\rho }{2}\left\| {\mathcal{G} - \mathcal{Y}} \right\|_{F}^{2}, \\ \end{gathered} $
где $\rho > 0$ – штрафной параметр, $\mathcal{C} \in {{\mathbb{R}}^{{n \times m \times n}}}$ – множители Лагранжа. В этом разделе используются надстрочные знаки для обозначения количества итераций, т.е. Ak или ${{A}^{{k + 1}}}$ и т.д.

2.1.1. Пересчет ${{A}^{{k + 1}}}$ и $\left\{ {W_{i}^{{k + 1}}} \right\}_{{i = 1}}^{m}$ с фиксированными ${{\mathcal{G}}^{k}}$ и $\left\{ {\delta _{i}^{k}} \right\}_{{i = 1}}^{m}$. Для обновления ${{A}^{{k + 1}}}$ и $\left\{ {W_{i}^{{k + 1}}} \right\}_{{i = 1}}^{m}$ рассмотрим следующие задачи оптимизации:

(2.17)
$\begin{gathered} {{A}^{{k + 1}}},\left\{ {W_{i}^{{k + 1}}} \right\}_{{i = 1}}^{m} = \\ = \;\mathop {\arg \min }\limits_{A,\left\{ {{{W}_{i}}} \right\}_{{i = 1}}^{m}} \sum\limits_{i = 1}^m {\left( {\delta _{i}^{k}\left\| {(A - {{W}_{i}}^{ \top }{{X}_{i}}){{P}_{i}}} \right\|_{F}^{2} + \lambda \delta _{i}^{k}{\text{tr}}(A{{L}_{{G_{i}^{k}}}}{{A}^{ \top }})} \right)} \\ s.t.\quad A{{A}^{ \top }} = I. \\ \end{gathered} $

После простых алгебраических операций задача (2.17) может быть преобразована в следующую задачу на собственные значения:

(2.18)
$\left( {\sum\limits_{i = 1}^m \delta _{i}^{k}\left( {{{P}_{i}} - {{P}_{i}}X_{i}^{ \top }{{{\left( {{{X}_{i}}{{P}_{i}}X_{i}^{ \top }} \right)}}^{{ - 1}}}{{X}_{i}}{{P}_{i}} + \lambda {{L}_{{G_{i}^{k}}}}} \right)} \right){{A}^{ \top }} = {{A}^{ \top }}\Sigma ,$
где $\Sigma $ – диагональная матрица собственных значений. Тогда ${{A}^{ \top }}$ можно получить из собственного вектора, соответствующего первым d наибольшим собственным значениям, где d – размерность последовательного низкоразмерного представления (т.е. $A \in {{\mathbb{R}}^{{d \times n}}}$). Имея ${{A}^{{k + 1}}}$, можно получить $W_{i}^{{k + 1}} = {{\left( {{{X}_{i}}{{P}_{i}}X_{i}^{ \top }} \right)}^{{ - 1}}}{{X}_{i}}{{P}_{i}}{{A}^{{k + 1}}}^{ \top }$ для $i = \overline {1,m} $. После получения ${{A}^{{k + 1}}}$ и $\left\{ {W_{i}^{{k + 1}}} \right\}_{{i = 1}}^{m}$ веса $\left\{ {\delta _{i}^{{k + 1}}} \right\}_{{i = 1}}^{m}$ могут быть обновлены в соответствии с определением (2.7).

2.1.2. Пересчет ${{\mathcal{G}}^{{k + 1}}}$ с фиксированными ${{A}^{{k + 1}}}$, $\left\{ {\delta _{i}^{{k + 1}}} \right\}_{{i = 1}}^{m}$, ${{\mathcal{Y}}^{k}}$, ${{\mathcal{C}}^{k}}$ и ${{\rho }^{k}}$. Чтобы получить ${{\mathcal{G}}^{{k + 1}}}$, фиксируем другую переменную и решаем следующую задачу оптимизации:

(2.19)
$\begin{gathered} {{\mathcal{G}}^{{k + 1}}} = \mathop {\arg \min }\limits_\mathcal{G} \left\{ {\lambda \sum\limits_{i = 1}^m \delta _{i}^{{k + 1}}{\text{tr}}\left( {{{A}^{{k + 1}}}{{L}_{{{{G}_{i}}}}}{{A}^{{k + 1}}}^{ \top }} \right) + } \right. \\ \left. { + \;\frac{\gamma }{2}\left\| {{{P}_{\Omega }}\left( \mathcal{G} \right) - {{P}_{\Omega }}\left( \mathcal{M} \right)} \right\|_{F}^{2} + \frac{{{{\rho }^{k}}}}{2}\left\| {\mathcal{G} - {{\mathcal{Y}}^{k}} + \frac{{{{\mathcal{C}}^{k}}}}{{{{\rho }^{k}}}}} \right\|_{F}^{2}} \right\} \\ s.t.\quad {{G}_{i}} \geqslant 0,\quad {{G}_{i}}{\mathbf{1}} = {\mathbf{1}}. \\ \end{gathered} $

Задача (2.19) – это задача наименьших квадратов с ограничениями. Заметим, что каждая трубка тензора задачи (2.19) независима, поэтому она может быть преобразована в $nm$ независимых подзадач. Без потери общности пусть $g \in {{\mathbb{R}}^{n}}$, $s \in {{\mathbb{R}}^{n}}$, $y \in {{\mathbb{R}}^{n}}$, $\omega \in {{\mathbb{R}}^{n}}$, $c \in {{\mathbb{R}}^{n}}$ и $t \in {{\mathbb{R}}^{n}}$ – определенные трубки тензоров $\mathcal{G}$, $\mathcal{M}$, $\mathcal{Y}$, $\Omega $, $\mathcal{C}$ и $\mathcal{T}$ соответственно, где $\mathcal{T}_{{\left( {i,j,l} \right)}}^{k} = \lambda \delta _{l}^{{k + 1}}{{\left\| {A_{{\left( {:,i} \right)}}^{{k + 1}} - A_{{\left( {:,j} \right)}}^{{k + 1}}} \right\|_{F}^{2}} \mathord{\left/ {\vphantom {{\left\| {A_{{\left( {:,i} \right)}}^{{k + 1}} - A_{{\left( {:,j} \right)}}^{{k + 1}}} \right\|_{F}^{2}} 2}} \right. \kern-0em} 2}$. Таким образом, можно получить следующую оптимизационную задачу:

(2.20)
$\begin{gathered} {{g}^{{k + 1}}} = \mathop {\arg \min }\limits_g \frac{1}{{{{\rho }^{k}}}}{{t}^{k}}^{ \top }g + \frac{\gamma }{{2{{\rho }^{k}}}}\left\| {{{P}_{\omega }}\left( g \right) - {{P}_{\omega }}\left( z \right)} \right\|_{F}^{2} + \frac{1}{2}\left\| {g - {{y}^{k}} + \frac{{{{c}^{k}}}}{{{{\rho }^{k}}}}} \right\|_{F}^{2} \\ {\text{s}}{\text{.t}}.\quad g \geqslant 0,\quad {{{\mathbf{1}}}^{ \top }}g = 1. \\ \end{gathered} $

Функцию Лагранжа для (2.20) запишем как

(2.21)
$\begin{gathered} L\left( {g,\alpha ,\beta } \right) = \frac{1}{{{{\rho }^{k}}}}{{t}^{k}}^{ \top }g + \frac{\gamma }{{2{{\rho }^{k}}}}\left\| {{{P}_{\omega }}\left( g \right) - {{P}_{\omega }}\left( z \right)} \right\|_{F}^{2} + \frac{1}{2}\left\| {g - {{y}^{k}} + \frac{{{{c}^{k}}}}{{{{\rho }^{k}}}}} \right\|_{F}^{2} - \\ - \;\alpha ({{{\mathbf{1}}}^{ \top }}g - 1) - {{\beta }^{ \top }}g, \\ \end{gathered} $
где $\alpha \in \mathbb{R}$ и $\beta \in {{\mathbb{R}}^{n}}$ являются множителями. Если взять производную функции Лагранжа по $g$ и положить ее равной нулю, то получится уравнение

(2.22)
$g - {{y}^{k}} + \frac{{{{c}^{k}}}}{{{{\rho }^{k}}}} + \frac{\gamma }{{{{\rho }^{k}}}}\left( {{{P}_{\omega }}\left( g \right) - {{P}_{\omega }}\left( z \right)} \right) + \frac{1}{{{{\rho }^{k}}}}{{t}^{k}} - \alpha {\mathbf{1}} - \beta = 0.$

Согласно условию KKT, т.е. ${{1}^{ \top }}g = 1$, имеем

(2.23)
$\alpha = \frac{1}{n}\left( {1 - {{{\mathbf{1}}}^{ \top }}{{y}^{k}} + {{{\mathbf{1}}}^{ \top }}\frac{{{{c}^{k}}}}{{{{\rho }^{k}}}} + \frac{\gamma }{{{{\rho }^{k}}}}{{{\mathbf{1}}}^{ \top }}\left( {{{P}_{\omega }}\left( g \right) - {{P}_{\omega }}\left( z \right)} \right) + \frac{1}{{{{\rho }^{k}}}}{{{\mathbf{1}}}^{ \top }}{{t}^{k}} - {{{\mathbf{1}}}^{ \top }}\beta } \right).$

Сочетая (2.22) и (2.23), получим

(2.24)
$\begin{gathered} g + \frac{\gamma }{{{{\rho }^{k}}}}{{P}_{\omega }}\left( g \right) = {{y}^{k}} - \frac{{{{c}^{k}}}}{{{{\rho }^{k}}}} + \frac{\gamma }{{{{\rho }^{k}}}}{{P}_{\omega }}\left( z \right) - \frac{1}{{{{\rho }^{k}}}}{{t}^{k}} - \\ - \;\frac{1}{n}{\mathbf{1}}{{{\mathbf{1}}}^{ \top }}\left( {{{y}^{k}} - \frac{{{{c}^{k}}}}{{{{\rho }^{k}}}} + \frac{\gamma }{{{{\rho }^{k}}}} + {{P}_{\omega }}\left( z \right) - \frac{1}{{{{\rho }^{k}}}}{{t}^{k}}} \right) + \frac{1}{n}{\mathbf{1}} + \\ + \;\frac{1}{n}{\mathbf{1}}{{{\mathbf{1}}}^{ \top }}\left( {\frac{\gamma }{{{{\rho }^{k}}}}{{P}_{\omega }}\left( g \right) - \beta } \right) + \beta . \\ \end{gathered} $

Далее, согласно дополнительной релаксации в условии KKT, имеем

(2.25)
$g_{i}^{{k + 1}} + \frac{\gamma }{{{{\rho }^{k}}}}{{P}_{\omega }}{{({{g}^{{k + 1}}})}_{i}} = {{\left( {u_{i}^{k} - \frac{1}{n}{{{\mathbf{1}}}^{ \top }}{{u}^{k}} + \frac{1}{n} + {{{v}}^{k}}} \right)}_{ + }},$
где
(2.26)
$\begin{gathered} {{u}^{k}} = {{y}^{k}} - \frac{{{{c}^{k}} + \gamma {{P}_{\omega }}(z) - {{t}^{k}}}}{{{{\rho }^{k}}}}, \\ {{{v}}^{k}} = \frac{1}{n}{{{\mathbf{1}}}^{ \top }}\left( {\frac{{\gamma {{P}_{\omega }}({{g}^{{k + 1}}})}}{{{{\rho }^{k}}}} - \beta } \right) \\ \end{gathered} $
и применяется обозначение . Итак, можно получить

(2.27)
$g_{i}^{{k + 1}} = \left\{ \begin{gathered} {{\left( {u_{i}^{k} - \frac{1}{n}{{{\mathbf{1}}}^{ \top }}{{u}^{k}} + \frac{1}{n} + {{{v}}^{k}}} \right)}_{ + }},\quad {\text{если}}\quad i \in \omega , \hfill \\ \frac{{{{\rho }^{k}}}}{{{{\rho }^{k}} + \gamma }}{{\left( {u_{i}^{k} - \frac{1}{n}{{{\mathbf{1}}}^{ \top }}{{u}^{k}} + \frac{1}{n} + {{{v}}^{k}}} \right)}_{ + }}\quad {\text{иначе}}{\text{.}} \hfill \\ \end{gathered} \right.$

Поскольку ${{{\mathbf{1}}}^{ \top }}{{g}^{{k + 1}}} = 1$, значение ${{{v}}^{k}}$ можно найти как корни следующей функции:

(2.28)
$f\left( {v} \right) = \sum\limits_{i = 1}^n {g_{i}^{{k + 1}}} - 1.$

Уравнение (2.28) может быть решено методом Ньютона. Производная первого порядка от $f\left( {v} \right)$ имеет вид

(2.29)
$\nabla f\left( {v} \right) = \sum\limits_{i = 1}^n {\nabla g_{i}^{{k + 1}}} ,$
где

(2.30)
$\nabla g_{i}^{{k + 1}} = \left\{ \begin{gathered} 1,\quad {\text{если}}\;i \in \omega , \hfill \\ \frac{{{{\rho }^{k}}}}{{{{\rho }^{k}} + \gamma }}\quad {\text{иначе}}{\text{.}} \hfill \\ \end{gathered} \right.$

Решение задачи (2.20) (получение $\mathcal{G}$) представим алгоритмом 1.

Алгоритм 1.

Вход: ${{t}^{k}}$, ${{\rho }^{k}}$, $\omega $, $z$, ${{c}^{k}}$, ${{t}^{k}}$.

Выход: Тензор ${{\mathcal{G}}^{{k + 1}}}$.

Шаг 1. Инициализация: Номер шага $q = 0$, ${{{v}}^{0}} = 0$.

Шаг 2. Вычислить uk, согласно (2.26).

Шаг 3. Вычислить $f({{{v}}^{q}})$, согласно (2.28).

Шаг 4. Если $\left| {f({{{v}}^{q}})} \right| \leqslant {{10}^{{ - 10}}}$, то перейти к шагу 8.

Шаг 5. Вычислить градиент $f\left( {v} \right)$ в точке ${{{v}}^{q}}$, согласно (2.29).

Шаг 6. Пересчитать ${{{v}}^{{q + 1}}} = {{{{{v}}^{q}} - f({{{v}}^{q}})} \mathord{\left/ {\vphantom {{{{{v}}^{q}} - f({{{v}}^{q}})} {\nabla f({{{v}}^{q}})}}} \right. \kern-0em} {\nabla f({{{v}}^{q}})}}$.

Шаг 7. $q \leftarrow q + 1$ и перейти к шагу 3.

Шаг 8. Вычислить ${{g}^{{k + 1}}}$, согласно (2.27).

Шаг 9. Составить тензор ${{\mathcal{G}}^{{k + 1}}}$ из трубок ${{g}^{{k + 1}}}$.

2.1.3. Пересчет ${{\mathcal{Y}}^{{k + 1}}}$ с фиксированными ${{\mathcal{G}}^{{k + 1}}}$, ${{\mathcal{C}}^{k}}$ и ${{\rho }^{k}}$. При сохранении всех остальных переменных ${{\mathcal{G}}^{{k + 1}}}$ может быть получено путем решения следующей оптимизационной задачи:

(2.31)
${{\mathcal{G}}^{{k + 1}}} = \mathop {\arg \min }\limits_\mathcal{Y} \quad \frac{\mu }{{{{\rho }^{k}}}}\left\| \mathcal{Y} \right\|_{{\Phi ,w,{{S}_{p}}}}^{p} + \frac{1}{2}\left\| {{{\mathcal{G}}^{{k + 1}}} + \frac{{{{\mathcal{C}}^{k}}}}{{{{\rho }^{k}}}} - \mathcal{Y}} \right\|_{F}^{2}.$

Чтобы решить ее, сначала введем теорему 1, которая доказывается в Приложении.

Теорема 1. Пусть $\mathcal{A} \in {{\mathbb{R}}^{{{{n}_{1}} \times {{n}_{2}} \times {{n}_{3}}}}}$, $l = \min \{ {{n}_{1}},{{n}_{2}}\} $, ${{w}_{1}} \geqslant {{w}_{2}} \geqslant \; \cdots \; \geqslant {{w}_{l}} \geqslant 0$. Для модели

(2.32)
$\mathop {\min }\limits_{} \tau \left\| \mathcal{X} \right\|_{{\Phi ,w,{{S}_{p}}}}^{p} + \frac{1}{2}\left\| {\mathcal{X} - \mathcal{A}} \right\|_{F}^{2}$
оптимальным решением является
(2.33)
$\mathcal{X}{\text{*}} = {{\left( {{\text{fold}}\left( {{\text{unfold}}\left( {{{\mathcal{S}}_{{\tau ,w,p}}}({{\mathcal{A}}_{\Phi }})} \right);{\text{unfold}}\left( {{{\mathcal{A}}_{{{{\Phi }^{c}}}}}} \right)} \right)} \right)}_{{{{{\overline \Phi }}^{ \top }}}}},$
где ${{\mathcal{S}}_{{\tau ,w,p}}}\left( {{{\mathcal{A}}_{\Phi }}} \right)$ – тензор, $i$-й фронтальный срез которого ${{S}_{{\tau ,w,p}}}\left( {A_{\Phi }^{{(i)}}} \right)$.

Поэтому оптимальным решением (2.31) будет

(2.34)
где ${{\mathcal{B}}^{k}} = {{\mathcal{G}}^{{k + 1}}} + \frac{{{{\mathcal{C}}^{k}}}}{{{{\rho }^{k}}}}$, ${{\mathcal{S}}_{{\frac{\mu }{\rho },w,p}}}(\mathcal{B}_{\Phi }^{k})$, как показано в доказательстве теоремы 1 в Приложении. На основе вышеприведенного описания псевдокод сведен в алгоритм 2 решения задачи (2.12).

Алгоритм 2.

Вход: $\left\{ {{{X}_{i}}} \right\}_{{i = 1}}^{m}$, $\left\{ {{{P}_{i}}} \right\}_{{i = 1}}^{m}$, $w$, $\mathcal{M}$, $\lambda $, $\mu $, $\gamma $.

Выход: $A$, $\left\{ {{{W}_{i}}} \right\}_{{i = 1}}^{m}$.

Шаг 1. Инициализация: Номер шага $k = 0$, $\eta = 1.1$, ${{\rho }^{0}} = {{10}^{{ - 4}}}$, $\left\{ {\delta _{i}^{0} = \frac{1}{m}} \right\}_{{i = 1}}^{m}$, ${{\mathcal{C}}^{0}} = 0$, ${{\mathcal{G}}^{0}} = {{\mathcal{Y}}^{0}} = \mathcal{M}$.

Шаг 2. Расчитать ${{A}^{{k + 1}}}$, согласно (2.18).

Шаг 3. Расчитать $W_{i}^{{k + 1}}$ как ${{\left( {{{X}_{i}}{{P}_{i}}X_{i}^{ \top }} \right)}^{{ - 1}}}{{X}_{i}}{{P}_{i}}{{A}^{{k + 1}}}^{ \top }$ для всех i.

Шаг 4. Расчитать $\delta _{i}^{{k + 1}}$, согласно определению для всех i.

Шаг 5. Расчитать ${{\mathcal{G}}^{{k + 1}}}$ алгоритмом 1.

Шаг 6. Расчитать ${{\mathcal{Y}}^{{k + 1}}}$, согласно (2.34).

Шаг 7. Расчитать ${{\mathcal{C}}^{{k + 1}}} = {{\mathcal{C}}^{k}} + {{\rho }^{k}}\left( {{{\mathcal{G}}^{{k + 1}}} - {{\mathcal{Y}}^{{k + 1}}}} \right)$.

Шаг 8. Расчитать ${{\rho }^{{k + 1}}} = \eta {{\rho }^{k}}$.

Шаг 9. Если алгоритм сошелся, то выдать $A = {{A}^{{k + 1}}}$, ${{W}_{i}} = W_{i}^{{k + 1}}$ для всех i.

Шаг 10. $k \leftarrow k + 1$ и перейти к шагу 2.

2.2. Анализ сходимости. Проанализируем сходимость алгоритма 2. Сначала покажем ограниченность последовательностей в лемме 1, которая доказана в Приложении. Затем сходимость будет исследована в теореме 2, которая также доказана в Приложении.

Лемма 1. Последовательности $\left\{ {{{\mathcal{C}}^{k}}} \right\}$, $\left\{ {{{\mathcal{Y}}^{k}}} \right\}$, $\left\{ {{{A}^{k}}} \right\}$, $\left\{ {\left\{ {W_{i}^{k}} \right\}_{{i = 1}}^{m}} \right\}$, $\left\{ {{{\mathcal{G}}^{k}}} \right\}$ и расширенная функция Лагранжа (2.16), которые генерируются алгоритмом 2, ограничены.

Теорема 2. Последовательности $\left\{ {{{\mathcal{G}}^{k}}} \right\}$ и $\left\{ {{{\mathcal{Y}}^{k}}} \right\}$, порожденные алгоритмом 2, удовлетворяют следующим требованиям:

1) $\mathop {\lim }\limits_{k \to \infty } {{\left\| {{{\mathcal{G}}^{k}} - {{\mathcal{Y}}^{k}}} \right\|}_{F}} = 0,$

2) $\mathop {\lim }\limits_{k \to \infty } {{\left\| {{{\mathcal{G}}^{{k + 1}}} - {{\mathcal{G}}^{k}}} \right\|}_{F}} = 0,$

3) $\mathop {\lim }\limits_{k \to \infty } {{\left\| {{{\mathcal{Y}}^{{k + 1}}} - {{\mathcal{Y}}^{k}}} \right\|}_{F}} = 0.$

3. Вычислительные эксперименты. Наборы данных. Четыре набора данных, использованные в эксперименте, показаны в табл. 2 и описаны ниже.

Таблица 2.

Описание многоаспектных баз данных

  Количество
База данных классов аспектов образцов признаков в аспектах
Цифры 10 5 2000 240/76/216/47/64
3_Sources 6 3 169 3560/3631/3036
BBC Sport 5 4 116 1991/2063/2113/2158
Orl 40 4 400 41/399/399/41

1. Цифры [50]. Набор данных содержит $10$ классов объектов, т.е. изображения рукописных цифр 0–9. В каждом классе есть $200$ образцов. Известны шесть аспектов: средние значения пикселей, коэффициенты Фурье, корреляции профилей, момент Цернике, коэффициенты Карунена–Лоэва и морфологические. В данном эксперименте задействованы только первые пять.

2. 3_Sources [51]. Набор данных содержит 948 историй из трех онлайн-ресурсов – BBC, Reuters и Guardian. В данном эксперименте для сравнения с другими методами используется подмножество, содержащее 169 историй, о которых сообщалось на всех ресурсах. Эти 169 историй разделены на шесть классов: бизнес, развлечения, здоровье, политика, спорт и технологии.

3. BBC Sport [52]. Набор данных содержит 737 документов о новостях спорта, которые выражены 2–4 мнениями и разделены на пять категорий. Для наших экспериментов мы выбрали подмножество образцов, описанных по 4 раза, в нем 116 элементов.

4. Orl [53]. Очень популярный набор данных лиц, содержащий 400 изображений лиц, предоставленных 40 лицами, каждое из которых состоит из $10$ фотографий. Поскольку Orl – это набор данных с одним аспектом, мы извлекли LBP, GIST и пирамиду гистограммы ориентированных градиентов и объединили их с пиксельными характеристиками, чтобы сформировать набор данных с четырьмя аспектами.

Построение неполных многоаспектных данных. Для каждого из вышеперечисленных наборов данных случайным образом выбираем p% ($p \in \left\{ {90,70,50,30} \right\}$) образцов и превращаем их в неполные путем удаления данных из случайно выбранного аспекта.

Сравниваемые методы. Следующие методы, которые могут работать с неполными многоаспектными данными, использованы для сравнения.

1. BSV [54]. BSV выполняет кластеризацию k-средних и классификацию ближайших соседей на всех аспектах и сообщает оптимальные результаты кластеризации и классификации, где недостающие экземпляры дополняются средним экземпляром соответствующего аспекта.

2. Concat [54]. Объединение всех аспектов в один и применение k-средних и ближайших соседей для получения окончательных результатов кластеризации и классификации, где недостающие экземпляры также заполняются средним экземпляром, как BSV.

3. DAIMC [20]. Метод использует два способа для согласованного представления всех аспектов: матричное разложение на основе выравнивания информации об экземплярах и разреженную регрессию на основе базисных матриц.

4. IMSC_AGL [4]. Метод получает консенсусное низкоразмерное представление при помощи спектральной кластеризации и строит графы низкорангового представления.

5. TCIMC [10]. Метод получает полный граф путем тензорного восстановления для каждого вида и отличается от представленного здесь метода тензорной нормой.

Наш метод сначала получает низкоразмерное представление $A$ всех образцов, а затем применяет метод k-средних для $A$. Поскольку метод чувствителен к начальному значению, вычисления производятся несколько раз и результат усредняется. Найденные центры служат для построения графа каждого представления:

(3.1)
${{M}_{{i(k,l)}}} = \left\{ \begin{gathered} \exp \left( { - \frac{{\left\| {{{X}_{{i\left( {k,:} \right)}}} - {{X}_{{i\left( {l,:} \right)}}}} \right\|_{2}^{2}}}{{2{{\sigma }^{2}}}}} \right),\quad {\text{если}}\quad {{X}_{{i\left( {k,:} \right)}}} \in k{\text{ - NN}}\left( {{{X}_{{i\left( {l,:} \right)}}}} \right), \hfill \\ 0\quad {\text{иначе}}, \hfill \\ \end{gathered} \right.$
где $k = 10$, $\sigma = 1$. Недостающие позиции в ${{M}_{i}}$ заполняются нулями. Значения $p$, $w$ и $\Phi $ в тензорной норме ${{\left\| \cdot \right\|}_{{\Phi ,w,{{S}_{p}}}}}$ задаются 0.6, 1 и дискретным косинусным преобразованием соответственно.

Меры качества. Оценка качества производится тремя известными мерами: точностью (accuracy, ACC), нормализованной взаимной информацией (normalized mutual information, NMI), чистотой (purity).

3.1. Результаты. Таблица 3 показывает результаты кластеризации шести методов на четырех наборах данных. Из нее можно сделать следующие выводы.

Таблица 3.

Средние и стандартные значения ACC, NMI и Purity (в процентах) семи методов для четырех наборов данных

Dataset Rate/methods BSV Concat DAIMC IMSC_AGL TCIMV EIMC_TGC
Handwritten ACC 0.9 47.15В±2.86 39.96В±3.37 84.51В±0.00 94.14В±0.00 86.79В±0.98 99.60В±0.00
  0.7 52.04В±24.95 44.37В±10.75 85.21В±0.06 94.32В±0.00 86.35В±1.26 99.95В±0.00
    0.5 62.51В±19.99 48.95В±2.88 87.13В±0.04 95.40В±0.00 85.90В±0.36 91.50В±0.00
    0.3 67.47В±35.51 53.12В±5.01 86.61В±0.05 96.04В±0.00 85.15В±1.01 88.65В±0.00
  NMI 0.9 38.79В±1.09 32.91В±1.51 73.23В±0.01 88.07В±0.00 88.95В±1.34 98.94В±0.00
    0.7 45.34В±9.94 37.91В±4.83 76.64В±0.01 88.12В±0.01 89.77В±0.54 99.86В±0.00
    0.5 54.09В±8.35 43.27В±1.73 77.17В±0.03 90.01В±0.00 89.81В±2.36 93.97В±0.00
    0.3 60.78В±11.11 49.02В±1.12 77.24В±0.02 91.34В±0.00 89.58В±0.95 93.57В±0.00
  Purity 0.9 47.15В±2.83 40.65В±1.71 84.51В±0.01 94.14В±0.00 88.01В±1.32 99.60В±0.00
    0.7 52.77В±17.79 46.22В±4.08 86.75В±0.01 94.34В±0.00 88.40В±2.01 99.95В±0.00
    0.5 62.51В±17.69 51.27В±1.21 87.18В±0.02 95.40В±0.00 88.40В±0.66 91.50В±0.00
    0.3 68.80В±23.08 57.06В±2.66 86.73В±0.23 96.04В±0.00 88.10В±1.32 89.40В±0.00
3_Sources ACC 0.9 35.50В±3.11 37.33В±6.96 46.86В±0.00 60.95В±1.55 68.64В±0.00 74.41В±0.16
    0.7 35.74В±12.46 38.04В±30.50 53.37В±1.93 57.45В±1.20 69.23В±0.00 78.70В±0.14
    0.5 36.09В±8.01 40.35В±47.45 50.29В±0.00 65.62В±5.94 56.80В±0.00 59.76В±0.06
    0.3 35.62В±15.77 46.39В±35.41 49.76В±0.04 68.11В±2.83 69.82В±0.00 59.16В±0.08
  NMI 0.9 8.53В±11.81 7.96В±14.37 44.29В±0.00 59.17В±0.19 63.85В±0.00 63.97В±0.22
    0.7 9.29В±12.87 11.36В±69.01 46.03В±3.02 60.55В±0.10 54.34В±0.02 66.29В±0.11
    0.5 8.56В±11.76 13.87В±75.81 45.38В±0.16 57.89В±6.65 52.50В±0.00 52.47В±1.14
    0.3 7.92В±6.29 22.97В±98.79 47.53В±0.35 61.18В±0.86 57.98В±0.00 60.20В±0.20
  Purity 0.9 38.99В±5.24 39.40В±18.61 62.13В±0.00 77.75В±0.09 79.23В±0.00 79.28В±0.09
    0.7 39.88В±12.93 42.48В±61.37 68.52В±0.68 77.28В±0.09 75.14В±0.00 82.25В±0.14
    0.5 39.64В±16.10 45.32В±74.47 68.28В±0.10 76.56В±6.08 72.19В±0.00 70.41В±0.06
    0.3 39.17В±12.20 52.60В±61.97 67.57В±0.06 76.69В±1.26 78.10В±0.00 74.56В±0.00
BBC Sport ACC 0.9 33.88В±4.46 33.36В±4.79 60.69В±0.19 66.21В±0.13 81.03В±0.00 83.62В±0.00
  0.7 34.13В±7.63 34.91В±21.35 66.38В±1.98 78.45В±0.00 81.62В±0.00 81.90В±0.00
    0.5 35.26В±4.86 33.62В±3.30 61.81В±1.33 69.66В±0.79 79.31В±0.00 82.76В±0.00
    0.3 34.65В±14.00 37.58В±61.13 62.16В±5.85 75.00В±0.00 81.89В±0.00 80.17В±0.00
  NMI 0.9 5.82В±3.72 5.81В±2.24 46.45В±0.95 51.17В±0.83 78.20В±0.00 83.03В±0.00
    0.7 6.23В±5.19 6.27В±7.76 55.52В±0.55 69.55В±0.00 83.58В±0.00 79.91В±0.00
    0.5 6.11В±10.06 5.37В±5.26 45.28В±2.29 57.68В±0.31 71.07В±0.00 77.31В±0.00
    0.3 6.54В±19.41 11.01В±63.76 37.05В±19.07 68.60В±0.40 76.19В±0.00 74.50В±0.00
  Purity 0.9 35.00В±3.34 34.65В±2.61 68.10В±0.83 76.55В±0.13 91.03В±0.00 93.11В±0.00
    0.7 35.17В±6.73 36.55В±19.19 75.26В±1.49 87.93В±0.00 93.82В±0.00 93.96В±0.00
    0.5 36.21В±5.11 35.29В±4.03 68.62В±1.51 82.58В±0.79 88.79В±0.00 92.24В±0.00
    0.3 35.60В±13.71 39.14В±55.19 65.00В±7.46 87.84В±0.07 90.21В±0.00 90.52В±0.00
Orl ACC 0.9 43.10В±2.98 16.08В±0.88 56.18В±6.47 71.20В±4.95 86.50В±1.06 92.10В±2.04
    0.7 40.70В±1.22 15.22В±2.23 58.71В±4.36 75.58В±4.16 84.95В±0.85 88.72В±4.83
    0.5 42.27В±1.92 16.87В±2.88 61.08В±1.89 71.45В±2.02 85.45В±0.54 87.87В±2.37
    0.3 42.40В±1.60 21.50В±135.6 65.05В±5.19 73.85В±4.44 84.00В±2.04 89.45В±1.76
  NMI 0.9 47.81В±0.20 24.28В±2.91 70.98В±1.91 83.22В±1.39 91.06В±0.09 95.02В±0.24
    0.7 47.93В±0.80 24.72В±5.56 73.70В±2.07 86.79В±0.36 92.94В±0.07 95.25В±0.36
    0.5 48.58В±0.79 29.04В±9.52 76.18В±1.89 84.57В±0.57 92.27В±0.17 94.98В±0.16
    0.3 48.62В±0.13 35.14В±178.1 79.90В±2.60 86.10В±0.57 91.24В±0.41 96.23В±0.28
  Purity 0.9 46.18В±1.20 19.10В±0.57 58.82В±4.76 74.13В±3.80 87.40В±0.09 92.65В±1.07
    0.7 44.47В±0.42 18.25В±2.09 61.05В±4.71 77.90В±1.86 88.35В±0.03 90.63В±1.88
    0.5 45.92В±1.04 19.82В±2.97 63.70В±3.15 74.12В±2.18 87.35В±0.17 90.07В±0.75
    0.3 45.72В±0.17 24.90В±146.8 68.15В±4.96 76.75В±2.19 86.60В±0.41 92.30В±1.27

1. Представленный метод имеет лучшие результаты в большинстве случаев по сравнению с другими пятью методами. В задаче кластеризации предложенный метод примерно на 5 и 10% лучше, чем другие, на данных Orl и Handwritten, соответственно. Неизбежны некоторые данные, для которых та или иная мера не является оптимальной, например задача кластеризации наборов данных Handwritten, 3Sources и BBC Sport.

2. Таблица 3 демонстрирует, что IMSC_AGL, TCIMC и наш метод имеют лучшее качество кластеризации, чем DAIMC на всех наборах данных. Это указывает на то, что графовые инструменты могут улучшить качество кластеризации. TCIMC и наш метод основаны на тензорном заполнении графа, в них отличается тензорная норма. Эксперименты показывают, что наш метод имеет лучшую производительность кластеризации, чем TCIMC, на большинстве наборов данных.

3. Из результатов эксперимента, приведенных в табл. 3, видно, что качество кластеризации снижается на большинстве наборов данных при увеличении доли пропущенных аспектов. Таким образом, обучение эффективному согласованному представлению на наборе данных с высоким уровнем пропусков затруднено. Отсутствующих экземпляров так много, что предварительной информации недостаточно, включая консенсус и взаимодополняемость между представлениями. Согласно результатам экспериментов на всех наборах данных, наш метод имеет более значительное преимущество в случае более высокого уровня пропусков.

3.2. Анализ чувствительности к параметрам. В этом разделе анализируется чувствительность трех параметров $\lambda $, $\mu $ и $\gamma $ на наборах данных Handwritten, 3Sources, BBC Sport и Orl. Проверяются параметры $\lambda $ со значениями {1, 4, 5, 7, 9} и $\mu $ со значениями $\{ 10,\;30,\;50,\;70,\;90\} $. Предложенный метод кластеризации выполняется с различными комбинациями двух параметров ($\lambda \& \mu $). Также выполняется кластеризация с различными $\gamma $ из множества ${{\{ 10}^{p}}$, $p \in \overline { - 2,6} \} $. Рисунки 2 и 3 показывают качество кластеризации в зависимости от параметра масштаба $\lambda \& \mu $ и $\gamma $ на четырех наборах данных с уровнем пропусков $70\% $ соответственно. Согласно этим результатам, наш метод относительно стабилен для гиперпараметров $\lambda $, $\mu $ и $\gamma $, а производительность кластеризации обычно оптимальна для $\lambda = 3$, $\mu = 10$ и $\gamma = 100$.

Рис. 2.

Качество кластеризации при различных комбинациях параметров λ и μ на наборах данных Handwritten (a), 3 Sources (б), BBC Sport (в) и Orl (г) с уровнем пропусков $70\% $

Рис. 3.

Качество кластеризации при различных значениях параметра γ на наборах данных Handwritten (a), 3 Sources (б), BBC Sport (в) и Orl (г) с уровнем пропусков 70%

3.3. Анализ сходимости. В разд. 2.3 показано, что алгоритм 2 сходится. Описаны численные эксперименты для проверки сходимости. Проведены эксперименты на наборах данных Handwritten, 3 Sources, BBC Sport и Orl с уровнем пропусков $70\% $. На рис. 4 показана сходимость алгоритма и качество кластеризации модели при увеличении числа итераций. Из рис. 4 видно, что предложенный метод оптимизации имеет хорошую сходимость, при которой ${{\left\| {{{\mathcal{G}}^{{k + 1}}} - {{\mathcal{G}}^{k}}} \right\|}_{F}}$, ${{\left\| {{{\mathcal{Y}}^{{k + 1}}} - {{\mathcal{Y}}^{k}}} \right\|}_{F}}$, и ${{\left\| {{{\mathcal{G}}^{k}} - {{\mathcal{Y}}^{k}}} \right\|}_{F}}$ может быстро уменьшаться и стремиться к нулю во всех четырех наборах данных. Результаты кластеризации также стабилизируются с увеличением числа итераций.

Рис. 4.

Зависимость качества кластеризации от количества итераций на наборах данных Handwritten (a), 3 Sources (б), BBC Sport (в) и Orl (г) с уровнем пропусков 70%

3.4. Влияние параметра $r$. Исследуем влияние параметра $r$ на результат эксперимента. Вводим $r$ от $n \times 10$ до $n \times 100\% $ для каждого эксперимента на наборах данных Handwritten, 3 Sources, BBC Sport и Orl с уровнем пропусков $70\% $, т.е. $r \in \left\{ {n \times 10\% ,n \times 20\% ,\; \ldots ,\;n \times 100\% } \right\}$. Производительность кластеризации нашего метода на наборах данных Handwritten и Orl уменьшается при увеличении $r{\text{/}}n$ (рис. 5). На наборах данных 3 Sources и BBC Sport производительность предложенной модели существенно не меняется при увеличении $r{\text{/}}n$. Рисунок 6 показывает, что время работы для решения $\mathcal{Y}$ становится больше с увеличением значения $r{\text{/}}n$ на четырех наборах данных. Отметим, что $r = n$ не является оптимальным выбором, в данном методе имеет смысл использовать $r < n$.

Рис. 5.

Качество кластеризации для различных пропорций параметра r к n на наборах данных Handwritten (a), 3 Sources (б), BBC Sport (в) и Orl (г) с уровнем пропусков 70%

Рис. 6.

Время работы для различных отношений параметра r к n на наборах данных Handwritten (a), 3 Sources (б), BBC Sport (в) и Orl (г) с уровнем пропусков 70%

Заключение. Представлен метод кластеризации неполных данных с несколькими аспектами, который применяет графы связности, дополненные путем тензорного восстановления. Это позволяет найти согласованное низкоразмерное подпространство, сохраняющее топологию (взаимное расположение) образцов. Построенная модель решается на основе метода неопределенных множителей Лагранжа, анализируется сходимость. Качество работы предложенного метода проверено на реальных наборах данных.

Список литературы

  1. Zhao J., Xie X., Xu X., Sun S. Multi-view Learning Overview: Recent Progress and New Challenges // Information Fusion. 2017. V. 38. P. 43–54.

  2. Liu Y., Fan L., Zhang C., Zhou T., Xiao Z., Geng L., Shen D. Incomplete Multi-modal Representation Learning for Alzheimer’s Disease Diagnosis // Medical Image Analysis. 2021. V. 69. P. 101953.

  3. Qiao L., Zhang L., Chen S., Shen D. Data-driven Graph Construction and Graph Learning: A Review // Neurocomputing. 2018. V. 312. P. 336–351.

  4. Wen J., Xu Y., Liu H. Incomplete Multiview Spectral Clustering with Adaptive Graph Learning // IEEE Trans. Cybernetics. 2020. V. 50. № 4. P. 1418–1429.

  5. Wen J., Zhang Zheng, Zhang Zhao, Fei L.K., Wang M. Generalized Incomplete Multiview Clustering with Flexible Locality Structure Diffusion // IEEE Trans. Cybernetics. 2021. V. 51. № 1. P. 101–114.

  6. Zhang N., Sun S. Incomplete Multiview Nonnegative Representation Learning with Multiple Graphs // Pattern Recognition. 2022. V. 123. P. 108412.

  7. Wen J., Yan K., Zhang Z., Xu Y., Wang J.Q., Fei L.K., Zhang B. Adaptive Graph Completion Based Incomplete Multiview Clustering // IEEE Trans. Multimedia. 2021. V. 23. P. 2493–2504.

  8. Liu J., Teng S., Zhang W., Fang X., Fei L., Zhang Z. Incomplete Multiview Subspace Clustering with Low-rank Tensor // Proc. IEEE Intern. Conf. Acoustics, Speech and Signal Processing. Toronto, Canada, 2021. P. 3180–3184.

  9. Wen J., Zhang Zheng, Zhang Zhao, Zhu L., Fei L.K., Zhang B., Xu Y. Unified Tensor Framework for Incomplete Multiview Clustering and Missing-view Inferring // Proc. 35th AAAI Conf. Artificial Intelligence. AAAI Press: Palo Alto, CA, USA. 2021. V. 35. P. 10273–10281.

  10. Xia W., Gao Q., Wang Q., Gao X. Tensor Completion-based Incomplete Multiview Clustering // IEEE Trans. Cybernetics. 2022. V. 52. № 12. P. 13635–13644.

  11. Blaschko M.B., Lampert C.H., Gretton A. Semi-supervised Laplacian Regularization of Kernel Canonical Correlation Analysis // Proc. Joint Europ. Conf. Machine Learning and Knowledge Discovery in Databases. Antwerp, Belgium, 2008. P. 133–145.

  12. Chen X., Chen S., Xue H., Zhou X. A Unified Dimensionality Reduction Framework for Semi-paired and Semi-supervised Multiview Data // Pattern Recognition. 2012. V. 45. № 5. P. 2005–2018.

  13. Zhou X., Chen X., Chen S. Neighborhood Correlation Analysis for Semi-paired Two-view Data // Neural Processing Letters. 2013. V. 37. № 3. P. 335–354.

  14. Yuan Y., Wu Z., Li Y., Qiang J., Gou J., Zhu Y. Regularized Multiset Neighborhood Correlation Analysis for Semi-paired Multiview Learning // Intern. Conf. Neural Information Processing. Vancouver, Canada, 2020. P. 616–625.

  15. Yang W., Shi Y., Gao Y., Wang L., Yang M. Incomplete Data Oriented Multiview Dimension Reduction via Sparse Low-rank Representation // IEEE Trans. Neural Networks and Learning Systems. 2018. V. 29. № 12. P. 6276–6291.

  16. Zhu C., Chen C., Zhou R., Wei L., Zhang X. A New Multiview Learning Machine with Incomplete Data // Pattern Analysis and Applications. 2020. V. 23. № 3. P. 1085–1116.

  17. Li S., Jiang Y., Zhou Z. Partial Multiview Clustering // Proc. AAAI Conf. artificial intelligence. Québec City, Canada, 2014. V. 28. № 1.

  18. Xu C., Tao D., Xu C. Multiview Learning with Incomplete Views // IEEE Trans. Image Processing. 2015. V. 24. № 12. P. 5812–5825.

  19. Wen J., Zhang Z., Xu Y., Zhong Z. Incomplete Multiview Clustering via Graph Regularized Matrix Factorization // Proc. European Conf. Computer Vision Workshops. Munich, Germany, 2018. P. 1–16.

  20. Hu M., Chen S. Doubly Aligned Incomplete Multiview Clustering // Proc. Intern. Joint Conf. Artificial Intelligence. Stockholm, Sweden, 2018. P. 2262–2268.

  21. Hu M., Chen S. One-pass Incomplete Multiview Clustering // Proc. AAAI Conf. Artificial Intelligence. Honolulu, Hawaii, USA, 2019. V. 33. P. 3838–3845.

  22. Liu J., Teng S., Fei L., Zhang W., Fang X., Zhang Z., Wu N. A Novel Consensus Learning Approach to Incomplete Multiview Clustering // Pattern Recognition. 2021. V. 115. P. 107890.

  23. Liu X., Zhu X., Li M., Wang L., Zhu E., Liu T., Kloft M., Shen D., Yin J., Gao W. Multiple Kernel k-means with Incomplete Kernels // IEEE Trans. Pattern Analysis and Machine Intelligence. 2019. V. 42. № 5. P. 1191–1204.

  24. Wen J., Sun H., Fei L., Li J., Zhang Z., Zhang B. Consensus Guided Incomplete Multiview Spectral Clustering // Neural Networks. 2021. V. 133. P. 207–219.

  25. Zhuge W., Luo T., Tao H., Hou C., Yi D. Multiview Spectral Clustering with Incomplete Graphs // IEEE Access. 2020. V. 8. P. 99820–99831.

  26. Liu X., Zhu X., Li M., Wang L., Tang C., Yin J., Shen D., Wang H., Gao W. Late Fusion Incomplete Multiview Clustering // IEEE Trans. Pattern Analysis and Machine Intelligence. 2018. V. 41. № 10. P. 2410–2423.

  27. Zheng X., Liu X., Chen J., Zhu E. Adaptive Partial Graph Learning and Fusion for Incomplete Multiview Clustering // Intern. J. Intelligent Systems. 2022. V. 37. № 1. P. 991–1009.

  28. Xie M., Ye Z., Pan G., Liu X. Incomplete Multiview Subspace Clustering with Adaptive Instance Sample Mapping and Deep Feature Fusion // Applied Intelligence. 2021. V. 51. № 8. P. 5584–5597.

  29. Zhao L., Chen Z., Yang Y., Wang Z.J., Leung V.C. Incomplete Multiview Clustering via Deep Semantic Mapping // Neurocomputing. 2018. V. 275. P. 1053–1062.

  30. Zhang C., Han Z., Fu H., Zhou J.T., Hu Q. CPM-nets: Cross Partial Multiview Networks // Advances in Neural Information Processing Systems. 2019. V. 32.

  31. Wang Q., Ding Z., Tao Z., Gao Q., Fu Y. Partial Multiview Clustering via Consistent GAN // Proc. IEEE Intern. Conf. Data Mining. Singapore, 2018. P. 1290–1295.

  32. Xu C., Liu H., Guan Z., Wu X., Tan J., Ling B. Adversarial Incomplete Multiview Subspace Clustering Networks // IEEE Trans. Cybernetics. 2022. V. 52. № 10. P. 10490–10503.

  33. Goodfellow I., Pouget-Abadie J., Mirza M., Xu B., Warde-Farley D., Ozair S., Courville A., Bengio Y. Generative Adversarial Networks // Comm. ACM. 2020. V. 63. № 11. P. 139–144.

  34. Lin Y., Gou Y., Liu Z., Li B., Lv J., Peng X. Completer: Incomplete Multiview Clustering via Contrastive Prediction // Proc. IEEE/CVF Conf. Computer Vision and Pattern Recognition. Nashville, TN, USA, 2021. P. 11174–11183.

  35. Zhang B., Hao J., Ma G., Yue J., Shi Z. Semi-paired Probabilistic Canonical Correlation Analysis // Intelligent Information Processing VII. IFIP Advances in Information and Communication Technology. Berlin, Heidelberg: Springer, 2014. V. 432.

  36. Matsuura T., Saito K., Ushiku Y., Harada T. Generalized Bayesian Canonical Correlation Analysis with Missing Modalities // 15th Europ. Conf. Computer Vision (ECCV). Munich, Germany, 2018. V. 11134. P. 641–656.

  37. Li P., Chen S. Shared Gaussian Process Latent Variable Model for Incomplete Multiview Clustering // IEEE Trans. Cybernetics. 2018. V. 50. № 1. P. 61–73.

  38. Kamada C., Kanezaki A., Harada T. Probabilistic Semi-canonical Correlation Analysis // Proc. 23rd ACM Intern. Conf. Multimedia. Brisbane, Australia, 2015. P. 1131–1134.

  39. Wang C. Variational Bayesian Approach to Canonical Correlation Analysis // IEEE Trans. Neural Networks. 2007. V. 18. № 3. P. 905–910.

  40. Kimura A., Sugiyama M., Nakano T., Kameoka H., Sakano H., Maeda E., Ishiguro K. SemiCCA: Efficient Semi-supervised Learning of Canonical Correlations // Information and Media Technologies. 2013. V. 8. № 2. P. 311–318.

  41. Luo Y., Tao D., Ramamohanarao K., Xu C., Wen Y. Tensor Canonical Correlation Analysis for Multiview Dimension Reduction // IEEE Trans. Knowledge and Data Engineering. 2015. V. 27. № 11. P. 3111–3124.

  42. Wong H., Wang L., Chan R., Zeng T. Deep Tensor CCA for Multiview Learning // IEEE Trans. Big Data. 2021. V. 8. P. 1664–1677.

  43. Cheng M., Jing L., Ng M.K. Tensor-based Low-dimensional Representation Learning for Multiview Clustering // IEEE Trans. Image Processing. 2018. V. 28. № 5. P. 2399–2414.

  44. Zhang C., Fu H., Liu S., Liu G., Cao X. Low-rank Tensor Constrained Multiview Subspace Clustering // Proc. IEEE Intern. Conf. Computer Vision. Santiago, Chile, 2015. P. 1582–1590.

  45. Wu J., Lin Z., Zha H. Essential Tensor Learning for Multiview Spectral Clustering // IEEE Trans. Image Processing. 2019. V. 28. № 12. P. 5910–5922.

  46. Carroll J. Generalization of Canonical Correlation Analysis to Three or More Sets of Variables // Proc. 76th Annual Convention of the American Psychological Association. 1968. V. 3. P. 227–228.

  47. Chen J., Wang G., Giannakis G.B. Graph Multiview Canonical Correlation Analysis // IEEE Trans. Signal Processing. 2019. V. 67. № 11 P. 2826–2838.

  48. Nie F., Li J., Li X. Self-weighted Multiview Clustering with Multiple Graphs // Intern. Joint Conf. Artificial Intelligence. Melbourne, Australia, 2017. P. 2564–2570.

  49. Fan K. On a Theorem of Weyl Concerning Eigenvalues of Linear Transformations // Proc. National Academy of Sciences. 1949. V. 35. № 11. P. 652–655.

  50. van Breukelen M., Duin R.P.W., Tax D.M.J., den Hartog J.E. Handwritten Digit Recognition by Combined Classifiers // Kybernetika. 1998. V. 34. № 4. P. 381–386.

  51. Greene D. 3 Sources Dataset // Электронный ресурс: http://erdos.ucd.ie/datasets/3sources.html. Дата доступа: 7 января 2023 г.

  52. Greene D., Cunningham P. Practical Solutions to the Problem of Diagonal Dominance in Kernel Document Clustering // Proc. 23rd Intern. Conf. Machine Learning. Pittsburgh, PA, USA, 2006. P. 377–384.

  53. Samaria F.S., Harter A.C. Parameterisation of a Stochastic Model for Human Face Identification // Proc. IEEE Workshop on Applications of Computer Vision. Sarasota, FL, USA, 1994. P. 138–142.

  54. Zhao H., Liu H., Fu Y. Incomplete Multi-modal Visual Data Grouping // Proc. Intern. Joint Conf. Artificial Intelligence. N.Y., USA, 2016. P. 2392–2398.

  55. Xie Y., Gu S., Liu Y., Zuo W., Zhang W., Zhang L. Weighted Schatten p-norm Minimization for Image Denoising and Background Subtraction // IEEE Trans. Image Processing. 2016. V. 25. № 10. P. 4842–4857.

Дополнительные материалы отсутствуют.