Доклады Российской академии наук. Математика, информатика, процессы управления, 2020, T. 490, № 1, стр. 67-70

КРИТЕРИИ ПОЛНОТЫ ЛИНЕЙНОЙ МОДЕЛИ АЛГОРИТМОВ КЛАССИФИКАЦИИ ОТНОСИТЕЛЬНО РАЗЛИЧНЫХ СЕМЕЙСТВ РЕШАЮЩИХ ПРАВИЛ

А. Г. Дьяконов 1*, А. М. Головина 2**

1 Московский государственный университет им. М.В. Ломоносова
Москва, Россия

2 Московский государственный технический университет им. Н.Э. Баумана (национальный исследовательский университет)
Москва, Россия

* E-mail: djakonov@mail.ru
** E-mail: nastya_gm@mail.ru

Поступила в редакцию 29.11.2019
После доработки 29.11.2019
Принята к публикации 29.11.2019

Полный текст (PDF)

Аннотация

В рамках алгебраического подхода Ю.И. Журавлёва к решению задач классификации рассмотрена линейная модель алгоритмов (оценки принадлежностей к классам получаются с помощью линейных регрессий). Исследована возможность ослабить требование полноты (получение произвольной матрицы оценок) для получения произвольных классификаций фиксированной выборки объектов, используя решающие правила специального вида.

Ключевые слова: классификация, линейные алгоритмы, алгебраический подход, корректность, полнота 

В работе рассматриваются алгоритмы классификации на $l$ классов [1], которые по контрольной выборке (некоторому множеству q объектов) получают бинарную матрицу классификации размера $q \times l$, ij-й элемент которой – ответ алгоритма на вопрос, принадлежит ли i-й объект j-му классу (1 – да, 0 – нет). Алгоритм классификации выбирается из модели алгоритмов (некоторого параметрического множества), используя обучающую выборку (множество объектов с известной классификацией). Например, параметры алгоритма настраиваются так, чтобы ответ на обучающей выборке был как можно точнее, такая настройка называется обучением.

Следуя алгебраическому подходу к решению задач классификации [24], мы сосредоточимся на вопросах реализации произвольных матриц классификации в рамках одной модели, оставляя в стороне классические вопросы машинного обучения (machine learning): проблему выбора параметров, функционалы качества классификации [5] и т.п. В алгебраическом подходе каждый алгоритм $A$ представляется в виде суперпозиции $A = B \cdot C$: сначала оператор $B$ формирует матрицу оценок $H = {\text{||}}{{h}_{{ij}}}{\text{|}}{{{\text{|}}}_{{q \times l}}}$, ij-й элемент которой интерпретируется как оценка принадлежности i-го объекта j-му классу, затем решающее правило $C$ получает по ней матрицу классификации ${{\left\| {{{\alpha }_{{ij}}}} \right\|}_{{q \times l}}}$.

Определение 1. Модель алгоритмов классификации называется полной (для данных обучающей и контрольной выборок), если для любой матрицы $H \in {{\mathbb{R}}^{{q \times l}}}$ существует оператор модели B, порождающий матрицу оценок H.

Дальше все определения будут вводиться при фиксированных обучающей и контрольной выборках, поэтому не будем это отдельно обговаривать. Иногда полнота называется корректностью, оба понятия были введены в [1] (при необременительных условиях они эквивалентны). Понятие полноты затем исследовалось в работах [6, 7]. В [8, 9] сделано предположение, что требование полноты слишком жесткое. По сути, полнота нужна для реализации произвольных матриц классификации с помощью достаточно простых решающих правил. Логично потребовать возможность такой реализации и рассматривать нетривиальные решающие правила и/или правила из некоторых семейств.

Определение 2. Модель алгоритмов классификации называется полной относительно решающего правила C или C-полной, если для любой матрицы $G \in {{\{ 0,1\} }^{{q \times l}}}$ существует такой оператор модели B, что алгоритм $A = B \cdot C$ реализует матрицу классификации G.

Определение 3. Модель алгоритмов классификации называется полной относительно семейства решающих правил $C{\text{*}}$ или $C{\text{*}}$-полной, если для любой матрицы $G \in {{\{ 0,1\} }^{{q \times l}}}$ существуют такие оператор модели В и решающее правило C из семейства $C{\text{*}}$, что алгоритм $A = B \cdot C$ реализует матрицу классификации G.

Одно из самых популярных на практике решающих правил [10] – пороговое решающее правило с порогом $c \in \mathbb{R}$:

${{C}_{c}}({{\left\| {{{h}_{{ij}}}} \right\|}_{{q \times l}}}) = {{\left\| {{{\alpha }_{{ij}}}} \right\|}_{{q \times l}}}:{{\alpha }_{{ij}}} = \left\{ \begin{gathered} 1,\quad {{h}_{{ij}}} \geqslant c, \hfill \\ 0,\quad {{h}_{{ij}}} < c, \hfill \\ \end{gathered} \right.$
для всех $\left( {i,j} \right) \in QL$, здесь и далее QL = {1, 2, ... ..., $q\} \times \{ 1,2, \ldots ,l\} $. Семейство пороговых решающих правил получается варьированием порога:

${{C}_{*}} = \{ {{C}_{c}}|~~c \in \mathbb{R}\} .$

Определение 4. Модель алгоритмов классификации называется линейной, если существуют такие матрицы ${{H}_{1}},{{H}_{2}},\; \ldots ,\;{{H}_{l}}$, матрица ${{H}_{j}}$ имеет размер $q \times {{k}_{j}}$, $j \in \{ 1,2, \ldots ,l\} $, что матрица оценок H получается оператором алгоритма модели тогда и только тогда, когда j-й столбец матрицы имеет вид ${{H}_{j}}{{{\mathbf{x}}}_{j}}$, ${{{\mathbf{x}}}_{j}} \in {{\mathbb{R}}^{{{{k}_{j}}}}}$ для всех $j \in \{ 1,2, \ldots ,l\} $.

Линейная модель задается набором матриц ${{H}_{1}},{{H}_{2}}, \ldots ,{{H}_{l}}$, мы не будем подробно описывать, как они вычисляются, приведем лишь один пример. Если для каждого класса независимо мы настраиваем линейный регрессор (или логистическую регрессию [5]) на признаковых $n$-мерных описаниях объектов обучающей выборки (целевой признак здесь равен 1, если объект принадлежит $j$-му классу, 0 – в противном случае), то получаем линейную (в нашей терминологии) модель, в которой ${{H}_{1}} = {{H}_{2}} = \; \ldots \; = {{H}_{l}} = X$, в матрице X размера $q \times n$ по строкам записаны признаковые описания контрольных объектов. Формально при использовании логистической регрессии модель нелинейная, а именно эта модель наиболее популярная и часто используемая на практике, но из-за использования порогового решающего правила можно привести эквивалентную ей (порождает такие же матрицы классификации) линейную.

В алгебраическом подходе [1, 3] вводятся операции над операторами, они индуцируются операциями над их матрицами оценок. Например, $H\left( {{{B}_{1}} + {{B}_{2}}} \right) = H\left( {{{B}_{1}}} \right) + H\left( {{{B}_{2}}} \right)$, где H(B) – матрица оценок оператора B. Аналогично вводится умножение на константу. Линейное замыкание модели (говорят сразу про модель алгоритмов, так как решающее правило фиксируют) – множество алгоритмов, операторы которой являются линейными комбинациями операторов модели. Для линейных моделей линейное замыкание модели совпадает с самой моделью, что освобождает от необходимости отдельно исследовать модель и ее линейное замыкание.

Для матриц ${{X}_{1}} \in {{\mathbb{R}}^{{q \times {{l}_{1}}}}}$, ${{X}_{2}} \in {{\mathbb{R}}^{{q \times {{l}_{2}}}}}$ с помощью квадратных скобок будем обозначать их горизонтальную конкатенацию размера $q \times \left( {{{l}_{1}} + {{l}_{2}}} \right)$:

$[{{X}_{1}},{{X}_{2}}].$

Для большего числа матриц – аналогично, т.е. для линейной модели матрица оценок имеет вид

$H = [{{H}_{1}}{{{\mathbf{x}}}_{1}},{{H}_{2}}{{{\mathbf{x}}}_{2}},\; \ldots ,\;{{H}_{l}}{{{\mathbf{x}}}_{l}}],$
перебором различных ${{{\mathbf{x}}}_{1}},{{{\mathbf{x}}}_{2}},\; \ldots ,\;{{{\mathbf{x}}}_{l}}$ получаем все матрицы оценок операторов модели. Через $\tilde {1}\, = \,{{(1,1, \ldots ,1)}^{{\text{т}}}}$ будем обозначать вектор, состоящий из одних единиц (размерность будет понятна из контекста), q-мерный вектор по умолчанию рассматривается как матрица размера $q \times 1$, поэтому запись $[{{H}_{j}},\tilde {1}]$ означает приписывание к матрице Hj единичного столбца.

При доказательстве описанных ниже теорем существенно используется следующий критерий: система неравенств

$\begin{gathered} {\mathbf{m}}_{i}^{{\text{т}}}{\mathbf{x}} \geqslant c,\quad i \in I, \hfill \\ {\mathbf{m}}_{i}^{{\text{т}}}{\mathbf{x}} < c,\quad i \notin I, \hfill \\ \end{gathered} $
где ${\mathbf{m}}_{i}^{{\text{т}}}$$i$-я строка матрицы $M \in {{\mathbb{R}}^{{q \times l}}}$, совместна (относительно неизвестного вектора x) для всех подмножеств $I \subseteq \{ 1,2,\; \ldots ,\;q\} $ тогда и только тогда, когда ${\text{rank(}}M{\text{)}} = q$.

Теорема 1. Линейная модель алгоритмов классификации полна относительно решающего правила ${{C}_{c}}$ (порогового с фиксированным порогом c) тогда и только тогда, когда

$\forall j \in \{ 1,2,\; \ldots ,\;l\} \quad {\text{rank}}({{H}_{j}}) = q.$

Теорема 2. Линейная модель алгоритмов классификации полна относительно семейства пороговых решающих правил тогда и только тогда, когда для всех $j \in \{ 1,2,\; \ldots ,\;l\} $ выполняется равенство $\operatorname{rank} ({{H}_{j}}) = q$, кроме, быть может, одного, для которого $\operatorname{rank} ([{{H}_{j}},\tilde {1}]) = q$.

В [8] доказано, что для алгоритмов вычисления оценок (АВО) [1, 3] возможность реализации любой матрицы классификации с помощью порогового решающего правила эквивалентна возможности реализации любой матрицы оценок операторами модели. Для линейной модели и фиксированного порогового решающего правила это также справедливо, но в случае возможности использовать произвольное пороговое решающее правило линейная модель может порождать любую матрицу классификации и при этом не любую матрицу оценок. Отметим, что на практике часто регрессоры в линейной модели могут получать константные ответы, поэтому

rank(Hj) = ${\text{rank}}([{{H}_{j}},\tilde {1}])$.

В задачах классификации с непересекающимися классами каждый объект может принадлежать лишь одному классу, поэтому исследовать надо возможность реализаций матриц классификаций, в каждой строке которых ровно одна единица, а остальные элементы равны нулю, т.е. матриц из множества

${{G}_{{~нп~}}} = \{ G \in {{\{ 0,1\} }^{{q \times l}}}|~~G\tilde {1} = \tilde {1}\} .$

Обычно используют такое решающее правило:

${{C}_{{{\text{max}}}}}(\left\| {{{h}_{{ij}}}} \right\|) = \left\| {{{\alpha }_{{ij}}}} \right\|:~~\,\,{{\alpha }_{{ij}}} = \left\{ \begin{gathered} 1,\quad {{h}_{{ij}}} = \mathop {{\text{max}}}\limits_t {{h}_{{it}}}, \hfill \\ 0,\quad {{h}_{{ij}}} \ne \mathop {{\text{max}}}\limits_t {{h}_{{it}}}, \hfill \\ \end{gathered} \right.$
для всех $(i,j) \in QL$ (если в i-й строке несколько максимальных элементов, то можно считать, что ${{\alpha }_{{ij}}} = 1$ для какого-то одного $j \in \{ s~~|~~{{h}_{{is}}} = \mathop {{\text{max}}}\limits_t {{h}_{{it}}}\} $).

Определение 5. Модель алгоритмов классификации называется полной относительно решающего правила в задаче с непересекающимися классами, если для любой матрицы $G \in {{G}_{{~нп~}}}$ существует такой оператор модели В, что алгоритм $A = B \cdot C$ реализует матрицу классификации G.

Полнота относительно решающего правила Cmax в задаче с непересекающимися классами будем называть Cmax-полнотой.

Теорема 3. Линейная модель алгоритмов классификации Cmax-полна в задаче с двумя непересекающимися классами тогда и только тогда, когда

(1)
${\text{rank}}([{{H}_{1}},{{H}_{2}}]) = q.$

Теорема 4. Если линейная модель алгоритмов классификации Cmax-полна в задаче с непересекающимися классами из множества $\left\{ {1,2,\; \ldots ,\;l} \right\}$, тогда она Cmax-полна в задаче с любым подмножеством классов $J:~~\phi \ne J \subseteq \left\{ {1,2, \ldots ,l} \right\}$.

В случае произвольного числа классов получаем необходимое условие Cmax-полноты:

$\forall i,j:\,\,\,1 \leqslant i < j \leqslant l~\quad {\text{rank}}([{{H}_{i}},{{H}_{j}}]) = q,$
которое не является достаточным.

Если для всех $s \in \left\{ {1,2,\; \ldots ,\;l} \right\}$ выполнено ${\text{rank}}({{H}_{s}})$ = q, кроме, быть может, двух i, $j \in \{ 1,$ 2, ..., l}, для которых ${\text{rank}}([{{H}_{i}},{{H}_{j}}]) = q$, тогда линейная модель Cmax-полна. Полученное достаточное условие Cmax-полноты не является необходимым.

Таким образом, в задачах классификации с непересекающимися классами уже для числа классов l = 2 критерии Cmax-полноты (1) и полноты

${\text{rank}}({{H}_{1}}) = {\text{rank}}({{H}_{2}}) = q$
различаются, хотя решающее правило Cmax является довольно простым и непараметрическим.

Список литературы

  1. Журавлëв Ю.И. Об алгебраическом подходе к решению задач распознавания или классификации // Проблемы кибернетики. 1978. Вып. 33. С. 5–68.

  2. Журавлëв Ю.И. Корректные алгебры над множествами некорректных (эвристических) алгоритмов. Часть I // Кибернетика. 1977. № 4. С. 5–17.

  3. Журавлëв Ю.И. Корректные алгебры над множествами некорректных (эвристических) алгоритмов. Часть II // Кибернетика. 1977. № 6. С. 21–27.

  4. Журавлëв Ю.И. Корректные алгебры над множествами некорректных (эвристических) алгоритмов. Часть III // Кибернетика. 1978. № 2. С. 35–43.

  5. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. N.Y.: Springer-Verlag, 2009. 745 p.

  6. Журавлëв Ю.И., Рудаков К.В. Об алгебраической коррекции процедур обработки (преобразования) информации // Проблемы прикладной математики и информатики. 1987. С. 187–198.

  7. Рудаков К.В. Об алгебраической теории универсальных и локальных ограничений для задач классификации / Распознавание, классификация, прогноз. М.: Наука, 1989. С. 176–201.

  8. Дьяконов А.Г. Алгебра над алгоритмами вычисления оценок: монотонные решающие правила // ЖВМиМФ. 2005. Т. 45. № 10. С. 1893–1904.

  9. Дьяконов А.Г. Алгебраические замыкания обобщенной модели алгоритмов вычисления оценок // ДАН. 2008. Т. 423. № 4. С. 461–464.

  10. Grigorios T., Apostolos P., Weining Q., Stavros V., D’yakonov A., Puurula A., Read J., Svec J., and Semenov S. Wise 2014 challenge: Multi-label classification of print media articles to topics // Lecture Notes in Computer Science. 2014. V. 8787. P. 541–548.

Дополнительные материалы отсутствуют.

Инструменты

Доклады Российской академии наук. Математика, информатика, процессы управления