Доклады Российской академии наук. Математика, информатика, процессы управления, 2020, T. 492, № 1, стр. 101-103

О некоторых факторизациях полуметрических конусов и оценках качества эвристических метрик в задачах анализа данных

Академик РАН К. В. Рудаков 12*

1 Вычислительный центр им. А.А. Дородницына Федерального исследовательского центра “Информатика и управление” Российской академии наук
Москва, Россия

2 Центр хранения и анализа больших данных, Московский государственный университет имени М.В. Ломоносова
Москва, Россия

* E-mail: rudakov@frccsc.ru

Поступила в редакцию 09.04.2020
После доработки 09.04.2020
Принята к публикации 09.04.2020

Полный текст (PDF)

Аннотация

Предлагается подход к рассмотрению эвристических метрик, вводимых и применяемых в задачах анализа данных, при котором вся выражаемая числовыми значениями информация о попарных расстояниях сводится к информации о принадлежности метрики как точки полуметрического конуса к соответствующим подконусам – элементам фактор-множеств по предлагаемым отношениям ядерных эквивалентностей для отображений в формальные индексные семейства.

Ключевые слова: интеллектуальный анализ данных, искусственный интеллект, большие данные, полуметрический конус, эвристические метрики, оценки качества метрик

Значительная часть методов интеллектуального анализа данных основана на применении эвристических (не обосновываемых теоретически) метрик, вводимых на множествах анализируемых объектов или ситуаций [1, 2]. Эвристичность метрик как инструментов анализа позволяет ставить и решать вопросы оптимизации их “потребительских качеств”, для чего можно применять соответствующие функционалы качества, в том числе и предлагаемые в данном сообщении. Существенно, что обычно числовые величины расстояний оказываются малоинтересными: реально используются только некоторые соотношения расстояний между различными парами объектов. Введенные на пространстве объектов различные метрики, порождающие совпадающие соотношения расстояний, оказываются эквивалентными с точки зрения их использования при решении модельных и прикладных задач. Метрики на конечных множествах считаются точками соответствующего полуметрического конуса, и рассматриваются классы ядерных эквивалентностей для отображений полуметрического конуса в множества некоторых вводимых ниже отношений порядка [35]. Отметим, что эти классы оказываются подконусами, определяемыми соответствующими системами равенств и однородных линейных неравенств.

Пусть S = {${{S}_{1}}$, …, ${{S}_{q}}$} и задана полуметрика dS2 → R+ (допускается, что d(${{S}_{i}}$, ${{S}_{j}}$) = 0 при различных ${{S}_{i}}$ и ${{S}_{j}})$. Будем также считать, что d – точка полуметрического конуса Conq в Rp при p = $C_{q}^{2}$. Множество упорядоченных пар индексов {(i, j)| 1 ≤ i < jq)} будем обозначать символом Q и называть пары (i, j) ребрами. Метрика d естественным образом индуцирует линейный порядок ≤2 на Q: ((i, j) ≤2 (k, l)) ≡ (d(${{S}_{i}}$, ${{S}_{j}}$) ≤ d(${{S}_{k}}$,${\text{\;}}{{S}_{l}}$)). Отметим, что, скажем, в алгоритмах вычисления оценок и методах типа “ближайших соседей” фактически используется только порядок ≤2. Очевидно, что этот порядок инвариантен по отношению к любым монотонно возрастающим преобразованиям значений расстояний, так что его использование “автоматически” снимает проблемы “единиц измерения” величин расстояния.

Пусть, наоборот, на Q задан некоторый произвольный линейный порядок ≤0. Ему легко сопоставить метрику d0 на S такую, что соответствующий порядок ≤2 будет совпадать с порядком ≤0. Действительно, для построения такой метрики d0 достаточно положить d0 (${{S}_{i}}$, ${{S}_{j}}$) = 1 + ${{\varepsilon }_{{ij}}}$, где 0 < εij < 1 и εij расположены на интервале (0, 1) в нужном порядке. Указанная метрика, содержательно близкая к “абсолютно неинформативной” метрике пространства изолированных точек, может рассматриваться как в некотором смысле контрпример.

Итак, во многих случаях используется только факт принадлежности метрики к классу эквивалентности по отношению “∼”, где ${{d}_{1}}$${{d}_{2}}$ означает, что для всех i, j, k и l из {1, …, q} выполнено (${{d}_{1}}$(${{S}_{i}}$, ${{S}_{j}}$) ≤ ${{d}_{1}}$(${{S}_{k}}$, ${{S}_{l}}$)) ≡ (${{d}_{2}}$(${{S}_{i}}$, ${{S}_{j}}$) ≤ ${{d}_{2}}$(${{S}_{k}}$, ${{S}_{l}}$)), или, что то же, используется только факт принадлежности метрики к классу ядерной эквивалентности для отображения π2 полуметрического конуса Conq в подмножество булеана Q2 – множество линейных порядков на Q: ${{\pi }_{2}}$(d) = {((i, j), (k, l))| d(${{S}_{i}}$, ${{S}_{j}}$) ≤ d(${{S}_{k}}$, ${{S}_{l}}$)}. Отметим, что при этом в каждом классе эквивалентности указанного вида имеются сколь угодно близкие к центральной оси Conq метрики.

Отметим, что в метриках типа “d(${{S}_{i}}$, ${{S}_{j}}$) = 1 + ${{\varepsilon }_{{ij}}}$” выполнены не только все необходимые по определению метрики неравенства треугольника, но и вообще все неравенства вида

(1)
$d({{S}_{i}},{{S}_{j}}) < d({{S}_{k}},{{S}_{l}}) + d({{S}_{l}},{{S}_{m}})$
и даже вида
(2)
$d({{S}_{i}},{{S}_{j}}) < d({{S}_{k}},{{S}_{l}}) + d({{S}_{m}},{{S}_{n}})$
при произвольных различных i, j, k, l, m и n из {1, …, q}. Такие метрики можно назвать метриками пространств квазиизолированных точек. Как точки полуметрического конуса, они расположены “около его центральной оси”. Если принять тезис о том, что близость к метрике пространства изолированных точек свидетельствует о “малой информативности” метрики, то в качестве оценки “качества” метрики можно использовать, например, мощности множеств наборов индексов i, j, k, l, m и n, для которых не выполнены неравенства (1) или (2). Очевидно, что для метрик пространств квазиизолированных точек указанные множества пусты.

Пусть T3 = {(k, l, m)| 1 ≤ k < m ≤ q, 1 ≤ lq, lk, lm} и U3 = ${{T}_{3}}$ ∪ Q, а T4 = {(k, l, m, n)| 1 ≤ k < lq, 1 ≤ m < nq} и U4 = ${{T}_{4}}$ Q . Тройки (k, l, m) из T3 будем называть углами. Для всех элементов α и β из U3 или из U4 естественным образом определяется вес W(α) = d(${{S}_{i}}$, ${{S}_{j}}$) при α = (i, j) $ \in $ Q, W(α) = = d(${{S}_{k}}$, ${{S}_{l}}$) + d(${{S}_{l}}$, ${{S}_{m}}$) при α = (k, l, m) ∈ T3 и W(α) = = d(${{S}_{k}}$, ${{S}_{l}}$) + d(${{S}_{m}}$, ${{S}_{n}}$) при α = (k, l, m, n) $ \in $ T4. Рассмотрим отображения ${{\pi }_{3}}$ и ${{\pi }_{4}}$ полуметрического конуса Conq в множества линейных порядков на U3 и U4 соответственно:

${{\pi }_{3}}(d) = \{ (\alpha ,\beta )|W(\alpha ) \leqslant W(\beta ),\alpha \in {{{\mathbf{U}}}_{3}},\beta \in {{{\mathbf{U}}}_{3}}\} ,$
${{\pi }_{4}}(d) = \{ (\alpha ,\beta )|W(\alpha ) \leqslant W(\beta ),\alpha \in {{{\mathbf{U}}}_{4}},\beta \in {{{\mathbf{U}}}_{4}}\} .$

Порядки π3 и π4 , вообще говоря, более точно описывают метрику d в том смысле, что по ним, естественно, однозначно восстанавливается порядок π2, но не наоборот. Иначе говоря, содержащие метрику d классы ядерных эквивалентностей для отображений π3 и π4 оказываются подклассами ядерных эквивалентностей для π2.

Кроме того, в отличие от случая π2, теперь уже неверно, что в каждом классе эквивалентности имеются сколь угодно близкие к оси Conq метрики.

Ясно, что классы эквивалентных метрик определяются соответствующими системами линейных неравенств и образуют подконусы конуса Conq. Для нормированных метрик d в качестве представителей классов эквивалентности можно использовать “ближайшие” к оси Conq или, наоборот, “наиболее отдаленные” от оси метрики, которые будут определяться обращением некоторых неравенств треугольника в равенства. Если для оценки удаленности от оси использовать метрику l1, то такие метрики можно находить как решения задач типа

$\begin{gathered} d{\text{*}} = {\text{arg}}\,{\text{min}}\Sigma {{w}_{{ij}}}d({{S}_{i}},{{S}_{j}}) \\ {\text{или\;}}d{\text{*}} = {\text{arg}}\,{\text{max}}\Sigma {{w}_{{ij}}}d({{S}_{i}},{{S}_{j}}),{\text{\;}} \\ \end{gathered} $
где

${{w}_{{ij}}}$ = |{(k, l)|$d\left( {{{S}_{k}},{{S}_{l}}} \right) < d\left( {{{S}_{i}},{{S}_{j}}} \right)$}| – – |{(k, l)| d(Sk, ${{S}_{l}}) > d({{S}_{i}},{{S}_{j}})$}|,

при нормировке $\Sigma d({{S}_{i}},{{S}_{j}})~$= const, ограничениях 0 < $d\left( {{{S}_{i}},{{S}_{j}}} \right)$ и ограничениях (линейных неравенствах), задаваемых порядком π3(d) или π4(d).

Описываемый подход позволяет ввести новые теоретико-множественные оценки “качества” конечных метрических конфигураций (в такой роли в задачах кластеризации или классификации обычно используются характеристики типа “отношение средних внутриклассовых расстояний к межклассовым”). Отметим, что указанные оценки можно использовать при решении задач коррекции и комплексирования метрик.

Список литературы

  1. Журавлев Ю.И. Об алгебраическом подходе к решению задач распознавания или классификации // Проблемы кибернетики. 1978. Т. 33. С. 5–68.

  2. Воронцов К.В. Математические методы обучения по прецедентам. Курс лекций МФТИ, 2006.

  3. Деза М., Лоран M. Геометрия разрезов и метрик. М.: МЦНМО, 2001.

  4. Мальцев А.И. Алгебраические системы. М.: Наука, 1970. 392 с.

  5. Арутюнов А.В. Лекции по выпуклому и многозначному анализу. М.: Физматлит, 2014. 188 с.

Дополнительные материалы отсутствуют.

Инструменты

Доклады Российской академии наук. Математика, информатика, процессы управления