Доклады Российской академии наук. Математика, информатика, процессы управления, 2020, T. 492, № 1, стр. 101-103
О некоторых факторизациях полуметрических конусов и оценках качества эвристических метрик в задачах анализа данных
Академик РАН К. В. Рудаков 1, 2, *
1 Вычислительный центр им. А.А. Дородницына Федерального исследовательского центра “Информатика и управление”
Российской академии наук
Москва, Россия
2 Центр хранения и анализа больших данных,
Московский государственный университет
имени М.В. Ломоносова
Москва, Россия
* E-mail: rudakov@frccsc.ru
Поступила в редакцию 09.04.2020
После доработки 09.04.2020
Принята к публикации 09.04.2020
Аннотация
Предлагается подход к рассмотрению эвристических метрик, вводимых и применяемых в задачах анализа данных, при котором вся выражаемая числовыми значениями информация о попарных расстояниях сводится к информации о принадлежности метрики как точки полуметрического конуса к соответствующим подконусам – элементам фактор-множеств по предлагаемым отношениям ядерных эквивалентностей для отображений в формальные индексные семейства.
Значительная часть методов интеллектуального анализа данных основана на применении эвристических (не обосновываемых теоретически) метрик, вводимых на множествах анализируемых объектов или ситуаций [1, 2]. Эвристичность метрик как инструментов анализа позволяет ставить и решать вопросы оптимизации их “потребительских качеств”, для чего можно применять соответствующие функционалы качества, в том числе и предлагаемые в данном сообщении. Существенно, что обычно числовые величины расстояний оказываются малоинтересными: реально используются только некоторые соотношения расстояний между различными парами объектов. Введенные на пространстве объектов различные метрики, порождающие совпадающие соотношения расстояний, оказываются эквивалентными с точки зрения их использования при решении модельных и прикладных задач. Метрики на конечных множествах считаются точками соответствующего полуметрического конуса, и рассматриваются классы ядерных эквивалентностей для отображений полуметрического конуса в множества некоторых вводимых ниже отношений порядка [3–5]. Отметим, что эти классы оказываются подконусами, определяемыми соответствующими системами равенств и однородных линейных неравенств.
Пусть S = {${{S}_{1}}$, …, ${{S}_{q}}$} и задана полуметрика d: S2 → R+ (допускается, что d(${{S}_{i}}$, ${{S}_{j}}$) = 0 при различных ${{S}_{i}}$ и ${{S}_{j}})$. Будем также считать, что d – точка полуметрического конуса Conq в Rp при p = $C_{q}^{2}$. Множество упорядоченных пар индексов {(i, j)| 1 ≤ i < j ≤ q)} будем обозначать символом Q и называть пары (i, j) ребрами. Метрика d естественным образом индуцирует линейный порядок ≤2 на Q: ((i, j) ≤2 (k, l)) ≡ (d(${{S}_{i}}$, ${{S}_{j}}$) ≤ d(${{S}_{k}}$,${\text{\;}}{{S}_{l}}$)). Отметим, что, скажем, в алгоритмах вычисления оценок и методах типа “ближайших соседей” фактически используется только порядок ≤2. Очевидно, что этот порядок инвариантен по отношению к любым монотонно возрастающим преобразованиям значений расстояний, так что его использование “автоматически” снимает проблемы “единиц измерения” величин расстояния.
Пусть, наоборот, на Q задан некоторый произвольный линейный порядок ≤0. Ему легко сопоставить метрику d0 на S такую, что соответствующий порядок ≤2 будет совпадать с порядком ≤0. Действительно, для построения такой метрики d0 достаточно положить d0 (${{S}_{i}}$, ${{S}_{j}}$) = 1 + ${{\varepsilon }_{{ij}}}$, где 0 < εij < 1 и εij расположены на интервале (0, 1) в нужном порядке. Указанная метрика, содержательно близкая к “абсолютно неинформативной” метрике пространства изолированных точек, может рассматриваться как в некотором смысле контрпример.
Итак, во многих случаях используется только факт принадлежности метрики к классу эквивалентности по отношению “∼”, где ${{d}_{1}}$ ∼ ${{d}_{2}}$ означает, что для всех i, j, k и l из {1, …, q} выполнено (${{d}_{1}}$(${{S}_{i}}$, ${{S}_{j}}$) ≤ ${{d}_{1}}$(${{S}_{k}}$, ${{S}_{l}}$)) ≡ (${{d}_{2}}$(${{S}_{i}}$, ${{S}_{j}}$) ≤ ${{d}_{2}}$(${{S}_{k}}$, ${{S}_{l}}$)), или, что то же, используется только факт принадлежности метрики к классу ядерной эквивалентности для отображения π2 полуметрического конуса Conq в подмножество булеана Q2 – множество линейных порядков на Q: ${{\pi }_{2}}$(d) = {((i, j), (k, l))| d(${{S}_{i}}$, ${{S}_{j}}$) ≤ d(${{S}_{k}}$, ${{S}_{l}}$)}. Отметим, что при этом в каждом классе эквивалентности указанного вида имеются сколь угодно близкие к центральной оси Conq метрики.
Отметим, что в метриках типа “d(${{S}_{i}}$, ${{S}_{j}}$) = 1 + ${{\varepsilon }_{{ij}}}$” выполнены не только все необходимые по определению метрики неравенства треугольника, но и вообще все неравенства вида
и даже вида при произвольных различных i, j, k, l, m и n из {1, …, q}. Такие метрики можно назвать метриками пространств квазиизолированных точек. Как точки полуметрического конуса, они расположены “около его центральной оси”. Если принять тезис о том, что близость к метрике пространства изолированных точек свидетельствует о “малой информативности” метрики, то в качестве оценки “качества” метрики можно использовать, например, мощности множеств наборов индексов i, j, k, l, m и n, для которых не выполнены неравенства (1) или (2). Очевидно, что для метрик пространств квазиизолированных точек указанные множества пусты.Пусть T3 = {(k, l, m)| 1 ≤ k < m ≤ q, 1 ≤ l ≤ q, l ≠ k, l ≠ m} и U3 = ${{T}_{3}}$ ∪ Q, а T4 = {(k, l, m, n)| 1 ≤ k < l ≤ q, 1 ≤ m < n ≤ q} и U4 = ${{T}_{4}}$ ∪ Q . Тройки (k, l, m) из T3 будем называть углами. Для всех элементов α и β из U3 или из U4 естественным образом определяется вес W(α) = d(${{S}_{i}}$, ${{S}_{j}}$) при α = (i, j) $ \in $ Q, W(α) = = d(${{S}_{k}}$, ${{S}_{l}}$) + d(${{S}_{l}}$, ${{S}_{m}}$) при α = (k, l, m) ∈ T3 и W(α) = = d(${{S}_{k}}$, ${{S}_{l}}$) + d(${{S}_{m}}$, ${{S}_{n}}$) при α = (k, l, m, n) $ \in $ T4. Рассмотрим отображения ${{\pi }_{3}}$ и ${{\pi }_{4}}$ полуметрического конуса Conq в множества линейных порядков на U3 и U4 соответственно:
Порядки π3 и π4 , вообще говоря, более точно описывают метрику d в том смысле, что по ним, естественно, однозначно восстанавливается порядок π2, но не наоборот. Иначе говоря, содержащие метрику d классы ядерных эквивалентностей для отображений π3 и π4 оказываются подклассами ядерных эквивалентностей для π2.
Кроме того, в отличие от случая π2, теперь уже неверно, что в каждом классе эквивалентности имеются сколь угодно близкие к оси Conq метрики.
Ясно, что классы эквивалентных метрик определяются соответствующими системами линейных неравенств и образуют подконусы конуса Conq. Для нормированных метрик d в качестве представителей классов эквивалентности можно использовать “ближайшие” к оси Conq или, наоборот, “наиболее отдаленные” от оси метрики, которые будут определяться обращением некоторых неравенств треугольника в равенства. Если для оценки удаленности от оси использовать метрику l1, то такие метрики можно находить как решения задач типа
${{w}_{{ij}}}$ = |{(k, l)|$d\left( {{{S}_{k}},{{S}_{l}}} \right) < d\left( {{{S}_{i}},{{S}_{j}}} \right)$}| – – |{(k, l)| d(Sk, ${{S}_{l}}) > d({{S}_{i}},{{S}_{j}})$}|,
при нормировке $\Sigma d({{S}_{i}},{{S}_{j}})~$= const, ограничениях 0 < $d\left( {{{S}_{i}},{{S}_{j}}} \right)$ и ограничениях (линейных неравенствах), задаваемых порядком π3(d) или π4(d).
Описываемый подход позволяет ввести новые теоретико-множественные оценки “качества” конечных метрических конфигураций (в такой роли в задачах кластеризации или классификации обычно используются характеристики типа “отношение средних внутриклассовых расстояний к межклассовым”). Отметим, что указанные оценки можно использовать при решении задач коррекции и комплексирования метрик.
Список литературы
Журавлев Ю.И. Об алгебраическом подходе к решению задач распознавания или классификации // Проблемы кибернетики. 1978. Т. 33. С. 5–68.
Воронцов К.В. Математические методы обучения по прецедентам. Курс лекций МФТИ, 2006.
Деза М., Лоран M. Геометрия разрезов и метрик. М.: МЦНМО, 2001.
Мальцев А.И. Алгебраические системы. М.: Наука, 1970. 392 с.
Арутюнов А.В. Лекции по выпуклому и многозначному анализу. М.: Физматлит, 2014. 188 с.
Дополнительные материалы отсутствуют.
Инструменты
Доклады Российской академии наук. Математика, информатика, процессы управления