Автоматика и телемеханика, № 3, 2019
Стохастические системы
© 2019 г. В.В. ЗЕНКОВ, канд. техн. наук (zenkov-v@yandex.ru)
(Институт проблем управления им. В.А. Трапезникова РАН, Москва)
ОЦЕНКА АПОСТЕРИОРНОЙ ВЕРОЯТНОСТИ КЛАССА
ПО СЕРИИ ДИСКРИМИНАНТНЫХ ФУНКЦИЙ АНДЕРСОНА
Предложен способ оценки по обучающей выборке с учителем апосте-
риорных вероятностей принадлежности объекта к классам по совокупно-
сти известных значений его признаков. Эти вероятности являются ис-
черпывающей информацией для решения задачи классификации. Они
позволяют решать задачу классификации с использованием различных
критериев (максимум вероятности, минимум средней стоимости ошибки и
пр.), задаваемых, как правило, субъективно. Метод решения задачи осно-
ван на построении серии аппроксимаций специальных дискриминантных
функций, в нулевых точках которых апостериорные вероятности классов
заданы при их построении. Эвристический алгоритм аппроксимации ис-
пользуемой дискриминантной функции в окрестности нулевых значений
является частью метода. В методе отсутствует необходимость в допол-
нительных надстройках, например типа калибратора Платта для метода
опорных векторов. Приведены модельные примеры применения метода и
пример из медицинской диагностики с реальными данными.
Ключевые слова: машинное обучение, классификация, дискриминантная
функция Андерсона, аппроксимация дискриминантной функции, оценка
апостериорной вероятности класса, калибратор Платта, ROC-анализ.
DOI: 10.1134/S000523101903005X
1. Введение
Задача классификации приобретает бóльшую привлекательность, если в
заданной точке пространства признаков объектов определять апостериорные
вероятности (АпоВ) принадлежности точки (объекта классификации) к клас-
сам. АпоВ классов относятся к условным вероятностям по определению. Они
отличаются от безусловных (априорных) вероятностей тем, что вероятности
классов при классификации объекта находятся при условии, что известна со-
вокупность значений признаков, характеризующих объект. Это обстоятель-
ство позволяет называть эти условные вероятности классов в точке апостери-
орными вероятностями. Зная оценки АпоВ классов, специалисту легче при-
нять и объяснить решение об отнесении объекта к одному из классов или
продолжить обследование объекта дальше. В частности, подсчитывая на ос-
нове АпоВ классов в заданной точке средние стоимости ошибок от отнесения
ее в тот или иной класс, выбирая класс с минимальными средними потеря-
ми, получаем оптимальное по Байесу решение задачи классификации при
заданных стоимостях потерь от ошибок классификации [1].
68
Задание стоимостей ошибок классификации является определенной
проблемой, носящей зачастую субъективный характер. Решение задачи клас-
сификации в два этапа отделяет объективную часть — определение АпоВ
классов в точках — от субъективной части, где для собственно классифи-
кации используются заданные стоимости потерь от ошибок. Задачу можно
решать также одновременно и для нескольких вариантов стоимостей потерь
от ошибок для всестороннего анализа принимаемого решения.
В применении к задаче классификации объектов (пациент, состояние про-
изводственного процесса и т.п.) в стохастической постановке качественные
состояния объекта называются классами, которые надо устанавливать или
прогнозировать на основе вектора признаков1 — результатов обследования
объекта. Классы и признаки рассматриваются как зависимые случайные ве-
личины. Для каждого класса имеет место свое условное распределение веро-
ятностей признаков класса. Каждому значению вектора признаков соответ-
ствуют свои АпоВ классов.
Если известны условные распределения вероятностей признаков классов
и априорные вероятности классов, то по формуле Томаса Байеса, богослова
и математика середины XVIII в., опубликовавшего лишь одну работу по ма-
тематике, вычисляются до сих пор АпоВ классов в заданной точке простран-
ства признаков. Если они не известны, но есть обучающая выборка с учите-
лем, состоящая из строк наблюдений, включающих вектор-строки признаков
и номера классов, которым они принадлежали при проведении эксперимента,
то можно построить условные распределения вероятностей признаков клас-
сов и по формуле Байеса затем вычислять АпоВ классов [1].
Кроме этого традиционного способа, требующего немалого объема обу-
чающей выборки и большого количества оцениваемых параметров, для реше-
ния задачи классификации с оценкой АпоВ классов применяются методы, ис-
пользующие либо заданные формы зависимости АпоВ классов от признаков
(например, логистическая регрессия [3, 4]), либо комбинированные способы,
сочетающие в себе построение границ между классами в пространстве при-
знаков с помощью дискриминантных функций (ДФ), например метод опор-
ных векторов с добавлением, например калибратора Платта [5] для пересчета
отступов от границ классов в АпоВ классов. Есть также и методы (напри-
мер наивный байесовский, решающих деревьев), которых касаться не будем,
оценивающие непосредственно сами АпоВ классов, для улучшения которых
используется изотоническая регрессия [6].
В данной работе предложен иной, по мнению автора простой и естествен-
ный, метод оценивания АпоВ классов, основанный на ДФ специального вида,
называемой далее ДФ Андерсона. Метод использует ее тождественную связь
с АпоВ классов и со стоимостями ошибок классификации. Метод не требует
применения искусственных приспособлений для пересчета отступов от гра-
ниц в АпоВ классов, как это делается в калибраторе Платта.
Определение ДФ Андерсона непосредственно вытекает из решения мно-
гоклассовой байесовой задачи классификации, предложенного Теодором Ан-
1 По В.Ю. Кнеллеру [2] термин “признак” есть качественная характеристика, но в ма-
шинном обучении он прочно обосновался как количественная величина.
69
дерсоном в середине прошлого века [1]. Оптимальное по Байесу решение за-
дачи классификации получается в результате попарного сравнения средних
потерь от отнесения точки в один из двух классов. ДФ, по знаку которой из
двух классов будет отбрасываться не перспективный для дальнейших срав-
нений класс, получим, взяв разность средних потерь для сравниваемой пары
классов. Это и есть ДФ Андерсона. Она, как будет показано далее, имеет
свойства, удобные для получения методов оценивания АпоВ классов по обу-
чающей выборке с учителем.
Один метод основан на построении по обучающей выборке с учителем пу-
тем подбора стоимостей ошибок классификации такой аппроксимации ДФ
Андерсона (АДФ), которая проходит через заданную точку [7], т.е. прини-
мающую нулевое значение в этой точке. По подобранным стоимостям оши-
бок классификации вычисляется АпоВ класса. Достоинством этого метода
построения индивидуальной АДФ для каждой заданной точки является то,
что для решения задачи используется вся обучающая выборка. Если из обу-
чающей выборки удаляются точки или добавляются, то сам алгоритм не
изменяется. Метод удобен как при малом объеме выборки, так и в неста-
ционарном случае. Недостатком является то, что он сравнительно медленно
работает.
Второй метод предлагается в данной работе. В нем по обучающей выборке
строится серия АДФ в заданном количестве с заданными на границах вели-
чинами АпоВ классов. Для оценки в дальнейшем АпоВ классов в заданной
точке по серии АДФ используется метод линейной интер- и экстраполяции,
в котором расстояния до двух соседних границ, между которыми распола-
гается точка, измеряется модулями значений этих АДФ в заданной точке.
Оценки АпоВ классов в точке могут находиться и методом ядерного сглажи-
вания (потенциальных функций), но уже по всей серии АДФ.
Точность решения задачи зависит от эффективности аппроксимации ДФ
Андерсона в окрестности ее нулевых значений. В приведенных далее приме-
рах использовался эвристический алгоритм построения АДФ по обучающей
выборке в окрестности нулевых значений [8].
2. ДФ Андерсона, ее свойства и связь с АпоВ классов
ДФ Андерсона frs(x), разделяющая классы r и s в d-мерном евклидовом
пространстве признаков, x ∈ Rd, для АпоВ классов и заданных стоимостей
ошибок классификации имеет вид
(1)
frs(x) ≡ Gr(x) - Gs(x) Mk|x(Crk - Csk
),
где Gr(x) =k Crkp(k|x), Gs(x) =k Cskp(k|x) - средние потери по k в
точке x, если точку отнести к классу r или, соответственно, к клас-
су s; Cij
- стоимость ошибки, когда точка из класса j ошибочно от-
носится в класс i, Cij 0, Cii = 0; p(k|x) - АпоВ класса k в точке x,
p(k|x) = Pkp(x|k)/p(x), p(x) =k Pkp(x|k), Pk
- априорные вероятности
классов, p(x|k) - условные распределения признаков классов; k - номера
классов от 1 до K, K - количество классов; Mk|x (·) - математическое ожи-
дание по k в точке x. Таким образом, в точке x случайная по k дискрет-
ная величина Crk|x - Csk|x = frs(x) + εrsk|x имеет распределение АпоВ p(k|x),
70
p(k|x) = 1, среднее frs(x) и случайное отклонение от него εrsk|x. Дискрет-
k
ная случайная величина εrsk|x имеет нулевое среднее и распределение p(k|x).
Если frs(x) 0, то точка x относится в класс r и класс s исключается из
дальнейшего процесса сравнения, иначе — в класс s и класс r исключается.
Так обеспечивается минимум средней стоимости ошибок классификации —
критерий решающего правила.
В случае двух классов, K = 2, имеем C1k|x - C2k|x = f12(x) + ε12k|x. Дис-
кретная случайная величина ε12k|x в точке x принимает два значения:
-C21 - f12(x) с вероятностью p(1|x) и C12 - f12(x) с вероятностью 1 - p(1|x),
с нулевым средним и дисперсией (C12 + C21)2p(1|x)(1 - p(1|x)).
2.1. Свойство ДФ Андерсона
Утверждение. ДФ Андерсона есть ограниченная функция регрессии.
Доказательство следует из (1), если ограничены стоимости ошибок клас-
сификации.
Следствие 1. В случае K = 2 имеем -C21 < f12(x) < C12.
Следствие 2. Чтобы аппроксимировать ДФ Андерсона как функцию
регрессии, следует преобразовать обучающую выборку с учителем задачи
классификации в выборку задачи регрессионного анализа, заменив номера
классов в выборке следующим образом: первый класс на -C21, а второй класс
на C12.
Следствие 3. Факт регрессионной зависимости ДФ Андерсона от при-
знаков позволяет, в частности, выполнять и отбор признаков, используемых
для решения задачи аппроксимации, по коэффициентам корреляции призна-
ков со столбцом, в котором номера классов заменены стоимостями ошибок
классификации. Учитывать при этом необходимо и коэффициенты корреля-
ции признаков между собой [9].
2.2. Связь ДФ Андерсона с АпоВ классов
Утверждение. При K = 2 для АпоВ первого класса и ДФ Андерсона,
полученной для заданных C12 и C21, имеет место тождество
(2)
p(1|x) (C12 - f12(x))/(C12 + C21
).
Доказательство. Из определения (1) для случая K = 2 имеет место
f12(x) ≡ C12p(2|x) - C21p(1|x).
Используя p(2|x) 1 - p(1|x), получим (2).
Следствие 1. Из (2) следует, что в точках на границе классов, где
f12(x) = 0, АпоВ первого класса (обозначим ее через p) и стоимости оши-
бок, для которых задана ДФ Андерсона, связаны соотношениями
(3)
p = C12/(C12 +C21),
1-p= C21/(C12 +C21), C12/C21 =p/(1-p
),
а в точках, относимых в первый класс, f12(x) < 0, из (2) следует, что
p(1|x) > p.
71
Следствие 2. На p влияет лишь C12/C21 при C21 > 0. Если для ДФ Ан-
дерсона задавать стоимости ошибок при условии C12 + C21 = 1, что не приве-
дет к потере общности, то тождество (2) не только предельно упростится, но
и стоимости ошибок обретут удобный для интерпретации смысл, а именно,
C12 = p, C21 = 1 - p.
В ДФ Андерсона в случае двух классов для подчеркивания ее зависимости
от стоимостей ошибок классификации введем p в качестве параметра:
(4)
p(1|x) ≡ p - f12(x, p
).
2.3. Условия неразличимости классов
В пространстве признаков в области первого класса по определе-
нию f12(x, p) < 0 и из (4) следует, что p(1|x) > p в этой области. Если
minx f12(x, p) > 0, то классы становятся неразличимыми при заданной стои-
мости ошибок, так как везде p(1|x) < p. Область первого класса в простран-
стве признаков исчезает и все точки надо относить во второй класс. Условия
неразличимости классов в задаче с двумя классами для заданного p имеют
вид
(
) (
)
(5)
minf12 (x,p) > 0
maxf12 (x,p) < 0 ,
x
x
где второе условие ликвидирует область второго класса в пространстве при-
знаков и все точки нужно относить в первый класс.
3. Постановка и идея решения задачи
3.1. Цель и базовый принцип решения задачи
Основываясь на тождестве (4) и на следствии 2 тождества (2), надо по-
строить серию аппроксимаций ДФ Андерсона с заданными АпоВ в точках
на границах двух классов, чтобы по полученной серии аппроксимаций оцени-
вать АпоВ классов в заданной точке пространства признаков классов. Способ
оценивания АпоВ классов должен иметь возможность использования его и в
случае нескольких классов, K > 2.
Этот метод принципиально отличен от способов решения задачи клас-
сификации, во-первых, основанных на построении условных распределений
признаков классов p(x|k) с последующим использованием формулы Байеса
для оценки АпоВ классов в заданной точке пространства признаков p(k|x),
во-вторых, от логистической регрессии, использующей аппроксимацию АпоВ
класса в виде сигмоидной функции, и в-третьих, от методов, когда после
построения границ между классами, например методом опорных векторов,
АпоВ классов находятся по величинам отступов от этих границ с помощью
надстроек типа калибратора Платта.
3.2. Исходная информация
Исходной информацией для решения задачи является обучающая выборка
с учителем в виде матрицы, состоящей из N линейно независимых строк.
Строка n состоит из вектора признаков xn и номера класса kn, которому он
принадлежал в эксперименте n.
72
3.3. Частные требования к решению
Аппроксимировать ДФ Андерсона в области нулевых значений следует
методом [8], в котором аппроксимация задается в виде λϕ(x), где ϕ(x) -
заданная вектор-функция от вектора признаков x, первая компонента ее яв-
ляется единицей, λ - вектор коэффициентов, который получается в процессе
аппроксимации. В примерах в качестве ϕ(x) использованы линейная вектор-
функция и полином второго порядка. К известным методам выбора класса
функций [4] добавим возможность отбора признаков, применяемых в регрес-
сионном анализе, по коэффициентам корреляции [9].
Преобразование обучающей выборки в выборку регрессионного анализа
следует в случае двух классов осуществлять по правилу: номер первого клас-
са заменять на -C21, а номер второго класса - на C12.
В случае нескольких классов, K > 2, задачу нужно решать путем сведе-
ния к K - 1 задачам с двумя классами по принципу один класс против всех
остальных классов. АпоВ одного из классов следует находить из условия ра-
венства единице суммы АпоВ всех классов.
4. Способ решения задачи
Задача решается в два этапа: этап обучения и этап использования. Этап
обучения заканчивается построением серии АДФ. В случае K > 2 нужно
построить K - 1 серий АДФ. На этапе использования вычисляются оценки
АпоВ классов в заданных точках по серии или по сериям АДФ тем или иным
способом. Способов оценивания может быть несколько. Далее описаны два
способа.
4.1. Случай K > 2
Случай нескольких классов сводится к K - 1 случаям с двумя классами
путем рассмотрения точек других классов, кроме одного (далее — первого),
в качестве точек другого (второго) класса. При этом для АДФ, отделяющей
один класс от остальных, может потребоваться более сложный вид функции,
чем при отделении одного класса от другого.
Манипулировать стоимостями ошибок будем следующим образом. Стои-
мости ошибок между классами, кроме первого, приравняем нулю, Crs = 0,
r > 1, s > 1. Обозначим через g класс, объединяющий все, кроме первого,
классы. Обозначим стоимость ошибки от отнесения точки из g в первый
класс через C1g = C > 0. Стоимость ошибки от отнесения точки из перво-
го класса в класс g примем Cg1 = 1 - C. Тогда средние потери от отнесе-
ния точки в первый класс будут (1) : G1(x) = C (1 - p (1|x)). Cредние по-
тери от отнесения точки в класс g будут: Gg(x) = (1 - C) p (1|x). ДФ Ан-
дерсона, оптимально по Байесу отделяющая первый класс от остальных,
f (x, C) = G1(x) - Gg(x) = C - p(1|x), что совпадает с (4). C = p есть АпоВ
первого класса на границе между первым классом и остальными классами.
4.2. Построение серии АДФ на этапе обучения
После отбора информативных признаков классов и выбора вида АДФ,
методы которых не рассматриваем, серия АДФ строится по обучающей вы-
73
борке методом [8]. Суть метода при K = 2 в том, что неизвестная ДФ Андер-
сона является функцией регрессии и ее надо аппроксимировать в окрестно-
сти нулевых значений. В обучающей выборке номера классов k заменяются
на C1k - C2k, т.е. при k = 1 заменяются на -C21, а при k = 2 заменяются
на C12. Далее запускается итерационный процесс, на первом шаге которого
методом наименьших квадратов находится первая АДФ. На последующих
шагах АДФ строятся взвешенным методом наименьших квадратов с задан-
ной весовой функцией, принимающей максимальные значения в окрестности
нулевых значений предыдущей АДФ. При этом минимизируется по λj путем
решения системы линейных уравнений критерий аппроксимации
∑[
]2
(6)
Q(λj)=N-1
C1k|n - C2k|n - λ′jϕ(xn)
exp(-Wj′j-1ϕ(xn
)|),
n
где λj-1 - решение, полученное на предыдущем шаге, N - количество строк в
обучающей выборке, n - номер строки, k | n - номер класса в строке n, ϕ(xn) -
заданная вектор-функция от признаков в точке xn , Wj - заданный коэффи-
циент весовой функции на шаге j, Wj > 0, j - номер итерации, j = 2, . . . , J,
J - заданное количество шагов. Номер класса k = {1,2}.
В качестве лучшего значения λ по итерациям выбирается вектор с наи-
меньшими потерями
(7)
G(N, λj ) = N-1(C12N12(λj ) + C21N21(λj
)),
где Nrs - количество точек выборки из класса s, ошибочно отнесенных реша-
ющим правилом в класс r, N - количество точек в выборке. Процесс закан-
чивается после выполнения, например, заданного количества шагов. Лучшей
принимается та АДФ в итерации, которая делит классы с наименьшей сред-
ней по выборке стоимостью ошибок (7).
Построение серии АДФ начинаем с большого значения pmax, напри-
мер 0,95. Задаем шаг уменьшения p, например 0,1, и нижнее значение pmin,
например 0,05. И шаг, и пределы в процессе построения серии, как правило,
могут изменяться вследствие (5).
Шаг алгоритма 1. Вычисляем C12 = p и C21 = 1 - p. Строим АДФ (6),
(7), заменив в обучающей выборке номера классов k на C1k - C2k, получая
таким образом выборку для АДФ.
Если точек, отнесенных в первый класс по полученной АДФ, “почти” не
окажется, уменьшаем p на заданный шаг и повторяем пункт 1 при меньшем
значении p. Величину “почти” здесь и в конце процесса задает оператор
исходя из объема выборки.
Запоминаем первую удачную АДФ серии, соответствующее ей значение
pmax = p1 и количество точек, попавших в первый класс. Переходим к шагу 2.
Шаг алгоритма 2. Задаем для p меньшее значение. Вычисляем C12 и C21
для заданного p, находим АДФ (6), (7) по выборке, заменив в ней номера
классов k на C1k - C2k. Если количество точек, отнесенных в первый класс,
больше, чем в предыдущем удачном случае2, но меньше, чем количество то-
2 Область первого класса в пространстве признаков, соответствующая меньшей
АпоВ p, включает в себя область, соответствующую большей p. Естественнее считать,
что чем больше область, тем больше точек выборки первого класса должно попасть в нее.
74
чек в выборке, то, запомнив очередную удачную АДФ, значение p и коли-
чество точек, попавших в первый класс, повторяем шаг 2.
Иначе шаг 2 повторяется без запоминания удачной АДФ с целью провер-
ки следующего, меньшего, значения p в качестве кандидата для очередной
АДФ.
Если “почти” все точки выборки попали в первый класс или достигнуто
нижнее значение pmin, то процесс создания серии АДФ прекращаем, запомнив
этот шаг как последний J, запомнив значение pmin = p∗J и количество точек,
попавших в первый класс.
Если предполагается использовать для оценки качества метода классифи-
кации ROC-анализ [4], как это сделано далее в последнем примере, то при
получении серии АДФ для вычисления показателей ROC-анализа следует
так же фиксировать количества точек выборки, классифицированных пра-
вильно и неправильно для каждой АДФ в серии.
5. Оценка АпоВ класса по серии АДФ
Пусть в задаче K = 2 имеется серия из АДФ в количестве J, Fj (x, p∗j),
j = 1 ÷ J, в точках нулевых значений которых АпоВ первого класса равны p∗j
по построению. Для оценки АпоВ в заданных точках можно использовать
различные методы. Рассмотрим два метода: метод линейной интерполяции
и экстраполяции и метод потенциальных функций [10] (ядерного сглажива-
ния).
5.1. Экстраполяция и линейная интерполяция
Для оценки АпоВ первого класса в заданной точке x нужно взять первую
АДФ из упорядоченной по убыванию p серии, для которой Fj (x, p∗j) 0.
Экстраполяция. Если это первая АДФ в серии, то точка относится к пер-
вому классу, F1(x, pmax) 0 и АпоВ > pmax. Для получения оценки АпоВ в
этой точке следует выполнить нижеописанную процедуру экстраполяции в
большую сторону, где pmax < АпоВ < 1, и закончить процесс.
Если в процессе перебора АДФ от первой и до последней включительно все
АДФ Fj (x, p∗j) > 0, т.е. точка относится к первому классу с АпоВ < pmin, то
для получения оценки АпоВ в этой точке следует выполнить нижеописанную
процедуру экстраполяции в меньшую сторону, 0 < АпоВ < pmin и закончить
процесс.
Для точек, расположенных до первой АДФ, F1(x, pmax) 0, экстраполи-
руем по (4):
(8)
p(1|x) = min {1, pmax - F1(x, pmax
)} .
Для точек за последней АДФ, FJ (x, pmin) > 0, экстраполируем по (4):
(9)
p(1|x) = max {0, pmin - FJ (x, pmin
)} .
Линейная интерполяция. Если в процессе перебора АДФ встретится пер-
вая АДФ F-(x, p∗-) 0 (отмечена индексом минус) после предыдущей, в ко-
75
торой F+(x, p+) > 0 (отмечена индексом плюс), то с учетом знаков АДФ оцен-
кой АпоВ в точке x будет
(p∗- - F-(x, p∗-))F+(x, p+) - (p+ - F+(x, p+))F-(x, p∗-)
(10)
p(1|x) =
F+(x, p+) - F-(x, p+)
В качестве расстояния точки до границы использован модуль АДФ в задан-
ной точке.
5.2. Сглаживание
Имея серию АДФ Fj (x, p∗j), j = 1 ÷ J, с известными на границах классов
величинами p∗j логично вычислять оценку АпоВ в заданной точке по близким
к ней АДФ с большими весами. В качестве меры близости к АДФ будем
использовать модуль значения АДФ в заданной точке. Чтобы близкие АДФ
оказывали большее влияние на оценку, используется ограниченная функция,
убывающая по мере удаления от нулевых значений АДФ. Из многих видов
таких функций выберем, например, функцию
(11)
wj(x) = exp(-W|Fj(x,p∗j
)|),
j = 1 ÷ J,
где W - параметр, задающий сглаживающие свойства метода, W > 0.
Взвешенной оценкой АпоВ в точке x с помощью серии АДФ и (11) будет
(12)
p(1|x) =
p∗jwj(x)/
wj
(x).
j
j
По сравнению с интерполяционным методом сглаживание зависит от выбора
вида функции и параметра сглаживания.
6. Примеры
6.1. Нормальные условные распределения вероятностей
признаков классов
Приведем модельный пример расчета АпоВ разными способами в случае
разделения двух классов в двумерном пространстве признаков при нормаль-
ных условных распределениях вероятностей признаков классов. Век(ор сре)
1
0
них первого класса — m1 = (0, 0), ковариационная матрица — S1 =
0
1
(
)
4
1
Для второго класса: m2 = (0, 2), S2 =
. Априорная вероятность пер-
1
1
вого класса P1 = 0,6, второго — P2 = 0,4. По исходным данным и по сгенери-
рованной выборке в 500 точек вычислены АпоВ способами:
1) точным — по известным исходным данным с использования формулы
Байеса;
2) выборочным — по выборочным оценкам параметров распределений с
использованием формулы Байеса;
76
x2
3
0,05
0,05
2
0,15
0,15
1
0,95
0,6,65
0,
0,75
0
0,450,35
0,25
1
2
0,15
0,15
3
0,05
0,05
4
1
0
1
2
3
4
5
6
x1
Рис. 1.
0,09
1
1
0,08
2
3
4
0,07
5
2
6
0,06
7
8
0,05
3
0,04
4
0,03
5
6
7
0,02
8
0,01
0
20
40
60
80
100
120
140
160
180
200
W
Рис. 2.
3) интер-экстраполяционным по сериям АДФ. АДФ — полином второго
порядка;
4) методом сглаживания (11)-(12) по той же серии АДФ.
На рис. 1 представлены АДФ, построенные в диапазоне от
0,95
до 0,05 АпоВ первого класса методом [8]. Кружками изображены точки пер-
вого класса, крестиками — второго класса, сплошными линиями — грани-
цы Fj (x, p∗j) = 0. На рис. 2 изображены среднемодульные (СМО) и средне-
квадратичные (СКО) ошибки методов оценки АпоВ в зависимости от W (11).
Пересечения границ на рис. 1 в области малого количества точек можно при
77
необходимости избежать путем уменьшения количества АДФ в серии или
увеличения объема выборки.
Пояснения к легенде на рис. 2: 1, 2 — СКО и СМО расхождения между
АпоВ, полученными ядерным сглаживанием, и АпоВ первого класса, полу-
ченными по исходным данным; 3, 4 — СКО и СМО расхождения между АпоВ
по исходным данным и АпоВ, полученными путем интер- и экстраполяции;
5, 6 — расхождение между АпоВ, полученными ядерным сглаживанием и
АпоВ, полученными путем интер- и экстраполяции; 7, 8 — СКО и СМО рас-
хождения между АпоВ по выборочным оценкам параметров распределений
и АпоВ по исходным данным. Графики 1, 2 и 5, 6 зависят от W.
По выборкам обычно нельзя сделать надежных сравнительных выводов.
В данном случае можно лишь заметить, что результаты довольно близки друг
другу. Метод сглаживания уступил интер-экстраполяционному, но картина
может измениться в пользу сглаживания, если более удачно выбрать вид
функции ядра и еe параметры.
Интер-экстраполяционный метод был хуже метода оценки АпоВ с выбо-
рочными оценками параметров распределений. Но следует подчеркнуть, что
он не связан с предположениями о законах распределений, если строить АДФ
по методике [8]. Для него важен лишь вид ДФ Андерсона в окрестности их
нулевых значений.
СКО и СМО оценки АпоВ первого класса интер-экстраполяционным ме-
тодом и методом оценки их по формуле Байеса по исходным данным состави-
ли 0,053 и 0,035. На примере с выборкой в 5000 точек, (графики не приведены)
эти показатели снизились соответственно до 0,021 и 0,016.
6.2. Диагностика заболевания
Рассмотрим пример решения конкурсной задачи диагностики заболева-
ния [11]. Конкурсная задача не преследовала практических целей. Ее це-
лью являлось сравнение способов классификации при большом количестве
признаков и сравнительно небольшом объеме обучающей выборки. Наиме-
нование болезни, характеристики признаков, методы сбора данных в данном
случае не известны. Обучающая выборка — матрица 252 × 217. В 252 стро-
ках первые 99 строк соответствуют здоровым людям, остальные 153 стро-
ки — больным. Первый столбец содержит номер класса: 0 — здоровые, 1 —
больные. Остальные столбцы соответствуют признакам. В роли признаков
использованы частоты триграмм исходных анализов.
Цель примера — показать, что простые методы отбора признаков для ап-
проксимации ДФ Андерсона по методике [8] в сочетании с предложенным
методом оценивания АпоВ классов способны дать обнадеживающие резуль-
таты уже на начальном этапе решения задачи.
ДФ Андерсона является функцией регрессии, из набора 216 признаков
отобраны наиболее коррелированные с искомой величиной — первым столб-
цом — признаки. Это три признака с номерами столбцов в обучающей матри-
це 22, 104, 115 имеют коэффициенты корреляции 0,60, 0,64, 0,64. Корреляция
их между собой: 0,52, 0,48 и 0,66.
78
x2
25
20
15
PP = 0,6
PP = 0,9
10
PP =
0,5
PP = 0,8
5
PP = 0,95
PP = 0,7
0
5
10
5
0
5
10
15
20
25
30
35
40
x1
Рис. 3.
Аппроксимировав ДФ Андерсона полиномом второго порядка методом [8],
получили по АДФ среднюю по выборке вероятность ошибки диагности-
ки 4,8%. АДФ:
(13)
f12(x) = -0,97 - 0,00093x21 - 0,013x22 - 0,0045x23 + 0,0067x1x2 +
+ 0,062x1x3 + 0,011x2x3 + 0,053x1 + 0,19x2 + 0,13x3,
где x1, x2, x3 - признаки (вышеуказанные столбцы).
Если f12(x) < 0, то точку следует отнести в класс здоровых, иначе — в
класс больных.
При аппроксимации ДФ линейной функцией вероятность ошибки 6,8%.
АДФ:
(14)
f12(x) = -0,97 + 0,17x1 + 0,11x2 + 0,14x3.
АДФ (13), (14) получены для равных стоимостей ошибок.
Для сравнения получены решения задачи с помощью методов quadratic
classify и linear classify МАТЛАБ [12], в которых используются предполо-
жения о нормальных условных законах распределения признаков классов с
разными и одинаковыми ковариационными матрицами и применяются выбо-
рочные оценки параметров распределений. Величины ошибок классификации
для quadratic АДФ и linear АДФ составили 10,3% и 9,9% соответственно. На
рис. 3 изображены проекции на плоскость x1x2 точек выборки и участков
некоторых из границ АДФ типа (13). Проекции точек здоровых пациентов
79
TPR
1,00
0,95
0,90
0,85
0,80
0,75
0,70
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
FPR
Рис. 4.
отмечены кружками, больных — крестиками. АпоВ класса, P P = p, на гра-
ницах указаны для больных.
Относительные положения проекций границ на плоскость зависят от уров-
ня фиксации x3.
Расхождения по СМО и СКО между АпоВ, полученными по сериям поли-
номиальных АДФ типа (13) и линейных типа (14) (рисунок не представлен),
составили 0,07 и 0,11.
Качество самого метода классификации, а не одной АДФ, иногда оцени-
вают с помощью ROC-анализа [4]. Для построения ROC — кривой для се-
рии АДФ, созданных одним методом, вычислялись показатели: TPR — доля
правильных положительных классификаций и FPR — доля ошибочных поло-
жительных классификаций. Положительными считались заболевшие, отри-
цательными — здоровые. Изменяемым параметром метода являлась величи-
на p. Полученные TPR и FPR для ряда значений p наносились на график,
рис. 4. Классический график должен содержать значения FPR от нуля до
единицы. В данном случае при изменении p в пределах [0,02; 0,95] пока-
затель FPR изменялся только в пределах [0; 0,14] и TPR соответственно в
пределах [0,717; 1], выходя на свой естественный предел, равный единице.
Поэтому строились два графика: один растягивался по оси FPR добавлени-
ем точки (1, 1), сплошная линия на рис. 4, второй — изменением масштаба
FPR до пределов от 0 до 1.
В качестве интегрального показателя качества метода является AUC —
площадь между графиком и осью FPR. Для АДФ — полинома второго по-
рядка, рис. 4, показатели AUC для двух графиков равны 0,99 и 0,95. Для
линейного АДФ, график не представлен, показатели AUC равны 0,98 и 0,95.
Работа выполнена в среде МАТЛАБ [12].
7. Заключение
1. Предложен способ оценки апостериорных вероятностей классов в задан-
ных точках пространства признаков классов путем построения по обучающей
80
выборке с учителем серии аппроксимаций дискриминантных функций Андер-
сона, по которым путем интер- и экстраполяции, ядерного сглаживания или
иным методом вычисляются оценки апостериорных вероятностей класса.
2. Указан способ сведения задачи для нескольких классов к задачам с
двумя классами.
3. Приведен модельный пример для двух классов с нормальными зако-
нами условных распределений вероятностей двумерных признаков классов
на обучающей выборке с учителем в 500 точек для сравнения методов вы-
числения апостериорных вероятностей класса в точках выборки: точного —
по известным нормальным законам распределений; выборочного — по выбо-
рочной оценке параметров нормальных распределений; предложенного — по
серии аппроксимаций дискриминантных функций с использованием линей-
ной интерполяции и метода ядерного сглаживания при различных значениях
параметра сглаживания.
4. В качестве примера с реальными данными выполнен расчет апосте-
риорных вероятностей наличия у 252 пациентов некоторого заболевания по
данным конкурсной задачи — выборки, содержащей 216 признаков, опуб-
ликованной в интернете. Значение показателя качества метода AUC = 0,95,
полученное по ROC — кривой, при трех признаках, отобранных по коэффици-
ентам корреляции с искомой величиной, свидетельствует о перспективности
метода.
Результаты оказались лучше методов МАТЛАБ quadratic classify и linear
classify.
СПИСОК ЛИТЕРАТУРЫ
1. Anderson T.W. An Introduction to Multivariate Statistical Analysis. Third Edition.
John Wiley & Sons, 2003. 721 p.
2. Кнеллер В.Ю. Об определении и специфике автоматического контроля // АиТ.
1962. № 4. С.509-518.
3. Мерков А.Б. Распознавание образов. Введение в методы статистического обуче-
ния. Едиториал УРСС, 2011. 256 с.
4. Воронцов К.В. Машинное обучение (курс лекций),
http://www.machinelearning.ru/wiki/index.php?title=Заглавная_страница)
5. Platt J. Probabilistic outputs for support vector machines and comparisons to
regularized likelihood methods (PDF) // Advances Large Margin Classifiers. 1999.
V. 10. No. 3. P. 61-74.
6. Nuculescu-Mizil A., Caruana R. Predicting Good Probabilities with Supervised
Learning. Department of Computer Science. Cornell University. Ithaca NY 14853.
P. 1-8.
http://datascienceassn.org/sites/default/files/Predicting%20good%20probabilities
%20with%20supervised%20learning.pdf
7. Зенков В.В. Оценка апостериорной вероятности класса в точке по аппроксима-
ции одной дискриминантной функции // АиТ. 2018. № 9. С. 46-59.
Zenkov V.V. Estimating the Probability of a Class at a Point by the Approximation
of one Discriminant Function // Autom. Remote Control. 2018. V. 79. No. 9.
P. 1580-1590.
81
8. Зенков В.В. Использование взвешенного метода наименьших квадратов при ап-
проксимации дискриминантной функции цилиндрической поверхностью в зада-
чах классификации // АиТ. 2017. № 9. C. 145-158.
Zenkov V.V. Using Weighted Least Squares to Approximate the Discriminant
Function with a Cylindrical Surface in Classification Problem // Autom. Remote
Control. 2017. V. 78. No. 9. P. 1662-1673.
9. Дрейпер Н., Смит Г. Прикладной регрессионный анализ, 3-е изд.: Пер. с англ.
М.: Изд. дом “Вильямс”, 2007. 912 с.
10. Айзерман М.А., Браверман Э.М., Розоноэр Л.И. Метод потенциальных функций
в теории обучения машин М.: Наука, 1970. 384 с.
11. Данные для задания на ТМШ 2014.
http://www.machinelearning.ru/wiki/images/e/e1/School-VI-2014-task-3.rar
12. Ануфриев И.Е., Смирнов А.Б., Смирнова Е.Н. MATLAB 7 СПб.: БХВ-Петер-
бург, 2005. 1104 с.
Статья представлена к публикации членом редколлегии Б.М. Миллером.
Поступила в редакцию 21.12.2017
После доработки 25.09.2018
Принята к публикации 08.11.2018
82