Автоматика и телемеханика, № 1, 2020

Оптимизация, системный анализ

и исследование операций

(Институт проблем управления им. В.А. Трапезникова РАН, Москва)

ПРИМЕНЕНИЕ АППРОКСИМАЦИИ ДИСКРИМИНАНТНОЙ

ФУНКЦИИ АНДЕРСОНА И МЕТОДА ОПОРНЫХ ВЕКТОРОВ

ДЛЯ РЕШЕНИЯ НЕКОТОРЫХ ЗАДАЧ КЛАССИФИКАЦИИ

Дискриминантная функция Андерсона имеет ряд свойств, полезных

для решения задач классификации и для оценки апостериорных вероят-

ностей классов. В качестве математического аппарата используется один

и тот же взвешенный метод наименьших квадратов для аппроксимации

дискриминантной функции Андерсона в области нулевых значений как

при решении задачи классификации, так и при оценке апостериорных ве-

роятностей классов в заданной точке пространства признаков. В методе

опорных векторов задача классификации решается методом квадратич-

ного программирования с количеством ограничений, равным количеству

строк обучающей выборки, а для оценки апостериорных вероятностей

классов используется дополнительная надстройка - калибратор Платта,

преобразующий величину отступа точки от границы в апостериорную ве-

роятность класса, с определением параметров калибратора методом мак-

симального правдоподобия. На нескольких примерах решения задач клас-

сификации проведено сравнение эффективности методов по критерию эм-

пирического риска. Результаты оказались в пользу метода аппроксимации

дискриминантной функции Андерсона в области нулевых значений.

Ключевые слова: машинное обучение, классификация, дискриминантная

функция Андерсона, метод опорных векторов, SVM, аппроксимация дис-

криминантной функции Андерсона в области нулевых значений.

DOI: 10.31857/S0005231020010109

1. Введение

Дискриминантную функцию Андерсона (ДФА) здесь получаем из пред-

ставленного Теодором Андерсоном метода решения байесовой задачи клас-

сификации в случае нескольких классов [1] в виде разности средних потерь

от отнесения точки в пространстве признаков классов в один из двух кон-

курирующих классов. ДФА есть функция регрессии. Обучающая выборка с

учителем просто преобразуется в выборку регрессионного анализа заменой

в выборке номеров (меток) классов на соответствующие разности заданных

стоимостей ошибок классификации. В случае двух классов в точках на их гра-

нице в пространстве признаков апостериорная вероятность (АпоВ) первого

147

(для определенности) класса зависит только от определяющих эту ДФА стои-

мостей двух ошибок классификации. Задача со многими классами сводится

к совокупности задач с двумя классами по принципу один против остальных.

Для аппроксимации ДФА по обучающей выборке с учителем предложен

эвристический алгоритм [2, 3]. Аппроксимация выполняется в области нуле-

вых значений ДФА, поскольку для классификации важен лишь знак ДФА,

а не ее изящные изгибы. Тождественная связь ДФА, АпоВ первого класса

и стоимостей ошибок, для которых построена ДФА, лежит в основе методов

оценивания АпоВ в заданной точке [4, 5].

Популярная, мощная, широко используемая в машинном обучении разно-

видность метода опорных векторов (SVM - support vector machine) для слу-

чая разделения гиперплоскостью двух перекрывающихся между собой мно-

жеств точек также является эвристикой [6]. Это обстоятельство побудило вы-

полнить сравнение на нескольких обучающих выборках двух эвристических

методов решения задачи классификации: метода аппроксимации ДФА и ме-

тода SVM. Критерием качества классификации является доля неправильно

классифицированных точек обучающей выборки - эмпирический риск.

2. Дискриминантная функция Андерсона, ее свойства

и связь с апостериорными вероятностями классов

Используя [1], запишем определение ДФА f_rs(x), разделяющей классы r

и s в d-мерном евклидовом пространстве признаков x ∈ R^d, использующее

АпоВ классов и заданные стоимости ошибок классификации, в виде

(1)

f_rs (x,C) ≡ G_r (x) - G_s (x) ≡ M_k|x (C_rk - C_sk

∑

где G_r (x) =_k C_rkp (k|x), G_s (x) =_k C_skp (k|x) — средние потери по k в

точке x, если точку отнести к классу r или, соответственно, к классу s;

C — матрица стоимостей ошибок, C_ij — стоимость ошибки, когда точка

из класса j ошибочно относится в класс i, 0 ≤ C_ij < ∞, C_ii = 0; p(k|x) —_∑

АпоВ класса k в точке x, p (k|x) = P_kp (x|k) /p (x), p (x) =_k P_kp (x|k), P_k —

априорные вероятности классов, p(x|k) — условные распределения призна-

ков классов; k — номера классов от 1 до K, K — количество классов;

M_k|x (·) — математическое ожидание по k в точке x. ДФА по определению

есть функция регрессии от x. В точке x случайная по k дискретная величи-

на C_rk|x - C_sk|x = f_rs(x, C) + ε_rsk|x имеет распределение АпоВ классов p(k|x),

∑

p(k|x) = 1, среднее f_rs(x, C) и случайное отклонение от него ε_rsk|x. Дис-

кретная случайная величина ε_rsk|x принимает K значений с вероятностя-

ми p(k|x) и имеет нулевое среднее.

Если f_rs(x, C) ≤ 0, то точка x относится в класс r и класс s исключается из

дальнейшего процесса сравнения, иначе — в класс s и класс r исключается.

Так обеспечивается минимум средней стоимости ошибок классификации —

байесов критерий решающего правила [1].

В случае двух классов, K = 2, имеем C1k|x - C2k|x = f₁₂(x, C) + ε12k|x.

Дискретная случайная величина ε12k|x в точке x принимает два значе-

ния: -C₂₁ - f₁₂(x, C) с вероятностью p(1|x) и C₁₂ - f₁₂(x, C) с вероятно-

стью 1 - p(1|x), с нулевым средним и дисперсией (C₁₂ +C₂₁)²p(1|x)(1-p(1|x)).

148

2.1. Свойства ДФА

Перечислим свойства ДФА.

Утверждение 1. Стоимости ошибок классификации можно выби-

рать при условии, что их сумма равна единице.

Доказательство следует из (1). На результат попарного сравнения G_r(x) и

Gs(x) не влияет умножение их на одно и то же положительное число.

Утверждение 2. ДФА есть ограниченная функция регрессии.

Доказательство следует из (1), так как стоимости ошибок классификации

ограничены.

Следствие 1. В случае K = 2 имеем -C₂₁ < f₁₂(x) < C₁₂.

Следствие 2. Чтобы аппроксимировать ДФА как функцию регрессии,

следует преобразовать обучающую выборку с учителем задачи классифика-

ции в выборку задачи регрессионного анализа, заменив номера классов в вы-

борке следующим образом: первый класс на — C₂₁, а второй класс — на C₁₂.

Следствие 3. Факт регрессионной зависимости ДФА от признаков

позволяет, в частности, выполнять отбор признаков, используемых для ре-

шения задачи аппроксимации, по коэффициентам корреляции признаков со

столбцом, в котором номера классов заменены стоимостями ошибок клас-

сификации. Учитывать при этом необходимо и коэффициенты корреляции

признаков между собой [7].

2.2. Связь ДФА с АпоВ классов

Утверждение 3. При K = 2 для АпоВ первого класса и ДФ Андерсона,

полученной для заданных C₁₂ и C₂₁, имеет место тождество

(2)

p(1|x) ≡ (C₁₂ - f₁₂(x))/(C₁₂ + C₂₁

Доказывается по (1) с использованием равенства p(1|x) + p(2/x) = 1.

Следствие 4. Задавая стоимости ошибок при условии равенства еди-

нице их суммы, тождество (2) можно представить в виде

(3)

p(1|x) ≡ p^∗ - f₁₂(x, p^∗

где скалярный параметр p^∗ определяет недиагональные элементы матрицы

ошибок классификации:

(4)

C₁₂ = p^∗, C₂₁ = 1 - p^∗.

Из (3) следует, что в точках на границе классов, если она существует,

f₁₂(x,p^∗) = 0, АпоВ первого класса равна p^∗, а в точках, относимых в первый

класс, где f₁₂(x, p^∗) ≤ 0, из (3) следует, что p(1|x) ≥ p^∗. Если границы между

классами в пространстве признаков классов нет, то p^∗ задает лишь недиаго-

нальные элементы матрицы стоимостей ошибок для ДФА и может находиться

в пределах (0, 1), чтобы сумма стоимостей ошибок равнялась единице.

149

2.3. Условие неразличимости классов

Условие неразличимости классов в задаче с двумя классами для заданно-

го p^∗ имеет вид

(

) (

)

(5)

minf12 (x,p∗) > 0

∨ maxf12 (x,p∗) < 0 ,

при выполнении которого все точки надо относить в один соответствующий

класс, а параметр p^∗ есть величина, лишь определяющая стоимости ошибок

классификации (4).

2.4. Способы оценивания АпоВ класса

Из тождества (3) вытекают по крайней мере три способа оценивания АпоВ

первого класса в задаче с двумя классами.

По одному способу [4] для серии заданных значений параметра p^∗ строятся

аппроксимации ДФА, по которым путем интер- и экстраполяции находится

АпоВ класса в заданной точке по одной-двум соседним с точкой аппроксима-

циям ДФА, или по всем аппроксимациям с использованием аналога ядерных

функций. Условия неразличимости классов (5) влияют на выбор предельных

значений параметра p^∗. Результат естественно зависит от удачного выбора

вида аппроксимирующих ДФА функций.

По второму способу [5] величина параметра p^∗ подбирается итерацион-

но так, чтобы в заданной точке получить нулевое значение аппроксимации

ДФА. При этом АпоВ класса будет равна найденному p^∗, как это следует

из (3). Для аппроксимации ДФА в точке не обязательно использовать ап-

проксимирующие зависимости сложнее линейных. Но нужно иметь в виду,

что в некоторых точках вследствие (5) решение может не существовать.

По третьему способу для произвольно заданного p^∗, величина которого из

интервала (0, 1) не влияет на результат оценивания АпоВ класса и не влияет

так же различимость или неразличимость классов (5), строится аппроксима-

ция ДФА в заданной точке и затем по ней и по p^∗ вычисляется по (3) оценка

АпоВ класса. Для аппроксимации ДФА в точке используется линейная ап-

проксимирующая функция.

2.5. Аппроксимация ДФА в области нулевых значений

Область нулевых значений не известна. Для аппроксимации ДФА исполь-

зуется прием последовательных приближений к области нулевых значений,

использующий взвешенный метод наименьших квадратов [2, 3].

Для аппроксимации ДФА возьмем линейную комбинацию заданных функ-

ций от признаков λ^′ϕ(x), первая компонента - единица, c вектором коэффи-

циентов λ, который находится по обучающей выборке с учителем {x_n, k_n},

n = 1 ÷ N, k_n — номер класса в строке n, k_n = {1,2}, x_n ⊂ R^d — вектор дей-

ствительных значений признаков размерности d в строке n. Решается после-

довательность задач взвешенным методом наименьших квадратов, в которой

150

на каждом шаге минимизируется по λ_i критерий

∑

(

)}

{[

]

(6)

Q(λ_i) = min

C1kn - C2kn - λ^′iϕ(x_n)

² exp

-W_i|λ′i-1ϕ(x_n

)|^k

λ_i

n=1

где i — номер итерации, i = 1 ÷ I. На первом шаге задача решается без весо-

вой функции, на последующих шагах весовая функция придает больший вес

точкам, более близким к нулевой области предыдущей аппроксимации ДФА.

I — заданное количество итераций, I < ∞. W_i — заданный весовой коэф-

фициент на шаге i, W_i > 0, k — заданный показатель степени. Размерность

обращаемой матрицы, равная размерности искомого вектора параметров, не

зависит от количества строк N в обучающей выборке. Вид весовой функ-

ции — не обязательно экспонента. Лучшим значением λ является тот вектор,

которому соответствуют меньшие средние по выборке потери (эмпирический

риск)

(7)

R = N-1 (C₁₂N₂ + C₂₁N₁

где N₁ — количество точек первого класса, ошибочно отнесенных во второй

класс, N₂ — количество точек второго класса, ошибочно отнесенных в первый

класс.

3. Постановка задачи

Цель работы - сравнение по величине эмпирического риска результатов

решения нескольких задач классификации двумя методами: вышеописанно-

го, использующего аппроксимацию ДФА в области нулевых ее значений, и

широко известного, мощного и популярного в машинном обучении метода

опорных векторов (SVM) в варианте с линейным ядром классификатора.

3.1. Процедуры метода SVM

Для сравнения с методом аппроксимации ДФА использованы три имею-

щиеся процедуры библиотеки scikit-learn инструментального средства Питон

(Python) [8, 9]. Одна из процедур (LinearSVC) исключительно ориентирована

на функцию ядра линейного типа, другие (SVC, NuSVC) позволяют задавать

вид функции ядра, являясь в этом смысле более универсальными. ДФА ис-

пользуется в линейном относительно искомых коэффициентов виде, поэтому

и процедуры SVM использованы в линейном варианте. Процедура, реализую-

щая метод аппроксимации ДФА в области нулевых значений, также написана

на Питоне.

Проблема регуляризации не затрагивалась, сравнивалось качество разде-

ления двух наборов точек гиперплоскостью в пространстве признаков, а так-

же в пространстве с координатами - произведениями и степенями признаков

не выше второго порядка.

151

3.2. Исходные данные

Исходные данные - обучающие выборки с учителем - взяты в основном

из примеров, ранее использованных в работах автора [2-5]. Чтобы иметь воз-

можность проверить некоторые из приведенных результатов, в качестве одно-

го из примеров использованы данные из репозитория UCI [10], описания кото-

рых приведены в [11]. Доступны в интернете и конкурсные данные ТМШ [12].

Данные из репозитория и конкурсные данные являются реальными. Осталь-

ные были сгенерированы в качестве модельных примеров с заданными нор-

мальными законами условных распределений двух признаков и с заданными

априорными вероятностями двух классов.

Данные из репозитория были проверены. Из них были удалены строки с

отсутствующими величинами некоторых из 9 признаков.

Данные из репозитория и из конкурсной задачи представлялись в двух ва-

риантах: с полным набором признаков и с подмножеством признаков, отоб-

ранных по коэффициентам корреляции признаков с искомой величиной —

оценками ДФА, полученными путем замены номеров классов в выборке стои-

мостями ошибок классификации, в данном случае значениями 0,5 и -0,5. При

отборе учитывались и корреляции признаков между собой. Если уменьшение

количества признаков до 5 из 9 в задаче из репозитория (пример № 8, таб-

лица) практического смысла не имело (цель — получить еще один вариант

данных для сравнения методов классификации), то в конкурсной задаче вы-

бор 3 из 216 исходных признаков, пример № 2, имело практический смысл —

удобство использования полученной аппроксимации ДФА и снижение пере-

обучения. В конкурсной задаче со всеми 216 признаками, пример № 6, не

имело смысла решать полиномиальный вариант из-за гигантского количе-

ства членов. Метод аппроксимации ДФА попросту не смог бы решить такую

задачу в лоб, в то время как SVM задачи, в которых количество признаков

или функций от признаков больше количества строк обучающей выборки,

решать может.

В задаче из репозитория отбор 5 функций от признаков по корреляции

выполнялся из 54 членов полинома второго порядка, полученного по 9 исход-

ным признакам (пример № 8). Из наиболее коррелированных с номером клас-

са членов полинома были отброшены те, которые имели корреляцию между

собой более 0,8. Осталось 5 из 54 членов. Корреляция 0,8 задавалась исклю-

чительно из соображения получить не слишком много членов.

4. Решение задачи

Коэффициенты весовой функции при обращении к процедуре аппрокси-

мации ДФА (6) изменялись в итерационном процессе по правилу

(8)

W_i

= w × i, i = 0 ÷ I,

где шаг изменения w подбирался вручную из нескольких значений, чтобы по-

лучить поменьше величину эмпирического риска (7) в итерационном процес-

се, см. рис. 1-5. Автоматический перебор значений шага w для (8) из некото-

рого диапазона для поиска наилучшего значения не выполнялся, потому что

итерационные процессы в несколько десятков шагов занимали мало времени,

152

ручной выбор не был обременителен и визуальный контроль итерационного

процесса облегчал подбор w и I. Показатель степени k в (6) равен единице.

Лишь в одном случае (пример № 7, полином), когда аппроксимация ДФА не

была лучше SVM, пытались долго и безуспешно искать и лучшее значение w

и k в (6).

Количество шагов итераций I выбирается достаточно большим, но не

слишком, потому что график изменения потерь от итераций с некоторого

момента становится хаотическим из-за уменьшения части выборки, выделяе-

мой весовой функцией с ростом W_i по правилу (8) и влияющей на результат,

Характер изменения по итерациям весового коэффициента в виде арифме-

тической прогрессии в (8) хорошо зарекомендовал себя при решении автором

предыдущих задач.

Процедуры метода SVM также настраивались в каждом примере парамет-

рами: C в SVC и LinearSVC; Nu в NuSVC. И если параметр C (коэффициент

штрафной функции) изменял эмпирический риск (7) сравнительно в малых

пределах, то параметр Nu изменял (7) в широких, см. рис. 6. Параметр Nu —

верхняя граница ошибок обучения. Он должен находиться в интервале (0, 1].

По умолчанию равен 0,5.

Остальные параметры процедур в примерах не изменялись. Для

LinearSVC они были установлены отличными от значений по умолчанию

на уровнях: dual=False. Параметр dual oпределяет функцию потерь. Значе-

ние ‘hinge‘ - это стандартная потеря SVM (используемая, например, клас-

сом SVC для решения задач классификации), в то время как значение

‘squared_hinge‘ - это использование квадрата потерь. Параметр penalty, за-

дающий норму штрафа, установлен в значение ‘l1‘. Норма ‘l2‘ - это стандарт,

используемый в SVC. Параметр max_iter = 100000 (максимальное количе-

ство итераций, которое можно выполнять). Для SVC и NuSVC установлены:

kernel = ’linear’ - определяет тип ядра, который используется в алгоритме.

Проблема регуляризации не затрагивалась, сравнивалось качество разде-

ления двух наборов точек гиперплоскостью в пространстве признаков, а так-

же в пространстве с координатами - произведениями и степенями признаков

не выше второго порядка.

Результаты решения задач разными методами представлены в таблице.

Графики итерационных процессов получения аппроксимаций ДФА, на ко-

торых горизонтальными линиями изображены решения задач процедурами

SVM, представлены на рис. 1-4, соответствующих примерам № 1-4. Рисунок 5

соответствует примеру № 7. Рисунок для примера № 6 не представлен, так как

графики вырождаются в горизонтальные линии. Рисунок для примера № 8

не представлен для экономии места.

Рисунок 6 показывает зависимости потерь (7) от параметра Nu, получен-

ных при ручном поиске лучших значений для процедуры NuSVC в случаях

линейной и полиномиальной дискриминантных функций для условий при-

мера № 2. Из рисунка видно, что полагаться на установленное по умолчанию

значение параметра Nu = 0,5 не стоит, если стремиться к получению более

точного решения задачи классификации методом SVM, реализованным в про-

156

цедуре NuSVC. Аналогичное замечание справедливо и в отношении реализа-

ций SVM в процедурах LinearSVC и SVC, хотя в них изменения параметра C

не столь существенно сказываются на результате.

Пояснения к таблице. Столбцы: 1 - номер примера; 2 - количество точек

выборки; 3 - количество признаков и количество использованных членов в

полиноме второго порядка; 4 - вариант дискриминантной функции; 5 - эм-

пирический риск по итерациям в двух видах аппроксимаций ДФА; 6 - сум-

марное время на выполнение заданных итераций по двум видам аппроксима-

ции ДФА; 7 - количество заданных итераций в каждом виде аппроксимаций

ДФА; 8 - коэффициент весовой функции; 9 - эмпирический риск метода SVM

LinearSVC; 10 - время решения SVM LinearSVM в секундах; 11-14 - анало-

гично 9 и 10, но для SVC и NuSVC; 15 - эмпирический риск в предположении,

что обучающая выборка подчиняется двум нормальным условным законам

распределения признаков и параметры их получены по выборке (для при-

меров 1, 3-5 предположение справедливо по построению. Дискриминантная

функция для нормально распределенных признаков двух классов является

полиномом второго порядка).

В столбцах 5, 9, 11 и 13 полужирным шрифтом отмечены лучшие эмпири-

ческие риски сравниваемых методов, причем в столбцах 9, 11 и 13 отмечены

и лучшие риски среди реализаций метода SVM. В столбце 5 отмечены луч-

шие результаты для метода аппроксимации ДФА по сравнению с лучшим

результатом среди реализаций SVM.

В одном из 15 примеров, в примере № 7, рис. 5, в полиномиальном варианте

все реализации метода SVM дали лучший результат, чем метод аппроксима-

ции ДФА. Причем в отличие от других примеров в примере № 7 выполнялся

тщательный поиск лучшего решения не только в широком диапазоне коэф-

фициента w в (8), но испытывались и другие весовые функции с разными

степенями k в весовой функции.

Работа выполнена на ноутбуке SMARTBOOK 116C Prestigio, CPU x64,

144GHz 144GHz. Оперативная память 2 ГБ. Дисковая память 32 ГБ. Опера-

ционная система Windows 10 домашняя 32-разрядная.

4.1. Способ проверить некоторые результаты

Чтобы можно было проверить результаты сравнения методов на общедо-

ступных наборах данных [10, 12], приводим две аппроксимации ДФА. Для

сравнения с ними решений, получаемых методом SVM, можно использовать

доступные в разных инструментальных средствах реализации метода SVM

подобно взятым из Питона [8, 9].

Линейная модель для примера № 7, рак легких, репозиторий [10, 11]:

f₁₂(x) = -0,45946108 + 0,02133231x1 + 0,01406552x2 +

(9)

+ 0,02060665x3 + 0,01399266x4 - 0,00209362x5 + 0,0264621x6 +

+ 0,01320144x7 + 0,01350233x8 + 0,02748957x9,

где переменные x1-x9 обозначают признаки, перечисленные в списке атри-

бутов под номерами 2-10 в [11]. Если f₁₂(x) < 0, то точку следует отнести

в класс с меткой 2 — доброкачественный (benign), иначе — в класс с мет-

158

кой 4 — злокачественный (malignant). Количество ошибочно классифициро-

ванных точек — 13 из 683 точек обучающей выборки. Из 699 строк выбор-

ки [10] были предварительно исключены 16 строк с неполными данными.

Полиномиальная модель для примера № 2, диагностика заболевания, кон-

курсная задача [12]:

f₁₂(x) = -0,81685233 - 0,54083596x1 - 0,34128288x2 - 0,1861543x3 +

(10)

+ 0,01519183x1^∗∗ 2 + 0,30754489x1x2 + 0,42900778x1x3 +

+ 0,0584966x2^∗∗2 - 0,06766405x2x3 + 0,01869679x3^∗∗2,

где x1, x2, x3 — соответственно элементы в столбцах 22, 104 и 115 обучающей

выборки. В первом столбце 0 — метка здорового пациента, 1 — больного. Три

признака отобраны из 216 по коэффициентам корреляции с первым столбцом

и коэффициентам корреляции между собой.

Если f₁₂(x) < 0, то пациент здоров, иначе - болен некоторой болезнью.

Из 252 строк обучающей выборки ошибочно классифицированы 11 строк.

5. Заключение

1. Метод аппроксимации дискриминантной функции Андерсона в области

нулевых значений (ДФА) по обучающей выборке с учителем, используемый

для решения задач классификации с целью минимизации эмпирического рис-

ка, является эвристическим методом. Метод опорных векторов (SVM) также

является эвристическим методом. Эвристика этих методов побуждает вы-

полнять их сравнение между собой на модельных примерах и на реальных

обучающих выборках. Метод опорных векторов был представлен тремя реа-

лизациями, имеющимися в инструментальном средстве Питон. Метод ДФА

был написан автором на том же языке. Имеется и вариант метода, написан-

ный автором на МАТЛАБе.

2. Из 15 примеров лишь в одном эмпирические риски, полученные всеми

тремя реализациями SVM, оказались меньше, чем эмпирический риск, полу-

ченный методом аппроксимации ДФА. В одном примере все реализации SVM

и ДФА дали одинаковый, нулевой, результат. В остальных примерах метод

аппроксимации ДФА был лучше всех трех реализаций SVM.

3. При сравнении выполнялась ручная настройка параметров методов:

w в ДФА, C в SVC и LinearSVC, Nu в NuSVC. Для тех обучающих выбо-

рок, которые можно скопировать из интернета, приведены дискриминантные

функции, полученные методом аппроксимации ДФА. Для них можно попы-

таться найти лучшие параметры настроек реализаций методов SVM, чтобы

сравнить с результатами работы.

4. Примеры решений задач эвристическими методами не могут дать ис-

черпывающего ответа на вопрос о том, какой из методов лучше. Так, по по-

казателю эмпирического риска в некоторых случаях один метод оказывается

лучше другого. По используемому математическому аппарату (взвешенному

методу наименьших квадратов) ДФА проще SVM, использущего квадратич-

ное программирование с количеством ограничений, равным количеству строк

в обучающей выборке. Но SVM может решать задачу, когда количество при-

знаков больше количества строк в выборке. В ДФА в таких случаях отбирает-

159

ся меньшее количество признаков по коэффициентам корреляции. SVM для

оценок апостериорных вероятностей классов в точках пространства призна-

ков должен использовать специальные надстройки типа калибратора Платта

с оценкой параметров методом максимального правдоподобия, а в ДФА для

оценки апостериорных вероятностей классов используется тот же взвешен-

ный метод наименьших квадратов, который используется для аппроксимации

ДФА в окрестности нулевых значений.

СПИСОК ЛИТЕРАТУРЫ

Anderson T.W. An Introduction to Multivariate Statistical Analysis. Third edition.

John Wiley & Sons, 2003. 721 p.

Зенков В.В. Аппроксимация дискриминантных функций в окрестности нулевых

значений // Изв. АН СССР. Техн. кибернетика. 1973. № 2. С. 152-156.

Зенков В.В. Использование взвешенного метода наименьших квадратов при ап-

проксимации дискриминантной функции цилиндрической поверхностью в зада-

чах классификации // АиТ. 2017. № 9. С. 145-158.

Zenkov V.V. Using Weighted Least Squares to Approximate the Discriminant

Function with a Cylindrical Surface in Classification Problems // Autom. Remote

Control. 2017. V. 78. No. 9. P. 1662-1673.

Зенков В.В. Оценка апостериорной вероятности класса по серии дискриминант-

ных функций Андерсона // АиТ. 2019. № 3. С. 68-71.

Zenkov V.V. Evaluation of the Posterior Probability of a Class with a Series of

Anderson Discriminant Functions // Autom. Remote Control. 2019. V. 80. No. 3.

P. 447-458.

Зенков В.В. Оценка вероятности принадлежности точки классу по аппроксима-

ции одной дискриминантной функции // АиТ. 2018. № 9. С. 46-58.

Zenkov V.V. Estimating the Probability of a Class at a Point by the Approximation

of one Discriminant Function // Autom. Remote Control. 2018. V. 79. No. 9.

P. 1580-1590.

Воронцов К.В. Математические методы обучения по прецедентам (теория обуче-

ния машин). http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf

Дрейпер Н., Смит Г. Прикладной регрессионный анализ, 3-е изд. : Пер. с англ.

М.: Изд. дом “Вильямс”, 2007. 912 с.

Scikit learn. 1.4. Support Vector Machines.

https://scikit-learn.org/stable/modules/svm

Sklearn.svm.LinearSVC.

https://scikit-learn.org/0.20/modules/generated/sklearn.svm.LinearSVC.html

10.

UC Irvine Machine Learning Repository. http://mlr.cs.umass.edu/ml/machine-

learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data

11.

UC Irvine Machine Learning Repository. http://mlr.cs.umass.edu/ml/machine-

learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.names

12.

Данные для задания на ТМШ 2014.

http://www.machinelearning.ru /wiki/images/e/e1/School-VI-2014-task-3.rar

Статья представлена к публикации членом редколлегии В.И. Васильевым.

Поступила в редакцию 05.04.2019

После доработки 03.06.2019

Принята к публикации 18.07.2019

160