Автоматика и телемеханика, № 5, 2022
© 2022 г. В.В. ЦУРКО, канд. техн. наук (v.tsurko@gmail.com),
А.И. МИХАЛЬСКИЙ, д-р биол. наук, канд. техн. наук (ipuran@yandex.ru)
(Институт проблем управления им. В.А. Трапезникова РАН, Москва)
ОЦЕНКА СТАТИСТИЧЕСКОЙ СВЯЗИ СЛУЧАЙНЫХ
ВЕЛИЧИН ЧЕРЕЗ ВЗАИМНУЮ ИНФОРМАЦИЮ
Рассматривается использование непараметрической оценки взаимной
информации для выяснения связи между случайными величинами. Пока-
зано, что при наличии нелинейной связи между случайными величинами
коэффициент корреляции может давать неверный результат. Предложен
метод построения оценки взаимной информации по эмпирическим дан-
ным в абстрактном гильбертовом пространстве с воспроизводящим яд-
ром. С использованием обобщенной теоремы о представителе предложен
метод непараметрической оценки взаимной информации. Работоспособ-
ность метода продемонстрирована на примерах анализа искусственных
данных. Описано применение метода при прогнозировании устойчивости
пентапептидов.
Ключевые слова: коэффициент корреляции, непараметрическая оценка
взаимной информации, гильбертово пространство с воспроизводящим яд-
ром, прогнозирование устойчивости пентапептидов.
DOI: 10.31857/S0005231022050063, EDN: ABOPYY
1. Введение
Оценка взаимосвязи случайных величин является одной из центральных
задач анализа данных. Наличие статистической зависимости между факто-
рами приводит к плохой обусловленности матрицы плана при построении
регрессионных зависимостей [1] и к получению статистически ненадежных
оценок влияния этих факторов. При этом часто делается неверный вывод о
характере существующей зависимости. Особенно часто такой эффект возни-
кает при анализе медико-биологических данных [2].
Широко используемая мера связи случайных величин — коэффициент
корреляции, который эффективен при линейной зависимости. В случае на-
личия нелинейной зависимости коэффициент корреляции дает неверное зна-
чение и даже может свидетельствовать об отсутствии зависимости.
Пример дает пара случайных величин X и Y , связанных через третью слу-
чайную величину U, имеющую равномерное распределение на отрезке [0, 2π].
Положив X = sin(U) и Y = cos(U), получим случайные величины, связанные
соотношением X2 + Y2 = 1. Между тем коэффициент корреляции между X
76
и Y равен нулю:
2π
2π
1
1
cor (X, Y ) =
sin (u) cos (u) du =
sin (2u) du = 0.
2
4
0
0
Другой характеристикой зависимости случайных величин является вели-
чина взаимной информации, которую можно интерпретировать как среднее
количество информации относительно случайной величины X, содержащей-
ся в случайной величине Y [3, 4]. В [5, 6] рассматриваются вопросы оцени-
вания величины взаимной информации на основании эмпирических данных,
обсуждаются трудности и ограничения, возникающие при этом. Использова-
ние точных формул для вычисления взаимной информации требует знания
совместного распределения случайных величин, оценка которого по эмпи-
рическим данным даже в случае нормального закона распределения требует
использования большого числа данных. Та же проблема существует и при по-
пытке оценить по данным непосредственно совместное распределение и при-
менить точные формулы для полученной оценки. В [6] оценка распределения
рассматривается как вспомогательная, промежуточная задача и предлагает-
ся метод оценки непосредственно взаимной информации.
Отказ от вычисления взаимной информации через оценку совместного рас-
пределения рассматривается в [4]. При этом задача ставится как задача ми-
нимизации квадратичного функционала, косвенно связанного с взаимной ин-
формацией, в многомерном линейном пространстве. Решение этой задачи на-
ходится через решение регуляризованной системы линейных алгебраических
уравнений.
Предлагаемый в настоящей работе метод оценки взаимной информации
также не использует оценку взаимного распределения. Квадратичный функ-
ционал, используемый вместо этого, минимизируется в бесконечномерном
функциональном гильбертовом пространстве с воспроизводящим ядром. По-
казано, что решение такой задачи представимо в виде разложения по значе-
ниям воспроизводящего ядра в экспериментальных точках. Коэффициенты
разложения находятся из регуляризованной системы линейных алгебраиче-
ских уравнений.
2. Оценка взаимной информации через решение интегрального уравнения
Формально взаимная информация между случайными величинами X и Y ,
имеющими совместное распределение P (x, y), определяется соотношением
dP (x, y)
I (X,Y ) = ln
dP (x, y) .
dP (x) dP (y)
Если распределение случайных величин имеет плотность p(x, y), то вза-
имная информация представима в виде
p (x, y)
I (X, Y ) = p (x, y) ln
dxdy.
p (x) p (y)
77
Из определения следует, что для независимых случайных величин взаим-
ная информация равна нулю.
Простой метод оценки взаимной информации состоит в замене интегриро-
вания усреднением по выборочным значениям
∑∑
1
p (xi, yj )
I (X, Y ) =
p (xi, yj) ln
,
km
p (xi) p (yj)
i=1 j=1
где p(xi), p(yj ) и p(xi, yj ) - оценки плотностей по экспериментальным данным.
Недостатком прямой замены интегрирования суммированием является
требование большого числа экспериментальных данных для получения точ-
ных оценок плотностей. Другой подход к оценке взаимной информации без
необходимости решения промежуточной задачи — оценки плотностей, пред-
ложенный в [6] для случая бинарной классификации. Пусть Y - признак
класса, случайная величина, принимающая значения 0 или 1, X - случай-
ный вектор признаков. Выражение для взаимной информации в этом случае
записывается в виде
p(x,y = t)
I (X,Y ) =
p(x,y = t)ln
dx.
p(x)p (y = t)
t={0,1}
Пусть xy1, . . . , xyl
- выборка из класса y, ly - число элементов, принадле-
y
жащих классу с меткой y. Запишем эмпирическую оценку взаимной инфор-
мации в виде
(
)
(
)
(
)
(
)
(
)
1
Ie (X,Y ) =
p (y = t)
rt
x0i
ln rt
x0i
+ rt
x1i
ln rt
x1i
,
l0
+l
1
t={0,1}
i=1
i=1
где rt (x) = p(x, y = t)/p (x) - отношение плотностей. Связь между отношени-
ем плотностей и распределением X задается интегральным соотношением
Ft (x) = I {x u} rt (u) dF (u) ,
где Ft(x) - функция распределения X в классе с меткой t, F (x) - маргиналь-
ная функция распределения X. Данное уравнение можно рассматривать как
интегральное уравнение относительно функции rt(x). Эмпирическим анало-
гом интегрального уравнения является плохо обусловленная система линей-
ных уравнений
(
)
{
}
{
}
(
)
{
}
(
)
1
1
I
xxti
=
I
xx0i
rt
x0i
+ I
xx1i
rt
x1i
,
lt
l0 + l
1
i=1
i=1
i=1
для решения которой в [6] предложен метод регуляризации, использующий
специальную V-матрицу, сохраняющую геометрические свойства выборки.
При этом, как отмечалось, нет необходимости оценивать плотности распре-
делении вероятностей p(x), p(x, y) и вероятность p(y).
78
3. Оценка взаимной информации через минимизацию
квадратичного функционала
3.1. Метод LSMI
Другая оценка взаимной информации, не требующая предварительной
оценки плотностей распределения, предложена в [4]. Отношение плотностей
распределения двух случайных величин X и Y
w (x,y) = p (x,y)/p (x) /p (y)
m
ищется в виде разложения ŵ (x, y) =
aiϕi (x,y) по базисным функциям
i=1
ϕi (x, y).
Коэффициенты разложения ищутся путем минимизации функционала
1
J(ŵ)=
( ŵ (xi,yj) - 1)2 ,
n2
i,j=1
где n - число элементов в эмпирической выборке x1, y1, . . . , xn, yn, число
членов разложения m является параметром алгоритма. В качестве базис-
ных функций в [4] предлагается использовать гауссианы, за центры которых
принимается набор экспериментальных точек. Коэффициенты разложения
определяются путем решения регуляризованной системы линейных уравне-
ний. Метод получил название Least-Squares Mutual Information (LSMI). Оцен-
ка величины взаимной информации вычисляется как среднее значение оцен-
ки ŵ(x, y) по эмпирическим данным
1
I (X, Y ) =
ln ŵ (xi, yi) .
n
i=1
3.2. Оценка взаимной информации в RKHS
В настоящей работе рассматривается оценка взаимной информации, полу-
чающаяся путем минимизации в гильбертовом пространстве с воспроизводя-
щим ядром (RKHS) [7] регуляризованного квадратичного функционала
∫∫
1
Jλ ( ŵ) =
(w (x, y) - ŵ (x, y))2 p (x) p (y) dxdy +λ
∥ ŵ∥2L ,
2
2
где ∥.∥L обозначает норму в гильбертовом пространстве L с воспроизводящим
ядром, λ - неотрицательный параметр регуляризации.
Построение оценок случайных процессов в RKHS рассматривалось в [6-8].
Привлекательность гильбертова пространства с воспроизводящим ядром со-
стоит в том, что результат минимизации эмпирического функционала в бес-
конечномерном гильбертовом пространстве с воспроизводящим ядром нахо-
дится в конечномерном функциональном пространстве, базисные функции в
79
котором задаются воспроизводящим ядром гильбертова пространства. В этом
заключается суть обобщенной теоремы о представителе [9].
Наиболее нагляден результат использования RKHS в задаче непарамет-
рической оценки регрессионной зависимости по выборке экспериментальных
значений {x1, y1, . . . xn, yn} путем минимизации эмпирического функционала
Iλ (f) =
(yi - f (xi))2 + λ∥f∥L
i=1
в гильбертовом пространстве с воспроизводящим ядром K(x, t). В силу обоб-
щенной теоремы о представителе минимум функционала Iλ(f) достигается
на функции вида
f (x) =
aiK (x,xi).
i=1
Коэффициенты разложения ai являются решением регуляризованной нор-
мальной системы метода наименьших квадратов.
Выбор ядра K(x, t) осуществляется исходя из требуемых свойств реше-
ния. Так, если априори известно, что искомая зависимость принадлежит про-
странству одномерных функций, имеющих ограниченный спектр, то эмпири-
ческий функционал надо искать в гильбертовом пространстве с воспроизво-
дящим ядром вида [10]
sin (a (x - t))
K (x, t) =
,
π (x - t)
где a - граница спектра. Если же искомая зависимость принадлежит про-
странству одномерных функций, определенных на отрезке [0, 1] и имеющих
непрерывную вторую производную, то квадратичный эмпирический функ-
ционал надо минимизировать в пространстве кубических полиномиальных
сплайнов, которое является гильбертовым пространством с воспроизводящим
ядром вида [6]
1
1
1
tx2 -
x3, x t
2
6
K (x,t) = (t - τ)+ (x - τ)+ =
1
1
0
xt2 -
t3, t x.
2
6
Чтобы применить обобщенную теорему о представителе для минимизации
эмпирической оценки функционала Jλ ( ŵ), перепишем его в виде
∫∫
∫∫
1
Jλ ( ŵ) =
ŵ2 (x,y) p (x)p (y)dxdy -
ŵ (x, y) p (x, y)dxdy +
2
∫∫
λ
+
∥ ŵ∥2L + 1
w2 (x,y)p (x)p (y)dxdy.
2
2
80
Последнее слагаемое не зависит от ŵ (x, y), обозначим его через C. Под-
ставляя вместо пар (x, y) эмпирические значения (xi, yi), i = 1, . . . , n, запишем
эмпирическую оценку функционала:
∑∑
1
1
λ
J ( ŵ) =
ŵ2 (xi,yj) -
ŵ (xi, yi) +
∥ ŵ∥2L + C.
2n2
n
2
i=1 j=1
i=1
Минимизация J ( ŵ) в гильбертовом пространстве с воспроизводящим яд-
ром K(z, t) приводит к оценке вида
ŵ (z) =
αiK (z,ti) ,
i=1
здесь z = (x, y), ti(xi, yi), коэффициенты ai ищутся из условия минимизации
функционала J ( ŵ) путем решения регуляризованной системы линейных ал-
гебраических уравнений [11]
(H + λK) a = h,
где элементы матрицы K вычисляются по формуле
Kij = K (xi,yi,xj,yj),
элементы матрицы H вычисляются по формуле
∑∑
1
Hlm =
K (xi, yj , xl, yl) K (xi, yj, xm, ym) ,
n2
i=1 j=1
n
h - вектор с элементами hi = 1
K (xi,yi,xj,yj).
n j=1
Для оценки взаимной информ(ции на практ
)
совское ядро вида K (z, t) = exp
-2 ∥z - t∥2 . Величины λ и σ являются
параметрами метода и выбираются методом кросс-валидации [11].
4. Исследование точности оценки взаимной информации
с использованием искусственных данных
Для демонстрации эффективности оценки статистической зависимости че-
рез оценку взаимной информации были проведены два статистических экс-
перимента по сравнению оценки величины взаимной информации с оценкой
коэффициента корреляции для пары независимых случайных величин и па-
ры зависимых случайных величин.
81
3,5
3,0
2,5
2,0
1,5
1,0
0,5
0
0,3
0,2
0,1
0
0,1
0,2
0,3
Оценка
Рис. 1. Плотность распределения оценки взаимной информации двух неза-
висимых случайных величин, нормированной на минимальную энтропию
(сплошная линия), и оценки по тем же данным коэффициента корреляции
(пунктир) при 50 независимых испытаниях.
4.1. Случай независимых случайных величин
Генерировалась независимая выборка из 50 пар независимых нормально
распределенных случайных величин X, Y с нулевым средним и единичной
дисперсией. По выборке вычислялись оценка коэффициента корреляции и
оценка величины взаимной информации. Для нормировки оценка величины
взаимной информации делилась на минимальную из оценок для энтропии X
и для энтропии Y . Такие выборки независимо генерировались 50 раз. Было
получено 50 оценок для коэффициента корреляции и для взаимной инфор-
мации. Сглаженные распределения оценок представлены на рис. 1.
Из рис. 1 видно, что оценка взаимной информации в среднем ближе к
нулю, чем оценка величины коэффициента корреляции.
4.2. Случай зависимых случайных величин
Воспроизводилась описанная выше схема эксперимента с той разницей,
что случайные величины X и Y формировались по правилу X = sin(U), Y =
= cos(U), U - случайная величина, равномерно распределенная на [0, 2π].
Пример реализаций значений X и Y в 50 независимых испытаниях приведен
на рис. 2.
Выборки, состоящие из 50 независимо сгенерированных пар X и Y , неза-
висимо генерировались 50 раз. Было получено 50 оценок для коэффициента
корреляции и для взаимной информации. Сглаженные распределения оценок
представлены на рис. 3. Из рис. 3 видно, что оценка взаимной информации
существенно отлична от нуля, в то время как оценка величины коэффициента
корреляции сосредоточена возле нуля.
82
1,0
0,5
0
0,5
1,0
1,0
0,5
0
0,5
1,0
X
Рис. 2. 50 реализаций значений двух зависимых случайных величин.
5
4
3
2
1
0
0,2
0
0,2
0,4
0,6
Оценка
Рис. 3. Плотность распределения оценки взаимной информации двух зависи-
мых случайных величин, нормированной на минимальную энтропию (сплош-
ная линия), и оценки по тем же данным коэффициента корреляции (пунктир)
при 50 независимых испытаниях.
В таблице приведены результаты вычисления средних значений и сред-
неквадратичных уклонений для взаимной информации, нормированной на
минимальную энтропию, и трех коэффициентов корреляции Пирсона, Спир-
мена и Кендалла.
Оценки средних значений и среднеквадратичных уклонений для взаимной инфор-
мации, коэффициентов корреляции Пирсона, Спирмена, Кендалла
Коэффициент
Коэффициент
Коэффициент
Взаимная
корреляции
корреляции
корреляции
информация
Пирсона
Спирмена
Кендалла
Среднее значение
0,40
-0,0014
-0,0026
-0,00069
Среднеквадратичное
0,10
0,094
0,076
0,024
уклонение
83
5. Применение оценки взаимной информации
при оценке стабильности пентапептидов
Описанный в статье метод применялся при решении практической задачи
фундаментальной биологии для отбора признаков при прогнозе стабильности
конформации коротких белков, состоящих из пяти аминокислот — пентапеп-
тидов [11]. Интерес к этой задаче возник после появления публикации [12],
в которой исследовалась энтропия белковых последовательностей и было по-
казано, что пентапептиды соответствуют оптимальному размеру структур-
ных блоков, из которых состоят молекулы белков. При увеличении размера
структурного блока наблюдался рост информационной энтропии. В [13] мето-
дами молекулярной динамики расчетным путем были найдены конформаци-
онно-устойчивые пентапептиды и сделано предположение, что такие пепти-
ды играют важную роль в формировании белками нативной пространствен-
ной структуры. Такие структурно-устойчивые пептиды могут служить осно-
вой формирования элементов вторичной структуры белков и, таким образом,
обеспечивать правильную конформацию полипептидной цепи.
Теоретически возможно существование 205 разных последовательностей
пентапептидов — наборов из пяти аминокислот. Исследование такого коли-
чества пентапептидов на устойчивость конформации численными методами
молекулярной динамики требует существенного времени и расчетных ресур-
сов, поэтому прогноз устойчивости конформации пентапептидов методами
машинного обучения для последующего изучения методами молекулярной
динамики является перспективным.
В [11] для прогноза устойчивости пентапептидов на основании результатов
молекулярно-динамического моделирования 49 745 различных пентапептидов
применялись два метода классификации: метод ближайших соседей с отбо-
ром признаков по величине взаимной информации, оцениваемой в RKHS, как
это описано выше, и метод построения случайного леса без предварительного
отбора признаков [14]. Результат вычислений показал, что выбор информа-
тивных признаков по величине взаимной информации позволил в простом
методе ближайших соседей достигнуть качества классификации, близкого к
качеству классификации более сложного и ресурсоемкого алгоритма случай-
ного леса, содержащего в себе отбор признаков при построении решающих
деревьев.
6. Заключение
Предложенный метод оценки величины взаимной информации случайных
величин является существенным дополнением метода оценки коэффициента
корреляции. При решении задачи классификации оценка взаимной информа-
ции между признаками и меткой класса позволяет находить признаки, свя-
занные с меткой класса не только простыми, близкими к линейным соотно-
шениями, но и сложными нелинейными. Концентрация на таких признаках
не только позволяет сократить размерность задачи — число учитываемых
признаков, но и учесть влияние признаков, для которых оценка коэффици-
84
ента корреляции с меткой класса близка к нулю из-за нелинейного характера
взаимовлияния.
Основным преимуществом описанного метода является отсутствие необхо-
димости задания априори структуры зависимости между случайными вели-
чинами в случае параметрического оценивания либо расположения центров
ядерных функций и их числа при непараметрической оценке. Это достига-
ется за счет рассмотрения задачи оценивания взаимной информации в спе-
циальном гильбертовом пространстве с воспроизводящим ядром, в котором
центры ядерных функций располагаются в экспериментальных точках. Этот
факт вытекает из фундаментальной теоремы о представителе [9], следствие
которой существенно упрощает построение многих непараметрических оце-
нок.
Для построения непараметрической оценки взаимной информации в ста-
тье используется минимизация квадратичного регуляризованного функцио-
нала в гильбертовом пространстве с гауссовым воспроизводящим ядром. Па-
раметр ширины ядра выбирался методом кросс-валидации. Приведен симу-
ляционный пример и описана практическая задача из области фундаменталь-
ной биологии, демонстрирующие применение предложенного метода оценки
взаимной информации.
СПИСОК ЛИТЕРАТУРЫ
1. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Исследование зависимостей. М.:
Финансы и статистика, 1988.
2. Погожев И.Б. Применение математических моделей заболеваний в клинической
практике. М.: Наука, 1988.
3. Галлагер Р. Теория информации и надежная связь. М.: Сов. радио, 1974.
4. Suzuki T., Sugiyama M., Kanamori T., and Sese J. Mutual information estimation
reveals global associations between stimuli and biological processes // BMC Bioin-
formatics. 2009. V. 10(Suppl 1):S52.
5. Vergara J.R., Estevez P.A. A review of feature selection methods based on mutual
information // Neural Comput & Applic. 2014. V. 24. P. 175-186.
6. Vapnik V., Izmailov R. Statistical inference problems and their rigorous solutions /
Gammerman A., Vovk V., Papadopoulos H. (eds) Statistical Learning and Data
Sciences. SLDS 2015. Lecture Notes in Computer Science. V. 9047. P. 33-75.
7. Gine E., Nickl R. Mathematical Foundations of Infinite-Dimensional Statistical
Model. Cambridge Academ., 2015.
8. Manton J.H., Amblard P.-O. A Primer on Reproducing Kernel Hilbert Spaces //
Foundations and Trends in Signal Processing. 2014. V. 8. Is. 1. P. 1-26.
9. Scholkopf B., Herbrich R., and Smola A.J. A generalized representer theorem //
Proceedings of the
14th Annual Conference on Computational Learning
Theory and
5th European Conference on Computational Learning Theory,
COLT’01/EuroCOLT’01. 2001. P. 416-426.
10. Айзерман М.А., Браверман Э.М., Розоноэр Л.И. Метод потенциальных функций
в теории обучения машин. М.: Наука, 1970.
85
11. Mikhalskii A.I., Petrov I.V., Tsurko V.V., et al. Application of mutual information
estimation for predicting the structural stability of pentapeptides // RUSS J
NUMER ANAL M. 2020. V. 35. No. 5. P. 263-271.
12. Nekrasov A. Entropy of Protein Sequences: An Integral Approach // J. Biomolec.
Structur. Dynam. 2002. V. 20. P. 87-92.
13. Nekrasov A., Alekseeva L., Pogosyan R., et al. A minimum set of stable blocks for
rational design of polypeptide chains // Biochimie. 2019. V. 160. P. 88-92.
14. Breiman L. Random Forests // Machin. Learning J. 2001. V. 45. No. 1. P. 5-32.
Статья представлена к публикации членом редколлегии А.А. Галяевым.
Поступила в редакцию 12.07.2021
После доработки 03.08.2021
Принята к публикации 26.01.2022
86