Автоматика и телемеханика, № 3, 2021
Оптимизация, системный анализ
и исследование операций
© 2021 г. Ю.С. ПОПКОВ, д-р техн. наук (popkov@isa.ru)
(Федеральный исследовательский центр
“Информатика и управление” РАН, Москва;
Институт проблем управления им. В.А. Трапезникова РАН, Москва),
Ю.А. ДУБНОВ (yury.dubnov@phystech.edu)
(Федеральный исследовательский центр
“Информатика и управление” РАН, Москва;
Национальный исследовательский университет
“Высшая школа экономики”, Москва),
А.Ю. ПОПКОВ, канд. техн. наук (apopkov@isa.ru)
(Федеральный исследовательский центр
“Информатика и управление” РАН, Москва)
ЭНТРОПИЙНО-РАНДОМИЗИРОВАННОЕ ПРОЕКТИРОВАНИЕ1
Предложен новый метод рандомизированного проектирования, ос-
нованный на энтропийной оптимизации случайных матриц-проекторов
(ERP-метод). Введено понятие индикатора компактности матрицы дан-
ных, который сохраняется в матрицах-проекциях. Сформулирован алго-
ритм ERP в виде задачи условной максимизации энтропийного функ-
ционала, заданного на функциях плотности распределения вероятностей
матриц-проекторов. Рассмотрен дискретный вариант этой задачи, полу-
чены условия существования и единственности ее положительного реше-
ния. Развиты процедуры реализации энтропийно-оптимальных матриц-
проекторов путем сэмплирования функций плотности распределения ве-
роятностей (ПРВ).
Ключевые слова: случайное проектирование, сжатие и растяжение мат-
рицы данных, матрицы-проекторы, индикатор компактности, сэмплиро-
вание функции плотности, дисперсионные множества, интерквартильные
множества.
DOI: 10.31857/S0005231021030090
1. Введение
Процедуры машинного обучения, ориентированные на задачи классифи-
кации, кластеризации и прогнозирования, оперируют данными, представлен-
ными в виде матриц “объекты-признаки”, из которых формируются обучаю-
щие и тестовые коллекции данных. В процессе формирования обучающей
1 Работа выполнена при поддержке Российского фонда фундаментальных исследований
(проект № 20-07-00470).
149
коллекции и в особенности в результате ее применения для решения упо-
мянутых выше задач часто оказывается, что признаков недостаточно или
слишком много, так же как и объектов. Другими словами, возникает необ-
ходимость в преобразованиях имеющейся матрицы данных в обучающую и
тестовую коллекции.
Эти преобразования касаются как “сжатия”, так и “растяжения” матрицы
данных. В терминах “объекты-признаки” возникает семейство задач “сжа-
тия”: редукция количества признаков, редукция количества объектов и па-
раллельная редукция того и другого; и семейство задач “растяжения”: рас-
ширение пространства признаков, увеличение количества данных (условных
“объектов”) и параллельное увеличение того и другого. Если преобразова-
ния “сжатия” очень популярны в теории и практике машинного обучения, то
преобразованиям “растяжения” уделяется не столь широкое внимание. Хотя
исследователи, занимающиеся проблемами классификации и кластеризации,
часто сталкивались с тем, что в указанных проблемах в маломерных про-
странствах признаков они неразрешимы или дают низкую точность, тогда
как при увеличении размеров признакового пространства удается решить за-
дачу с хорошей точностью. Аналогичные эффекты наблюдаются и при недо-
статочном количестве данных.
Проблемам “сжатия” матрицы данных посвящена обширная литература,
некоторое представление о которой можно составить по обзорам [1-3] и мо-
нографиям [4-7].
Данная проблема вложена в более общую: приближение заданного на-
бора многомерных точек маломерным аффинным многообразием [8]. Здесь
следует отметить метод главных компонент (МГК) (Principal Component
Analysis (PCA)) [9-11] и его робастные версии [12]. Следует отметить,
что МГК применяется для матриц данных ограниченной размерности, так
как вычисление собственных чисел является весьма трудоемкой задачей.
Для многомерных задач применяют латентный семантический анализ ЛСА
(Latent Semantic Analysis (LSA)), основанный на сингулярном разложении
матрицы [13].
Редуцированные коллекции данных используются для решения различ-
ных задач машинного обучения. Поэтому было бы полезным в процедурах
редукции учитывать проблемную ориентацию их использования. Этот эф-
фект достигается в линейном дискриминационном анализе (ЛДА) (Linear
Discriminant Analysis (LDA)) [14, 15].
Учет в процедурах редукции последующих применений “сжатых” матриц -
тренд, который просматривается в задачах обработки больших объемов дан-
ных: распознавание по видеопотокам, классификация коллекций документов
и др. В этих случаях применяется метод случайных проекций (RP), базирую-
щийся на асимптотическом эффекте проецирования на пространство доста-
точно большой размерности, при котором в среднем сохраняется расстояние
между точками (лемма Джонсона-Линденштраусса [16]). Экспериментально
показано, что для генерации случайных матриц-проекторов может быть ис-
пользовано стандартное нормальное распределение, а в некоторых случаях
равномерное распределение [17-19].
150
Совсем иная ситуация, когда возникает необходимость в “растяжении”
матрицы данных. Наиболее часто такая необходимость имеет место в за-
дачах анализа таких данных, механизмы генерации которых неизвест-
ны. Одной из форм представления данных являются многомерные вре-
менные ряды. Примером таких объектов являются процессы, происходя-
щие в мозгу живых существ и, прежде всего, человека, макро-проявления
которых фиксируются в виде электрических сигналов ЭЭГ [20]. Анало-
гичная ситуация имеет место при отображении биржевой деятельности
в виде временных рядов котировок акций, валют, товаров и финансо-
вых инструментов [21]. В последнее время весьма популярными становят-
ся исследования электорального поведения населения во время выборов,
предсказание которого осуществляется путем анализа ретроспективной ди-
намики процессов выборов, отображенной в соответствующих временных
рядах [22].
В этих работах применялись так называемые модельные конструкции
временных рядов, а формирование признакового пространства осуществля-
лось последовательным отбором признаков с привлечением методов фильтра-
ции [23], условной энтропии [24], взаимной информации “признак-класс” [25],
кросс-энтропии Кульбака-Ляйблера [26].
Однако в некоторых задачах, частично упомянутых выше, использовать
модель временного ряда трудно или невозможно из-за отсутствия знания о
механизмах его происхождения. Поэтому важными являются попытки отоб-
ражения компонент временного ряда в конечный набор чисел признаков
многомерного временного ряда. Полагая, что многомерный временной ряд
кодирует свойства объекта, последнее означает, что формируется признако-
вое пространство объекта.
В [27] была предложена процедура безмодельного отображения временно-
го ряда в конечную совокупность характеризующих его чисел, основанную на
теории ε-сложности. В дальнейшем [28, 29] эта процедура была тестирована
на задачах бинарной классификации одного класса ЭЭГ-сигналов в области
психиатрии. Результаты этих исследований показали, с одной стороны, что
технология ε-сложности может служить основой для безмодельной класси-
фикации временных рядов, а с другой что для достижения удовлетво-
рительной точности классификации возникает необходимость в увеличении
размерности признакового пространства.
В данной работе развивается новый метод “сжатия” и “растяжения” мат-
рицы c не вполне достоверными данными, основанный на построении ран-
домизированных матриц-проекторов (ERP-метод). Развит алгоритм опти-
мизации функции плотности распределения вероятностей (ПРВ) матриц-
проекторов с учетом сохранения индикатора компактности матрицы дан-
ных. Алгоритм сформулирован в терминах условной максимизации энтро-
пийного функционала, определенного на функциях ПРВ матриц-проекторов.
При этом оптимальные оценки функций ПРВ соответствуют условиям макси-
мальной неопределенности. Реализация рандомизированных матриц-проек-
торов осуществляется путем сэмплирования оптимальных ПРВ с исполь-
зованием bootstrap-процедуры и метода Монте-Карло [30, 31]. Рассмотре-
ны задачи рандомизированного проектирования с фиксированными эле-
151
ментами множества матриц-проекторов, на котором определена дискретная
функция распределения вероятностей. Сформулирован алгоритм ее оптими-
зации и выбора полезных числовых характеристик множества случайных
матриц-проекторов.
2. Формулировки задач энтропийно-рандомизированного
проектирования
1. Точечно-множественное представление матрицы данных: индикатор
компактности
Рассмотрим матрицу данных “объекты-признаки”:
u(1)
{
}
(2.1)
U(m×s) = ···
,
u(i) = u(i)1,... ,u(i)
∈Rs
,
i = 1,m.
s
u(m)
Здесь m количество объектов, s количество признаков, Rs признаковое
пространство. Будем полагать, что элементы матрицы данных стандартизо-
ваны, т.е. uij ∈ [0, 1], i = 1, m, j = 1, s.
Точечно-множественным отображением матрицы U(m×s) в признаковом
{
}
пространстве Rs(m) будем называть множество Usm точек
u(1),... ,u(m)
В качестве характеристики разброса точек в множестве Usm определим ин-
дикатор компактности ρU как среднее арифметическое расстояний между
точками2:
(
)
2
(2.2)
ρU =
̺ u(α),u(β)
,
m(m - 1)
(α,β)=1, α<β
(
)
где ̺
u(α),u(β)
расстояние между точками u(α), u(β). Если элементы мат-
рицы данных стандартизованы и выбрано евклидово расстояние, то
(
)
0≤̺ u(α),u(β)
2
для всех (α, β) = 1, m,
(2.3)
0≤ρU
≤ 1.
Определим следующие классы трансформаций матрицы данных:
• (mr)-класс: U(m×s) → Y(m×r), множество Yrm в пространстве Rr(m);
• (ns)-класс: U(m×s) → B(n×s), множество Bsn в пространстве Rs(n);
• (nr)-класс: U(m×s) → Z(n×r), множество Zrn в пространстве Rr(n).
2 Могут быть выбраны и другие индикаторы, например максимальное расстояние меж-
ду точками и др.
152
2. Случайные матрицы-проекторы и их вероятностные характеристики
1. Проектирование на пространство Rr(m) (генерация множества Yrm).
Эту операцию будем осуществлять с помощью матрицы-проектора Q(s×r):
y(1)
Y(m×r) = ···
=U(m×s)Q(s×r);
y(m)
(2.4)
y(i)j =
uikqkj, i = 1,m; j = 1,r.
k=1
Матрица-проектор Q(s×r) случайная интервального типа, т.е.
(2.5)
Q(s×r) ∈ Q = [Q-,Q+
].
Вероятностные свойства матрицы-проектора характеризуются непрерывно-
дифференцируемой функцией плотности распределений вероятностей (ПРВ)
P (Q), определенной на Q.
Векторы y(i) образуют множество Yrm из m r-мерных точек. Определим
расстояние между ними ̺(y(α), y(β) | Q(s×r)) и индикатор компактности
(
)
2
(2.6)
ρY (Q) =
̺ y(α),y(β)
|Q(s×r)
m(m - 1)
(α,β)=1, α<β
Поскольку значения элементов матрицы-проектора случайные числа, то
среднее расстояние (2.6) принимает случайные значения.
Определим математическое ожидание индикатора компактности:
(2.7)
ρY = P (Q)ρY
(Q)dQ.
Q
2. Проектирование на пространство R(n×s) (генерация множества Bsn).
Эту операцию осуществим с помощью матрицы-проектора T(n×m) со слу-
чайными элементами:
b(1)
B(n×s) = ···
=T(n×m)U(m×s);
b(n)
(2.8)
b(i)j =
tik ukj, i = 1,n; j = 1,s.
k=1
Матрица-проектор T(n×m) случайная интервального типа, т.е.
(2.9)
T(n×m) ∈ T = [T-,T+
].
153
Ее вероятностные свойства характеризуются функцией ПРВ W (T ), опреде-
ленной на T .
Векторы b(i) образуют множество Bsn из s-мерных точек в количестве
n < m. Определим индикатор компактности в виде
2
(2.10)
ρB(T) =
̺(b(α), b(β)
|T)
n(n - 1)
(α,β), α<β
и его математическое ожидание:
(2.11)
ρB = W (T )ρB(T )dT.
T
3. Проектирование на пространство Rr(n) (генерация множества Zrn).
Эту операцию будем осуществлять с помощью случайных матриц-проек-
торов Tn×m и Q(s×r):
z(1)
(2.12)
Z(n×r) = ···
=T(n×m)U(m×s)Q(s×r);
z(n)
z(i)
= tip upkqkj,
i = 1,n; j = 1,r.
j
p=1
k=1
Указанные матрицы-проекторы интервального типа:
T(n×m) ∈ T = [T-,T+],
(2.13)
Q(s×r) ∈ Q = [Q-,Q+
].
Вероятностные свойства матриц-проекторов характеризуются функцией сов-
местного ПРВ F (T, Q), определенной на множестве
(2.14)
F =T
Q.
Векторы z(i) образуют множество Zrn из r-мерных точек. Индикатор компакт-
ности этого множества:
2
(2.15)
ρZ(T,Q) =
̺(zα, zβ
|T,Q).
n(n - 1)
(α,β), α<β
Математическое ожидание индикатора компактности имеет вид
(2.16)
ρZ = F (T, Q)ρZ(T, Q)dT dQ.
F
Соотношения между размерами (m, s) матрицы данных и размерами
(m, r), (n, s), (n, r) матриц-проекций характеризуют ее “сжатие” или “растя-
жение”: если r < s, n < m, то “сжатие”; если r > s, n > m, то “растяжение”.
154
3. Алгоритмы энтропийно-рандомизированного проектирования
Рассмотрим проектирование на пространство Rr(n), которое осуществляет
трансформацию матрицы данных одновременно по двум ее параметрам.
Алгоритм энтропийно-рандомизированного проектирования (ERP-алго-
ритм) представляет собой MEE-оценку функции ПРВ F(T,Q) с включен-
ным в нее условием балансирования (равенства) индексов компактности мат-
риц данных U(m×s) и проекции Z(n×r).
MEE-оценка [32] функции F(B,Q) определяется следующим алгоритмом:
(3.1)
H[F (T, Q)] = -
F (T, Q) ln F (T, Q) dT dQ ⇒ max,
F
F (T, Q)dT dQ = 1,
F
F (T, Q)ρZ (T, Q)dT dQ = ρU .
F
Задача (3.1) является функциональной задачей на условный экстремум ля-
пуновского типа: все их компоненты являются интегральными функциона-
лами [33].
Интегральная форма этой задачи позволяет использовать для формули-
ровки условий оптимальности функционал Лагранжа со скалярными множи-
телями Лагранжа:
L[F (T, Q)] = H[F (T, Q)] + µ1 - F (T, Q)dT dQ +
F
(3.2)
+ λρU - F(T,Q)ρZ(T,Q)dTdQ .
F
В терминах производных Гато [33] (GF ) условия стационарности функциона-
ла Лагранжа приобретают следующий вид:
(3.3)
GF
L[F (T, Q)] = 0.
Энтропийно-оптимальная функция ПРВ матриц-проекторов имеет вид [32]
exp (-λ ρZ (T, Q))
(3.4)
F(T,Q|λ) =
,
F(λ)
F(λ) = exp (-λ ρZ (T, Q)) dT dQ.
F
155
Из выражений (3.4) видно, что структура функции ПРВ зависит от вы-
бранной функции расстояний (2.15) и не зависит от параметра λ, определяе-
мого из уравнения баланса индикаторов компактности:
(3.5)
Φ(λ) = exp (-λ ρZ (T, Q)) (ρZ (T, Q) - ρU
) dT dQ = 0.
F
Поскольку параметр λ является масштабным, можно использовать его при-
ближенное значение, получаемое из линеаризованного уравнения (3.5):
Z (T, Q) - ρU ) dT dQ
λ=
F
(3.6)
ρZ(T,Q)(ρZ(T,Q) - ρU )dTdQ
F
Пример 1. Пусть матрица данных и индикаторы компактности, постро-
енные на евклидовом и манхэттенском расстояниях, имеет вид
0,1
0,8
;
U(3×2) = 0,5 0,4
ρEU = 0,506, ρMU = 0,933.
0,9
0,2
Рассмотрим проектирование на пространство R2(1):
Z(2×1) = z(2) = T(2×3)U(3×2)q(2),
где
(
)
(
)
0
0
0
1
1
1
T = [T-,T+], T- =
;
T+ =
;
0
0
0
1
1
1
(
)
(
)
-1
1
Q = [q-,q+], q- =
,
q+ =
-1
1
Вектор z(2) имеет следующие компоненты:
z1 = q1
t1juj1 + q2
t1juj2, z2 = q1
t2juj1 + q2
t2juj2.
j=1
j=1
j=1
j=1
Рассмотрим два вида расстояний между элементами вектора z:
евклидово
2
ρEZ(T,q) = (z1 - z2)2
=q1
uj1(t1j - t2j) - q2
uj2(t1j - t2j)
;
j=1
j=1
манхэттенское
ρMZ (T,q) = |z1 - z2| =
q1
uj1(t1j - t2j) - q2
uj2(t1j - t2j).
j=1
j=1
156
Энтропийно-оптимальные ПРВ случайных матриц-проекторов (3.4) имеют
вид:
для евклидового расстояния
(
)
exp
-λ ρEZ(T,q)
(3.7)
F∗E(T,q |λ) =
,
F(λ)
(
)
FE(λ) = exp
-λρEZ(T,q)
dT dq;
F
для манхэттенского расстояния
(
)
exp
-λ ρMZ (T,q)
(3.8)
F∗M (T,q |λ) =
,
F(λ)
(
)
FM (λ) = exp
-λρMZ (T,q)
dB dq.
F
Параметр λ определяется из следующих уравнений для евклидова и манхэт-
тенского расстояний соответственно:
(
)(
)
(3.9)
exp
-λρEZ(T,q)
ρEZ(T,q) - δ ρEU
dT dq = 0,
F
(
)(
)
exp
-λρMZ (T,q)
ρMZ (T,q) - δ ρMU
dT dq = 0.
F
В равенствах (3.7)-(3.9)
F =T
Q.
Качественное представление о морфологии многомерных функций ПРВ (3.7),
(3.8) дают некоторые их сечения.
a) матрица-проектор T задана:
(
)
1
0
1
T =
0
1
0
Соответствующие сечения ненормированных функций (3.7), (3.8) имеют вид:
[
)
F∗E(T,q) ∼ exp
-λ(0,41q1 - 0,28q2)2
,
(q1, q2) ∈ [-1, 1],
F∗M (T,q) ∼ exp [-λ|0,41q1 - 0,28q2|) , (q1,q2) ∈ [-1,1].
б) матрица-проектор T и вектор-проектор q(2) имеют вид:
(
)
(
)
0
1
0
q1
T =
,
q(2) =
t21
0
1
-1
157
Соответствующие сечения ненормированных функций (3.7), (3.8) имеют вид:
[
)
F∗E(T,q) ∼ exp
-λ(-0,1q1t21 - 0,4q1 + 0,8t21 + 0,2)2
,
q1 ∈ [-1,1], t21 ∈ [0,1],
F∗M (B,q) ∼ exp [-λ| - 0,1q1t21 - 0,4q1 + 0,8t21 + 0,2|) ,
q1 ∈ [-1,1], t21 ∈ [0,1].
Заметим, что полученные ПРВ случайных проекторов энтропийно-опти-
мальны для соответствующей матрицы данных и существенно отличаются от
нормального распределения, рекомендуемого для применения при случайном
проектировании (см., например [19]).
4. Реализация случайных проекторов и их числовых характеристик
Стандартный способ реализации случайных проекторов состоит в сэм-
плировании энтропийно-оптимальных ПРВ P (Q), W (T ), F (T, Q), при кото-
рых сохраняется межвекторное расстояние матрицы данных в ее матрицах-
проекциях. В результате сэмплирования ПРВ трансформируются в последо-
вательность случайных матриц-проекторов:
(
)
(
)
(4.1)
F(T,Q) ⇒ T(1),Q(1)
,..., T(N),Q(N)
,...
Общий метод генерации случайных последовательностей с заданной функ-
цией ПРВ изложен в [34]. Свойство сохранения указанного выше баланса
может не выполняться для каждого в отдельности элемента этой последова-
тельности, но “в среднем” оно выполняется. Поэтому в качестве реализуемого
эмпирического проектора можно принять матрицы
1
(4.2)
T ≈
T(i),
Q≈1
Q(i).
N
N
i=1
i=1
Точные значения “средних” матриц-проекторов определяются следующими
равенствами:
(4.3)
T = T F(T,Q)dTdQ,
Q=
QF(T,Q)dTdQ.
F
F
Хотя интегралы в этих равенствах многомерные, но подынтегральные функ-
ции представляют собой экспоненты от полиномов. Это часто позволяет по-
лучить аналитические формулы для вычисления многомерных интегралов.
Кроме того проблему вычисления многомерных интегралов можно решить
приближенными методами: методом Монте-Карло и методами полиномиаль-
ной аппроксимации подынтегральных функций.
Функция ПРВ F(T, Q) определена на ограниченном множестве F (2.14).
Поэтому в качестве реализуемого проектора может быть использована пара
матриц
(4.4)
(T, Q) = arg max
F (T, Q).
F
158
5. Cлучайные матрицы-проекторы с заданными значениями элементов
1. Множество (0, 1)-матриц-проекторов и его упорядочение
Рассмотрим процедуру проектирования на пространство Rr(m), осуществ-
ляемого матрицей-проектором Q(s×r) со случайными элементами, принима-
ющими значения 0 или 1.
Представим матрицу вектором-строкой длины sr. Количество различных
последовательностей из 0 и 1, т.е. количество различных векторов-строк рав-
но N = 2rs. В качестве примера для s = 3, r = 1 таких векторов будет 8:
000, 100, 010, 001, 110, 011, 101, 111;
для s = 4, r = 1 их будет 16:
0000, 1000, 0100, 0010, 0001, 1100, 0110, 0011,
1001, 0101, 1010, 1111, 1110, 0111, 1011, 1101.
Для матрицы-проектора Q(s×r) существует конечное множество Q ее (0, 1)-
реализаций:
(5.1)
Q = {Q(1),...,Q(N)},
N =2sr.
Полагая, что реализации случайные, их вероятностные свойства будем харак-
теризовать функцией дискретного распределения вероятностей (ДРВ) W (α)
с дискретным носителем α ∈ A = [1, N], где
(5.2)
W (α) = w = {wα
α = 1,N}.
Матрица-проекция
y(α)(1)
Y(α)(m×r) =
U(m×s)Q(α)(s×r);
=
(5.3)
y(α)
(m)
y(α,i)j =
uikq(α)kj, i = 1,m; j = 1,r.
k=1
Индикатор компактности множества Y(α):
(
)
2
(5.4)
ρ(α)Y(Q) =
̺(α) y(κ),y(β) |Q(α)
(s×r)
m(m - 1)
(κ,β)=1, κ<β
Упорядочим последовательность (5.1) в соответствии со следующей последо-
вательностью неравенств:
(5.5)
0 < ρ(1)Y(Q) < ρ(2)Y(Q) < ··· < ρ(N)Y
(Q).
159
2. MEE-оценка функций ДРВ
MEE-оценка функции ДРВ W (α) определяется следующим алгоритмом:
(5.6)
H(w) = - wα ln wα
⇒ max
α=1
при ограничениях:
нормировка
(5.7)
wα
= 1,
α=1
баланс индикаторов компактности
(5.8)
wα ρ(α)Y(Q) = ρU .
α=1
Задача (5.6)-(5.8) является конечномерной задачей на условный экстре-
мум с вогнутой целевой функцией (информационной энтропией) и линейны-
ми ограничениями-равенствами.
Рассмотрим функцию Лагранжа
(
) (
)
(5.9)
L(w, λ) = H(w) + µ
1-
wα
+ λ ρU - wαρ(α)Y(Q)
α=1
α=1
Из условий стационарности этой функции получаем, что энтропийно-опти-
мальное распределение вероятностей имеет вид
(
)
(α)
exp
-λρ
(Q)
Y
(5.10)
w∗α =
,
α = 1,N,
(
)
exp
-λρ(α)Y(Q)
α=1
где параметр λ определяется из следующего уравнения:
(
)(
)
(5.11)
exp
-λρ(α)Y(Q) ρ(α)(Q) - ρU
= 0,
-∞ < λ < ∞.
Y
α=1
Воспользуемся заменой z = exp(-λ). Тогда уравнение (5.11) примет вид
(5.12)
ϕ(z) =
zhα cα = 0, z ≥ 0; cα = (hα - ρU ), hα = ρ(α)Y.
α=1
160
Теорема 1. Пусть существует α = l такое, что
cα < 0
для α = 1, . . . , l,
(5.13)
cα
≥0
для α = l + 1, . . . , N,
и согласно (5.5)
(5.14)
0<h1 <h2 <···<hl <hl+1 <···<hN.
Тогда уравнение (5.12) имеет единственное положительное решение z > 0.
Доказательство приведено в Приложении.
3. Стратегии выбора “подходящей” матрицы-проекции из Q (5.1)
Энтропийно-оптимальная ДРВ W(α) = w∗α, α = 1, N (5.12) характери-
зует вероятности реализации элементов (матриц-проекторов) из множе-
ства Q (5.1). Но для формирования конкретной матрицы-проекции Y(m×r)
необходима конкретная матрица-проектор из множества Q. Можно предло-
жить следующие стратегии для осуществления указанного выбора.
1. Матрица-проекция с максимальной вероятностью. Пусть в (5.5) раз-
ность Δρ = ρ(N)Y - ρ(1)Y достаточно велика. Это означает, что в ДРВ (5.12)
максимальное значение вероятности существенно больше минимального. То-
гда реализуемая матрица-проектор имеет номер
(5.15)
α = arg max
w∗α.
1≤α≤N
2. Средняя матрица-проектор. В случае, когда Δρ = ρ(N)Y - ρ(1)Y мала, воз-
растание последовательности {ρ(α)} происходит с небольшой скоростью. По-
этому целесообразнее использовать осреднение для определения реализуемой
матрицы-проектора:
(5.16)
α = αw∗α,
α
= ⌊α⌋,
α=1
где ⌊•⌋ целая часть числа •.
3. Медианная матрица-проектор определяется следующим равенством:
(5.17)
w∗α =
w∗α.
α=1
α=α+1
4. Осреднение матриц-проекций. Данная стратегия состоит из следую-
щих этапов. На первом этапе выделяются подмножества матриц-проекторов,
обладающие определенными свойствами. На втором формируется подмно-
жество соответствующих им матриц-проекций. Затем вычисляется средняя
матрица-проекция.
Если второй и третий этапы связаны со стандартными для математической
статистики вычислениями, то первый требует дополнительных комментари-
ев. Выделение подмножеств матриц-проекторов основано на правилах, ко-
торые отображают желаемые свойства этих подмножеств. В зависимости от
161
правила выделения подмножества матриц-проекторов будем различать дис-
персионные и интерквартильные подмножества.
Рассмотрим дисперсионные подмножества, для чего вычислим средне-
квадратичное значение (с.к.з.) переменной α:
(5.18)
σ∗α = ⌊σ⌋,
σ=
Dα, Dα = (α - α)2wα.
α=1
Определим дисперсионный интервал
[
]
(5.19)
Iα = α - σ∗α + σ
α
Дисперсионное подмножество:
{
}
Q=Qα),...,Qα)
(5.20)
Для каждого элемента этого подмножества вычисляются соответствующие
матрицы-проекции:
{
}
(5.21)
Y = Yα)(m×r),...,Yα)
(m×r)
На последнем этапе вычисляется средняя по дисперсионному множеству
матрица-проекция:
α∗α
1
(5.22)
YD(m×r) =
Y(α)(m×r).
∗α
α=α∗α
Рассмотрим процедуру формирования интерквартильных подмножеств.
Энтропийно-оптимальная функция распределения вероятностей, согласно
(5.10), имеет вид
(5.23)
F(β) =
w∗α
,
β ∈ [0,N].
α=1
Напомним, что κ-квартилью случайной переменной α является множе-
ство A) ее значений [1, β], где β есть целая часть решения уравнения
F(β) = κ.
Рассмотрим два квартильных множества: A1) и A2), причем κ∗1 > κ∗2.
Каждому из этих множеств соответствуют подмножества матриц-проекто-
ров:
{
}
Q(κ∗1
)= Q(1),...,Q(α(κ1))
,
{
}
(5.24)
Q(κ∗2
)= Q(1),...,Q(α(κ2))
,
162
где α(κ) - количество элементов в подмножестве Q(κ). Образуем подмноже-
ство матриц-проекторов
{
}
(5.25)
Q(κ∗1 - κ∗2)= Q(α(κ2)),...,Q(α(κ1))
,
которое является (κ∗1 - κ∗2)-интерквантильным подмножеством I12)
энтропийно-оптимальных матриц-проекторов. Количество элементов в этом
подмножестве равно M∗2) = α(κ1) - α(κ2).
1
Для каждого элемента подмножества Q(κ∗1 - κ∗2) (5.25) вычисляются соот-
ветствующие матрицы-проекции
{
}
(5.26)
Y(κ∗1 - κ∗2) = Yα(κ2),...,Yα(κ1)
(m×r)
(m×r)
Средняя по подмножеству I12) матрица-проекция:
α(κ∗1)
1
(5.27)
YK(m×r) =
Yα(m×r).
M)
1
2
α=α(κ∗2)
6. Алгоритм энтропийно-рандомизированного проектирования
с заданными значениями элементов матриц-проекторов
dERP -алгоритм состоит из двух последовательных этапов. На первом вы-
числяется энтропийно-оптимальная ДРВ на множестве заданных матриц-
проекторов, сохраняющая индикатор компактности матрицы данных. Второй
этап состоит в реализации “подходящей” матрицы-проектора из заданного
множества с учетом энтропийно-оптимальной ДРВ.
Алгоритм 1 (dERP-алгоритм).
Шаг 0. Нормировка матрицы-данных
uij - umin
uij :=
,
i = 1,m; j = 1,s.
umax - umin
Шаг 1. Вычисление индикатора компактности матрицы данных
2!(m - 2)!
ρU :=
̺(u(β), u(γ)).
m!
β,γ=1, γ<β
Шаг 2. Генерация множества Q матриц-проекторов с элементами 0,1
Q(α),
α = 1,N, N = 2rs.
Шаг 3. Формирование множества Y матриц-проекций с элементами
y(α)i,k :=
ui,νq(α)ν,k,
i = 1,m, k = 1,r,
ν=1
163
и векторами-строками
{
}
yαν := y(α)ν,1,... ,y(α)
,
ν = 1,m.
ν,r
Шаг 4. Вычисление индикаторов компактности матриц-проекций
ρ(α)Y :=2!(m-2)!
̺(y(ν), y(µ)),
α = 1,N.
m!
ν,µ=1, ν<µ
Шаг 5. Определение значения множителя Лагранжа λ из уравнения
(
)(
)
exp
-λρ(α)Y(Q) ρ(α)(Q) - ρU
= 0,
-∞ < λ < ∞,
Y
α=1
и определение энтропийно-оптимальной ДРВ
(
)
(α)
exp
-λρ
(Q)
Y
w∗α =
α = 1,N.
(
),
exp
-λρ(α)Y(Q)
α=1
Шаг 6. Формирование и выбор стратегий реализации энтропийно-опти-
мальных матриц-проекторов:
матрица-проекция с максимальной вероятностью
Q) : α = arg maxw(α |λ);
α
средняя матрица-проекция
Q(α) : α =
αw∗α;
α=1
медианная матрица-проектор
N
Q(α) :
=
w∗α;
α=1
α=α+1
средняя по дисперсионному подмножеству матрица-проекция
1
α∗α
YD(m×r) =
Y(α)(m×r),
∗α
α=α∗α
средняя по (κ∗1 - κ∗2)-интерквартильному подмножеству матрица-
проекция
α(κ∗1)
1
YK(m×r) =
Yα(m×r).
M)
1
2
α=α(κ∗2)
Матрицы-проекции, вычисляемые на 6-м шаге алгоритма, могут исполь-
зоваться как исходные матрицы данных для решения задач машинного обу-
чения.
164
7. Заключение
Предлагается новый метод “сжатия” и “растяжения” матрицы данных, ос-
нованный на энтропийно-рандомизированном проектировани (ERP). Сфор-
мулирован алгоритм ERP в виде задачи условной максимизации функциона-
ла энтропии, определенного на функциях ПРВ матриц-проекторов. Получе-
ны условия существования и единственности положительного решения в ука-
занной задаче. Рассмотрен случай конечных множеств матриц-проекторов,
на которых существуют дискретные функции распределения вероятностей
(ДРВ) и сформулирован алгоритм их энтропийной оптимизации. Реализа-
ция энтропийно-рандимизированных проекций осуществляется сэмплирова-
нием оптимальных ПРВ (ДРВ), генерацией множеств матриц-проекторов и
использованием их числовых характеристик: средних, медианных, средних
по дисперсионному или интерквартильному множеству.
ПРИЛОЖЕНИЕ
Доказательство теоремы 1. Воспользуемся условиями (5.13), (5.14),
и уравнение (5.12) представим в виде
N zhαcα
(Π.1)
φ(z) =α=l+1
= 1.
zhαcα
α=1
Согласно (5.5) hl+1 - h1 > 0, и
N zhαcα + cl+1
(Π.2)
φ(z) = z(hl+1-h1)α=l+2
zhαcα + c1
α=2
Отсюда следует, что
φ(0) = 0.
Представим теперь функцию φ(z) в виде
zhα-hN cα + cN
(Π.3)
φ(z) = z(hN -hl)α=l+1
zhα-hlcα + cl
α=1
Нетрудно увидеть, что
φ(∞) = +∞.
165
Рассмотрим производную
l
cβ cα(hα - hβ)z(hβ-hα)
(Π.4)
φ(z) =β=1α=l+1(
)2
> 0.
cα zhα
α=1
Следовательно, функция φ(z) монотонно-возрастающая, и уравнения (Π.1),
(Π.2) имеют единственное положительное решение z > 0.
СПИСОК ЛИТЕРАТУРЫ
1.
Carreira-Perpinan M.A. A review of dimension reduction techniques. Tachnical
report CS-96-09, Department of Computer Science, University of Sheffield, 1997.
2.
Imola K. A survey of dimension reduction techniques. Center for Applied Scientific
Computing, Lawrence Livermore National Laboratory, 2002.
3.
Cunningham P. Dimension Reduction. Technical Report UCD-CSI-2007-7, Univer-
sity College Dublin, 2007.
4.
Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная
статистика. Классификация и снижение размерности. М.: Финансы и стати-
стика, 1989.
5.
Friedman J., Hastie T., Tibshirani R. Element of Statistical Learning: Prediction,
Inference and Data Mining. Springer, 2001.
6.
Bishop C. Pattern Recognition and Machine Learning, ser. Information Science and
Statistics, Springer, 2006.
7.
Comon P., Jutten C. Handbook of Blind Source Separation. Independent Compo-
nent Analysis and Applications. Academic Press, Oxford UK, 2010.
8.
Bruckstein A.M., Donoho D.L., Elad M. From Sparse Solutions of Systems of Equa-
tions to Sparse Modeling of Signals and Images. SIAM Rev. 2009. V. 51. No. 1.
P. 34-81.
9.
Pirson K. On lines and planes of closest fit to systems of points in space // Philo-
sophical Magazine. 1901. V. 2. P. 559-572.
10.
Кендал М.Дж., Стюарт А. Статистические выводы и связи / Пер. с англ. М.:
Наука, 1973.
11.
Jolliffe I.T. Principal Component Analysis. N.Y. Springer-Verlag, 2002.
12.
Поляк Б.Т., Хлебников М.В. Метод главных компонент: робастные версии //
АиТ. 2017. № 3. C. 130-148.
Polyak B.T., Khlebnikov M.V. Principle component analysis: Robust versions //
Autom Remote Control 2017. V. 78. P. 490-506.
https://doi.org/10.1134/S0005117917030092.
13.
Deerwester S.C., Dumias S.T., Landaurer T.K., Furnas G.W., Harshman R.A.
Indexing by latent semantic analysis // J. American Society of Information Sciences.
1990. V. 41. No. 6. P. 391-407.
14.
Fisher R.A. The Use of Multiple Measurements in Taxonomic Problems // Annals
of Eugenics. 1936. V. 7. P. 179-188.
15.
McLachlan G.J. Discriminant Analysis and Statistical Pattern Recognition. Wiley
Interscience, 2004.
166
16.
Johnson W.B., Lindenstrauss J. Extension Of Lipshitz mapping into Hilbert
space // In: Conference in modern analysis and probability. American Mathematical
Society. 1984. V. 26. P. 189-206.
17.
Achlioptas D. Database-friendly random projections // Proceedings of the twentieth
ACM Symposium on Principles of database systems. P. 274-281.
18.
Bingham E., Mannila H. Random projection in dimensionality reduction: applica-
tions to image and text data // Proceedings of the seventh ACM SIGKDD inter-
national conference on Knowledge discovery and data mining. P. 245-250.
19.
Vempala S.S. The random projection method. American Mathematical Society,
2005. V. 65.
20.
Ганин И.П., Косиченко Е.А., Каплан А.Я. Особенности ЭЭГ-реакций на эмоци-
онально значимые стимулы в тезнологии интерфейса мозг-компьютер на волне
Р300 // Журн. высш. нерв. деятельности им. И.П. Павлова. 2017. Т. 67. № 4.
С. 453-463.
21.
Huber F., Zorner T.O. Threshold cointegrationin international exchange rates:
A Bayesian approach // International Journal of Forecasting. 2019. V.
35.
P. 458-473.
22.
Kosinskia M., Stillwella D., Groepelb T. Private traits and attributtes are pre-
dictable from digital records of human behaviour // Proceedings of the National
Agademy of Sciences of the USA. 2013. 110(15). P. 5802-5805.
23.
Blum A., Langly P. Selection of relevant feature and examples in machine learn-
ing // Artificial Intelligence. 1997. V. 97. Nos. 1-2. P. 245-271.
24.
Cover T.M., Thomas J.A. Elements of Information Theory. N.Y.: John Wiley and
Sons, 1991.
25.
Peng H.C., Long F., Ding C. Feature selection based on mutual information: criteria
of max-dependency, max-relevance, and min-redudancy // IEEE Transaction on
Pattern Analysis and Machine Intelligence. 2005. V. 27. No. 8. P. 1226-1238.
26.
Zhang Y., Li S., Wang T., Zhang Z. Divergence-based feature selection for separate
classes // Neurocomputing. 2013. V. 101. P. 32-42.
27.
Дарховский Б.С., Каплан А.Я., Шишкин С.Л. О подходе к оценке сложности
кривых (на примере электроэнцефалограммы человека) // АиТ. 2002. № 3.
С. 134-140.
Darhovsky B.S., Kaplan A.Ya., Shishkin S.L. On an Approach to the Estimation
of the Complexity of Curves (Using as an Example an Electroencephalogram of a
Human Being) // Autom. Remote Control. 2002. V. 63. No. 3. P. 468-474.
28.
Дарховский Б.С., Пирятинская А. Новый подход к проблеме сегментации вре-
менных рядов произвольной структуры // Труды МИАН им. В.А. Стеклова.
2014. Т. 287. С. 61-74.
29.
Darhovsky B., Piryatinska A. Quickest detection of changes in the generating mech-
anism of a time series via the ε-complexity of continuous functions // Sequantial
Analysis. 2014. V. 33. P. 231-250.
30.
Efron B. Bootstrap Methods: Another Look at the Jackknife // Annals of Statistics.
1979. V. 7. No. 1. P.1-26.
31.
Bach F.R. Bolasso: model consistent Lasso estimation through the bootstrap //
Proceedings of the 25-th International Conference on Machine Learning. 2008.
P. 33-40.
32.
Попков Ю.С. Асимптотическая эффективность оценок максимальной энтро-
пии // Доклады Российской Академии Наук. Математика, Информатика, Про-
цессы Управления. 2020. Т. 493. С. 104-107.
https://doi.org/10.31857/S2686954320040165.
167
Popkov Y.S. Asymptotic Efficiency of Maximum Entropy Estimates // Doklady
Mathematics. 2020. V. 102. No. 1. P. 350-352.
https://doi.org/10.1134/S106456242004016X.
33. Иоффе А.Д., Тихомиров В.М. Теория экстремальных задач. М.: Наука, 1974.
34. Дарховский Б.С., Попков Ю.С., Попков А.Ю., Алиев А.С. Метод генерации
случайных векторов с заданной функцией плотности распределения вероятно-
стей // АиТ. 2018. № 9. С. 31-45. https://doi.org/10.31857/S000523100001408-2.
Darkhovsky, B.S., Popkov, Y.S., Popkov, A.Y., Aliev, A.S. A Method of Generating
Random Vectors with a Given Probability Density Function // Autom. Remote
Control. 2018. V. 79. No. 9. P. 1569-1581.
Статья представлена к публикации членом редколлегии А.И. Кибзуном.
Поступила в редакцию 12.07.2020
После доработки 23.09.2020
Принята к публикации 28.10.2020
168