ЖУРНАЛ ОБЩЕЙ ХИМИИ, 2019, том 89, № 2, с. 288-300
УДК 544.354.081.7:004.021
КЛАССИФИКАЦИЯ И ПРОГНОЗИРОВАНИЕ
УСТОЙЧИВОСТИ КОРОНАТОВ НАТРИЯ И КАЛИЯ В
ВОДНО-ОРГАНИЧЕСКИХ РАСТВОРИТЕЛЯХ МЕТОДАМИ
РАЗВЕДОЧНОГО АНАЛИЗА
© 2019 г. Н. В. Бондарев*
Харьковский национальный университет имени В. Н. Каразина, пл. Свободы 4, Харьков, 61022 Украина
*e-mail: bondarev_n@rambler.ru
Поступило в Редакцию 19 августа 2018 г.
После доработки 19 августа 2018 г.
Принято к печати 30 августа 2018 г.
На основе многомерного разведочного анализа данных построены линейные классификационные
функции Фишера, канонические линейные дискриминантные функции, деревья (правила) классификации
и прогнозирования устойчивости коронатов натрия (18-краун-6Na+) и калия (18-краун-6K+) по свойствам
водно-органических растворителей: вода-метанол, вода-пропанол-2 и вода-ацетонитрил. Предложенный
подход к прогнозированию класса устойчивости коронатов апробирован на независимых
экспериментальных данных о константах устойчивости коронатов натрия и калия в смесях вода-диоксан
и вода-ацетон. Показано, что построенные классификационные функции и правила обладают довольно
высоким прогностическим потенциалом.
Ключевые слова: разведочный анализ, константа комплексообразования, коронаты натрия и калия,
водно-органические растворители, эмпирические параметры
DOI: 10.1134/S0044460X19020197
Разведочные методы анализа данных (фактор-
катионами щелочных металлов Na+ (NaL) и K+
ный анализ, кластерный анализ, анализ дискрими-
(KL), полученные нами ранее при 25°C, в водно-
нантных функций, канонические корреляции,
метанольных
[22-27], водно-изопропанольных
деревья классификации и др.)
[1-3] содержат
[28, 29] и водно-ацетонитрильных растворителях
универсальные алгоритмы, предназначенные для
[30, 31] с шагом 0.1 мол. доли (объем выборки n =
выявления закономерностей в многомерных
33) и свойства смешанных водно-органических
данных, что позволяет исследователю обоснованно
растворителей - ε, EТ, BKT и δ2, числовые значения
выбирать статистическую модель, которая
которых взяты из источников [32-35].
наилучшим образом характеризует реальное
В комплексообразовании участвуют электроно-
поведение исследуемой системы. Поэтому эти
донор (краун-эфир 18С6) и электроноакцепторы
методы успешно применяются для решения
(катионы щелочных металлов), поэтому устой-
актуальных задач химии [4-7], медицины [8-11],
чивость образующегося короната в водно-
биологии
[12,
13], здравоохранения
[14-16],
органическом растворителе зависит как от
гидрохимии и гидроэкологии [17-19], техногенной
электростатических эффектов (диэлектрическая
безопасности [20] психологии и образования [21].
проницаемость среды, ε), так и от электроно-
Цель данной работы заключается в класси-
акцепторной и электронодонорной способностей
фикации и прогнозировании класса устойчивости
молекул смешанного растворителя. В качестве
коронатов натрия и калия по свойствам водно-
количественной меры этих свойств растворителя
органических растворителей алгоритмами методов
используются сольватохромный параметр Димрота-
разведочного анализа. Для анализа использованы
Райхардта (EТ), отражающий специфическую
экспериментальные данные о константах
льюисову кислотность растворителя, и параметр
устойчивости комплексов
18С6 эфира (L) c
Камлета-Тафта (BKT), отвечающий за его льюисову
288
КЛАССИФИКАЦИЯ И ПРОГНОЗИРОВАНИЕ УСТОЙЧИВОСТИ КОРОНАТОВ НАТРИЯ
289
Таблица 1. Расчетные и табличные значения критериев проверки гипотезы нормальности распределения переменныха
Расчетное значение
критерий Шапиро-Уилка,
критерий Хи-квадрат Пирсона,
критерий Колмогорова-
Переменная
W
расч
χрасч
Смирнова, Dрасч
1/ε
0.863
5.352
0.177
ET
0.976
2.282
0.124
BKT
0.961
1.413
0.126
δ2
0.957
1.407
0.079
lgK18C6Na
0.965
0.981
0.099
lgK18C6K
0.956
0.318
0.138
Табличное значение (n = 33, р = 0.05)
Wтабл
χтабл
Dтабл
0.931
5.991
0.231
а n
- объем выборки, p - уровень значимости. Если табличное значение Wтабл меньше расчетного значения Wрасч, то нулевая
гипотеза о нормальном распределении не отклоняется при уровне значимости р = 0.05. Если Dтабл > Dрасч и χтабл > χрасч, то нулевая
гипотеза о нормальном распределении переменных принимается при уровне значимости р = 0.05.
основность. Кроме этих параметров, важное
ции устойчивости коронатов натрия и калия;
значение имеет плотность энергии когезии (когези-
7) подтверждение прогностической мощности
онное давление, δ2). Поскольку величина δ2
построенных классификационных функций и
фактически является мерой энергии, которую надо
правил классификации.
затратить на преодоление сил притяжения только
Первичный анализ данных. Проведена
между молекулами растворителя, то в общем
проверка характера распределения переменных на
случае когезионное давление определяет энергию
нормальность (табл.
1)
в соответствии с
необходимую для образования в растворителе
требованиями ГОСТа
[40] по статистикам
полости, которая может быть заполнена исход-
критериев Шапиро-Уилка, Хи-квадрат Пирсона и
ными реагентами и продуктами комплексо-
Колмогорова-Смирнова. Из анализа данных табл. 1
образования.
следует,
что эмпирическое распределение
Для сопоставительного анализа устойчивости
анализируемых переменных практически не
коронатов в разных растворителях термодинами-
отличается от нормального.
ческие константы комплексообразования стандар-
Факторный анализ. В среде SPSS
23 для
тизованы по аквамоляльной концентрационной
обоснования правомерности проведения фактор-
шкале
[37,
38]. Обработку экспериментальных
ного анализа данных
[3] рассчитаны критерии
данных проводили в статистических средах
сферичности Бартлетта и адекватности выборки
SТATISTICA 12 и SPSS 23 для Windows [39]. Она
Кайзера-Майера-Олкина (КМО): для 18С6Na+ χ2 =
включала: 1) первичный анализ данных, вычис-
206.22 (число степеней свободы 10, p = 0.00),
ление описательных статистик, проверку нормаль-
КМО = 0.684; для 18С6K+ χ2 = 162.03 (число
ности распределения;
2) факторный анализ
-
степеней свободы 10, p = 0.00), КМО = 0.600.
построение корреляционных матриц, выделение
Высокие значения критерия Бартлетта (χ2табл =
латентных факторов;
3) кластерный анализ
-
18.307) и КМО (от 0.5 до 1.0) указывают на
алгоритм древовидной кластеризации, итерацион-
целесообразность проведения факторного анализа
ный алгоритм k-средних;
4) дискриминантный
взаимосвязи констант устойчивости коронатов и
анализ Фишера - построение линейных классифи-
свойств водно-органических растворителей.
кационных функций; 5) канонический дискрими-
нантный анализ
- построение канонических
Методом главных компонент по выборочной
линейных дискриминантных функций; 6) деревья
совокупности шести переменных вычислены
классификации - построение правил классифика-
корреляционная матрица системы используемых
ЖУРНАЛ ОБЩЕЙ ХИМИИ ТОМ 89 № 2 2019
290
БОНДАРЕВ
отбрасывали факторы, соответствующие собствен-
Таблица 2. Корреляционная матрица переменных
ные значения которых мало отличались. Величины
Коэффициенты корреляции, n = 33
собственных значений и веса факторов
показывают, что значения исследуемых свойств
1/ε
ET
BKT
δ2
lgK
lgKNaL
систем константа комплексообразования-свойства
среды определяются преимущественно двумя
1/ε
-1.00
-0.83
-0.90
-0.64
-0.35
-0.51
факторами: действием фактора F1 на 49.43% для
комплекса
18С6Na+ и на 52.42% для
18С6K+;
ET
-0.83
-1.00
-0.76
-0.73
-0.49
-0.65
действием фактора F2 на 44.66% (18С6Na+) и на
BKT
-0.90
-0.76
-1.00
-0.51
-0.34
-0.41
39.55% (18С6K+). Анализ признаковой структуры
фактора F1 позволяет заключить, что нагрузка
δ2
-0.64
-0.73
-0.51
-1.00
-0.85
-0.97
этого фактора определяется свойствами среды 1/ε
lgKKL
-0.35
-0.49
-0.34
-0.85
-1.00
-0.93
(-0.9103 и -0.9405), ET (0.7599 и 0.8120), BKT
lgKNaL
-0.51
-0.65
-0.41
-0.97
-0.93
-1.00
(-0.9487 и
-0.9367). Причем фактор F1 имеет
значимую отрицательную связь с 1/ε и BKT и более
слабую, но положительную связь с ET. Такой
свойств смешанных растворителей и констант
характер связи свойств среды с первым фактором
устойчивости NaL и KL (табл. 2), ее собственные
позволяет заключить, что фактор F1 отвечает за
значения, факторные нагрузки и веса факторов
влияние свойств водно-органического раство-
(табл. 3). Проведенный корреляционный анализ
рителя на процесс образования комплексов между
показывает, что константы устойчивости коро-
краун-эфиром и катионами натрия и калия.
натов натрия lgKNaL и калия lgKKL проявляют
Фактор F2 несет в себе 44.66% (18С6Na+) и
сильную отрицательную взаимосвязь с плотностью
39.55% (18С6K+) информации о рассматриваемых
энергии когезии δ2 и умеренную положительную и
системах. Анализ признаковых нагрузок этого
отрицательную взаимосвязь с
1/ε, BKT и ET
фактора показывает, что он имеет значимую
соответственно. Следует отметить, что как отрица-
отрицательную связь с константами устойчивости
тельная, так и положительная взаимосвязь между
коронатов натрия lgKNaL = -0.9691 и калия lgKKL =
свойствами водно-органических растворителей
-0.9641, а также значимые положительные связи с
характеризуется коэффициентами корреляции,
плотностью энергии когезии δ2 (0.9300 и 0.8728).
превышающими 0.5.
Такая признаковая структура фактора F2 дает
Для отбора латентных факторов (F1 и F2)
основание
полагать,
что
связь
между
применены метод главных компонент, критерий
устойчивостью коронатов и плотностью энергии
каменистой осыпи и процедура ортогонального
когезии рассматриваемых водно-органических
варимакс-вращения факторов
[39]. При этом
растворителей носит антибатный характер.
Таблица 3. Факторные нагрузки, собственные значения и веса факторов
18С6Na+
18С6K+
Параметр
факторные нагрузки
F1
F2
F1
F2
1/ε
-0.9103
-0.3346
-0.9405
-0.2477
ET
-0.7599
-0.5310
-0.8120
-0.4438
BKT
-0.9487
-0.1870
-0.9367
-0.1665
δ2
-0.3476
-0.9300
-0.4278
-0.8728
lgK
-0.2110
-0.9691
-0.1298
-0.9641
Собственные значения
-2.4715
-2.2329
-2.6212
-1.9773
Вес фактора, %
49.4300
44.6600
52.4200
39.5500
ЖУРНАЛ ОБЩЕЙ ХИМИИ ТОМ 89 № 2 2019
КЛАССИФИКАЦИЯ И ПРОГНОЗИРОВАНИЕ УСТОЙЧИВОСТИ КОРОНАТОВ НАТРИЯ
291
Переменные
Рис. 1. Дендрограмма иерархической классификации
Рис. 2. График средних для трех кластеров устойчивости
устойчивости короната калия.
короната натрия.
Кластерный анализ. В работе реализованы два
третьих кластеров есть отличия, отмеченные
метода кластерного анализа: агломеративный
-
полужирным шрифтом.
объединение, или дерево кластеризации,
и
Выполненный кластерный анализ данных
дивизивный - кластеризация k-средними.
позволяет интерпретировать содержимое трех
На рис.
1 приведена дендрограмма иерар-
кластеров (классов): кластер
1
- умеренно
хической классификации устойчивости короната
устойчивые коронаты в смешанных растворителях
калия (lgK: С_1-С_33) по свойствам водно-
промежуточного состава (lgKNaL = 1.5-2.5, lgKKL =
органических
растворителей.
Кластеризация
3.1-3.9); кластер 2 - устойчивые комплексы в раство-
выполнена методом Варда с использованием евкли-
рителях с большим содержанием органического
дового расстояния в качестве метрики прост-
компонента и в чистых неводных растворителях
ранства. На расстоянии, равном 5, существуют 3
(lgKNaL = 2.6-4.3, lgKKL = 4.0-5.2); кластер 3 - слабо
кластера; при увеличении расстояния до
13
устойчивые коронаты в воде и смешанных
количество кластеров становится равным двум, а
растворителях с большим содержанием воды
на расстоянии, равном 21, остался один кластер.
(lgKNaL = 0.5-1.4, lgKKL = 2.0-3.0).
На рис. 2 приведен график средних значений по
Любая кластеризация всегда носит субъек-
каждому кластеру, который показывает наиболь-
тивный характер, потому что выполняется на
шее различие между тремя выделенными клас-
основе конечного набора переменных и разными
терами. Точки их средних значений по пяти
алгоритмами, каждый из которых имеет свои
переменным находятся на самых больших
достоинства, недостатки и ограничения
[1].
расстояниях друг от друга, что особенно
Поэтому для подтверждения результатов кластер-
характерно для параметров 1/ε и lgK. Результаты
ного анализа в работе проведен дискриминантный
дисперсионного анализа свидетельствуют (табл. 4),
и канонический анализ данных, а также построены
что разделение на кластеры проведено успешно.
деревья решений (правила классификации).
Уровень значимости р у критерия Фишера
значительно меньше 0.05 для всех переменных и
Дискриминантный анализ. Цель дискрими-
наблюдаемый критерий Фишера больше крити-
нантного анализа состояла в том, чтобы на основе
ческого Fнабл > Fкр.
независимых параметров (свойств водно-
Сравнивая результаты кластеризации по
органических растворителей) классифицировать
алгоритмам k-средних и древовидной класте-
константы устойчивости коронатов натрия или
ризации (табл.
5 на примере короната калия)
калия, то есть отнести их к одному из трех классов,
можно заключить, что содержимое первых
выделенных итерационным методом k-средних
кластеров совпадает, а в содержимом вторых и
(табл. 6).
ЖУРНАЛ ОБЩЕЙ ХИМИИ ТОМ 89 № 2 2019
292
БОНДАРЕВ
Таблица 4. Результаты дисперсионного анализа переменных комплексообразования 18С6 эфира с катионами натрия и
калия методом k-средниха
σ1
ν1
σ2
ν2
F
p
Переменная
18С6Na+
1/ε
14.60
2
11.78
30
18.60
0.000006
ET
00.31
2
0.26
30
17.71
0.000008
BKT
00.46
2
0.72
30
9.59
0.000601
δ2
01.33
2
0.31
30
64.48
0.000000
lgKNaL
24.57
2
7.43
30
49.64
0.000000
18С6K+
1/ε
22.85
2
3.54
30
96.94
0.000000
ET
00.31
2
0.26
30
17.95
0.000007
BKT
00.77
2
0.40
30
28.80
0.000000
δ2
01.08
2
0.55
30
29.40
0.000000
lgKKL
23.88
2
8.12
30
44.14
0.000000
а σ1
- межгрупповая дисперсия; σ2 - внутригрупповая дисперсия; ν1, ν2 - степени свободы; F(2, 30) - наблюдаемый критерий
Фишера [Fкр(2, 30, p 0.05) = 2.04]; р - наблюдаемый уровень значимости.
Таблица 5. Результаты кластерного анализа
Разбиение выборки (33 наблюдения) на 3 кластера
Кластер 1
Кластер 2
Кластер 3
Aгломеративная кластеризация (7 + 12 + 14)
16, 17, 18, 19, 20, 21, 22
6, 28, 29, 7, 30, 8, 31,
1, 12, 23, 2, 24, 13, 3, 25, 4, 26, 5, 27, 14, 15
9, 32, 33, 10, 11
Кластеризация k-средними (7 + 10 + 16)
16, 17, 18, 19, 20, 21, 22
7, 8, 9, 10, 11, 29, 30, 31, 32, 33
1, 2, 3, 4, 5, 6, 12, 13, 14, 15, 23, 24, 25, 26, 27, 28
Таблица 6. Результаты дискриминантного анализа (алгоритм - переменные в модели)
Группирующая переменная: Кластер NaL (3 кластера);
Λ-Уилкса: 0.120; Fнабл(6, 56) = 17.620, p < 0.000; Fкр(6, 56) = 2.25
Параметр
Λ-Уилкса
частная Λ-Уилкса
Fиск
p-уровень
δ2
0.363
0.330
28.415
0.000
1/ε
0.153
0.784
3.858
0.033
BKT
0.142
0.847
2.538
0.097
Группирующая переменная: Кластер KL (3 кластера);
Λ-Уилкса: 0.024; Fнабл(6, 56) = 50.616, p < 0.000; Fкр(6, 56) = 2.25
1/ε
0.133
0.183
62.554
0.000
δ2
0.128
0.189
59.984
0.000
BKT
0.028
0.870
2.091
0.142
ЖУРНАЛ ОБЩЕЙ ХИМИИ ТОМ 89 № 2 2019
КЛАССИФИКАЦИЯ И ПРОГНОЗИРОВАНИЕ УСТОЙЧИВОСТИ КОРОНАТОВ НАТРИЯ
293
Таблица 7. Матрица классификации для моделей Кластер NaL и Кластер KLа
% правильной
Кластер
Cluster1NaL
Cluster2NaL
Cluster3NaL
классификации
Кластер NaL
Cluster1NaL
100
10
0
0
Cluster2NaL
100
0
12
0
Cluster3NaL
90.91
1
0
10
Всего, %
96.97
11
12
10
Кластер KL
Cluster1NaL
100
7
0
0
Cluster2KL
100
0
10
0
Cluster3KL
93.75
0
1
15
Всего, %
96.97
7
11
15
а Строки матрицы - наблюдаемая классификация методом k-средних, столбцы матрицы - предсказанная классификация
дискриминантным анализом Фишера.
Для дискриминации констант устойчивости
Частная Λ-Уилкса, характеризующая единичный
коронатов использован линейный дискриминан-
вклад соответствующей переменной в разделитель-
тный анализ Фишера, реализованный в
ную силу модели, подтверждает этот вывод. Чем
статистическом
пакете
STATISTICA
12.
меньше значение частной Λ-Уилкса, тем больший
Представляют интерес основные сведения о методе
вклад этой переменной в общую дискриминацию.
анализа, а также о переменных, включенных в
Наряду с этим, чем меньше значение критерия
дискриминантную
модель,
и
значения
Фишера Fискл и больше p-уровень (табл. 6), тем
статистических показателей (табл. 6). Значение Λ-
менее желательны переменные в модели
Уилкса для модели Кластер NaL равно 0.120, а для
дискриминации. Поэтому переменная BKT в обеих
модели Кластер KL - 0.024. Таким образом, обе
дискриминационных моделях менее информа-
модели демонстрируют хорошую дискриминацию
тивна, так как для нее р > 0.05.
констант устойчивости по трем кластерам, но
дискриминирующая мощность второй модели в 5
Числовые значения линейных классифика-
раз выше, чем у первой.
ционных функций можно рассчитать по формулам
(1)-(3) для модели Кластер NaL и (4)-(6) для
Значения Fнабл-статистики [Fнабл(6, 56) = 17.620,
модели Кластер KL.
p < 0.000 для первой модели и Fнабл(6, 56) = 50.616,
p
<
0.000 для второй модели], связанной с
Cluster1NaL = -27.947 + 63.800δ2 + 0.258(1/ε)
величиной Λ-Уилкса, свидетельствуют о
+ 16.875BKT,
(1)
статистической значимости моделей дискримина-
Cluster2NaL = -18.312 + 37.767δ2 + 5.991(1/ε)
ции, так как Fнабл(6, 56) > Fкр(6, 56).
+ 2.491BKT,
(2)
Из данных табл. 6 следует, что только две
Cluster3NaL = -42.167 + 87.120δ2 - 0.144(1/ε)
переменные (1/ε и δ2) наиболее информативны: чем
+ 8.568BKT,
(3)
больше значение Λ-Уилкса, тем более желательна
Cluster1KL = -293.310 + 143.620(1/ε) + 286.877δ2
эта переменная в процедуре дискриминации.
- 101.121BKT,
(4)
Однако, если в первой модели Кластер NaL эти
Cluster2KL = -116.617 + 88.495(1/ε) + 184.117δ2
переменные желательны в процедуре дискрими-
- 58.796BKT,
(5)
нации в следующем порядке: δ2, 1/ε, то во второй
модели Кластер KL переменные по силе
Cluster3KL = -142.763 + 93.421(1/ε) + 214.505δ2
- 62.089BKT.
(6)
дискриминации расположены в обратном порядке.
ЖУРНАЛ ОБЩЕЙ ХИМИИ ТОМ 89 № 2 2019
294
БОНДАРЕВ
Таблица 8. Характеристика извлеченных канонических
достаточно высокой дискриминирующей способ-
корнейа
ности моделей и подтверждают результаты
дивизивной кластеризации констант устойчивости
Корень
Co
R
R2
Λ
χ2
ν
p
коронатов методом k-средних.
0
13.52
0.965
0.931
0.024
107.87
6
0.000
Канонический анализ. Результаты канони-
1
1.84
0.805
0.648
0.352
30.27
2
0.000
ческого анализа позволили определить (табл. 8)
а R
- коэффициент канонической корреляции, R2 - коэф-
вклад двух канонических линейных дискрими-
фициент детерминации, χ2
- значение статистики Хи-
нантных функций в дисперсию исследованных
квадрат, ν - число степеней свободы, p - уровень значимости
независимых параметров
- свойств водно-
соответствующего канонического корня, Λ
- значение
статистики Λ Уилкса, Со - собственное значение.
органических растворителей.
Первая каноническая линейная дискрими-
нантная функция извлеченных канонических
Подставив в эти уравнения значения свойств
корней описывает наибольшую часть дисперсии
свойств
водно-органических
растворителей.
водно-органических растворителей, которые не
использовались при построении линейных
Вторая каноническая линейная дискриминантная
классификационных функций, можно предсказать
функция описывает наибольшую часть дисперсии
свойств, оставшихся не объясненными первой
класс устойчивости коронатов натрия или калия в
этих растворителях по рассчитанному значению
канонической
линейной
дискриминантной
функцией. В табл. 8 эти значения канонической
линейной классификационной функции. Константа
корреляции равны 0.965 и 0.805.
устойчивости при этом будет отнесена к
конкретному классу (первому, второму или
Следовательно, анализ канонической модели,
третьему) по наибольшему числовому значению
включающей два канонических корня (табл. 8),
линейных классификационных функций.
описывающих структуру зависимости исследуемой
Матрица классификации (табл.
7) позволяет
совокупности
факторов
(свойств
водно-
оценить качество линейных классификационных
органических растворителей), свидетельствует о
функций. На диагонали матрицы содержится
том, что имеющая между ними многомерная
количество констант устойчивости коронатов
взаимосвязь, может быть описана с позиции двух
натрия или калия, корректно классифицированных
наиболее информативных канонических функций,
в кластеры. Как видно из таблицы, общий вклад
объясняющих
93.1 и
64.8% всей дисперсии
правильной классификации в двух моделях
исследуемых переменных.
составляет
96.97%. К кластеру Cluster3NaL
Уравнения для расчета двух канонических
правильно отнесены 10 констант устойчивости из
линейных дискриминантных функций для каждой
11, что составляет
90.91% правильной класси-
дискриминантной модели имеют следующий вид:
фикации. Одна константа устойчивости короната
натрия ошибочно отнесена к первому классу
- для модели Кластер NaL
Cluster1NaL. К кластеру Cluster3KL правильно
D1,NaL = 4.227 - 8.738δ2 + 1.128(1/ε) - 1.264BKT,
(7)
отнесены 15 констант устойчивости из 16, процент
D2,NaL = 0.007 - 1.670δ2 - 2.683(1/ε) + 12.732BKT
(8)
правильной классификации составляет
93.75%.
При этом одна константа устойчивости ошибочно
– для модели Кластер KL
классифицирована алгоритмом дискриминантного
D1,KL = -16.508 + 6.100(1/ε) + 10.021δ2 - 4.715BKT,
(9)
анализа во второй кластер Cluster2KL. Таким
образом, данные табл.
7 свидетельствуют о
D2,KL = 6.649 - 0.582(1/ε) - 8.415δ2 + 0.278BKT.
(10)
Таблица 9. Средние канонических переменных (центроиды кластеров)
Кластер NaL
Кластер KL
Кластер
D1,NaL
D2,NaL
D1,KL
D2,KL
Cluster1
-0.308
-0.598
-6.744
-0.160
Cluster2
-2.828
-0.221
-2.137
-1.796
Cluster3
-2.805
-0.303
-1.615
-1.193
ЖУРНАЛ ОБЩЕЙ ХИМИИ ТОМ 89 № 2 2019
КЛАССИФИКАЦИЯ И ПРОГНОЗИРОВАНИЕ УСТОЙЧИВОСТИ КОРОНАТОВ НАТРИЯ
295
D1,NaL
Рис. 3. Распределение констант устойчивости коронатов
натрия по трем кластерам в координатах первой и
второй канонических линейных дискриминантных
Рис.
4. Граф дерева классификации устойчивости
функций.
короната натрия.
Функции D1,NaL и D1,KL в каждой из двух
одной ветви идут те константы устойчивости, для
моделей наиболее важны, так как ответственны за
которых правило выполняется (левый потомок), по
97.3 и
88.0% объясненной дисперсии свойств
другой - те, для которых правило не выполняется
водно-органических растворителей.
(правый потомок).
Константа устойчивости комплексов, для
На рис. 4 приведен граф дерева классификации
которой по свойствам водно-органического
устойчивости короната натрия. Первоначально все
растворителя рассчитаны значения канонических
33 константы алгоритм приписывает к корневой
линейных дискриминантных функций Dl и D2,
вершине ветвления. На рисунке она помечена
классифицируется в кластер по минимальному
цифрой 1 в левом верхнем углу корня дерева. Все
расстоянию до соответствующего центроида
33 константы устойчивости короната натрия
кластера. Поэтому в табл. 9 приведены координаты
предварительно классифицируются как Cluster2 (на
центроидов трех кластеров в каждой из
это указывает цифра 2 в правом верхнем углу
рассматриваемых моделей. В каждой модели три
вершины). Cluster2 был выбран алгоритмом для
кластера достаточно отчетливо дискриминируются
начальной классификации потому, что число
между собой первой дискриминантной функцией
констант устойчивости во втором кластере
D1. В качестве примера приведен рис. 3.
немного большее (12), чем в первом (10) и третьем
(11) кластерах (на это указывает гистограмма,
Деревья принятия решений. Построены
изображенная внутри корневой вершины).
классификационные
модели,
позволяющие
прогнозировать класс
устойчивости коронатов
Корневая вершина разветвляется на две новые
натрия и калия по свойствам водно-органических
вершины. Текст под корневой вершиной описывает
растворителей (разделять константы устойчивости
схему ветвления. Если константы устойчивости
между тремя кластерами) и решать, какое свойство
короната натрия характеризуются свойством
будет наиболее целесообразным признаком
растворителя 1/ε меньшим или равным 1.67, то они
классификации.
отнесены алгоритмом к вершине номер
2 и
Для принятия решения о целесообразности
предположительно классифицированы как Cluster3,
использования того или иного свойства
а константы устойчивости в растворителях с 1/ε >
растворителя для классификации устойчивости
1.67 приписаны к вершине 3 и классифицированы
коронатов натрия или калия выбран алгоритм
как Cluster2. Числа 10 и 23 над вершинами 2 и 3
CART (Classification and Regression Tree). Задачей
соответственно обозначают число констант
алгоритма является построение бинарных деревьев
устойчивости в этих двух дочерних вершинах
решений путем разделения на каждом шаге
после первого ветвления родительской корневой
множества констант устойчивости на две ветви. По
вершины. Затем точно также разветвляется
ЖУРНАЛ ОБЩЕЙ ХИМИИ ТОМ 89 № 2 2019
296
БОНДАРЕВ
Таблица 10. Структура дерева классификации для модели Кластер KL
Левая
Правая
Сlaster
Сlaster
Сlaster
Предсказанный
Константа
Переменная
Вершина
вершина
вершина
1
2
3
кластер
ветвления
ветвления
1
2
3
7
10
16
3
1.67
1/ε
2
0
0
15
3
-
3
4
5
7
10
1
2
0.64
BKT
4
0
10
0
2
-
5
7
0
1
1
-
Таблица 11. Рассчитанные значения (линейных классификационных функций по уравнениям (1)-(6) и предсказанные
кластеры
Мол. доля S
Cluster1NaL
Кластер
Cluster2NaL
Кластер
Cluster3NaL
Кластер
Вода-диоксан (S)
0.0
39.4
25.9
46.5
3
0.1
37.1
27.1
40.6
3
0.2
33.5
30.0
34.0
3
Вода-ацетон (S)
0.0
39.4
25.9
46.5
3
0.1
37.7
24.8
41.0
3
0.2
34.1
23.5
34.6
3
0.3
29.3
1
22.3
27.6
0.4
24.1
1
21.2
20.4
Мол. доля S
Cluster1
Кластер
Cluster2
Кластер
Cluster3
Кластер
KL
KL
KL
Вода-диоксан (S)
0.0
118.0
144.8
153.4
3
0.1
169.6
176.6
185.3
3
0.2
277.4
1
242.8
253.4
0.3
426.2
1
334.0
348.0
0.4
612.7
1
448.3
467.0
Вода-ацетон (S)
0.0
117.8
144.7
153.3
3
0.1
107.4
138.4
144.9
3
0.2
114.0
142.2
147.3
3
0.3
131.9
152.7
156.7
3
0.4
154.9
166.3
169.4
3
0.5
177.2
179.5
181.7
3
0.55
186.3
184.9
186.5
3
ЖУРНАЛ ОБЩЕЙ ХИМИИ ТОМ 89 № 2 2019
КЛАССИФИКАЦИЯ И ПРОГНОЗИРОВАНИЕ УСТОЙЧИВОСТИ КОРОНАТОВ НАТРИЯ
297
вершина 3. В результате 10 констант устойчивости
Таблица
12. Рассчитанные по уравнениям
(7)-(10)
в растворителях со значением плотности энергии
значения канонических линейных дискриминантных
функций и предсказанные кластеры
когезии δ2 меньшими или равными
0.530
приписываются алгоритмом к вершине
4 и
Мол. доля S
D1,NaL
D2,NaL
Кластер
классифицируются как Cluster2, а остальные
Вода-диоксан (S)
константы устойчивости короната натрия в
растворителях с δ2 > 0.530 - к вершине 5 и
0.0
-3.6
-1.9
3
классифицируются как Cluster1. Таким образом,
0.1
-2.4
-1.4
3
точность классификации алгоритмом СART
составляет 90.9%. Три константы устойчивости
0.2
-0.7
-2.7
3
классифицированы ошибочно
- две константы
Вода-ацетон (S)
устойчивости из второго кластера и одна константа
0.0
-3.6
-1.9
3
устойчивости из третьего кластера отнесены к
первому кластеру.
0.1
-2.9
0.2
3
В табл. 10 приведена структура дерева класси-
0.2
-2.0
0.8
3
фикации устойчивости короната калия по свой-
0.3
-1.0
0.5
1
ствам водно-органических растворителей. В этой
0.4
0.1
-0.3
1
таблице результатов кластеризации вершины 2, 4 и
5 отмечены как терминальные (-), так как в них не
0.5
1.2
-0.9
1
происходит ветвление. Дерево классификации на
Мол. доля S
D1,KL
D2,KL
Кластер
97.0% подтвердило результаты кластерного
анализа устойчивости коронатов калия, проведен-
Вода-диоксан (S)
ного итерационным методом k-средних. Только
0.0
-1.3
-2.3
3
одна константа третьего класса ошибочно отнесена
алгоритмом CART в первый кластер.
0.1
1.0
-1.9
3
Вода-ацетон (S)
По аналогии с ранее рассмотренной моделью
Кластер NaL для модели Кластер KL также можно
0.0
-1.3
-2.3
3
построить правило классификации (табл. 10). Если
0.1
-1.6
-1.7
3
значение 1/ε растворителей меньше или равно 1.67,
константы устойчивости короната калия в этих
0.2
-1.2
-1.1
3
растворителях классифицируют как Cluster3. Если
0.3
-0.3
-0.6
3
значение 1/ε > 1.67, а значение параметра Камлета-
0.4
0.9
-0.1
3
Тафта растворителей меньше или равно
0.64,
константы устойчивости короната калия в таких
0.5
2.0
0.4
3
растворителях классифицируют как Cluster2, а в
0.55
2.4
0.7
3
растворителях с BKT
>
0.64
константы
классифицируют как Cluster1.
табл. 11, канонических линейных дискриминан-
тных функций, числовые значения которых
Предсказательный потенциал алгоритмов
рассчитаны по формулам (7)-(10) и приведены в
разведочных методов анализа. Критерием
табл. 12, а также построенных правил класси-
достоверности построенных классификационных
фикации устойчивости коронатов (табл.
13).
функций и правил является проверка их прогности-
ческих возможностей. Проверка предсказательной
Следует отметить, что в литературе есть данные о
константах устойчивости коронатов натрия и калия
способности использованных в работе алгоритмов
в смешанных растворителях вода-диоксан и вода-
разведочного
анализа
была
реализована
ацетон с содержанием органического компонента
прогнозированием класса устойчивости коронатов
натрия и калия по свойствам водно-диоксановых
только до 0.55 мол. доли [41-44].
[41] и водно-ацетоновых [42-44] растворителей с
Из анализа данных, приведенных в табл. 11-13,
использованием полученных линейных классифика-
следуют важные выводы. Во-первых, свойства
ционных функций, числовые значения которых
водно-органических растворителей, выбранные для
рассчитаны по формулам (1)-(6) и приведены в
выявления особенностей влияния среды на
ЖУРНАЛ ОБЩЕЙ ХИМИИ ТОМ 89 № 2 2019
298
БОНДАРЕВ
Таблица 13. Предсказательная способность деревьев решений при классификации устойчивости коронатов натрия и
калия в смесях вода-диоксан и вода-ацетон
1/ε
lgKKL
Правило, кластер
1/ε
lgKKL
Правило, кластер
Мол. доля S
вода-диоксан (S)
вода-ацетон (S)
0
1.000
2.04
1/ε ≤ 1.67
3
1.000
2.04
1/ε ≤ 1.67
3
0.1
1.645
2.67
1/ε ≤ 1.67
3
1.237
2.53
1/ε ≤ 1.67
3
0.2
2.625
3.32
1.514
2.99
1/ε < 1.67
3
Мол. доля S
1/ε
lgKNaL
Правило, кластер
1/ε
lgKNaL
Правило, кластер
0
1.000
0.52
1/ε ≤ 1.41
3
1.000
0.52
1/ε ≤ 1.41
3
0.1
1.645
1.38
1.237
1.29
1/ε ≤ 1.41
3
устойчивость коронатов натрия и калия, являются
4. Jaumot J., Eritja R., Gargallo R.
// Anal. Bioanal.
статистически значимыми. Во-вторых, построен-
Chem. 2011. Vоl. 399. N 6. P.1983. doi 10.1007/s00216-
010-4310-7
ные линейные классификационные функции
Фишера и канонические линейные дискриминан-
5. Fang S.C., Chang I.-C., Yu, T.Y. // J. Coast. Res. 2015.
Vol. 31. N 5. Р. 1183. doi 10.2112/JCOASTRES-D-13-
тные функции обладают бόльшим прогно-
00179.1
стическим потенциалом (табл. 11, 12), чем деревья
6. Бондарев Н.В. // ЖОХ. 2016. Т. 86. Вып. 6. С. 887;
классификации (табл.
13).
В-третьих, для
Bondarev N.V. // Russ. J. Gen. Chem. 2016. Vol. 86.
повышения прогностической мощности алгорит-
N 6. P. 1221. doi 10.1134/S1070363216060025
мов разведочного анализа необходимо пополнение
7. Бондарев Н.В. // ЖОХ. 2017. Т. 87. Вып. 2. С. 207;
массива данных как по константам устойчивости
Bondarev N.V. // Russ. J. Gen. Chem. 2017. Vol. 87.
коронатов, так и по свойствам водно-органических
N 2. Р. 188. doi 10.1134/S1070363217020062
растворителей. В-четвертых, представляется акту-
8. Hauben M., Hung E., Hsieh W.-Y. // Ther. Adv. Drug
альным использование результатов первичного
Saf.
2017. Vol.
8. N
1. P.
4. doi
10.1177/
разведочного анализа данных при проведении
2042098616670799
множественного регрессионного анализа и
9. Gorrochategui E., Jaumot J., Lacorte S., Tauler R. //
нейросетевого моделирования
[7] для решения
TrAC Trends Anal. Chem. 2016. Vol. 82. P.
425.
задач нелинейной регрессии (аппроксимации) и
doi 10.1016/j.trac.2016.07.004
предсказания класса устойчивости коронатов
10. Zarei K., Taheri F. // Russ. Chem. Bull. 2016. Vol. 65.
натрия и калия по свойствам водно-органических
N 4. P. 1131. doi 10.1007/s11172-016-1424-x
растворителях.
11. Ташкинов А.А., Вильдеман А.В., Бронников В.А. //
Рос. ж. биомех. 2008. Т. 12. № 4 (42). С. 84.
КОНФЛИКТ ИНТЕРЕСОВ
12. Wiles L., Brodahl M. Weed Science. 2004. Vol. 52. N 6.
P. 936. doi 10.1614/WS-03-068R
Авторы заявляют об отсутствии конфликта
13. Kaneene J.B., Miller R.A., Sayah R., Johnson Y.J.,
интересов.
Gilliland D., GardinerJ.C. // Appl. Environ. Microbiol.
2007. Vol. 73. N 9. P. 2878. doi 10.1128/AEM.02376-06
СПИСОК ЛИТЕРАТУРЫ
14. Eisenberg J.N.S., McKone T.E.
// Environ. Sci.
Technol. 1998. Vol. 32. N 21. P.3396. doi 10.1021/
1. Тьюки Дж. Анализ результатов наблюдений.
es970975s
Разведочный анализ. М.: Мир, 1981. 696 с.
15. Qiu S., Gao L., Wang J. // J. Food Eng. 2015. Vol. 144.
2. Dillon W.R., Goldstein M. Multivariate Analysis:
P. 77. doi 10.1016/j.jfoodeng.2014.07.015
Methods and Applications. New York: Wiley,
1984.
16. Халафян А.А., Темердашев З.А., Гугучкина Т.И.,
587 p.
Якуба Ю.Ф. // Аналитика и контроль. 2017. Т. 21.
№ 2. С. 161. doi 10.15826/analitika.2017.21.2.010
3. Ким Дж.-О., Мьюллер Ч.У., Клекка У.Р.,
Олдендерфер М.С., Блэшфилд Р.К. Факторный,
17. Kumar M., Singh Ya. // J. Water Resource Protect. 2010.
дискриминантный и кластерный анализ. М.:
Vol. 2. N 10. P. 860. doi 10.4236/jwarp.2010.210102
Финансы и статистика, 1989. 215 с.
18. Moghimi H. // Open J. Geol. 2017. Vol. 7. N 6 P. 830.
ЖУРНАЛ ОБЩЕЙ ХИМИИ ТОМ 89 № 2 2019
КЛАССИФИКАЦИЯ И ПРОГНОЗИРОВАНИЕ УСТОЙЧИВОСТИ КОРОНАТОВ НАТРИЯ
299
doi 10.4236/ojg.2017.76057
Наука, 1989. 256 с.
19. Кошелева Н.Е., Власов Д.В., Корляков И.Д., Каси-
33. Зайцева И.С., Ельцов С.В., Кабакова Е.Н., Бонда-
мов Н.С. // Вестн. Пермск. НИПУ. Прикладная
рев Н.В. // ЖОХ. 2003. Т. 73. Вып. 7. С. 1079;
экология. Урбанистика.
2018.
№ 1. С. 36. doi
Zaitseva I.S., El’tsov S.V., Kabakova E.N., Bondarev N.V. //
10.15593/2409-5125/2018.01.03
Russ. J. Gen. Chem. 2003. Vol. 73. N 7. P. 1021. doi
20. Williams B.A., Onsman A., Brown G.T. // J. Emerg.
10.1023/B:RUGC.0000007603.08621.7e
Prim. Health Care. 2010. Vol. 8. N 3. P. 1.
34. Афанасьев В.Н., Ефремова Л.С., Волкова Т.В.
21. Тютюник В.В., Бондарев Н.В., Шевченко Р.И.,
Физикохимические свойства бинарных раство-
Черногор Л.Ф., Калугин В.Д. // Геоінформатика.
рителей. Водосодержащие системы. Иваново:
Київ: Інститут геологічних наук НАН України, 2014.
ИХНР, 1988. 413 с.
№ 4(52). С. 63.
35. Kalidas C., Hefter G., Marcus Y. // Chem. Rev. 2000.
22. Переселко В.Ф., Шевченко И.А., Жолновач А.М.,
Vol. 100. N 3. P. 819. doi 10.1021/cr980144k
Бондарев Н.В. // ЖОХ. 1995. Т. 65. Вып. 3. С. 363.
36. Райхардт К. Растворители и эффекты среды в
23. Переселко В.Ф., Липовецкая Е.Е., Кабакова Е.Н.,
органической химии. М.: Мир, 1991. 763 с.
Бондарев Н.В. // ЖОХ. 1995. Т. 65. Вып. 3. С. 366.
37. Бондарев
Н.В.
Термодинамика равновесий.
24. Кабакова Е.Н., Шевченко И.А., Жолновач А.М.,
Эффекты среды и нейросетевой анализ. Saarbrücken:
Бондарев Н.В. // ЖОХ. 1996. Т. 66. Вып. 2. С. 208.
LAP LAMBERT Academic Publishing, 2012. 380 c.
25. Кабакова Е.Н., Переверзев А.Ю., Бондарев Н.В. //
38. Tsurko E.N., Bondarev N.V. // J. Mol. Liquids. 2007.
Укр. хим. ж. 1996. Т. 62. № 1. С. 21.
N 131-132. P. 151. doi 10.1016/j.molliq.2006.08.051
26. Липовецкая Е.Е., Кабакова Е.Н., Бондарев Н.В. ///
39. Боровиков В. STATISTICA. Искусство анализа
ЖОХ. 1996. Т. 66. Вып. 2. С.204.
данных на компьютере. СПб: Питер, 2003. 686 с.
27. Кабакова Е.Н., Бондарев Н.В. // ЖФХ. 1998. Т. 72.
40. ГОСТ Р ИСО 5479-2002. Статистические методы.
№ 7. С. 1196.
Проверка отклонения распределения вероятностей
28. Диди Ю., Бондарев Н.В. // ЖОХ. 1996. Т. 66. Вып. 8.
от нормального распределения.
С. 1267.
41. Зайцева И.С., Григорьева Н.Ю., Ельцов С.В.,
29. Диди Ю., Цурко Е.Н., Бондарев Н.В. // ЖОХ. 1997.
Бондарев Н.В. // ЖОХ. 2001. Т. 71. Вып. 4. С. 544;
Т. 67. Вып. 6. С. 885.
Zaitseva I.S., Grigor’eva N.Yu., El’tsov S.V., Bonda-
30. Ельцов С.В., Юрченко В.А., Бондарев Н.В. // ЖОХ.
rev N.V. // Russ. J. Gen. Chem. 2001. Vol. 71. N 4.
1996. Т. 66. Вып. 4. С. 549.
P. 505. doi 10.1023/A:1012310613474
31. Ельцов С.В., Кабакова Е.Н., Бондарев Н.В. // Укр.
42. Кабакова Е.Н., Бондарев Н.В. // ЖНХ. 1997. Т. 42.
хим. ж. 1998. Т.64. №4. С.84.
№ 7. С. 1208.
32. Крестов Г.А., Афанасьев В.Н., Агафонов А.В.,
43. Кабакова Е.Н., Бондарев Н.В. // ЖНХ. 1998. Т. 43.
Гольдштейн И.П., Федотов А.Н., Кукушкин Ю.Н.,
№ 5. С. 820.
Кукушкин М.Ю., Шорманов В.А., Березин М.Б.,
Павлов Н.Н., Артемов А.В., Вайнштейн Э.Ф.
44. Кабакова Е.Н., Цурко Е.Н., Бондарев Н.В. // Укр.
Комплексообразование в неводных растворах. М.:
хим. ж. 1998. Т.64. № 9. С.18.
ЖУРНАЛ ОБЩЕЙ ХИМИИ ТОМ 89 № 2 2019
300
БОНДАРЕВ
Classification and Prediction of Sodium and Potassium Coronates
Stability in Aqueous Organic Solvents
by Exploratory Data Analysis Methods
N. V. Bondarev*
V.N. Karazin Kharkiv National University, pl. Svobody 4, Kharkiv, 61022 Ukraine
* e-mail: bondarev_n@rambler.ru
Received August 19, 2018; revised August 19, 2018; accepted August 30, 2018
Based on the multivariate exploratory data analysis, linear Fisher classification functions, canonical linear
discriminant functions, trees (rules) of classification and prediction of the stability of sodium (18-crown-6Na+)
and potassium coronates (18-crown-6K+) according to the aqueous organic solvents (water-methanol, water-
propan-2-ol, water-acetonitrile) properties were constructed. The proposed approach to predicting the stability
class of coronates was tested on independent experimental data on the stability constants of sodium and
potassium coronates in a water-dioxane and water-acetone mixtures. The constructed classification functions
and rules were found to have a rather high predictive potential.
Keywords: exploratory data analysis, complexation constant, sodium and potassium coronates, aqueous organic
solvents, empirical parameters
ЖУРНАЛ ОБЩЕЙ ХИМИИ ТОМ 89 № 2 2019