ЖУРНАЛ ОБЩЕЙ ХИМИИ, 2021, том 91, № 3, с. 449-473
УДК 544.35;544.341.2;519.254
КOМПЬЮТЕРНЫЙ АНАЛИЗ УСТОЙЧИВОСТИ
КРИПТАТОВ M[222]+ КАТИОНОВ ЩЕЛОЧНЫХ
МЕТАЛЛОВ В РАЗНЫХ РАСТВОРИТЕЛЯХ
© 2021 г. Н. В. Бондарев*
Харьковский национальный университет имени В. Н. Каразина, пл. Свободы 4, Харьков, 61022 Украина
*e-mail: bondarev_n@rambler.ru
Поступило в Редакцию 22 декабря 2020 г.
После доработки 22 декабря 2020 г.
Принято к печати 15 января 2021 г.
Проведен компьютерный анализ термодинамических констант комплексообразования криптанда [222]
с катионами щелочных металлов (криптаты M[222]+, где M = Li, Na, K, Rb, Cs) в воде и органических
растворителях - метаноле, этаноле, 1-пропаноле, ацетонитриле, бензонитриле, ацетоне, N,N-диметил-
формамиде, N-метилпирролидоне, нитробензоле, нитрометане, 1,2-дихлорэтане, пропиленкарбонате
при 298.15 K. Построены разведочные (факторная, кластерные, дискриминантная, каноническая, дерево
решений), регрессионные и нейросетевые модели влияния свойств растворителей и катионов на устойчи-
вость криптатов катионов. Обучены нейросетевые аппроксиматор MLP 4-7-1 и классификаторы констант
устойчивости криптатов - многослойный персептрон MLP 4-7-4 и самоорганизующаяся сеть Кохонена
SOFM 8-4. На независимых данных по константам устойчивости криптатов катионов щелочных металлов
демонстрируются прогностические возможности обученного персептрона-аппроксиматора MLP 4-7-1.
Ключевые слова: криптанд [222], константа комплексообразования, разведочный анализ, множественная
линейная регрессия, нейронные сети, моделирование, прогнозирование
DOI: 10.31857/S0044460X21030112
Открытие синтетических макроциклических
онами в зависимости от строения лиганда, что
соединений, таких как краун-эфиры, криптанды,
необходимо для практического конструирования
сферанды [1-3], способных образовывать ком-
лигандов с заданной селективностью комплексо-
плексы типа хозяин-гость с ионами металлов,
образования и определенной устойчивостью их
анионами и органическими молекулами, положи-
комплексов; оценка и прогнозирование устойчи-
ло начало супрамолекулярной химии [4, 5]. Свя-
вости комплексов при замене растворителя, что
зывание химических форм за счет нековалентного
требуется для практических целей разделения хи-
взаимодействия лежит в основе образования су-
мических форм; оценка и прогнозирование кон-
прамолекул, которые характеризуются определен-
стант устойчивости при переходе от одного кати-
ной термодинамической устойчивостью.
она к другому, поскольку такие расчеты методами
молекулярной динамики трудоемки.
Несмотря на большой объем данных по кон-
стантам устойчивости комплексов макроцикли-
В продолжение предыдущих работ [8-13] здесь
ческих лигандов с катионами металлов в раство-
сообщаются результаты компьютерного анализа
рах, остаются актуальными следующие вопросы
термодинамических констант комплексообразо-
термодинамики супрамолекулярных комплексов
вания криптанда [222] (рис. 1) с катионами ще-
[6, 7]: прогнозирование констант устойчивости
лочных металлов (криптаты M[222]+, где M = Li,
комплексов краун-эфиров и криптандов c кати-
Na, K, Rb, Cs) в неводных растворителях с целью
449
450
БОНДАРЕВ
-C2H4OC2H4OC2H4-, образующими клетку с де-
сольватированным катионом металла, удерживае-
мым восьмью электронодонорными атомами - ше-
стью атомами кислорода и двумя атомами азота.
Известно, что криптанд [222] существует в трех
конформациях: экзо-экзо, экзо-эндо и эндо-эндо,
в зависимости от положения неподеленных элек-
Рис. 1. Криптанд [222] - (4,7,13,16,21,24-гексаокса-
тронных пар на третичных атомах азота, вне (экзо)
1,2,10-диазабицикло[8.8.8]гексакозан.
или внутри (эндо) полости [14]. Поэтому образо-
вание комплексов катионов с криптандом [222]
построения разведочных, регрессионных и нейро-
сопровождается конформационной предорганиза-
сетевых моделей влияния свойств растворителей
цией последнего.
и катионов на устойчивость криптатов катионов и
Для описания свойств растворителей исполь-
прогнозирования констант комплексообразования
зованы физические константы: ε - относительная
в еще не исследованных средах.
диэлектрическая проницаемость [15]; ΔvH - эн-
тальпия испарения, кДж/моль [15]; δ2- плотность
Для проведения компьютерного моделирова-
энергии когезии [15], Дж/см3; DS - диаметр моле-
ния использованы литературные данные по кон-
кулы растворителя, нм [15]; Vin - внутренний объ-
стантам устойчивости комплексов M[222]+ из об-
ем одного моля растворителя, см3/моль [15]. Для
зора И. Маркуса [14].
количественной оценки донорной и акцепторной
Мерой устойчивости комплексов криптан-
эффективности растворителей использованы спек-
да [222] (L) с катионами является термодинами-
троскопические эмпирические параметры поляр-
ческая константа устойчивости K = [LM+LM+/
ности Камлета-Тафта β [15] и Димрота-Райхардта
[L]γL[M+M+, отвечающая простейшей схеме ком-
ET [15]. Физические свойства катионов представ-
плексообразования: Ls + M+ = LMs+, где [L] и γL,
лены в работе радиусом катиона rM, нм [16] и энер-
[M+] и γM+, [LM+] и γLM+ - равновесные концен-
гией ионизации атомов щелочных металлов U1, эВ
трации и коэффициенты активности свободного
[17, 18].
лиганда (L), катиона и комплекса соответственно;
Компьютерное моделирование констант устой-
s - растворитель. Заряд ионов, участвующих в рав-
чивости криптатов М[222]+ проведено в средах
новесии комплексообразования, одинаков и не из-
STATISTICA 12 и SPSS 23 на платформе Windows
меняется (+1), концентрационная константа устой-
10 для комплексов состава 1:1 криптанда [222] с
чивости практически не зависит от ионной силы
катионами щелочных металлов в воде (W) и ор-
раствора при концентрациях < 0.01 моль·дм-3,
ганических растворителях (метаноле, этаноле,
поэтому приравнивается термодинамической.
1-пропаноле, ацетонитриле, бензонитриле, ацето-
Предполагается, что катионы M+ и M[222]s+ не
не, N,N-диметилформамиде, N-метилпирролидо-
образуют ионные ассоциаты с анионами больших
не, нитробензоле, нитрометане, 1,2-дихлорэтане,
размеров(BF, ClO или CF3SO).
пропиленкарбонате) при 298.15 K.
Значения констант устойчивости криптатов ка-
Поставленная цель достигнута путем решения
тионов, полученные разными авторами, обычно
следующих задач: (1) первичный анализ данных,
были в пределах ± 0.2 лог. ед., для 3 < lgΚ < 10.
вычисление описательных статистик, провер-
Автором [14], отмечены выбросы из общей выбор-
ка нормальности распределения; (2) факторный
ки констант устойчивости криптатов: заниженные
анализ - построение корреляционных матриц,
значения для lgΚ Сs[222]+ в диметилсульфоксиде,
выделение латентных факторов; (3) кластерный
завышенные значения lgΚ для Na[222]+ и Сs[222]+
анализ - алгоритм древовидной кластеризации,
и заниженные значения lgΚ для K[222]+ комплек-
итерационный алгоритм k-средних; (4) дискрими-
сов в ацетонитриле.
нантный анализ Фишера - построение линейных
В криптанде [222] два атома азота третич-
классификационных функций; (5) канонический
ного амина соединены тремя цепочками
-
дискриминантный анализ - построение канони-
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 91 № 3 2021
КOМПЬЮТЕРНЫЙ АНАЛИЗ УСТОЙЧИВОСТИ КРИПТАТОВ
451
Таблица 1. Описательная статистика показателей комплексообразования, отобранных для разведочного анализа
Количество
Минимальное
Максимальное
Стандартное
Стандартная
Показатель
Среднее
значений
значение
значение
отклонение
ошибка
lgK
64
7.3
1.0
13.6
3.4
0.42
rM
5
0.1
0.1
0.2
0.0
0.00
ε
13
35.7
10.4
78.4
18.1
2.27
DS
13
0.5
0.3
0.6
0.1
0.01
Vin
13
54.6
16.7
87.1
19.2
2.40
β
13
0.5
0.1
0.9
0.3
0.03
ET
13
0.5
0.3
1.0
0.2
0.02
δ2
13
724.5
400.0
2294.4
474.6
59.33
ΔvH
13
44.8
31.0
65.3
9.7
1.22
U1
5
4.6
3.9
5.4
0.6
0.07
ческих линейных дискриминантных функций;
коррелирующие между собой. Поэтому основ-
(6) деревья классификации - построение дендро-
ное назначение факторного анализа - анализ кор-
граммы и правила кластеризации устойчивости
реляций множества переменных, не разделяемых
криптатов; (7) регрессионный анализ зависимости
на независимые и зависимые.
устойчивости криптатов от свойств растворителей
В ходе проведения факторного анализа были
и катионов; (8) нейросетевой анализ - нейросете-
рассчитаны: а) критерий КМО - мера адекватно-
вые классификатор, нейросетевой аппроксиматор;
сти выборки Кайзера-Мейера-Олкина [19] - пока-
(9) аппроксимирующие и прогностические воз-
затель, используемый для оценки применимости
можности регрессионных и нейросетевых моделей.
факторного анализа. Значения от 0.5 до 1 свиде-
Первичный анализ данных. В табл. 1 приве-
тельствуют об адекватности факторного анализа,
дены количественные параметры описательной
значения меньше 0.5 указывают на то, что фактор-
статистики [19] отобранных для анализа показа-
ный анализ неприменим к выборке; б) критерий
телей. Распределение данных можно считать сим-
сферичности Бартлетта [19] - показатель, кото-
метричным, если среднее квадратическое откло-
рый позволяет проверить, отличаются ли корреля-
нение (стандартное отклонение) данных меньше
ции от 0. Если коэффициент корреляции близок к
половины среднего арифметического. Проверка
гипотезы нормального распределения анализиру-
Таблица 2. Расчетные и табличные (критические) зна-
емых данных (табл. 2) выполнена по критериям
чения критериев проверки гипотезы нормальности рас-
Шапиро-Уилка (8 < n < 50) и Колмогорова-Смир-
пределения переменныхa
нова (n > 50) [20].
Критерий Шапиро-Уилка,
Переменная, (n)
В основу компьютерного анализа данных поло-
Wрасч (Wтабл)
жены математические приемы, статистические ме-
б
lgK (64)
тоды и практические рекомендации, изложенные в
ε (13)
0.868
(0.874)
[21-24].
DS (13)
0.939
(0.874)
Факторный анализ. Задача анализа состояла
Vin (13)
0.955
(0.874)
в изучении структуры взаимосвязей признаков
β (13)
0.910
(0.874)
ET (13)
0.824
(0.874)
(свойств системы в метрической шкале), умень-
δ2 (13)
0.517
(0.874)
шении их исходного количества путем перехода
ΔvH (13)
0.933
(0.874)
к новым переменным - факторам и отборе орто-
a n - объем выборки, p - уровень значимости. Если табличное
гональных дескрипторов. Фактор при этом ин-
значение Wтабл меньше расчетного значения Wрасч, а Dтабл >
терпретируется как причина совместной измен-
Dрасч, то распределение считается соответствующим нор-
чивости нескольких исходных переменных. В
мальному на уровне значимости р 0.05.
б Критерий Колмогорова-Смирнова, Dрасч (Dтабл) 0.091 (0.166).
один фактор объединяются переменные, сильно
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 91 № 3 2021
452
БОНДАРЕВ
Таблица 3. Корреляционная матрица переменных
Переменная
lgK
rM
ε
DS
Vin
β
ET
δ2
ΔvH
U1
lgK
1.00
0.03
-0.36
0.22
0.23
-0.46
-0.35
-0.41
-0.11
-0.02
rM
0.03
1.00
0.00
0.01
0.00
0.02
-0.02
-0.01
0.01
-0.99
ε
-0.36
0.00
1.00
-0.39
-0.38
0.00
0.55
0.70
0.44
-0.00
DS
0.22
0.01
-0.39
1.00
0.99
0.13
-0.79
-0.74
0.59
-0.01
Vin
0.23
0.00
-0.38
0.99
1.00
0.06
-0.80
-0.68
0.57
-0.00
β
-0.46
0.02
0.00
0.13
0.06
1.00
0.24
0.05
0.29
-0.01
ET
-0.35
-0.02
0.55
-0.79
-0.80
0.24
1.00
0.84
-0.10
0.01
δ2
-0.41
-0.01
0.70
-0.74
-0.68
0.05
0.84
1.00
-0.06
0.01
ΔvH
-0.11
0.01
0.44
0.59
0.57
0.29
-0.10
-0.06
1.00
-0.01
U1
-0.02
-0.99
-0.00
-0.01
-0.00
-0.01
0.01
0.01
-0.01
1.00
Таблица 4. Матрица компонентных нагрузок (факторная структура) до вращения факторов
Факторные нагрузки до вращения (aik) Извлечение факторов методом главных компонент
Переменная (свойство)
Фактор 1
Фактор 2
Фактор 3
Фактор 4
lgK
-0.440
0.225
-0.489
-0.437
rM
-0.023
-0.889
-0.452
0.002
ε
0.619
-0.251
0.455
-0.528
DS
-0.927
-0.156
0.327
-0.036
Vin
-0.915
-0.137
0.306
-0.082
β
0.067
-0.297
0.541
0.689
ET
0.919
-0.068
0.119
0.041
δ2
0.900
-0.096
0.159
-0.183
ΔvH
-0.289
-0.394
0.769
-0.367
U1
0.022
0.889
0.452
-0.004
Собственное значениеа
4.018
1.993
1.979
1.122
Доля дисперсии
0.402
0.199
0.198
0.112
a Сумма квадратов факторных нагрузок (a2ik).
нулю, то выбранная переменная не взаимосвязана
Матрица интеркорреляций исходных данных
с другими. Уровень значимости р меньше 0.05 ука-
(табл. 3) обработана с использованием анализа
зывает, на то что проведение факторного анализа
главных компонент [21, 22]. Основной принцип
приемлемо; в) корреляционная матрица [19] - ма-
выделения латентных факторов методом главных
трица, содержащая все возможные коэффициен-
компонент - представление двух или более зави-
ты парных корреляций между анализируемыми
симых переменных одним фактором. В основе
переменными (свойствами) табл. 3. Рассчитанная
анализа главных компонент лежит математиче-
мера выборочной адекватности Кайзера-Мейера–
ский метод нахождения собственных значений и
Олкина равна 0.520; значения критерия сферич-
собственных векторов корреляционной матрицы.
ности Бартлетта: Хи-квадрат (приближенный) -
Cобственные значения λ - дисперсии (изменчиво-
977.0 для числа степеней свободы 45, уровень
сти), выделяемые факторами. Название связано с
значимости, p 0.000. Величина КМО показывает
алгебраическим способом вычисления λ при ре-
приемлемую адекватность выборки для факторно-
шении матрично-векторного уравнения AV = λV
го анализа КМО 0.520 > 0.5. Критерий Бартлетта
[25], где А - линейный оператор в матричной фор-
p < 0.05, что свидетельствует о целесообразности
ме (матрица корреляций), V - собственный вектор
факторного анализа в силу наличия достаточной
линейного преобразования A, λ - собственное зна-
коррелированности переменных [24].
чение (число) линейного оператора А, λV - колли-
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 91 № 3 2021
КOМПЬЮТЕРНЫЙ АНАЛИЗ УСТОЙЧИВОСТИ КРИПТАТОВ
453
Таблица 5. Общности переменны a2ik (свойств системы)
Номер переменной
Переменная
Фактор 1
Фактор 2
Фактор 3
Фактор 4
R2 а
1
lgK
0.194
0.245
0.484
0.675
0.423
2
rM
0.001
0.790
0.995
0.995
0.979
3
ε
0.384
0.446
0.654
0.933
0.969
4
DS
0.858
0.883
0.990
0.991
0.996
5
Vin
0.838
0.857
0.950
0.957
0.988
6
β
0.005
0.092
0.385
0.860
0.617
7
ET
0.844
0.849
0.863
0.865
0.977
8
δ2
0.811
0.820
0.845
0.879
0.917
9
ΔvH
0.084
0.239
0.829
0.964
0.986
10
U1
0.000
0.790
0.995
0.995
0.979
a R2 - коэффициент множественной детерминации.
неарный вектор. Результатом решения уравнения
переменной, обусловленную влиянием четырех
является матрица компонентных нагрузок (табл. 4).
общих факторов. Суммирование долей дисперсии
всех переменных по одному фактору дает суммар-
Различия в методах факторного анализа опре-
ную дисперсию всех переменных, обусловленную
деляются тем, как решается проблема общностей.
действием этого фактора, что равно количеству пе-
Единичная дисперсия каждой переменной пред-
ставлена в факторном анализе как сумма ее общ-
ременных (10).
ности и характерности [21, 22].
Факторная структура до вращения не интерпре-
тируется, однако содержит важную информацию -
суммарную долю дисперсии (информативность)
Здесь h2 - общность переменной с номером i (от
факторов и значения общностей переменных
1 до 10) для фактора k (от 1 до 4) табл. 5; е2 - ее
(свойств системы). Суммарная доля дисперсии -
характерность.
показатель того, насколько полно выделяемые
Общность - это часть дисперсии переменной,
факторы могут представить данный набор свойств
обусловленная действием общих факторов, иначе
системы и наоборот, набор свойств - выделяемые
говоря общность является квадратом множествен-
факторы. Общность переменной (строки табл. 5) -
ной корреляции переменной как зависимой, ис-
показатель влияния переменной (свойства) на фак-
пользующей факторы как предикторы.
торную структуру [21, 22].
Общность переменной i равна сумме квадратов
Сумма квадратов всех элементов факторной
ее нагрузок (табл. 4) по общим факторам (по стро-
структуры (факторных нагрузок) - равна сумме
ке факторных нагрузок) [21, 22]:
всех общностей и суммарной дисперсии всех пере-
менных, обусловленной общими факторами. Эта
величина, деленная на количество переменных,
известна как полнота факторизации V [21, 22]:
Характерность - часть ее дисперсии, обуслов-
ленная спецификой данной переменной и ошиб-
ками измерения (разность полной единичной дис-
персии переменной и ее общности).
где Vk - мощность фактора с номером k; λk - соб-
Любой элемент факторной структуры - фактор-
ственное число фактора с номером k; h2i - общ-
ная нагрузка переменной (табл. 4), возведенная в
ность переменной i; М = 4 - число факторов; Р =
квадрат (табл. 5) - приобретает смысл доли дис-
10 - число переменных (свойств).
персии переменной, обусловленной данным фак-
тором [19]. Cуммирование этих долей по строке
Для упрощения интерпретации выделенных
дает общность - долю дисперсии (изменчивости)
факторов в работе использован ортогональный ме-
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 91 № 3 2021
454
БОНДАРЕВ
Таблица 6. Объясненная совокупная дисперсия (изменчивость)
Начальные собственные
Начальные собственные
Собственные значения главных
значения выделенных факторов
значения главных факторов до
факторов после вращения
до вращения)
вращения
1
4.018
40.184
40.184
4.018
40.184
40.184
3.944
39.442
39.442
2
1.993
19.928
60.113
1.993
19.928
60.113
1.991
19.906
59.348
3
1.979
19.789
79.902
1.979
19.789
79.902
1.640
16.401
75.749
4
1.122
11.216
91.118
1.122
11.216
91.118
1.537
15.369
91.118
5
0.545
5.453
96.570
6
0.200
2.001
98.571
7
0.120
1.205
99.776
8
0.011
0.105
99.882
9
0.009
0.091
99.973
10
0.003
0.027
100.0
тод вращения (метод варимакс) [21, 22]), миними-
позволило оставить 4 фактора (четыре главные
зирующий число переменных с высокими нагруз-
компоненты) на основе критерия X. Кайзера [26]
ками на каждый фактор. Такое вращение факторов
и графического метода P. Кэттелля [27] - критерия
ведет к максимизации дисперсии (изменчивости)
каменистой осыпи. По критерию Кайзера отбира-
«новой» переменной (фактора) и минимизации
ются факторы с собственными значениями боль-
разброса переменных вокруг нее. Факторы после-
ше 1. Согласно Кэттеллю, на графике зависимости
довательно выделяются один за другим. Каждый
собственных значений от числа факторов находит-
последующий фактор определяется так, чтобы
ся точка, где убывание собственных значений сле-
максимизировать изменчивость (варимакс), остав-
ва направо замедляется.
шуюся от выделения предыдущих факторов. По-
Качество факторного анализа тем выше, чем
этому факторы оказываются независимыми друг
выше полнота факторизации. Построенная фак-
от друга - некоррелированными (ортогональными).
торная модель сохраняет 91.12% (табл. 4, 6) исход-
При повторных итерациях выделяются факто-
ной информации, при этом число факторов сокра-
ры с все меньшей и меньшей дисперсией (табл. 4).
щается в два с половиной раза с 10 до 4.
Итерационная процедура начиналась с матрицы, в
Результат варимакс-вращения главных факто-
которой дисперсия (изменчивость) каждой пере-
ров представлен в табл. 7. Как отмечено ранее,
менной равна 1. Поэтому общая дисперсия равна
строки таблицы содержат факторные нагрузки
числу переменных - 10, т. е. наибольшей измен-
переменных (10 свойств изучаемой системы) по
чивости, которая может быть выделена. Изменчи-
четырем факторам (столбцам). Факторные нагруз-
вость, объясненная последовательно выделяемы-
ки в этом случае, являющиеся аналогом коэффи-
ми факторами до и после вращения, представлена
циента корреляции, изменяются от -1 до +1 и по-
в табл. 6.
казывают степень взаимосвязи соответствующих
Наличие информации о том, сколько дисперсии
переменных и факторов - чем больше абсолютная
(изменчивости) выделил каждый фактор (табл. 4)
величина факторной нагрузки, тем сильнее связь
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 91 № 3 2021
КOМПЬЮТЕРНЫЙ АНАЛИЗ УСТОЙЧИВОСТИ КРИПТАТОВ
455
Таблица 7. Факторные нагрузки после варимакс-вращения
Факторные нагрузки (aik)
Переменная (свойство)
Фактор 1
Фактор 2
Фактор 3
Фактор 4
lgK
0.306
0.029
-0.210
-0.732
rM
0.005
0.997
0.002
0.000
ε
-0.477
0.002
0.840
-0.001
DS
0.986
0.007
0.123
0.064
Vin
0.969
-0.001
0.133
0.014
β
0.073
0.018
0.040
0.923
ET
-0.862
-0.010
0.248
0.246
δ2
-0.831
-0.004
0.422
0.100
ΔvH
0.486
0.004
0.827
0.207
U1
-0.004
-0.997
-0.001
-0.002
Собственноезначение, λ
3.906
1.991
1.708
1.507
Доля дисперсии
0.391
0.199
0.171
0.151
переменной с фактором, тем больше данная пере-
наиболее информативными с точки зрения хими-
менная обусловлена действием соответствующего
ческой природы (химизма) исследуемой зависи-
фактора [21, 22].
мости устойчивости криптатов M[222]+ от свойств
Поскольку по Фактору 1 максимальные нагруз-
среды (растворителей различной химической при-
роды) и реагентов (катионов щелочных металлов)
ки имеют переменные DS, Vin, ET, δ2, то Фактору 1
(новой переменной) может быть присвоено назва-
являются эмпирические параметры: из Фактора 1 -
ET (-0.862), из Фактора 2 - U1 (-0.997), из Фактора
ние «свойства растворителя 1». Фактору 2 можно
3 - ε (0.840), из Фактора 4 - β (0.923) (табл. 7).
присвоить название «свойства катиона» (rM и U1).
Аналогично Фактор 3 можно назвать «свойства
Результаты факторного анализа были поло-
растворителя 2» - ε и ΔvH. Фактор 4 коррелирует
жены в основу проведения кластерного, дискри-
со свойствами равновесия комплексообразования
минантного, канонического, построение дерева
и растворителя - lgK и β. Нетрудно заметить, что
классификации, регрессионного и нейросетевого
переменные, определяющие фактор, сильнее свя-
анализа влияния свойств растворителя и катиона
заны друг с другом, чем с другими переменными
на константу комплексообразования криптанда
(табл. 3). Таким образом, за взаимосвязью деся-
[222] c катионами щелочных металлов.
ти исходных показателей исследуемого процесса
Кластерный анализ. На языке математики за-
образования криптатов катионов в разных средах
дача кластерного анализа заключается в том, что-
при помощи факторного анализа обнаруживается
бы на основании данных, содержащихся во мно-
действие четырех новых латентных переменных
жестве Х, разбить множество объектов Xi X на m
(факторов), объединяющих переменные (свойства
(m - целое) кластеров (подмножеств) Q1, Q2, …, Qm
системы) в группы по степени влияния на факторы.
так, чтобы каждый объект Xj принадлежал одному
На заключительном этапе факторного анализа,
и только одному подмножеству разбиения (класте-
вместо вычисления значений факторов, выбраны
ру Ql) и чтобы объекты, принадлежащие одному и
переменные-заменители (surrogate variables), ха-
тому же кластеру, были сходными, а объекты, при-
рактеризуемые большими нагрузками (высокими
надлежащие разным кластерам - разнородными
коэффициентами корреляции) на каждый ортого-
[21, 22].
нальный фактор, для использования их в последу-
Кластер имеет следующие математические ха-
ющем анализе.
рактеристики [21, 22]: центр, радиус, среднеква-
Перебор возможных комбинаций ортогональ-
дратическое отклонение, размер кластера. Центр
ных дескрипторов показал, что оптимальными и
кластера - это среднее геометрическое место то-
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 91 № 3 2021
456
БОНДАРЕВ
чек в пространстве переменных. Радиус кластера -
В качестве меры сходства констант устойчи-
максимальное расстояние точек от центра класте-
вости криптатов использована евклидова метри-
ра. Кластеры могут быть перекрывающимися, если
ка [22, 23]. Евклидово расстояние d(Xi, Xj) - гео-
они содержат спорные объекты. Размер кластера
метрическое расстояние между парами векторов
определяется либо по радиусу кластера, либо по
Xi и Xj (константами устойчивости) в p-мерном
среднеквадратичному отклонению объектов для
пространстве признаков (свойств растворителей и
этого кластера. Объект относится к кластеру, если
катионов (xki и xkj), по которым сравниваются кон-
расстояние от объекта до центра кластера меньше
станты устойчивости. Евклидово расстояние рав-
радиуса кластера. Если это условие выполняется
но квадратному корню из суммы квадратов разно-
для двух и более кластеров, объект является спорным.
стей значений для каждой переменной (свойства)
[19]:
Применительно к рассматриваемому равно-
весию комплексообразования, множество Х - это
перечень из n = 64 наблюдений констант устойчи-
вости криптатов катионов М[222]+ (объектов K1,
K2, K3,…, Kn) в разных растворителях, выбранных
Перед проведением кластерного анализа кон-
для кластерного анализа. Каждое из этих наблю-
стант устойчивости комплексов М[222]+ была вы-
дений охарактеризовано набором химических по-
полнена стандартизация данных [19, 23]. При этом
казателей (5 свойств -признаков), выраженных в
шкала измерения каждой переменной изменяется
числовой форме: величина константы устойчиво-
таким образом, чтобы среднее равнялось нулю, а
сти и связанные с ней свойства растворителей - ε,
стандартное отклонение - единице (z преобразо-
ET, β и катионов - U1. Тогда Х1 (вектор измерений)
вание):
представляет собой набор указанных характери-
стик для первого наблюдения: Х1 = (x1,1, x1,2, x1,3,
x1,4, x1,5), Х2 - для второго, Х3 - для третьего, и т. д.
где -x и σ - среднее и среднеквадратическое откло-
нение переменной x соответственно.
Pешением задачи кластерного анализа является
разбиение множества элементов матрицы призна-
Кластеризация констант устойчивости крипта-
ков размером 64×5 на m групп (m кластеров) - под-
тов по свойствам растворителей и катионов про-
множеств, удовлетворяющих критерию оптималь-
ведена двумя методами: агломеративным - метод
ности:
Варда и итеративным - метод k-средних [21].
Агломеративная кластеризация начинается
- каждая константа комплексообразования
с размещения каждой константы устойчивости
(объект) должна принадлежать одному и только
(объекта) в отдельном кластере. Затем кластеры
одному подмножеству разбиения (кластеру);
объединяются, группируя константы устойчи-
- константы комплексообразования, принадле-
вости каждый раз во все более и более крупные
жащие одному и тому же кластеру, должны быть
кластеры. Этот процесс продолжается до тех пор,
сходными - количественно характеризовать равно-
пока все константы устойчивости (объекты) не
весие комплексообразования M+ + [222]s = M[222]+
станут набором одного единственного кластера
в одних и тех же растворителях (растворителе);
рис. 2. Наблюдаемые (экспериментальные) кон-
- константы устойчивости криптатов, принад-
станты устойчивости обозначены как C_i, где i -
лежащие разным кластерам, должны быть разно-
номер константы комплексообразования.
родными - содержать разные наборы как констант
В качестве целевой функции, представляющей
устойчивости криптатов, так и растворителей.
собой функционал, выражающий уровни жела-
Константы устойчивости криптатов, подлежа-
тельности различных разбиений и группировок, в
щие кластеризации, представляются точками в
методе Варда применяется внутригрупповая сум-
p-мерном пространстве признаков. Тогда сходство
ма квадратов отклонений, вычисляемая как сумма
между объектами определяется через понятие рас-
квадратов расстояний между каждой точкой (кон-
стояния между точками, чем меньше расстояние
стантой устойчивости криптата) и средней по кла-
между объектами, тем они более схожи [21, 22].
стеру, содержащему эту константу [21]:
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 91 № 3 2021
КOМПЬЮТЕРНЫЙ АНАЛИЗ УСТОЙЧИВОСТИ КРИПТАТОВ
457
где xj - свойства растворителей и катионов, связан-
ные с j-ой константой устойчивости криптата.
В качестве расстояния dis(X,Y) между кла-
стерами X и Y берется прирост суммы квадратов
расстояний объектов (констант устойчивости) до
центров кластеров, получаемый в результате их
объединения [21, 22]:
Y - радиусы-векторы центров кластеров, nx,
ny - число элементов в них, верхний индекс Т оз-
Рис. 2. Дендрограмма кластеризации констант устой-
начает транспонирование. Метод Варда [21, 22]
чивости криптатов катионов по методу Варда в пакете
минимизирует сумму квадратов отклонений для
STATISTICA 12.
любых двух (гипотетических) кластеров, которые
могут быть сформированы. На каждом шаге объ-
единяются такие два кластера, которые приводят
Анализ результатов метода k-средних показал,
к минимальному увеличению целевой функции, т.
что в наибольшей мере критерию оптимальности
е. внутригрупповой суммы квадратов отклонений.
отвечает разбиение множества Х на четыре класте-
Дендрограмма (рис. 2) показывает, что в ре-
ра: 1 кластер - содержит 29 констант устойчивости
зультате кластеризации константы устойчивости
криптатов М[222]+ (M = Li, Na, K, Rb, Cs) в про-
коронатов M[222]+ группируются в два, три или
толитических (MeOH, EtOH, PrOH) и апротонных
четыре явно выраженных кластера в зависимости
(N-метилпирролидон, ДМСО, ДМФА) растворите-
от расстояния объединения.
лях; 2 кластер - содержит 5 констант устойчивости
коронатов М[222]+ (M = Li, Na, K, Rb, Cs) в воде; 3
Важно отметить, если число кластеров опреде-
кластер - содержит 12 констант устойчивости ко-
лено, то можно получить прогнозную информа-
ронатов Li[222]+ и Na[222]+ в апротонных раство-
цию о принадлежности константы устойчивости к
рителях: ацетоне, пропиленкарбонате, нитромета-
определенному класcу (группе) по свойствам рас-
не, ацетонитриле, бензонитриле, 1,2-дихлорэтане;
творителей и катионов.
4 кластер - содержит 18 констант устойчивости
Метод k-средних. Начальные разбиения на
коронатов K[222]+, Rb[222]+ и Cs[222]+ в тех же
кластеры, требующие детального распределения
апротонных растворителях: ацетоне, пропилен-
данных о константах устойчивости по группам,
карбонате, нитрометане, ацетонитриле, бензони-
задавались не случайным образом, а на основе
триле, 1,2-дихлорэтане.
решения, полученного иерархической кластери-
зацией [21] методом Варда - 2, 3 или 4 кластера
В табл. 8 приведены значения межгрупповых
(рис. 2). Итерации по принципу k-средних начи-
SSB и внутригрупповых SSW сумм квадратов откло-
нались последовательно с двух, трех или четырех
нений от среднего для каждой переменной. Чем
выбранных кластеров, а затем изменялась принад-
меньше SSW и больше значение SSB, тем лучше пе-
лежность объектов к ним, чтобы, во-первых - ми-
ременная характеризует принадлежность объектов
нимизировать изменчивость внутри кластеров и,
к кластеру и тем качественнее кластеризация. SSW -
во-вторых - максимизировать изменчивость меж-
сумма квадратов отклонений значений каждого из
ду кластерами. Мерой изменчивости выступает
предикторов (свойства растворителей и катионов)
сумма квадратов (Sum Squeres) отклонений от
от группового среднего значения предиктора вну-
среднего:
три группы (кластера) - мера внутригрупповой из-
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 91 № 3 2021
458
БОНДАРЕВ
Таблица 8. Результаты дисперсионного анализа стандартизированных показателей комплексообразования методом
k-средних
Переменная
SSB
dfB
SSW
dfW
F(3, 60)
p
lgK
20.51
3
42.49
60
9.65
0.000
ε
29.98
3
33.02
60
18.15
0.000
β
48.22
3
14.78
60
65.23
0.000
ET
41.86
3
21.14
60
39.62
0.000
U1
27.61
3
35.39
60
15.60
0.000
Таблица 9. Центры четырех кластеров констант устойчивости криптатов катионова
Кластер
Сluster 1
Сluster 2
Сluster 3
Сluster 4
Сluster 1
0.00
2.84
1.23
1.02
Сluster 2
1.69
0.00
4.22
4.03
Сluster 3
1.11
2.05
0.00
0.77
Сluster 4
1.01
2.01
0.88
0.00
а Евклидовы расстояния (ниже диагонали) и квадраты евклидовых расстояний (выше диагонали).
менчивости:
четыре группы.
где σ2SSW - внутригрупповая дисперсия; SSB - ме-
С этой целью проведены дискриминантный,
канонический, нейросетевой анализы и построено
дерево классификации.
жгрупповая сумма квадратов отклонений средних
Множественный дискриминантный анализ.
значений предикторов в каждой из групп от сум-
марного среднего значения предикторов по всем
Дискриминантный анализ используется для из-
группам
- мера межгрупповой изменчивости:
учения различий между несколькими группами
σ2SSB = SSB/(n - 1), где σ2SSB - межгрупповая диспер-
по определенному набору дискриминантных пе-
сия; значение критерия Фишера F = MSB/MSW, где
ременных. Математические дефиниции и допу-
MSB = SSB/dfB, MSW = SSW/dfW; MSW и MSB - сред-
щения дискриминантного анализа [21]: g - число
ние значения квадратов отклонений внутри групп
классов (кластеров); р - число дискриминантных
и между ними; dfW = (n - m - 1) и dfB = (m - 1)
переменных; ni - число объектов (наблюдений)
- соответствующие степени свободы (m - число
класса i; п - общее число объектов всех классов. В
групп, n - количество наблюдений в каждой из
модели дискриминантного анализа должно быть:
групп); F(3, 60) - наблюдаемый критерий Фишера.
(а) два или более классов - g ≥ 2; (б) по крайней
[Fкр(3, 60, p 0.05) = 2.76]; р - наблюдаемый уро-
мере наличие двух объекта в каждом классе -
вень значимости [21-23].
ni ≥ 2; (в) любое число дискриминантных перемен-
ных при условии, что оно не превосходит общее
По статистическим показателям, полученным в
число объектов за вычетом двух - 0 < p < (n - 2);
результате дисперсионного анализа (табл. 8), кла-
(г) измерение дискриминантных переменных по
стеры являются различимыми, так как для всех пе-
интервальной шкале; (д) линейная независимость
ременных Fнабл(3, 60) > Fкр(3, 60), а р < 0. Однако
дискриминантных переменных; (е) приблизитель-
близкие значения центров второго и четвертого
кластеров (табл. 9), а также значения межгруппо-
ное равенство ковариационных матриц для каждо-
го класса; (ж) многомерная нормальность закона
вых SSB, которые меньше внутригрупповых SSW
для свойств ε и U1 (табл. 8), свидетельствуют о
распределения.
том, что для подтверждения результатов методов
Математическая постановка задачи дискрими-
Варда и k-средних, необходимо другими методами
нантного анализа состояла в следующем [21, 22].
предоставить убедительные доказательства пра-
Имеется n объектов с m характеристиками. В ре-
вильности разделения констант устойчивости на
зультате измерений каждый объект характеризует-
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 91 № 3 2021
КOМПЬЮТЕРНЫЙ АНАЛИЗ УСТОЙЧИВОСТИ КРИПТАТОВ
459
Таблица 10. Достоверность различения четырех групп констант устойчивости криптатов М[222]+ по каждой пере-
менной
Группирующая переменная: 4 кластера констант устойчивости криптатов; Λ-Уилкса 0.035;
приближенное значение Fнабл(28, 151) 32.119, p < 0.000; Fкр(28, 151) 1.8, Fкр(3, 57) 2.76
Свойство
частная Λ
Λ Уилкса
Fисключить(3, 57)
p-уровень
толерантность,1-R2
R2
Уилкса
ε
0.047
0.750
6.335
0.001
0.970
0.030
β
0.140
0.249
57.157
0.000
0.977
0.023
ET
0.068
0.516
17.857
0.000
0.983
0.017
U1
0.062
0.561
14.876
0.000
0.998
0.002
ся вектором Х1, Х2, ..., Хm, m > 1. Задача состоит
собственные значения функции. Λ-статистика Уи-
в том, чтобы по результатам измерений отнести
лкса учитывает, как различия между классами, так
объект к одной из нескольких групп (классов) G1,
и когезивность или однородность каждого класса.
G2, ..., Gk, k ≥ 2, т. е. нужно построить решающее
Под когезивностью понимается степень скопления
правило, позволяющее по результатам измерений
констант устойчивости (объектов) вокруг центро-
параметров объекта указать группу, к которой он
ида их класса [19].
принадлежит. Число групп заранее известно, так-
Величины Λ, близкие к нулю, говорят о высо-
же известно, что объект заведомо принадлежит к
ком различении, т. е. центроиды классов хорошо
определенной группе.
разделены и сильно отличаются друг от друга по
Применительно к решаемой химической задаче
отношению к степени разброса констант устойчи-
цель анализа состояла в том, чтобы на основе из-
вости криптатов внутри классов. Увеличение Λ до
вестных свойств растворителей и катионов клас-
ее максимального значения, равного 1, приводит
сифицировать константы устойчивости коронатов
к постепенному ухудшению различения, так как
катионов щелочных металлов M[222]+, иначе го-
центроиды групп совпадают (нет групповых раз-
воря, оптимальным способом отнести константы к
личий).
одной из четырех групп (классов, кластеров), вы-
Значение частной Λ-Уилкса равно отношению
явленных методами кластерного анализа.
лямбда Уилкса после добавления соответствую-
В табл. 10 приведены итоги дискриминантного
щей переменной к лямбде Уилкса до добавления
анализа. Достаточно малое значение общей Λ-Уи-
этой переменной. Частная лямбда характеризует
лкса = 0.035; приближенное значение общего кри-
единичный вклад соответствующей переменной
терия Фишера Fнабл(28, 151) = 32.119 и p < 0.000
в разделительную силу модели. Чем больше част-
свидетельствуют об успешности проведенной
ная лямбда Уилкса, тем больше вклад переменной
классификации методом дискриминантного ана-
в общую дискриминацию [21, 22]. Из табл. 10
лиза.
видно, что переменная ε дает наибольший вклад,
Λ-Статистика Уилкса (лямбда Уилкса) - это
переменная U1 - вторая по значению вклада, пе-
мера различий между 4 классами констант устой-
ременная ET - третья по значению вклада, а пере-
чивости по четырем дискриминантным перемен-
менная β вносит наименьший вклад в общую дис-
ным: ε, β, ET, U1. Существует несколько способов
криминацию.
ее вычисления, один из них - расчет по формуле
[19]:
F-исключить - это значения F-критерия, свя-
где k - число уже вычисленных функций; символ
занные с соответствующей частной лямбда Уилкса
[21, 22]. Значения p-уровень - это уровни значи-
мости критериев F-исключить. Значения p < 0.05
подтверждают статистическую значимость крите-
П означает, что для получения окончательного ре-
риев F-исключить и желательность переменных в
дискриминантной модели.
зультата необходимо перемножить все члены; λi -
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 91 № 3 2021
460
БОНДАРЕВ
Таблица 11. Коэффициенты классифицирующих функций на основе дискриминантных переменныха
G-1
G-2
G-3
G-4
Переменная
p 0.453
p 0.078
p 0.188
p 0.281
ε, bk1
0.092
0.346
0.143
0.140
β, bk2
47.745
27.513
17.056
17.488
ET, bk3
39.641
70.209
26.004
26.986
U1, bk4
22.656
22.647
26.553
20.783
bk0
-82.717
-109.613
-81.695
-54.592
а p - апостериорная (послеопытная) вероятность, пропорциональная количеству констант устойчивости криптатов в каждой груп-
пе (кластере).
Толерантность определяется как (1 - R2), где
ных). Прогнозируемая по свойствам растворителя
R - это коэффициент множественной корреляции
и катиона константа устойчивости криптата бу-
данной переменной со всеми другими перемен-
дет отнесена к классу с наибольшим значением f.
ными в модели. Толерантность является мерой
Коэффициенты для классифицирующих функций
избыточности переменной в модели [21, 22]. Чем
определяются с помощью соотношения:
меньше значение толерантности, тем избыточнее
переменная в модели, т.е. переменная несет малую
дополнительную информацию. Формулы для толе-
где n0 - общее количество констант устойчивости
рантности, статистик F-включения и F-исключе-
криптатов, иначе говоря наблюдений (64), в четы-
ния довольно сложны [21], поэтому не приводятся.
рех группах g; bki - коэффициент для переменной
На этой стадии дискриминантного анализа
i в выражении, соответствующему классу k; aij -
можно предположить, что электрические свой-
элемент матрицы, обратной к внутригрупповой
ства растворителя (ε) и энергия ионизации атомов
матрице сумм попарных произведений. Постоян-
щелочных металлов (U1) являются главными пе-
ный член рассчитывается по формуле:
ременными, которые позволяют провести дискри-
минацию между различными классами криптатов
М[222]+.
Как следует из табл. 10, позиции четырех групп
Процедуры классификации могут использовать
констант устойчивости сильно различаются по
не только дискриминантные переменные, но и ка-
выбранным переменным, поэтому имеет смысл
нонические дискриминантные функции, получен-
найти дискриминантные функции (классифициру-
ные с использованием алгоритмов каноническо-
ющие функции) для каждой группы.
го корреляционного анализа [21, 22].
P. Фишер [28] первым предположил, что клас-
Канонический анализ позволяет проанализи-
сификация должна проводиться с помощью линей-
ровать природу различий между группами (класте-
ной комбинации дискриминантных переменных
рами). Согласно геометрической интерпретации
(предикторов), которая максимизирует различия
анализа, дискриминантные переменные [21] -
между классами, но минимизирует дисперсию
это оси р-мерного евклидова пространства. Каж-
внутри классов. Разработка его предложения при-
водит к определению особой линейной комбина-
дый объект (наблюдение) является точкой этого
ции для каждого класса, которая называется «клас-
пространства с координатами, представляющими
сифицирующая функция» [21], и имеет вид (табл. 11):
собой наблюдаемые значения каждой переменной.
Если классы отличаются друг от друга по наблю-
даемым переменным, их можно представить ско-
где fk - значение функции для класса k, а bki - ко-
плением точек в некоторых областях рассматрива-
эффициенты, которые необходимо определить,
емого пространства. Для определения положения
Xi - дискриминантные переменные: ε, β, ET, U1
класса вычисляется его центроид. Центроид клас-
(здесь р = 4 - число дискриминирующих перемен-
са является воображаемой точкой, координаты ко-
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 91 № 3 2021
КOМПЬЮТЕРНЫЙ АНАЛИЗ УСТОЙЧИВОСТИ КРИПТАТОВ
461
Таблица 12. Статистические показатели извлекаемых (ортогональных) дискриминантных функций (корней)
Критерий Хи-квадрат последовательности извлечения корней
Извлеченокорней
λ
R
Λ
c
ν
p
0
3.952
0.893
0.035
197.805
12
0.000
1
2.245
0.832
0.173
103.420
6
0.000
2
0.779
0.662
0.562
33.971
2
0.000
a λ - собственное значение дискриминантной функции D, R - коэффициент канонической корреляции, Λ - значение статистики Λ
Уилкса, χ2 - значение статистики Хи-квадрат Пирсона, ν - число степеней свободы, p - уровень значимости соответствующего
канонического корня.
торой есть средние значения переменных в дан-
Собственное (характеристическое) значение
ном классе [22].
для каждой дискриминантной функции λ [19, 22] -
это отношение межгрупповой суммы квадратов
В рассматриваемом случае константы устой-
отклонений SSB к внутригрупповой сумме квадра-
чивости криптатов принадлежат 4-мерному про-
тов отклонений SSW. Большие собственные значе-
странству. Следовательно, четыре переменных - ε,
ния свидетельствуют о высокой статистической
β, ET, U1 определяют координаты центроида для
каждого из четырех классов.
значимости извлеченных дискриминантных кор-
ней (функций).
Каноническая дискриминантная функция явля-
Мощность вклада функции оценивается по
ется линейной комбинацией дискриминантных пе-
критерию Xи-квадрат. Значение р < 0.05 указывает
ременных. Она имеет следующее математическое
на статистически значимую мощность извлечен-
представление [21, 22]:
ных дискриминантных функций [19]. Чем боль-
ше теоретические числа, рассчитанные на основе
нулевой гипотезы (отсутствие различий между
где Dkm - значение канонической дискриминант-
кластерами), будут отличаться от фактических,
ной функции для m-го объекта в группе k; Хikm -
тем сильнее критерий Хи - квадрат будет отличать-
значение дискриминантной переменной Хi для
ся от 0 (Λ Уилкса, наоборот, будет приближаться
m-го объекта в группе k; ui - коэффициенты дис-
к 0), тем с большей вероятностью можно принять
криминантных функций. Коэффициенты ui для
альтернативную статистическую гипотезу и гово-
первой функции выбираются таким образом, что-
рить о статистической достоверности имеющих-
бы ее средние значения для различных классов как
ся различий в сравниваемых группах (кластерах)
можно больше отличались друг от друга [19, 21].
констант устойчивости криптатов. Величина χ2
Коэффициенты второй функции выбираются так
имеет Хи-квадрат распределение с (р - k)(g - k - 1)
же, т. е. соответствующие средние значения долж-
степенями свободы [21].
ны максимально отличаться по классам, при этом
налагается дополнительное условие, чтобы значе-
ния второй функции не коррелировали со значени-
ями первой. Аналогично третья функция должна
где k - число извлеченных дискриминантных
быть ортогональной первой и второй и т. д. Макси-
функций, равное (g - 1).
мальное число дискриминантных функций, кото-
Первая строка дает критерий значимости для
рое можно получить описанным способом, равно
всех дискриминантных функций (корней). Вто-
числу классов без единицы или числу дискрими-
рая строка содержит значимость дискриминант-
нантных переменных, в зависимости от того, какая
ных функций, оставшихся после удаления первой
из этих величин меньшая [19, 22].
функции и т. д. Таким образом, данные, приведен-
В табл. 12 представлены результаты канониче-
ные в табл. 12 позволяет оценить, сколько значи-
ского анализа с пошаговым критерием χ2 для кано-
мых дискриминантных функций нужно интерпре-
нических корней (Root) - канонических линейных
тировать. Как следует из табл. 12, статистически
дискриминантных функций D [19, 21-23].
значимыми являются три дискриминантные функции.
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 91 № 3 2021
462
БОНДАРЕВ
Таблица 13. Коэффициенты канонических линейных классификационных функций Dkm (Root)
Dkm = u0 + u1 X1km + u2 X2km + ... + up Xpkm
Переменная
Root 1
Root 2
Root 3
ε, u1
-0.004
-0.045
0.001
β, u2
7.205
3.281
0.266
ET, u3
4.411
-5.639
-0.085
U1, u4
-0.141
0.010
2.257
u0
-5.221
2.746
-10.466
λ
3.952
2.245
0.779
Доля объясненнойдисперсии, %
56.700
88.800
100.000
Таблица 14. Координаты центроидов четырех групп констант устойчивости криптатов катионов
Средние канонических переменных
Группа
Root 1
Root 2
Root 3
G-1
1.843
0.780
0.021
G-2
1.592
-4.837
0.027
G-3
-2.143
0.059
1.502
G-4
-1.984
0.047
-1.044
В табл. 13 приведены коэффициенты ui кано-
Прогнозируемая константа устойчивости крипта-
нических линейных дискриминантных функций
та, для которой рассчитаны Root 1, Root 2 и Root 3,
(корней) для исходных (нестандартизированных)
будет отнесена к группе по минимальному рас-
свойств катионов и растворителей.
стоянию до соответствующего центроида группы
(кластера). Координаты центроидов кластеров
Первая дискриминантная функция Root 1 наи-
(средних значений канонических переменных)
более важная, так как отвечает за 56.7% объяснен-
приведены в табл. 14.
ной дисперсии свойств растворителей и катионов.
Вторая Root 2 отвечает за 32.1%, а третья Root 3 -
По данным табл. 14 трудно судить о результа-
за 11.2% объясненной дисперсии. Подставив в
тах разделения констант устойчивости криптатов
дискриминантные уравнения значения свойств
по группам в многомерном пространстве перемен-
растворителя и катиона (ε, β, ET, U1) можно рас-
ных. Поэтому на рис. 3-5 приведены диаграммы
считать значения дискриминатных функций - Dkm.
рассеяния канонических значений констант устой-
Рис. 3. Диаграмма рассеяния канонических значений
Рис. 4. Диаграмма рассеяния канонических значений
констант устойчивости криптатов для пар значений
констант устойчивости криптатов для пар значений
дискриминантных функций Root 1-Root 2.
дискриминантных функций Root 1-Root 3.
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 91 № 3 2021
КOМПЬЮТЕРНЫЙ АНАЛИЗ УСТОЙЧИВОСТИ КРИПТАТОВ
463
разделяет третью G_3 и G_4 группы. Вторая дис-
криминантная функция в координатах Root 2 -
Root 3 идентифицирует константы устойчивости
второй группы.
В табл. 15 приведены стандартизированные
коэффициенты для канонических переменных.
Стандартизованные коэффициенты применяются
для выявления тех переменных (свойств), которые
вносят наибольший вклад в значение дискрими-
нантной функции. Чем больше абсолютная вели-
чина коэффициента, тем больше вклад этой пере-
менной в значение дискриминантной функции.
Для первой дискриминантной функции вклад
Рис. 5. Диаграмма рассеяния канонических значений
констант устойчивости криптатов для пар значений
переменной β максимален, переменная ET зани-
дискриминантных функций Root 2-Root 3.
мает второе место по значимости, остальные две
переменные второстепенны. Для второй функции
переменные ε, ET вносят приблизительно одинако-
чивости криптатов для пар значений дискрими-
вый вклад, а переменная U1 является доминантной
нантных функций - Root.
для третьей функции.
Первая дискриминантная функция, определяю-
Для выявления химической природы дискри-
щая 56.7% дискриминирующей мощности, в коор-
минантных функций (взаимной зависимости от-
динатах Root 1 - Root 2 дискриминирует констан-
дельной переменной и дискриминантной функ-
ты устойчивости криптатов между парами групп
ции) рассмотрим их корреляцию. Значения таких
G_1, G_2 и G_3, G_4. Вторая дискриминантная
корреляций являются косинусами углов между
функция (Root 2, 32.1% дискриминирующей мощ-
векторами переменных и осями дискриминант-
ности) дает основную дискриминацию между вто-
ных функций в многомерном пространстве [21].
рой G_2 и первой G_1 группами. Третья дискри-
Коэффициенты корреляции, называемые полны-
минантная функция в координатах Root 1 - Root
ми структурными коэффициентами, приведены в
3 (Root 3, 11.2% дискриминирующей мощности)
табл. 16.
Таблица 15. Стандартизованные дискриминантные коэффициенты
Переменная
Root 1
Root 2
Root 3
ε
-0.058
-0.607
0.017
β
0.903
0.411
0.033
ET
0.506
-0.646
-0.010
U1
-0.062
0.004
0.999
λ
3.952
2.245
0.779
Доля объясненнойдисперсии
0.567
0.888
1.000
Таблица 16. Полные структурные коэффициенты
Корреляции: переменные - канонические дискриминантные функции
Переменная
(обобщенные внутригрупповые корреляции)
Root 1
Root 2
Root 3
ε
0.113
-0.618
0.010
β
0.864
0.369
0.052
ET
0.444
-0.732
0.031
U1
-0.026
-0.009
0.999
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 91 № 3 2021
464
БОНДАРЕВ
Таблица 17. Классификационная матрица дискриминантного анализаа
G_1
G_2
G_3
G_4
Группы
Точностьпредсказания, %
p 0.453
p 0.078
p 0.188
p 0.281
G_1
100.0
29
0
0
0
G_2
100.0
0
5
0
0
G_3
100.0
0
0
12
0
G_4
100.0
0
0
0
18
Всего
100.0
29
5
12
18
а Строки - наблюдаемая классификация, колонки - предсказанная классификация.
Если абсолютная величина такого коэффици-
стоящие из узлов, которые содержат правила, т. е.
ента велика, вся информация о дискриминантной
логические конструкции вида «если …, то …». Ко-
функции заключена в этой переменной. Если же
нечными узлами дерева являются «листья», соот-
коэффициент близок к нулю - их зависимость
ветствующие найденным решениям и объединяю-
мала. Таким образом, коэффициенты корреляции,
щие некоторое количество объектов (наблюдений)
приведенные в табл. 16, свидетельствуют о том,
в группы (классы) [19, 29].
что дискриминирующая мощь первой дискрими-
Химическая задача состояла в построении де-
нантной функции преимущественно определяет-
рева классификации констант устойчивости крип-
ся электронодонорными свойствами растворите-
татов катионов щелочных металлов (зависимая
лей β (0.864), а третьей - свойствами катионов U1
категориальная переменная, характеризуемая че-
(0.999). Разделяющая мощь второй дискриминант-
тырьмя группами) по четырем свойствам раство-
ной функции обусловлена главным образом элек-
рителей ε, β, ET и катионов U1 (независимые пере-
трическими ε (-0.618) и электроакцепторными ET
менные в порядковой шкале).
(-0.732) свойствами растворителей.
Процесс построения дерева классификации со-
Таблица 17 представляет собой классификаци-
стоял из четырех основных этапов [19]: (1) выбор
онную матрицу, которая позволяет говорить о точ-
критерия точности прогноза, (2) выбор вариантов
ности дискриминантной процедуры, количестве
ветвления, (3) определение момента, когда даль-
правильно классифицированных констант устой-
нейшие ветвления следует прекратить, (4) опреде-
чивости криптатов и тем самым косвенно подтвер-
ление «подходящего размера» дерева.
дить степень разделения классов. Четыре перемен-
Цель анализа с помощью деревьев классифи-
ных правильно предсказывают распределение по
кации заключалась в том, чтобы получить макси-
группам всех констант устойчивости криптатов.
мально точный прогноз (первый этап). Наиболее
Точность предсказания в этом случае - 100% (сум-
точным прогнозом считается такой, который свя-
ма правильных предсказаний 64, поделенная на об-
зан с наименьшей ценой ошибки классификации.
щее число наблюдаемых констант устойчивости -
В программе STATISTICA [19] под ценой ошиб-
64). Процент наблюдаемых констант устойчиво-
ки классификации понимается доля неправильно
сти, которые были классифицированы правильно,
классифицированных наблюдений - неправиль-
является дополнительной мерой различий между
ных распределений констант устойчивости крип-
группами [21, 22].
татов в группы, которые, как отмечено ранее, были
Таким образом, дискриминантная модель клас-
сформированы методом k-средних кластерного
сификации констант устойчивости криптатов
анализа. Как правило, самый лучший прогноз -
M[222]+ по свойствам растворителей и катионов
такой, который дает наименьший процент непра-
на 100% подтвердила результаты кластеризации
вильных классификаций.
констант устойчивости методом k-средних.
В работе выбран вариант анализа, когда цена
Деревья классификации представляют собой
ошибки классификации для всех классов оди-
последовательные иерархические структуры, со-
наковая (Equal); все внедиагональные элементы
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 91 № 3 2021
КOМПЬЮТЕРНЫЙ АНАЛИЗ УСТОЙЧИВОСТИ КРИПТАТОВ
465
Таблица 18. Структура дерева классификации
Дочерние вершины, наблюдаемые, предсказанные классы, условия ветвления
значение
Вершина
левая
правая
Класс
Класс
Класс
Класс
предсказанный
ветвление
переменной
ветвь
ветвь
1
2
3
4
класс
по переменной
ветвления
1
2
3
29
5
12
18
1
0.57
β
2
4
5
0
5
12
18
4
4.739
U1
3
29
0
0
0
1
4
6
7
0
3
0
18
4
0.74
ET
5
8
9
0
2
12
0
3
0.74
ET
6
0
0
0
18
4
7
0
3
0
0
2
8
0
0
12
0
3
9
0
2
0
0
2
матрицы цен ошибок классификации (прогнози-
В качестве критерия согласия была выбрана
руемые классы - по строкам, наблюдаемые клас-
мера Джини (Gini measure) [19]. Критерии согла-
сы - по столбцам) принимались равными 1; в вы-
сия используются для выбора наилучшего из всех
бранные значения априорных вероятностей (Prior
возможных вариантов ветвления. Мера Джини
probabilities) для всех классов зависимой перемен-
однородности вершины принимает нулевое значе-
ной поправки не вводились.
ние, когда в данной вершине имеется всего один
класс.
Второй этап анализа заключался в том, чтобы
выбрать способ ветвления по значениям предик-
Третий этап анализа заключался в выборе мо-
торных переменных (свойств растворителей и ка-
мента, когда следует прекратить дальнейшие вет-
тионов), Ветвления последовательно начинаются
вления. Выбран вариант остановки: отсечение по
с корневой вершины, затем переходят к вершинам
ошибке классификации (Prune on Misclassification
потомкам, пока дальнейшее ветвление не прекра-
Error) [19, 29].
тится и «неразветвленные» вершины потомки ста-
С определением момента, когда дальнейшие
нут терминальными. Терминальные вершины (или
ветвления следует прекратить, непосредственно
листья) - это узлы дерева, начиная с которых ни-
связан четвертый этап - определение «подходя-
какие решения больше не принимаются. Началом
щих размеров» дерева. Очевидно, что чем больше
дерева считается самая верхняя решающая верши-
размерность дерева классификации, тем точнее
на, которую иногда также называют корнем дерева
прогноз.
[19, 23].
В табл. 18 представлены номера вершин (node);
Выбран тип ветвления C&RT (Classification
номера дочерних вершин (child nodes) на левой и
and Regression Trees) - полный перебор вариан-
правой ветвях (left, right branch); исходное количе-
тов одномерного ветвления методом C&RT (Style
ство объектов (observed) в классах; предсказанные
Exhaustive Search for Univariate Splits). Этот метод
классы (predicted classes); условия ветвления (split
можно использовать для всех типов предикторных
conditions).
переменных. В отличие от дискриминантных ме-
Из табл. 18 следует, что левая ветвь содержит
тодов ветвления, в методе C&RT, для того чтобы
четыре узла под номерами 2, 4, 6, 8; правая - че-
найти наилучший вариант ветвления, проводит-
тыре узла под номерами 3, 5, 7, 9. Пять вершины
ся последовательный перебор всех возможных
3, 6, 7, 8 и 9 являются терминальными. Из стро-
комбинаций уровней предикторных переменных.
ки 1 таблицы вытекает, что в первой вершине все
Количество уровней, образующихся от узлов, не
константы устойчивости криптатов классифици-
считая корневую вершину, характеризуют глубину
рованы (предсказаны) как Класс 1 (обозначения
дерева [29].
классов в правом верхнем углу вершин рис. 6), по
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 91 № 3 2021
466
БОНДАРЕВ
(правая и левая) с соответствующими вершинами
4 и 5. Условие разделения констант устойчивости
по вершинам 4 и 5 подчиняется правилу: если
U1 ≤ 4.739, то константы устойчивости классифи-
цируются как Класс 4, в противном случае - как
Класс 3. Из строк 4 и 5 таблицы вытекает, что по
данному правилу 3 и 18 (всего 21) наблюдаемых
констант устойчивости Классов 2 и 4 предсказаны
как Класс 4, а 2 и 12 (всего 14) наблюдаемых кон-
стант устойчивости Классов 2 и 3 предсказаны как
Класс 3.
Дальнейшая интерпретация результатов табл.
18 значительно упрощается, если воспользоваться
Рис. 6. Граф дерева классификации констант устойчи-
графом дерева классификации, приведенным на
вости криптатов M[222]+.
рис. 6.
В табл. 19 приведены результаты деревьев клас-
сификации для правила остановки ветвления -
наибольшему числу констант в первом классе (29).
отсечение по ошибке классификации констант
Из вершины 1 выходят две ветви (правая и левая) с
соответствующими вершинами 2 и 3 (обозначения
устойчивости криптатов (выбранное дерево клас-
сификации отмечено звездочкой) [19, 29].
в левом верхнем углу вершин).
В табл. 20 приведена матрица ошибок клас-
Условие (правило) разделения констант устой-
сификации глобальной кросс-проверки [19, 29].
чивости по вершинам 2 и 3 следующее: если зна-
Из данной таблицы следует, что при глобаль-
чение переменной β ≤ 0.57, то константы устойчи-
ной кросс-проверке две константы устойчивости
вости классифицируются как Класс 4, в противном
случае - как Класс 1. Из строк 2 и 3 следует, что
Класса 3 неверно классифицированы как Класс
2, все остальные константы устойчивости клас-
по данному правилу 5, 12, и 18 (всего 35) наблю-
сифицированы верно. При этом цена глобаль-
даемых констант устойчивости Классов 2, 3 и 4
ной кросс-проверки (Global CV cost) составила
предсказаны как Класс 4, а 29 констант устойчи-
0.031250, стандартное отклонение (s.d. Global CV
вости Класса 1 правильно классифицированы как
Класс 1. Из вершины 2 также выходят две ветви
cost) цены - 0.02175 и эти величины совпадают с
Таблица 19. Статистика для последовательности деревьев классификации
Номер
Терминальные
Цена
Стандартная
Цена
Сложность
вершины
вершины
кросс-проверки
ошибка
обучения
усеченного дерева
1*
5
0.031250
0.021749
0.000000
0.000000
2
4
0.062500
0.030258
0.031250
0.031250
3
3
0.078125
0.033546
0.078125
0.046875
4
2
0.265625
0.055208
0.265625
0.187500
5
1
0.546875
0.062225
0.546875
0.281250
Таблица 20. Матрица ошибок классификации глобальной кросс-проверкиа
Класс
Класс 1
Класс 2
Класс 3
Класс 4
1
0
0
0
2
0
0
0
3
0
2
0
4
0
0
0
а Матрица: предсказанные ошибки (строки) × наблюдаемые ошибки (колонки); цена глобальной кросс-проверки = 0.03125; стан-
дартное отклонение цены = 0.02175.
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 91 № 3 2021
КOМПЬЮТЕРНЫЙ АНАЛИЗ УСТОЙЧИВОСТИ КРИПТАТОВ
467
Таблица 21. Статистические показатели прямой и обратной пошаговой регрессииа
Число
Стандартная ошибка
Стандартная ошибка
Beta
b
t(61)
p-Уровень
наблюдений
Beta
b
b0
12.85
1.06
12.15
0.000
β
-0.46
0.10
-6.06
1.39
-4.37
0.000
ε
-0.35
0.10
-0.07
0.02
-3.39
0.001
а R 0.578, R2 0.334, R2a 0.313, F(2.61) 15.32 p < 0.000, стандартная ошибка аппроксимации - 2.78.
Таблица 22. Показатели частной корреляции
Частная
Получастная
Переменная
Beta
Толерантность
R2
tнабл(61)
p-Уровень
корреляция
корреляция
β
-0.46
-0.488
-0.456
1.0
0.000
4.37
0.000
ε
-0.35
-0.399
–0.354
1.0
0.000
3.39
0.001
ценой кросс-проверки (табл. 19). Таким образом,
ент множественной корреляции, характеризует
процедура классификации констант устойчивости
тесноту связи между предикторами и константой
криптатов методом Дерева классификации про-
устойчивости криптата (откликом), а также явля-
ведена успешно и ее результаты на 96.9% (62/64)
ется оценкой качества предсказания, изменяется в
подтвердили результаты кластерного, дискрими-
пределах от 0 до 1; R2a = 1 - (1 - R2)[n/(n - k)] - скор-
нантного и канонического анализа.
ректированное (adjusted) значение R2, где k - число
Получено решающее правило, состоящее из че-
параметров (коэффициентов bi) в регрессионном
тырех этапов (табл. 18, рис. 6), которое произволь-
уравнении без учета свободного члена.
ную (прогнозируемую) константу устойчивости
Для получения регрессионных уравнений (ма-
криптата относит к одному из четырех классов по
тематических моделей) использован метод по-
значениям свойств растворителя (β, ЕT) и катиона
шаговой регрессии. Эта процедура вводит или
(U1).
выводит предикторы (свойства растворителей и
Множественная линейная регрессия. Крат-
катионов) из уравнения регрессии по очереди, ос-
кое описание модуля множественная регрес-
новываясь на серии F-тестов, t-тестов или других
сия (Multiple Regression) [19, 29] в программе
подходах [19].
STATISTICA 12, применительно к рассматривае-
В табл. 21 представлены результаты прямой и
мой задаче аппроксимации констант устойчивости
обратной пошаговой регрессии. Таблица содержит
криптатов катионов по свойствам растворителей
стандартизованные (Beta) и нестандартизованные
и катионов: Yi - наблюдаемые значения константы
устойчивости криптатов lgKi; PrYi - предсказан-
(b) регрессионные коэффициенты, их стандарт-
ные значения (рredictable values) lgK, вычислен-
ные ошибки и уровни значимости. Коэффициенты
ные по уравнению регрессии: PrYi = b0 + b1Х1 +
Beta оцениваются по стандартизованным данным,
b2Х2 + … + bnХn, где Хi - свойства растворителей
имеющим выборочное среднее, равное 0, и стан-
и катионов, bi - коэффициенты уравнения регрес-
дартное отклонение, равное 1. Близкие значения
сии, i = 1, 2, …, n), n - количество переменных (ε,
коэффициентов Beta позволяют заключить, что
β, ЕT, U1), b0 - свободный член; Res = (Yi - PrYi)
вклады каждого предиктора (β и ε) в предсказание
- остатки (residuals), разность между наблюда-
константы устойчивости криптатов практически
емыми значениями lgK и предсказанными; SS =
одинаковые. Отрицательный знак коэффициентов
Σi(Yi
Y)2
- сумма квадратов Yi, скорректиро-
при этих переменных означает, что с увеличением
Y = ΣiYi/n; SSPr =
значений β и ε, устойчивость комплексов катионов
Y)2 - сумма квадратов PrYi, скорректиро-
с криптандом [222] уменьшается. Коэффициенты
Y)2 - сумма
уравнения регрессии b1, b2 и свободный член b0
квадратов остатков; R2 = (1 - SSRes/SS) - коэф-
статистически значимы при уровне значимости р
2
фициент детерминации;
R= R
- коэффици-
0.05, так как р < 0.05.
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 91 № 3 2021
468
БОНДАРЕВ
Таблица 22 содержит коэффициенты Beta, част-
что коэффициенты корреляции статистически зна-
ные коэффициенты корреляции, получастные ко-
чимы для переменных β и ε.
эффициенты корреляции (Semipart Cor), толерант-
Значение коэффициента множественной корре-
ности (Tolerance), коэффициенты детерминации
ляции R = 0.578 (табл. 21) свидетельствует о том,
(R-square), значения t-критерия и уровни значимо-
что построенная регрессионной модель обладает
сти p - вероятности отклонения гипотезы о значи-
недостаточной прогностической мощностью для
мости частного коэффициента корреляции.
предсказания устойчивости криптатов M[222]+
Частные коэффициенты корреляции (Partial
по свойствам растворителей и катионов. Поэтому
Cor) показывают степень влияния одного предик-
были привлечены нейросетевые технологии.
тора на константу устойчивости криптата (отклик)
Нейросетевой анализ. Процесс обучения ней-
в предположении, что остальные предикторы за-
ронной сети [19, 30] заключался в подстройке
креплены на постоянном уровне, т. е. контроли-
ее внутренних параметров под конкретную задачу
руется их влияние на отклик [19, 29]. Из табл. 22
[19] - построение нейросетевого аппроксиматора
следует, что возрастание электронодонорной спо-
и классификаторов констант устойчивости крип-
собности растворителей в большей степени влия-
татов по свойствам растворителей и катионов.
ет на снижение устойчивости криптатов M[222]+,
Алгоритм работы нейронной сети является итера-
чем возрастание диэлектрической проницаемости.
тивным, его шаги называют эпохами или циклами.
Получастная корреляция - корреляция предик-
Эпоха - одна итерация в процессе обучения, вклю-
тора и константы устойчивости криптата в пред-
чающая предъявление к обучению всех наблюде-
положении, что контролируется влияние других
ний (примеров) из обучающего множества. Сеть
предикторов на данный предиктор, но не контро-
обучалась на выборке (train), включающей 70%
лируется влияние предикторов на отклик [19, 29]
наблюдений, процесс обучения контролировал-
(константу устойчивости комплексов M[222]+).
ся (test) на контрольной выборке (15% наблюде-
Если получастная корреляция мала, в то время как
ний), обученная сеть проверялась на проверочной
частная корреляция относительно велика, то со-
(validation) выборке (15% наблюдений). Контроль-
ответствующий предиктор может иметь самосто-
ная выборка используется для остановки обучения
ятельную часть в объяснении изменчивости кон-
в момент наилучшей обучающей способности ней-
станты устойчивости (зависимой переменной), т.
ронной сети (минимальная ошибка на контроль-
е. часть, которая не объясняется другими предик-
ной выборке). Проверочная выборка не участвует
торами. Из данных табл. 22 видно, что предикторы
в обучении вообще, после завершения обучения
β и ε не имеют самостоятельной части в объясне-
она используется для оценки производительности
нии изменчивости устойчивости криптатов, так
полученной сети.
как их частные и получастные корреляции доста-
В табл. 23 приведены основные характеристики
точно близки.
лучшего (из 1000 обученных) нейросетевого ап-
Коэффициент детерминации - квадрат коэффи-
проксиматора - многослойного персептрона МLP
циента множественной корреляции между данной
4-7-1. Архитектура MLP 4-7-1 обозначает: много-
переменной и всеми остальными переменными,
слойный персептрон с 4-мя входными и 1-й вы-
входящими в уравнение регрессии. Из таблицы
ходной переменными, и тремя слоями: входной -
следует, что коэффициенты детерминации близки
4 нейрона, промежуточный - 7 нейронов и выход-
к нулю, что свидетельствует об ортогональности
ной - 1 нейрон.
предикторов β и ε по отношению к другим свой-
ствам растворителей и катионам. Толерантность
Коэффициенты корреляции на обучающем,
(1 - R2), как мера избыточности переменной, под-
контрольном и тестовом множествах равны 0.9897,
тверждает этот вывод.tнабл(61) - значение критерия
0.9851 и 0.9930 соответственно. Статистические
Стьюдента для проверки гипотезы о значимости
характеристики обученной нейросетевой модели
частного коэффициента корреляции с указанным
персептронного типа МLP 4-7-1 (табл. 23) отража-
(в скобках) числом степеней свободы. Из табл. 22
ют успешность проведенного обучения. Так, каче-
следует, что tнабл(61) > tкр(61) = 2.00 - это означает,
ство обучения на различных множествах больше
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 91 № 3 2021
КOМПЬЮТЕРНЫЙ АНАЛИЗ УСТОЙЧИВОСТИ КРИПТАТОВ
469
Таблица 23. Итоги обучения нейросетевого аппроксиматора МLP 4-7-1a
BFGS
MLP 4-7-1
0.990
0.993
0.985
0.105
0.160
0.117
SOS
Lgistic
Identity
112
а Производительность обучения, контрольная производительность, тестовая производительность - отношение стандартного от-
клонения ошибки прогноза к стандартному отклонению исходных данных на соответствующих выборках; Ошибка обучения,
контрольная ошибка, тестовая ошибка - ошибки сети на соответствующих выборках; BFGS - алгоритм Бройдена-Флетчера-
Гольдфарба-Шанно [31, 32]; SOS - среднеквадратичная ошибка
P - количество обработанных
примеров в выборке; Identity - тождественная φ(x) = x, Lgistic - логистическая φ(x) = 1/(1 + exp(-tx) [19].
Таблица 24. Итоги кластеризации констант устойчивости криптатов М[222]+ многослойным персептроном МLP
4-7-4
Архитектура
Показатели кластеризации
Класс 1
Класс 2
Класс 3
Класс 4
Все
Все
29
5
12
18
64
MLP 4-7-4
Правильно
29
5
12
18
64
98%, ошибка обучения на обучающем множестве
0.105, на контрольном 0.160, на тестовом - 0.117.
Эти данные также свидетельствуют о том, что
нейросетевая модель обладает большей прогнози-
где z - входной вектор функции softmax, zi - эле-
рующей силой, чем модель множественной линей-
менты входного вектора, K - количество классов в
ной регрессии, коэффициент корреляции которой
мультиклассификаторе [19, 33].
0.578.
Алгоритм многослойного персептрона MLP
Обученный нейросетевой классификатор МLP
4-7-4 на 100% подтвердил правомочность класте-
4-7-4 (табл. 24) имеет следующие основные харак-
ризации методом k-средних (табл. 24).
теристики: производительность обучения - 100%,
По степени влияния на классификацию (груп-
контрольная производительность - 100%, тестовая
пирование) констант устойчивости криптатов
производительность - 100%; алгоритм обучения -
свойства растворителей и катионов располагают-
BFGS 8; функция ошибки Entropy - кросс-энтро-
ся в следующий ряд: β(1.33) > U1(1.13) > ε(0.90) >
пийные потери
ET(0.79). Техника проведения анализа чувстви-
тельности состоит в изменении выбранных пара-
метров в определенных пределах, при условии,
что остальные параметры остаются неизменными
р и q - несвязанные друг с другом случайные пере-
[19]. Таким образом, электронодонорные свойства
менные [19]; функции активации нейронов: скры-
растворителей и энергия ионизации атомов ще-
тых - Identity φ(x) = ex; выходных - Softmax
лочных металлов - наиболее критические пере-
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 91 № 3 2021
470
БОНДАРЕВ
Таблица 25. Итоги кластеризации констант устойчивости криптатов М[222]+ самоорганизующейся сетью Кохонена
SOFM 8-4
Ошибка
Количественный состав кластеров
тестовая
Алгоритм
обучающая
контрольная
Cеть
выборка,
обучения
Класс 1
Класс 2
Класс 3
Класс 4
выборка, 70%
выборка, 15%
15%
М[222]+, М = Li, Na, K, Rb или Cs
SOFM
0.1578
0.2547
0.2008
Kohonen 1000
29
5
12
18
8-4
Таблица 26. Наблюдаемые (lgKэксп) и аппроксимированные (lgKMLP) персептроном MLP 4-7-1 значения констант
комплекообразования (lgK) катионов с криптандом [222]
Растворитель
Вода
0.98
0.62
3.98
4.92
5.47
5.82
4.24
4.29
1.47
1.15
Метанол
2.59
3.22
7.98
7.97
10.41
9.98
9.10
8.15
4.00
4.15
Этанол
2.57
3.18
8.57
7.99
10.50
10.48
9.28
8.72
4.17
4.82
н-Пропанол
2.49
3.00
8.39
7.85
10.80
10.58
9.09
9.06
4.55
5.73
Ацетон
4.62
5.11
8.89
8.43
10.04
10.31
8.39
8.37
3.96
4.16
Пропиленкарбонат
6.94
7.22
10.54
10.73
11.19
11.00
9.02
8.85
4.00
4.37
N-Метилпирролидон
2.97
2.31
5.83
6.56
8.41
8.82
7.28
7.02
4.38
3.08
ДМСО
1.05
0.75
5.32
5.02
7.11
7.17
5.85
5.60
2.19
2.23
ДМФА
2.80*
6.17
6.88
7.98
8.74
6.78
6.84
2.16
2.71
Нитрометан
11.47
11.06
13.56
13.34
12.58
12.70
10.30
10.28
5.10
5.43
Ацетонитрил
6.98
6.26
9.63
9.78
11.01
11.29
9.50
9.26
4.57
4.87
Бензонитрил
9.14
8.51
11.56
11.78
13.06
13.11
11.00
10.92
6.59
6.24
1,2-Дихлорэтан
7.90
8.58
10.60
10.59
13.00
13.08
12.49
11.54
8.50
8.26
менные, которые в наибольшей степени влияют на
на калия. Экспериментальные константы комплек-
осуществимость и эффективность разделения кон-
сообразования lgKэксп, взятые из работы [34], не
стант устойчивости криптатов катионов на четыре
использовались в обучении нейронной сети.
класса.
В табл. 28 приведены прогнозные lgKMLP и ли-
В табл. 25 приведены основные характеристи-
тературные lgKэксп значения констант устойчиво-
ки самоорганизующего классификатора SOFM
сти криптатов Nа[222]+ и K[222]+ в органических
8-4, на 100 % подтвердившего результаты класте-
растворителях [35].
ризации методом k-средних.
Из анализа прогнозных данных, приведенных
Аппроксимирующие и прогностические воз-
в табл. 27 и 28, вытекают возможные пути повы-
можности персептрона MLP 4-7-1. В табл. 26
шения прогностической мощности нейросетевой
приведены результаты применения обученного
модели MLP 4-7-1: (1) введение в обучающую вы-
персептрона MLP 4-7-1 для аппроксимации зави-
борку данных по константам комплексообразова-
симости экспериментальных констант устойчи-
ния М[222]+ в смешанных растворителях разного
вости криптатов катионов щелочных металлов от
состава (табл. 27) и (2) пополнение обучающей
свойств растворителей и катионов.
выборки паттерновыми растворителями, свойства
которых изменяются в широких пределах.
В табл. 27 приведены результаты прогнозирова-
ния обученным персептроном MLP 4-7-1 констант
Обучение персептрона-аппроксиматора MLP
устойчивости криптата К[222]+ по свойствам сме-
4-7-1 проведено на свойствах растворителей, диэ-
шанных растворителей вода-ацетонитрил и катио-
лектрическая проницаемость которых изменялась
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 91 № 3 2021
КOМПЬЮТЕРНЫЙ АНАЛИЗ УСТОЙЧИВОСТИ КРИПТАТОВ
471
Таблица 27. Наблюдаемые (lgKэксп) [34] и предсказанные (lgKMLP) персептроном MLP 4-7-1 значения констант
устойчивости криптатов K[222]+ в смешанных растворителях вода-ацетонитрил
lgKэксп
lgKMLP
Мол. доля МеСN
ε
β
ЕT
U1
Oстатки
К[222]+
К[222]+
H2O
78.36
0.47
1.000
4.34
5.60
5.82
-0.22
0.1
70.47
0.34
0.890
4.34
6.50
8.32
-1.82
0.2
62.29
0.39
0.830
4.34
7.10
8.48
-1.38
0.3
55.69
0.41
0.810
4.34
7.70
8.80
-1.10
0.4
50.78
0.40
0.790
4.34
8.10
9.19
-1.09
0.5
47.06
0.40
0.770
4.34
8.60
9.33
-0.73
0.6
44.02
0.42
0.750
4.34
8.90
9.29
-0.39
0.7
41.42
0.44
0.730
4.34
9.20
9.26
-0.06
0.8
39.26
0.43
0.700
4.34
9.70
9.34
0.36
0.9
37.60
0.40
0.640
4.34
10.30
9.67
0.63
МеСN
35.86
0.37
0.460
4.34
11.40
11.80
-0.40
Таблица 28. Наблюдаемые (lgKэксп) [35] и предсказанніе (lgKMLP) персептроном MLP 4-7-1 значения констант устой-
чивости криптатов Nа[222]+ и K[222]+ в органических растворителях
lgKэксп
lgKMLP
Криптат
Растворитель
ε
β
ЕT
U1
Oстатки
М[222]+
M[222]+
Na[222]+
Тетраметиленсульфон
43.26
0.39
0.410
5.14
10.50
11.79
-1.29
K[222]+
Тетраметиленсульфон
43.26
0.39
0.410
4.34
11.30
12.79
-1.49
Na[222]+
Формамид
109.50
0.48
0.775
5.14
6.20
-0.21
6.41
K[222]+
Формамид
109.50
0.48
0.775
4.34
7.90
3.38
4.52
Na[222]+
N,N-Диметилацетамид
37.78
0.76
0.377
5.14
5.70
6.12
-0.42
K[222]+
N,N-Диметилацетамид
37.78
0.76
0.377
4.34
8.00
8.23
-0.23
в пределах от 10.36 (С2H4Cl2) до 78.36 (H2O). Ди-
дает возможность обосновать статистическую
электрическая проницаемость формамида - 109.50
значимость свойств растворителей и катионов,
(табл. 28). Это одна из причин неудовлетворитель-
влияющих на устойчивость криптатов катионов
ного прогнозирования констант устойчивости
щелочных металлов в разных растворителях и
криптатов в формамиде.
осуществить отбор дескрипторов для построения
нейросетевых прогнозных моделей аппроксима-
Представлена методология кластеризации
ции и классификации устойчивости катионных
(группирования) и прогнозирования устойчивости
комплексов M[2.2.2]+.
криптатов катионов щелочных металлов по свой-
Построенные разведочные и нейросетевые мо-
ствам растворителей и катионов на основе ком-
дели позволяют предсказывать константы устой-
пьютерного анализа экспериментальных данных
чивости коронатов катионов щелочных металлов
по константам устойчивости комплексов состава
в органических и водно-органических средах
1:1 криптанда [2.2.2] c катионами Li+, Na+, K+, Rb+,
по свойствам растворителей и катионов, а также
Cs+.
оптимизировать планирование экспериментов в
Методологическую основу классификации и
растворителях, в которых комплексообразование
прогнозирования устойчивости криптатов состав-
криптандов с катионами еще не изучено, либо ис-
ляет сочетание алгоритмов разведочных методов
следовано недостаточно полно.
анализа, множественной линейной регрессии,
КОНФЛИКТ ИНТЕРЕСОВ
многослойных искусственных нейронных сетей
и самоорганизующихся сетей Кохонена. Совмест-
Автор заявляет об отсутствии конфликта
ное использование разведочных методов анализа
интересов.
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 91 № 3 2021
472
БОНДАРЕВ
СПИСОК ЛИТЕРАТУРЫ
18.
Физические величины. Справочник / Под ред.
И.С. Григорьева, Е.3. Мейлихова. М.: Энергоатомиз-
1.
Pedersen C.J. // Science. 1988 Vоl. 241. N 4865.
дат, 1991. 1232 с.
P. 536. doi 10.1126/science.241.4865.536
19.
StatSoft - Электронный учебник по статистике.
2.
Lehn J.-M. // Angew. Chem. Int. Ed. Engl. 1988.
http://statsoft.ru/home/textbook/
Vol. 27. N 1. P. 89. doi 10.1002/anie.198800891
20.
Лемешко Б.Ю. Критерии проверки отклонения рас-
3.
Cram D.J. // J. Incl. Phenom. Macrocycl. Chem. 1988.
пределения от нормального закона. Руководство по
Vol. 6. N 4. P. 397. doi 10.1007/bf00658982
применению. 2014. Новосибирск: НГТУ. 192 с.
4.
Лен Ж.-М. Супрамолекулярная химия: Концепции и
21.
Ким Дж.-О., Мьюллер Ч.У., Клекка У.Р. Факторный,
перспективы. Новосибирск: Наука. Сиб. предприя-
дискриминантный и кластерный анализ. М.: Финан-
тие РАН, 1998. 334 с.
5.
Стид Дж.В., Этвуд Дж.Л. Супрамолекулярная хи-
сы и статистика. 1989. 216 c.
мия. М.: ИКЦ «Академкнига», 2007. Т. 1. 2007. 480 c.
22.
Малхорта Н.К. Маркетинговые исследования.
6.
Цивадзе А.Ю., Ионова Г.В., Михалко В.К., Кос-
Практическое руководство. М.: Издательский дом
трубов Ю.Н. // Усп. хим. 2007. Т. 76. № 3. С. 237;
«Вильямс», 2002. 960 с.
Tsivadze A.Yu, Ionova G.V., Mikhalko V.K., Kostru-
23.
Боровиков В.П. STATISTICA. Искусство анализа
bov Yu.N. // Russ. Chem. Rev. 2007. Vol. 76. N 3. P. 213.
данных на компьютере: Для профессионалов. СПб:
doi 10.1070/RC2007v076n03ABEH003628
Питер, 2003. 686 с.
7.
Соловьев И.П. Дис
докт. хим. наук. М., 2007. 350 с.
24.
Наследов А. IBM SPSS Statistics 20 и AMOS: профес-
8.
Бондарев Н.В. Термодинамика равновесий. Эффек-
сиональный статистический анализ данных. СПб:
ты среды и нейросетевой анализ. Saarbrucken: LAP
Питер, 2013. 416 с.
LAMBERT Academic Publishing, 2012. 380 c.
25.
Винберг Э.Б. Курс алгебры. М.: МЦНМО, 2019. 592 с.
9.
Бондарев Н.В. // ЖОХ. 2019. Т. 89. № 2. С. 288. doi
26.
Kaiser H.F. // Educ. Psych. Measur. 1960. Vol. 20. N 1.
10.1134/S0044460X19020197; Bondarev N.V. // Russ.
P. 141. doi 10.1177/001316446002000116
J. Gen. Chem. 2019. Vol. 89. N 2. P. 281. doi 10.1134/
27.
Cattell R.B. // Multivariate Behav. Res. 1966. Vol. 1.
S1070363219020191
N 2. P. 245. doi 10.1207/s15327906mbr0102_10
10.
Бондарев Н.В. // ЖОХ. 2019. Т. 89. № 7. С. 1085.
28.
Fisher R.A. // Ann. Eugen. 1936. Vol. 7. N 2. P. 179. doi
doi 10.1134/S0044460X1907014X; Bondarev N.V. //
10.1111/j.1469-1809.1936.tb02137.x
Russ. J. Gen. Chem. 2019. Vol. 89. N 7. P. 1438. doi
29.
Халафян А.А. Современные статистические методы
10.1134/S1070363219070144
медицинских исследований. М.: ЛКИ, 2008. 320 с.
11.
Бондарев Н.В. // ЖОХ. 2020. Т. 90. № 6. С. 953. doi
30.
Боровиков В.П. Нейронные сети. Statistica Neural
10.31857/S0044460X20060170; Bondarev N.V. // Russ.
Networks. Методология и технологии современного
J. Gen. Chem. 2020. Vol. 90. N 6. P. 1040. doi 10.1134/
анализа данных. М.: Горячая линия - Телеком, 2008.
S1070363220060171
392 с.
12.
Бондарев Н.В. // ЖОХ. 2020. Т. 90. № 8. С. 1272;
31.
Nocedal J., Wright S.J. Numerical Optimization.
Bondarev N.V. // Russ. J. Gen. Chem. 2020. Vol. 90.
Dordrecht: Springer, 2006. 683 p.
N 8. P. 1476. doi 10.1134/S1070363220080149
32.
Al-Baali M., Spedicato E., Maggioni F. // Optimization
13.
Бондарев Н.В. // ЖОХ. 2020. Т. 90. № 10. С. 1583. doi
Methods and Software. 2013. Vol. 29. N 5. P. 937. doi
10.31857/S0044460X20100145; Bondarev N.V. // Russ.
10.1080/10556788.2013.856909
J. Gen. Chem. 2020. Vol. 90. N 10. P. 1906. doi 10.1134/
33.
Aggarwal C.C. An Introduction to Neural Networks.
S107036322010014X
In: Neural Networks and Deep Learningю New York:
14.
Marcus Y. // Rev. Anal. Chem. 2004. Vol. 23. N 4.
Springer, 2018. Р. 1. doi 10.1007/978-3-319-94463-
P. 269. doi 10.1515/REVAC.2004.23.4.269
15.
Marcus Y. The Properties of Solvents. Chichester: John
0_1752
Wiley & Sons. 1999. Vol. 4. 399 p.
34.
Izatt R.M., Bradshaw J.S., Nielsen S.A., Lamb J.D.,
16.
Shannon R.D., Prewitt C.T. // Acta Crystallgr.
Christensen J. J., Sen D. // Chem. Rev. 1985. Vol. 85.
(B). 1969. Vol. 25. N 5. P. 925. doi 10.1107/
N 4. P. 271. doi 10.1021/cr00068a003
s0567740869003220
35.
Filipek S., Wagner-Czauderna E., Kalinowski M.K. //
17.
Таблицы физических величин. Справочник / Под
J. Coord. Chem. 1999. Vol. 48. N 2. P. 147. doi
ред. И.К. Кикоина. М.: Атомиздат, 1976. 1008 с.
10.1080/00958979908027962
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 91 № 3 2021
КOМПЬЮТЕРНЫЙ АНАЛИЗ УСТОЙЧИВОСТИ КРИПТАТОВ
473
Computer Analysis of Stability of Alkaline Metal Cation
M[222]+ Cryptates in Different Solvents
N. V. Bondarev*
V.N. Karazin Kharkiv National University, Kharkiv, 61022 Ukraine
*e-mail: bondarev_n@rambler.ru
Received December 22, 2020; Revised December 22, 2020; accepted January 15, 2021
Computer analysis of the thermodynamic constants of complexation of cryptand [222] with alkali metal cations
(cryptates M[222]+, where M = Li, Na, K, Rb, Cs) in water and organic solvents such as methanol, ethanol,
1-propanol, acetonitrile, benzonitrile, acetone, N,N-dimethylformamide, N-methylpyrrolidone, nitrobenzene,
nitromethane, 1,2-dichloroethane, and propylene carbonate at 298.15 K was performed. Exploratory (factorial,
cluster, discriminant, canonical, decision tree), regression and neural network models of effects of the prop-
erties of solvents and cations on the cation cryptates stability were created. The neural network approximator
MLP 4-7-1 and the classifiers of the stability constants of cryptates - the multilayer perceptron MLP 4-7-4 and
the self-organizing Kohonen network SOFM 8-4 - were trained. Independent data on the stability constants
of alkali metal cations cryptates demonstrate the predictive capabilities of the trained MLP 4-7-1 perceptron
approximator.
Keywords: cryptand [222], complex formation constant, exploratory analysis, multiple linear regression, neural
networks, modeling, forecasting
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 91 № 3 2021