ЖУРНАЛ ОБЩЕЙ ХИМИИ, 2019, том 89, № 7, с. 1085-1095
УДК 544.354.081.7:004.021
ИСКУССТВЕННАЯ НЕЙРОННАЯ СЕТЬ И
МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ ДЛЯ
ПРОГНОЗИРОВАНИЯ И КЛАССИФИКАЦИИ
УСТОЙЧИВОСТИ КОРОНАТОВ НАТРИЯ И КАЛИЯ
© 2019 г. Н. В. Бондарев*
Харьковский национальный университет имени В. Н. Каразина,
пл. Свободы 4, Харьков, 61022 Украина
*e-mail: bondarev_n@rambler.ru
Поступило в Редакцию 23 января 2019 г.
После доработки 23 января 2019 г.
Принято к печати 10 февраля 2019 г.
Разработаны модели множественной линейной регрессии и многослойной искусственной нейронной
сети для моделирования и прогнозирования констант устойчивости коронатов натрия и калия по
свойствам водно-органических растворителей вода-метанол, вода-пропан-2-ол, вода-ацетонитрил, вода-
ацетон. Приведены спрогнозированные значения констант устойчивости коронатов в водно-этанольных
растворителях и проведено сравнение результатов моделей множественной линейной регрессии и
искусственной нейронной сети. На основе моделей множественной линейной регрессии и принципа
линейности свободных энергий проведена количественная оценка вкладов электростатических,
когезионных и электронодонорных взаимодействий в возрастание устойчивости коронатов. Построены
модели нейронной сети для классификации устойчивости коронатов натрия и калия на основе
алгоритмов обучения без учителя (многослойные персептроны) и с учителем (сети Кохонена). Показано,
что нейросетевые классификаторы полностью подтвердили классификацию устойчивости коронатов,
проведенную разведочным методом k-средних.
Ключевые слова: множественная регрессия, многослойный персептрон, сеть Кохонена,
прогнозирование, нейросетевой классификатор
DOI: 10.1134/S0044460X1907014X
Классические методы прогнозирования в боль-
нейронных сетей
[1]. Основные преимущества
шинстве своем основываются на предположении о
алгоритмов искусственной нейронной сети прояв-
линейной зависимости между прогнозируемой
ляются в способности сетей к обучению, обоб-
(зависимой) переменной и множеством незави-
щению и прогнозированию данных, отказо-
симых дескрипторов. Для построения моделей
устойчивости и параллельной обработке инфор-
линейной множественной регрессии используются
мации в дополнение к быстроте вычислительной
методы корреляционного и регрессионного анализа.
процедуры. Подтверждением этому являются
научные разработки с приложениями нейронных
Нелинейные зависимости между переменными
сетей в теоретической и вычислительной химии,
традиционно моделируются методами подгонки
аналитической химии, биохимии, медицине,
кривых (квадратичных, кубических, степенных,
лекарственной химии, в фармации и исследованиях
показательных, логарифмических, гиперболических,
пищевых продуктов.
экспоненциальных, логистических), методами пре-
образования нелинейных соотношений в линейную
Следует отметить, что искусственные нейрон-
форму и другими. Однако в последние десятилетия
ные сети стали применять к решению хемо-
более перспективным методом моделирования
метрических проблем в начале 90-х годов XX
нелинейных зависимостей в задачах прогнози-
столетия. Подробно описаны четыре приложения
рования является использование искусственных
для химической инженерии
[2]: обнаружение
1085
1086
БОНДАРЕВ
неисправностей,
прогнозирование
качества,
сыра [28], чаев [29], оливковых [30] и расти-
обработка сигналов, моделирование и контроль
тельных масел [31].
процессов. Представлены различные архитектуры
Искусственные нейронные сети успешно
искусственных нейронных сетей и их применение
применяются для интерпретации спектров [32, 33],
в химии
[3], отмечены плюсы и минусы
оптимизации медицинской диагностики патологи-
искусственной нейронной сети по сравнению с
ческих заболеваний [34], моделирования свойств
традиционными хемометрическими методами.
рыбных антибиотиков [35]. Также искусственные
Предложен новый подход
[4], так называемая
нейронные сети используются для прогнози-
искусственная нейронная сеть с физикой и химией
рования константы скорости реакции взаимо-
(Phys-Chem ANN), для предсказания биоактив-
действия химических соединений с гидроксильной
ности пептидов и белков. В основу подхода ANN
группой [36], скорости растворения колеманита в
Phys-Chem положены физические и химические
воде, насыщенной углекислым газом
[37],
свойства, а также структурные особенности
плазмонов в наностержнях серебра [38], потен-
белков. Решена задача классификации и
циалов ионизации атомов I-III групп перио-
прогнозирования силы слабых органических
дической системы Д.И. Менделеева [39], выжи-
кислот в водно-органических растворителях [5].
ваемости пациентов с травмой [42], активности
каннабиноидных лигандов
[40] и органических
С помощью нейросетевых технологий впервые
реакций [41] по отпечаткам пальцев.
проведено моделирование одиночных волновых
кинетических кривых
[6], показана важность
Данная статья посвящена моделированию,
химических сдвигов
1H,
13C и 15N белков для
прогнозированию и классификации устойчивости
подтверждения и уточнения трехмерной структуры
коронатов натрия и калия в водно-органических
белка
[7], разработан алгоритм спектроскопи-
растворителях методами нейронных сетей и
ческих исследований следовых количеств газов [8],
множественной линейной регрессии. Константы
предсказана липофильность химических веществ
устойчивости коронатов натрия и калия в водно-
[9, 10], реализован метод прогнозирования времени
органических растворителях (вода-метанол, вода-
дрейфа ионов пептидов в масс-спектрометрии
пропан-2-ол, вода-ацетонитрил, вода-ацетон)
ионов [11], разработаны модели прогнозирования
получены ранее и представлены в монографии [43].
теплотворной способности словенского угля [12],
Там же приведены литературные данные по
предложен метод одновременного анализа двух
свойствам водно-органических растворителей:
компонентов порошкообразного лекарственного
диэлектрическая
проницаемость,
параметры
препарата парацетамола и дифенгидрамина
Димрота-Райхардта ET и Камлета-Тафта BKT,
гидрохлорида по данным ИК спектроскопии [13],
плотность энергии когезии δ2.
выполнен количественный анализ порошка калия
Построение и анализ результатов моделей
феноксиметилпенициллина по данным ближней
множественной линейной регрессии и нейро-
инфракрасной спектроскопии
[14], проанализи-
сетевых моделей проведены с использованием
ровано влияние демографических, биохимических
статистического пакета STATISTICA 12 в среде
параметров и терапевтических характеристик
Windows 10.
пациентов на концентрацию сыворотки топирамата
[15], построены модели прогнозирования трипано-
Множественная линейная регрессия. В табл. 1
цидной активности хиноноидных соединений [16],
приведены описательные статистики для исходных
исследована противоопухолевая (противораковая)
данных [матрица данных размером n × m, n = 33 -
активность фенольных соединений [17], разраба-
количество наблюдений; m
=
6
- количество
тываются новые лекарства
[18], исследована
зависимых (lgK18C6Na+, lgK18C6K+) и независимых
психоактивность каннабиноидных соединений
параметров (четыре свойства водно-органических
[19], выявлена взаимосвязь между фенольными
растворителей)]. Для проверки характера распре-
соединениями и антиоксидантной активностью
деления переменных на нормальность рассчитан
пищевых продуктов [20]. На основе нейронных
критерий Колмогорова-Смирнова (табл.
2).
сетей разработаны: новая технология для
Расчетные значения критерия для всех переменных
интеллектуальных датчиков газа, работающих в
меньше табличного Dтабл = 0.2308 для n = 33 и α =
динамичной среде [21], алгоритмы классификации
0.05. Это говорит о том, что эмпирические
качества картофеля [22], вин [23-25], меда [26, 27],
распределения переменных не отличаются от
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 89 № 7 2019
ИСКУССТВЕННАЯ НЕЙРОННАЯ СЕТЬ И МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ
1087
Таблица 1. Описательные статистики исходных данных (n = 33)
Среднее
Минимальное
Максимальное
Стандартное
Стандартная
Параметр
Дисперсия
значение
значение
значение
отклонение
ошибка среднего
lgK18C6Na+
2.17
0.52
4.25
1.15
1.07
0.19
lgK18C6K+
3.50
2.04
5.85
1.02
1.01
0.18
1/ε
2.00
1.00
4.12
0.82
0.91
0.16
ET
0.75
0.46
1.00
0.02
0.13
0.02
BKT
0.51
0.19
0.89
0.04
0.19
0.03
δ2
0.67
0.24
1.00
0.05
0.23
0.04
Таблица 2. Расчетные значения критерия Колмогорова-Смирнова
Параметр
Расчетное значение критерия
Параметр
Расчетное значение критерия
lgK18C6Na+
0.0987
ET
0.1230
lgK18C6K+
0.1383
BKT
0.1250
1/ε
0.1773
δ2
0.0782
Таблица 3. Результаты корреляционного анализа
Стандартное
Параметр
Среднее
1/ε
ET
BKT
δ2
lgK18C6Na+
lgK18C6K+
отклонение
1/ε
2.00
0.91
-1.000
-0.827
-0.899
-0.641
-0.352
-0.511
ET
0.75
0.13
-0.827
-1.000
-0.763
-0.732
-0.494
-0.648
BKT
0.51
0.19
-0.899
-0.763
-1.000
-0.507
-0.340
-0.406
δ2
0.67
0.23
-0.641
-0.732
-0.507
1.000
-0.849
-0.970
lgK18C6Na+
3.50
1.01
-0.352
-0.494
-0.340
-0.849
-1.000
-0.928
lgK18C6K+
2.17
1.07
-0.511
-0.648
-0.406
-0.970
-0.928
-1.000
нормального. Следовательно, множественно-
в пакете STATISTICA
12. Это метод прямого
регрессионный анализ исследуемых процессов
выбора регрессоров и метод обратного их
комплексообразования катионов натрия и калия с
исключения. В табл.
4 показаны результаты
18-краун-6 эфиром представляется правомерным.
множественной линейной регрессии. Значения
коэффициента детерминации R2 = 0.961 для модели
В табл.
3 приведены результаты корреля-
lgK18C6Na+ и R2 =
0.835 для модели lgK18C6K+
ционного анализа переменных. Константы
показывают, что линейная регрессия объясняет
устойчивости коронатов (lgK18C6Na+, lgK18C6K+)
96.1% и
83.5% разброса значений переменных
демонстрируют
сильную
отрицательную
lgK18C6Na+ и lgK18C6K+ относительно среднего
корреляцию с плотностью энергии когезии,
уровня. Это свидетельствует о значительной
средняя корреляция зависимой переменной
степени зависимости констант устойчивости
lgK18C6Na+ наблюдается с переменными 1/ε и ET,
коронатов натрия и калия от выбранных для
самая слабая корреляция с дескрипторами 1/ε и BKT
анализа свойств (регрессоров) водно-органических
у переменной lgK18C6K+.
растворителей.
При отборе переменных в регрессионную
Значения F-критерия Фишера Fрасч(2,
30)
=
модель использованы два метода, представленных
374.23 (при степенях свободы ν1 = 2, ν2 = 30) и
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 89 № 7 2019
1088
БОНДАРЕВ
Таблица 4. Результаты множественной регрессии
Параметр
Bi
Стандартная ошибка Bi
|t|расч(30)
p-Уровень
Модель lgK18C6Na+ = B1 + B2δ2 + B31/ε
R = 0.981, R2 = 0.961, Fрасч(2, 30) = 374.23, p = 0.00
B1
-6.08
0.24
25.53
0.00
δ2
-5.18
0.22
23.35
0.00
1/ε
-0.22
0.06
4.03
0.00
Параметр
Bi
Стандартная ошибка Bi
|t|расч(29)
p-Уровень
Модель lgK18C6K+ = B1 + B2δ2 + B31/ε + B4BKT
R = 0.914, R2 = 0.835, Fрасч(3, 29) = 48.75, p = 0.00
B1
-7.31
0.47
15.45
0.00
δ2
-5.01
0.45
11.14
0.00
1/ε
-0.93
0.22
4.23
0.00
BKT
-2.76
0.93
2.97
0.01
Fрасч(3, 29) = 48.75 (при степенях свободы ν1 = 3,
0.231 для n = 33 и р = 0.05. Следовательно, есть
ν2 = 29) говорят об адекватности регрессионных
основания полагать, что остатки регрессионных
моделей. Критические значения при уровне
моделей подчиняются закону нормального
значимости p = 0.05 для данных степеней свободы
распределения, т. е. модели адекватно описывают
Fкр(2, 30) = 3.32, Fкр(3, 29) = 2.93; Fрасч > Fкр.
зависимость констант устойчивости коронатов от
свойств растворителя.
Расчетные значения критерия Стьюдента для
коэффициентов
множественной
линейной
Сопоставление результатов сольватационно-
регрессии |t|расч(30) в пределах от 4.03 до 25.53при
термодинамического анализа, проведенного нами
степенях свободы ν = 30 и |t|расч(29) в пределах от
ранее
[43] (рис.
1), и множественного регрес-
2.97 до
15.45 при степенях свободы ν
=
29
сионного анализа (рис.
2) позволяет раскрыть
позволяют заключить, что коэффициенты Bi
природу взаимодействий в системах водно-
регрессионных моделей (модель lgK18C6Na+, модель
органический растворитель-соль (NaCl или KСl)-
lgK18C6K+) являются значимыми с доверительной
краун-эфир, энергетика которых обусловливает
вероятностью
95% по критерию Стьюдента.
рост устойчивости коронатов натрия и калия с
Критические значения при уровне значимости p =
увеличением содержания органического компонента
0.05 для соответствующих степеней свободы
в смешанном растворителе.
tкр(30) = 2.04, tкр(29) = 2.05; tрасч > tкр.
Согласно сольватационно-термодинамической
Из данных табл.
4 получаем следующие
модели, возрастание устойчивости коронатов
регрессионные модели:
натрия и калия (ΔΔrG°LM
<
0) обусловлено
понижением стабилизации сольватов катионов
lgK18C6Na+ = 6.08±0.49 - (5.18 ± 0.45)δ2
trG°M > 0), краун-эфира (ΔtrG°L > 0) и ростом
- (0.22 ± 0.12)1/ε,
(1)
стабилизации образующихся сольватов коронатов
lgK18C6K+ = 7.31±0.96 - (5.01± 0.92)δ2
trG°LM < 0) при замене воды на водно-мета-
- (0.93 ± 0.45)1/ε + (2.76 ± 1.91)BKT.
(2)
нольные растворители и чистый метанол (рис 1).
Для доказательства правильности построенных
Из анализа результатов моделей множественной
регрессионных моделей проведен анализ остатков
регрессии можно заключить (рис.
2), что
по критерию Колмогорова-Смирнова. Значения
возрастание устойчивости коронатов натрия в
расчетного критерия для модели lgK18C6Na+ Dрасч =
водно-метанольных растворителях обусловлено
0.156, для модели lgK18C6K+ Dрасч = 0.154. Расчетные
энергетикой сил когезии [ΔΔG°LM2) < 0], в то
значения критерия Dрасч меньше критического Dкр =
время как проявление аналогичного эффекта для
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 89 № 7 2019
ИСКУССТВЕННАЯ НЕЙРОННАЯ СЕТЬ И МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ
1089
(а)
(б)
Мол. доля MeOH
Мол. доля MeOH
L, 4 - ΔtrGM) и продуктов
LM =
ΔtrG°LM - ΔtrG°L - ΔtrGM [43], где М = Na+ или K+.
(а)
(б)
Мол. доля MeOH
Мол. доля MeOH
LM2),
LM = ΔΔG°LM(1/ε) +
ΔΔG°LM2) + ΔΔG°LM(BKT), где М = Na+ или K+.
короната калия связано как с энергетикой
образующая способность пары M-L (конкуренция
когезионных взаимодействий [ΔΔG°LM2) < 0], так
за катион). Замена воды на водно-метанольные
и с знергетикой электронодонорных взаимо-
смеси повышает электронодонорную способность
действий [ΔΔG°LM(BKT) < 0]. Электростатические
среды, что проявляется в дополнительной
эффекты среды с ростом содержания метанола в
стабилизации сольватов короната калия водно-
смеси понижают устойчивость коронатов натрия и
метанольным растворителем.
калия по сравнению с водой [ΔΔG°LM(1/ε) > 0].
Нейросетевой и множественной линейной
Выявленные эффекты можно объяснить
регрессии аппроксиматоры. Из построенных в
следующим образом. Уменьшение плотности
Statistica Neural Networks
[44,
45] тысячи
энергии когезии в водно-метанольных раство-
нейронных сетей (сеть радиального базиса,
рителях по сравнению с водой облегчает
многослойный персептрон) выбрана оптимальная
образование полостей в растворителе, которые в
архитектура сети по статистическим показателям -
большей мере стабилизируют сольваты коронатов
персептрон МП
4-7-2. Сеть имеет три слоя:
натрия и калия. С уменьшением диэлектрической
входной слой с четырьмя нейронами, выходной -
проницаемости растворителя возрастает межионное
два нейрона и один скрытый слой с семью
электростатическое взаимодействие (Na+-Cl- и
K+-Cl-) и, как следствие, снижается комплексо-
нейронами (табл. 5).
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 89 № 7 2019
1090
БОНДАРЕВ
Таблица 5. Статистические показатели персептрона МП 4-7-2a
МП 4-7-2
Коэффициент корреляции
lgK
lgK
Подвыборка
производительность
ошибка обучения
18-краун-6Na+
18-краун-6K+
Обучающая
0.9978
0.0038
0.9971
0.9985
Контрольная
0.9997
0.0099
0.9995
0.9999
Тестовая
0.9993
0.0077
0.9992
0.9995
а Производительность обучения, контрольная производительность, тестовая производительность - отношение стандартного
отклонения ошибки прогноза к стандартному отклонению исходных данных на соответствующих выборках. Ошибка обучения,
контрольная ошибка, тестовая ошибка - ошибка сети на соответствующих выборках.
Таблица 6. Результаты аппроксимации зависимости констант устойчивости коронатов натрия и калия от свойств
смешанного растворителя вода-ацетонитрил
lgK(18-краун-6Na+)
lgK(18-краун-6K+)
множественная
множественная
Мол. доля CH3CN
многослойный
многослойный
lgKэксп
линейная
lgKэксп
линейная
персептрон
персептрон
регрессия
регрессия
Вода
0.52
0.68
0.63
2.04
1.89
2.14
0.1
1.18
1.03
1.06
2.42
2.57
2.41
0.2
1.46
1.39
1.33
2.74
2.95
2.67
0.3
1.55
1.74
1.61
3.02
3.24
2.96
0.4
1.64
2.09
1.86
3.28
3.46
3.23
0.5
2.17
2.45
2.19
3.53
3.71
3.51
0.6
2.69
2.81
2.66
3.80
4.04
3.83
0.7
3.20
3.17
3.17
4.08
4.36
4.15
0.8
3.65
3.53
3.64
4.41
4.60
4.36
0.9
4.01
3.90
4.00
4.78
4.81
4.80
1.0
4.25
4.26
4.26
5.20
5.01
5.18
Средняя
10.2
5.5
5.6
1.4
ошибка аппроксимации, %
Трехслойный персептрон обучен [46] на основе
Наблюдения в контрольной выборке
- для
одношагового квазиньютоновского алгоритма
проведения проверки качества обучения сети,
BFGS (Бройдена-Флетчера-Гольдфарба-Шанно)
чтобы исключить переобучение и определить
[47]. Обучение завершено на 85 эпохе с ошибкой
момент остановки обучения сети. Данные в
обучения 0.0038, контрольной ошибкой 0.0099 и
тестовой выборке не использовались при обучении
тестовой ошибкой
0.0077. Ошибки получены
сети, но обученная сеть применялась к этим
соответственно для обучающего (70%), контроль-
данным для независимой проверки качества сети.
ного (15%) и тестового (15%) подмножеств, на
Остановка обучения сети осуществлялась по
которые был разбит исходный масcив констант
достижении минимальной ошибки на контрольном
устойчивости коронатов и свойств водно-
подмножестве [44-46]. Ошибка обучения нейронной
органических растворителей. Данные в обучающей
сети представляет собой суммарное квадратичное
выборке использовались для обучения сети.
отклонение, т.е. cреднеквадратичное отклонение
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 89 № 7 2019
ИСКУССТВЕННАЯ НЕЙРОННАЯ СЕТЬ И МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ
1091
Таблица 7. Прогностический потенциал множественной линейной регрессии и аппроксиматоров многослойных
персептронов
lgK(18-краун-6Na+)
lgK(18-краун-6K+)
Мол. доля
множественная
множественная
многослойный
многослойный
lgKэксп
линейная
lgKэксп
линейная
ацетона
персептрон
персептрон
регрессия
регрессия
Вода
0.52
0.68
0.64
2.04
1.90
2.14
0.1
1.29
1.05
1.01
2.53
2.66
2.44
0.2
1.77
1.41
1.28
2.99
3.08
2.81
0.3
2.04
1.77
1.51
3.41
3.27
3.18
0.4
2.24
2.13
1.76
3.80
3.38
3.44
0.5
2.50
2.48
2.17
4.13
3.52
3.54
0.55
2.68
2.65
2.49
4.29
3.65
3.54
Средняя
12.8
20.0
8.6
7.4
ошибка прогноза, %
предсказаний сети от эмпирических входных данных
K+, полученные с помощью построенных аппрокси-
по константам устойчивости коронатов. Нейроны
маторов множественной линейной регрессии и
скрытого и выходного слоев активировались,
многослойных персептронов, на основе свойств
соответственно, логистической и тождественной
водно-этанольных растворителей (диэлектрическая
активационными функциями.
проницаемость, плотность энергии когезии,
параметры Димрота-Райхардта и Камлета-Тафта).
Одним из способов проверки качества аппрок-
Следует заметить, что в литературе отсутствуют
симации является сравнение наблюдаемых
данные по константам устойчивости моно-
значений lgKэксп и предсказанных результатов
коронатов натрия и калия в смесях вода-этанол.
lgKрасч
методами множественной линейной
регрессии и обученным персептроном МП 4-7-2
Нейросетевые классификаторы. Ранее была
(табл.
6). Из анализа данных табл.
6 можно
проведена кластеризация устойчивости коронатов
заключить, что оба метода проявляют достаточно
натрия и калия методом k-средних
[48].
высокую аппроксимирующую способность, однако
Выполненный кластерный анализ данных позволил
нейронная сеть более эффективна, она имеет
интерпретировать содержимое трех кластеров
меньшую ошибку регрессии.
(классов).
Кластер 1 - умеренно устойчивые коронаты в
Этот вывод также подтвержден результатами
смешанных растворителях
промежуточного
применения моделей множественной линейной
состава (lgKNaL
=
1.5-2.5,
10 констант устой-
регрессии и многослойных персептронов для
чивости; lgKKL = 3.1-3.9, 7 констант устойчивости).
аппроксимации констант устойчивости коронатов
натрия и калия по свойствам водно-ацетоновых
Кластер 2 - устойчивые комплексы в раство-
растворителей (табл. 7). Важно отметить, что эти
рителях с большим содержанием органического
данные не использовались при построении базовых
компонента и в чистых неводных растворителях
прогностических моделей множественной регрессии
(lgKNaL
=
2.6-4.3,
12 констант устойчивости;
и при обучении нейронных сетей, т. е. они
lgKKL = 4.0-5.2, 10 констант устойчивости).
являются основой для независимого тестирования
Кластер 3 - слабо устойчивые коронаты в воде
множественной
линейной
регрессии
и
и смешанных растворителях с большим
аппроксиматоров многослойных персептронов.
содержанием воды (lgKNaL = 0.5-1.4, 11 констант
В табл.
8 приведены константы комплексо-
устойчивости; lgKKL
=
2.0-3.0,
16 констант
образования 18-краун-6 эфира с катионами Na+ и
устойчивости).
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 89 № 7 2019
1092
БОНДАРЕВ
Таблица 8. Прогнозируемые значения констант устойчивости коронатов натрия и калия в водно-этанольных
растворителях
lgK(18-краун-6Na+)
lgK(18-краун-6K+)
множественная
многослойный
множественная
многослойный
Мол. доля EtOH
линейная регрессия
персептрон
линейная регрессия
персептрон
Вода
0.52
0.52
2.04
2.04
0.1
1.00
0.86
2.40
2.32
0.2
1.32
1.38
3.11
2.80
0.3
1.63
1.66
3.41
3.24
0.4
1.94
1.92
3.61
3.74
0.5
2.25
2.22
3.82
4.27
0.6
2.56
2.61
4.03
4.70
0.7
2.88
3.06
4.23
4.82
0.8
3.19
3.56
4.47
4.73
0.9
3.51
4.01
4.77
4.76
1.0
3.83
4.27
4.95
4.72
Таблица 9. Основные характеристики классификаторов МП 4-4-3 и МП 4-3-3а
Функция активации нейронов
Количественный состав кластеров
Алгоритм
Функция
обучения
ошибки
скрытый слой
выходной слой
класс 1
класс 2
класс 3
МП 4-4-3 18-краун-6Na+
BFGS 42
SOS
Logistic
Tanh
10
12
11
МП 4-4-3 18-краун-6K+
BFGS 11
Entropy
Logistic
Softmax
7
10
16
a SOS - среднеквадратичная ошибка E = 1/Pk=1(lgKрасч,k - lgKэксп,k)2], P - число примеров в выборке; Entropy - кросс-энтропия [51]
H(p, q) = -Σxp(x)logq(x), р и q - несвязанные друг с другом случайные переменные; Logistic - логистическая функция σ(x) = 1/[1 +
exp(-tx)], [0,1]; Tanh - гиперболический тангенс th(Ax) = (eAx - e-Ax)/(eAx + e-Ax), [-1,1]; Softmaх - обобщение логистической
функции для многомерного случая σ(zj) = ezjk=1ezj, [0,1].
Данная классификация была подтверждена [48]
В табл. 9, 10 приведены основные характе-
дискриминантным анализом Фишера на
96.97%
ристики обученных классификаторов МП 4-4-3 и
(для обоих коронатов) и построением деревьев
СОК 7-3 для короната натрия, МП 4-3-3 и СОК 5-3
принятия решения - на 90.9% для короната 18-
для короната калия.
краун-6Na+ и на 97.0% для короната 18-краун-6K+.
Проведенные исследования устойчивости
В этом исследовании результаты кластерного
коронатов натрия и калия в водно-органических
анализа методом k-средних на 100% подтверждены
растворителях методами множественной линейной
классификационными алгоритмами искусственной
регрессии и нейронных сетей показали следующее.
нейронной сети - многослойным персептроном и
Для подтверждения достоверности результатов
самоорганизующейся нейронной сетью Кохонена
решения задач
многофакторного
анализа
(СОК)
[49,
50]. В отличие от многослойного
(нелинейной регрессии) и классификации устой-
персептрона (обучение с учителем), сеть Кохонена
чивости коронатов необходимо использовать
представляет собой соревновательную нейронную
различные методы анализа данных. При решении
сеть с обучением без учителя.
задач аппроксимации констант комплексо-
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 89 № 7 2019
ИСКУССТВЕННАЯ НЕЙРОННАЯ СЕТЬ И МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ
1093
Таблица 10. Основные характеристики сети Кохонена как классификатора
Количественный состав
Ошибка
кластеров
Алгоритм
Cеть
обучения
обучающая
контрольная
тестовая
класс 1
класс 2
класс 3
выборка, 70%
выборка, 15%
выборка, 15%
18-краун-6Na+
СOK 7-3
0.1215
0.1001
0.2504
Kohonen 1000
10
12
11
18-краун-6K+
СOK 5-3
0.1025
0.1981
0.2055
Kohonen 1000
7
10
16
образования и прогнозирования устойчивости
СПИСОК ЛИТЕРАТУРЫ
коронатов натрия и калия по свойствам водно-
органических растворителей в равной степени
1. Artificial
Neural Networks. Architectures and
применимы как классический статистический
Applications / Ed. K. Suzuki. Chicago: University of
Chicago, 2013. doi 10.5772/3409
метод множественной линейной регрессии, так и
2. Himmelblau D.M. // Korean Z. Chem. Eng.
2000.
нейронные сети, использующие алгоритм обучения
Vol. 17. N 4. P. 373. doi 10.1007/BF02706848
с учителем. Метод множественной линейной
3. Marini F., Bucci R., Magrì A.L., Magrì A.D.
//
регрессии по точности аппроксимации несколько
Microchem. J. 2008. Vol. 88. P. 178. doi 10.1016/
уступает многослойному персептрону. Тем не
j.microc.2007.11.008
менее, сильной стороной метода множественной
4. Huang R.B., Du Q.S., Wei Y.T., Pang Z.W., Wei H.,
линейной регрессии является то, что его
Chou K.C. // J. Theor. Biol. 2009. Vol. 256. N 3. P. 428.
результаты позволяют количественно оценить
doi 10.1016/j.jtbi.2008.08.028
энергетические
вклады
электростатических,
5. Бондарев Н.В. // ЖОХ. 2017. Т. 87. № 2. С. 207;
когезионных и донорно-акцепторных взаимо-
Bondarev N.V. // Russ. J. Gen. Chem. 2017. Vol. 87.
действий в возрастание устойчивости коронатов
N 2. С. 188. doi 10.1134/S1070363217020062
натрия и калия на основе принципа линейности
6. Blanco M., Coello J., Iturriaga H., Maspoch S., Redón M. //
свободных энергий [52].
Anal. Chem. 1995. Vol. 67. N 24. P. 4477. doi 10.1021/
ac00120a008
Искусственные нейронные сети наряду с
7. Meiler J. // J. Biomol. NMR. 2003. Vol. 26. N 1. P. 25.
doi 10.1023/A:1023060720156
множественной линейной регрессией могут быть
8. Nicelyab J.M., Haniscob T.F., Ririsb H. // J. Quant.
успешно использованы для моделирования,
Spectrosc. Rad. Trans. 2018. Vol. 211. P. 115. doi
прогнозирования и классификации устойчивости
10.1016/j.jqsrt.2018.03.004
коронатов в водно-органических растворителях.
9. Tetko I.V., Tanchuk V.Yu. // J. Chem. Inf. Comput.
На основе построенных моделей искусственной
Sci. 2002. Vol. 42. N 5. P. 1136. doi 10.1021/ci025515j
нейронной сети и множественной линейной
10. Tetko I.V., Tanchuk V.Y., Villa A.E. // J. Chem. Inf.
регрессии предсказаны константы устойчивости
Comput. Sci. 2001. Vol. 41. N 5. P. 1407. doi 10.1021/
коронатов натрия и калия в водно-этанольных
ci010368v
растворителях. Алгоритмы обучения много-
11. Wang B., Valentine S., Plasencia M., Raghuraman S.,
Zhang X. // BMC Bioinformatics. 2010. Vol. 11. P. 182.
слойного персептрона с учителем и сети
doi 10.1186/1471-2105-11-182
Кохонена, использующие алгоритм обучения без
12. Kavšek D., Bednárová A., Biro M., Kranvogl R.,
учителя, полностью подтвердили классификацию
Vončina D.B., Beinrohr E. // Cent. Eur. J. Chem. 2013.
устойчивости коронатов натрия и калия,
Vol. 11. N 9. P. 1481. doi 10.2478/s11532-013-0280-x
проведенную методом k-средних.
13. Doua Y., Sunb Y., Renc Y., Rena Y. // Anal. Chim. Acta.
2005. Vol.
528. N
1.
P.
55. doi
10.1016/
КОНФЛИКТ ИНТЕРЕСОВ
j.aca.2004.10.050
14. Wang B., Liub G., Liuc S., Feia Q., Rena Y. // Vibr.
Авторы заявляют об отсутствии конфликта
Spectrosc. 2009. Vol. 51. N 2. P. 199. doi 10.1016/
интересов.
j.vibspec.2009.04.007
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 89 № 7 2019
1094
БОНДАРЕВ
15. Jovanović M., Sokić D., Grabnar I., Vovk T., Prostran M.,
34. Amato F., López A., Méndez E.M., Vaňhara P., Hampl A.,
Erić S., Kuzmanovski I., Vučićević K., Miljković B. // J.
Havel J. // J. Appl. Biomed. 2013. Vol. 11. N 2. P. 47.
Pharm. Pharm. Sci. 2015. 2015. Vol. 18. N 5. P. 856.
doi 10.2478/v10136-012-0031-x
doi 10.18433/J33031
35. Maran E., Novic M., Barbieri P., Zupan J. // SAR
16. de Molfetta F.A., Angelotti W.F., Romero R.A.,
QSAR Environ Res. 2004. Vol. 15 N 5-6. P. 469. doi
Montanari C.A., da Silva A.B. // J. Mol. Model. 2008.
10.1080/10629360412331297461
Vol. 14. N 10. P. 9755. doi 10.1007/s00894-008-0332-x
36. Allison T.C. // J. Phys. Chem. (B). 2016. Vol. 120. N 8.
17. Nandi S., Vracko M., Bagchi M.C. // Chem. Biol. Drug
P. 1854. doi 10.1021/acs.jpcb.5b09558
Des. 2007. Vol. 70. N 5. P. 424. doi 10.1111 / j.1747-
37. Elçiçek H., Akdoğan E., Karagöz S. // Sci. World J.
0285.2007.00575.x
2014. Vol. 2014. P. 9. doi 10.1155/2014/194874
18. Cheng F., Vijaykumar S. // Clin. Exp. Pharmacol. 2012.
38. Rekha C.R., Nayar V.U., Gopchandran K.G. // Optik.
Vol. 2 P. 113. doi: 10.4172/2161-1459.1000e113
2018. Vol. 172. P. 721. doi 10.1016/j.ijleo.2018.07.090
19. Honório K.M., de Lima E.F., Quiles M.G., Romero R.A.,
39. Sigman M.E., Rives S.S. // J. Chem. Inf. Comput. Sci.
Molfetta F.A., da Silva A.B. // Chem. Biol. Drug Des.
1994. Vol. 34. N 3. P. 617. doi 10.1021/ci00019a021
2010. Vol. 75. N 6. P. 632. doi 10.1111 / j.1747-
40. Myint K.Z., Xie X-Q. // Methods Mol. Biol.
2015.
0285.2010.00966x
N 1260. P. 149. doi 10.1007/978-1-4939-2239-0_9
20. Inci C., Ayse Y., Kürsad U.M., Askin D., Serap C.,
41. Wei J.N., Duvenaud D., Aspuru-Guzik A. // ACS Cent.
Omca D. // J. Food Nutr. Res. 2017. Vol. 56. N 2.
Sci.
2016. Vol.
2. N
10. P.
725. doi
10.1021/
P. 138
acscentsci.6b00219
21. Baha H., Dibi Z. // Sensors (Basel). 2009. Vol. 9. N 11.
42. DiRusso S.M., Sullivan T., Holly C., Cuff S.N., Savino J. //
P. 8944. doi 10.3390/s91108944
J. Trauma.
2000. Vol.
49. N
2. P.
212. doi
22. Padín P.M., Peña R.M., García S., Iglesias R., Barro S.,
10.1097/00005373-200008000-00006
Herrero C. // Analyst. 2001. Vol. 126. N 1. P. 97. doi
43. Бондарев
Н.В.
Термодинамика равновесий.
10.1039/B007720H
Эффекты среды и нейросетевой анализ. Saarbrucken:
23. Moldes O.A., Mejuto J.C., Rial-Otero R., Simal-
LAP LAMBERT Academic Publishing, 2012. 380 c.
Gandara J. // Crit. Rev. Food Sci. Nutr. 2017. Vol. 57.
N 13. P. 2896. doi 10.1080/10408398.2015.1078277
44. Боровиков В. STATISTICA. Искусство анализа
данных на компьютере: Для профессионалов. СПб:
24. Wine: Phenolic Composition, Classification and Health
Питер, 2003. 686 с.
Benefits. New York: Nova Science Publishers, Inc.,
2014. Ch. 10. P. 245.
45. Боровиков В.П. Популярное введение в совре-
менный анализ данных в системе STATISTICA.
25. Penza M., Cassano G. // Food Chem. 2004. Vol. 86.
Учебное пособие для вузов. М.: Горячая линия -
N 2. P. 283. doi 10.1016/j.foodchem.2003.09.027
Телеком, 2013. 288 с.
26. Latorre M.J., Peña R., García S., Herrero C. // Analyst.
46. Хайкин С. Нейронные сети. М.: Вильямс, 2006. 1104 с.
2000. Vol. 125. P. 307. doi 10.1039/A905978D
27. Cordella C.B., Militão J.S., Clément M.C., Cabrol-
47. Гилл Ф., Мюррей У., Райт М. Практическая
Bass D. // J. Agric. Food Chem. 2003. Vol. 51. N 11.
оптимизация. М.: Мир, 1985. 509 с.
P. 3234. doi 10.1021/jf021100m
48. Бондарев Н.В. // ЖОХ. 2019. Т. 89. № 2. C. 288.
28. Bos A., Bos M., van der Linden W.E. // Anal. Chim.
doi
10.1134/S0044460X19020197. Bondarev N.V. //
Acta. 1992. Vol. 256. N 1. P. 133. doi 10.1016/0003-
Russ. J. Gen. Chem. 2019. Vol. 89. No. 2. P. 281. doi
2670(92)85338-7
10.1134/S1070363219020191
29. Cimpoiu C., Cristea V.M., Hosu A., Sandru M.,
49. Кохонен Т. Самоорганизующиеся карты. М.:
Seserman L. // Food Chem. 2011. Vol. 127. N
3.
Лаборатория знаний, 2017. 660 с.
P. 1323. doi 10.1016/j.foodchem.2011.01.091
50. Холін Ю.В., Пушкарьова Я.М., Пантелеймонов А.В.,
30. Angerosa F., Di Giacinto L., Vito R., Cumitini S. // J.
Некос А.Н. Хемометричні методи в розв’язанні
Sci. Food Agric.
1996. Vol. 72. N 3. P. 323. doi
задач якісного хімічного аналізу та класифікації
10.1002/(SICI)1097-0010(199611)72:3<323::AID-
фізико-хімічних даних. Х.: ХНУ імені В.Н. Каразіна,
JSFA662>3.0.CO;2-A
2016. 184 с.
31. Zhang G., Ni Y., Churchill J., Kokot S. // Talanta. 2006.
51. de Boer, P-T., Kroese, D., Mannor, S., Rubinstein, R.Y. // Ann.
Vol. 70. N 2. P. 293. doi 10.1016/j.talanta.2006.02.037
Oper. Res. 2005. Vol. 134. N 1. P. 19. doi 10.1007/
32. Cirovic D.A. // TrAC Trends Anal. Chem. 1997. Vol. 16.
s10479-005-5724-z
N 3. P.148. doi 10.1016/S0165-9936(97)00007-1
52. Шмид Р., Сапунов В.Н. Неформальная кинетика. В
33. Meyer M., Weigelt T. // Anal. Chim. Acta.
1992.
поисках путей химических реакций. М.: Мир, 1985.
Vol. 265. N 2. P.183. doi 10.1016/0003-2670(92)85024-Z
264 с.
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 89 № 7 2019
ИСКУССТВЕННАЯ НЕЙРОННАЯ СЕТЬ И МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ
1095
Artificial Neural Network and Multiple Linear Regression
for Prediction and Classification of Sustainability of Sodium
and Potassium Coronates
N. V. Bondarev*
V.N. Karazin Kharkiv National University, pl. Svobody 4, Kharkiv, 61022 Ukraine
*e-mail: bondarev_n@rambler.ru
Received January 23, 2019; revised January 23, 2019; accepted February 10, 2019
Models of multiple linear regression and a multilayer artificial neural network were developed for modeling and
predicting the stability constants of sodium and potassium coronates using the properties of water-organic
solvents water-methanol, water-propan-2-ol, water-acetonitrile, and water-acetone. The predicted values of the
stability constants of coronates in water-ethanol solvents are given and the results of the models of multiple
linear regression and an artificial neural network were compared. Based on the models of multiple linear
regression and the principle of linearity of free energies, a quantitative assessment of the contributions of
electrostatic, cohesive and electron-donating interactions to the increase in the stability of coronates was carried
out. Neural network models were developed to classify the stability of sodium and potassium coronates based on
unsupervised learning algorithms (multilayer perceptrons) and with a teacher (Kohonen networks). It was shown
that neural network classifiers fully confirmed the classification of the stability of coronates, conducted by the k-
means exploration method.
Keywords: multiple regression, multilayer perceptron, Kohonen network, prediction, neural network classifier
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 89 № 7 2019