ЖУРНАЛ ОБЩЕЙ ХИМИИ, 2020, том 90, № 10, с. 1583-1600
УДК 544.35;544.341.2;519.25
РАЗВЕДОЧНЫЙ, РЕГРЕССИОННЫЙ И
НЕЙРОСЕТЕВОЙ АНАЛИЗ УСТОЙЧИВОСТИ
КОРОНАТОВ КАТИОНОВ В НЕКОТОРЫХ ЧИСТЫХ
РАСТВОРИТЕЛЯХ
© 2020 г. Н. В. Бондарев*
Харьковский национальный университет имени В. Н. Каразина, пл. Свободы 4, Харьков, 61022 Украина
*e-mail: bondarev_n@rambler.ru
Поступило в Редакцию 13 мая 2020 г.
После доработки 29 июля 2020 г.
Принято к печати 9 августа 2020 г.
Проведен разведочный, регрессионный и нейросетевой анализ констант устойчивости комплексов
краун-эфиров [12С4, 16С5, (СH3)216С5, DB21C7, DB24C8, DCH24C8, DB30C10] с катионами щелоч-
ных (Li+, Na+, K+, Cs+, Rb+), щелочноземельных (Mg2+, Ca2+, Sr2+, Ba2+), тяжелых (Ag+, Tl+, Сo2+, Сu2+,
Pb2+) металлов и NH4+ состава 1:1 в воде и органических растворителях (метаноле, ацетонитриле, аце-
тоне, N,N-диметилформамиде, нитробензоле, нитрометане, 1,2-дихлорэтане, пропиленкарбонате) при
298.15 K, полученных кондуктометрическим методом. Разработаны факторная, кластерные, дискри-
минантная, каноническая, дерево решений, регрессионные и нейросетевые модели кластеризации,
аппроксимации и прогнозирования термодинамических констант комплексообразования краун-эфиров
с катионами в зависимости от свойств лиганда, взаимодействующего с ним катиона и используемо-
го растворителя. Обученный многослойный персептрон-кластеризатор MLP 7-5-5 на сто процентов
подтвердил кластеризацию, проведенную разведочным методом k-средних. На независимых данных
по константам устойчивости коронатов демонстрируются прогностические возможности обученного
персептрона-аппроксиматора MLP 7-7-1.
Ключевые слова: краун-эфиры, константа комплексообразования, разведочный анализ, множественная
линейная регрессия, нейронные сети, моделирование, прогнозирование
DOI: 10.31857/S0044460X20100145
На семинаре, посвященном столетию Дж. Тью-
мания подготовке и представлению данных,
а
ки [1], было отмечено, что в свое время один из
Л. Брейман [5] призывает делать основной упор на
создателей практического анализа данных призвал
прогностический потенциал математических мо-
к реформированию академической статистики и
делей, а не на умозаключения.Всестороннее, поч-
указал на существование пока еще непризнанной
ти энциклопедическое описание статистических
науки, предметом интереса которой является изу-
методов и аналитических подходов, используемых
чение данных или «анализ данных» [2]. Исходные
в науке, промышленности, бизнесе и интеллекту-
концепции и принципы Дж. Тьюки не утратили
альном анализе данных, представленных с точки
своего значения и формируют часть фундамента
зрения практического специалиста («потребите-
современной науки о данных [3].
ля») этих методов, содержится в работе [6].
Работы, выполненные исследователями в раз-
Для многих областей науки и техники, нужда-
ных областях науки и техники за последние де-
ющихся в анализе больших массивов данных, осо-
сятилетия, являются ярким тому подтверждени-
бенно в здравоохранении, экологии, химии, биоло-
ем. Прежде чем анализировать наборы данных,
гии, медицине и науке о Земле, прогнозирующее
Д. Чамберс [4] рекомендует уделять больше вни-
моделирование и машинное обучение предостав-
1583
1584
БОНДАРЕВ
ляют беспрецедентные возможности для открытия
Разведочный анализ данных применялся [16]
новых знаний и развития теории [7].
для изучения поведения радиоактивных аэрозо-
лей, присутствующих в приземной атмосфере Гра-
Разработаны технологии неконтролируемого
нады, с использованием радиоактивного 7Be. Ав-
(классификация без обучения) и контролируемо-
торы работы [17] применили методы разведочного
го (классификация с обучением) распознавания
анализа данных для оценки сходства и кластериза-
образов, включая анализ главных компонентов
(PCA), алгоритм ближайших соседей (NN), дис-
ции хиральных полисахаридых систем, использу-
криминантный анализ частичных наименьших
емых для разделения фармацевтических препара-
квадратов (PLS-DA) и искусственную нейрон-
тов в жидкостной хроматографии.
ную сеть (ANN) [8].
Искусственные нейронные сети, как один из
Разведочный анализ является важным шагом
самых популярных алгоритмов машинного обуче-
после сбора данных и предварительной их обра-
ния, широко применяются в различных областях.
ботки во многих типах исследований, но особенно
Объединение знаний в области химии с машинным
полезен при анализе электронных медицинских
обучением (анализ данных, нейросетевые прогно-
записей [9].
зы, мониторинг химических систем) способствует
[18]: познанию природы химических веществ, ра-
Открытый обмен данными, совместное исполь-
циональному планированию экспериментов, соз-
зование наборов данных, метаданных, моделей,
данию новых материалов и технологий, зарожде-
программного обеспечения и других ресурсов для
нию новых концепций химии.
анализа повышает точность, достоверность и вос-
производимость результатов, ведет к конструкти-
Развиты нейросетевые алгоритмы [19], исполь-
вистским подходам в науке и способствует эконо-
зующие новый метод дактилоскопии органиче-
мическому сотрудничеству и развитию [10].
ских реакций. Построена умная (smart) система,
которая, учитывая набор реагентов и реактивов,
Представлен [11] совместный опыт геологов и
предсказывает вероятные продукты химического
IT-специалистов по использованию визуальных
превращения.
разведочных методов анализа данных для изуче-
ния закономерностей связи между свойствами хи-
Авторы [20] разрабатывают нейронную сеть,
мических элементов и минеральных веществ, соз-
обучаемую методом обратного распространения
дания гипотез в области наук о Земле.
на основе информации о химических реакциях.
Нейросеть реализована в моделируемой химиче-
Предложены средства контроля качества фар-
ской системе, где нейроны отделены друг от друга
мацевтической продукции, основанные на методах
полупроницаемой клеточной мембраной.
спектроскопии, в основном ближнего инфракрас-
ного диапазона, в сочетании с хемометрическими
Представлен контролируемый подход к обуче-
алгоритмами [12]. Обзор основных методов клас-
нию граф-сверточной нейронной сети для пред-
сификации показателей качества продуктов пита-
сказания продуктов органических реакций по
ния, представленных в хемометрической литера-
свойствам реагентов, реактивов и растворителей
[21]. Показано, что искусственные нейронные сети
туре, приведен в работе [13]. Контролируемому
являются мощной альтернативой традиционным
моделированию многомерных данных в аналити-
методам оценки степени восстановления дегради-
ческой химии - построению моделей аппроксима-
рованной почвы в зависимости от ее химических и
ции и дискриминации, их количественной вали-
физических свойств [22].
дации для успешного применения на практике -
посвящена работа [14].
Представлены два метода классификации ле-
карств: классификация сверточными нейронными
В обзоре [15] обсуждаются возможности и уни-
сетями по химической структуре и классификация
версальность хемометрических методов в свете
случайными лесами по молекулярным отпечаткам
проблем с большими массивами (био)химических
пальцев, которые превзошли по эффективности
данных, которые встречаются в хроматографии и
предыдущие прогнозные модели [23].
спектроскопических исследованиях, с акцентом
на их применении к «-омика» наукам (геномика,
В обзоре [24] обобщены результаты примене-
транскриптомика, протеомика или метаболомика).
ния искусственных нейронных сетей для иссле-
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 90 № 10 2020
Р
АЗВЕДОЧНЫЙ, РЕГРЕССИОННЫЙ И НЕЙРОСЕТЕВОЙ АНАЛИЗ
1585
дования и прогнозирования катализа, понимания
алгоритмов для группирования пациентов, прини-
природы каталитических процессов и структур
мавших бензодиазепины, по медицинским показа-
новых катализаторов. В работе [25] представлен
телям [33]; для кластеризации, аппроксимирова-
эффективный подход глубокого обучения на осно-
ния и прогнозирования силы слабых органических
ве тензорных нейронных сетей, позволяющий по-
кислот [34, 35] и устойчивости коронатов катио-
нять пространственные и химические особенно-
нов натрия и калия [36, 37] в водно-органических
сти квантово-химических молекулярных систем.
растворителях.
Разработана стратегия прогнозирования вязкости
Следует отметить, что в физикохимии раство-
ненасыщенных сложных полиэфиров (полиэфир-
ров, как и в химии в целом, накоплено огромное
ных смол) с помощью нейронных сетей. Благода-
количество экспериментальных данных, проведе-
ря нейронным сетям, разработка новых экологиче-
ние глубокого анализа которых уже невозможно
ски чистых реактивных разбавителей может быть
без применения средств современной информати-
ускорена [26].
ки - «науки о принципиально новой человеко-ма-
В статье [27] сравниваются и обсуждаются
шинной технологии расширенного воспроизвод-
результаты прогнозирования температуры сте-
ства качественно нового знания» [38].
клования полимеров алгоритмами искусственной
Узкое, но очень распространенное понимание
нейронной сети и линейной множественной ре-
хемоинформатики подразумевает применение
грессии для создания вычислительных систем для
методов информатики в биоорганической химии
разработки составов полимерных материалов, в
для создания лекарств [39]. В дальнейшем эта де-
том числе полимерных оптических волокон, с же-
финиция была расширена. В частности, согласно
лаемыми потребительскими характеристиками.
определению, данному Г. Пэризом (2000), хемоин-
Прогнозированию стабильности кристаллов с по-
форматика - это научная дисциплина, охватываю-
мощью глубинных нейронных сетей, для обучения
щая дизайн, создание, организацию, управление,
которых используются только два дескриптора -
поиск, анализ, распространение, визуализацию
электроотрицательность Полинга и ионные ради-
и использование химической информации [40], в
усы, посвящена работа [28].
предмет исследования которой включены приемы
Обсуждаютcя проблемы, связанные с машин-
хранения, извлечения и обработки химической ин-
ным обучение в области материаловедения, пред-
формации.
лагаются возможные решения и перспективные
направления будущих исследований по созданию
Развитию хемоинформатики в значительной
новых материалов [29]. Разработан [30] мягкий
мере способствует наличие обоснованной мето-
датчик для определения содержания этанола в
дологии анализа данных и реализующего ее про-
продуктах периодической дистилляции арбузного
граммного обеспечения (STATISTICA, SPSS, R,
вина, исходя из температуры кипения. Построен-
SAR/QSAR/QSPR), которые позволяют химику
ная модель состоит из многослойной персептрон-
на основе обработки экспериментальных данных
ной искусственной нейронной сети с одним скры-
осуществлять прогнозирование самых разноо-
тый слоем. В работе [31] представлен обзор и
бразных свойств химических соединений и про-
анализ самых последних исследований, которые
цессов [34-37, 41-44]. При этом на первый план
развивают и применяют машинное обучение, в
выходят методы разведочного анализа данных и
частности нейросетевой анализ, к твердотельным
нелинейного моделирования, в частности ней-
системам для открытия стабильных материалов и
росетевые технологии прогнозирования [45, 46]
прогнозирования их кристаллической структуры.
свойств сложных систем.
На основе искусственных нейронных сетей в
Вычислительные методы разведочного анали-
работе [32] предлагается новый подход для уни-
за данных включают основные статистические
версального описания термодинамических функ-
методы (процедура анализа распределений пере-
ций чистых веществ в широком температурном
менных, просмотр корреляционных матриц, ана-
диапазоне (от 0 до 6000 K).
лиз многовходовых таблиц частот), а также бо-
Демонстрируется [33-37] применение разве-
лее сложные, специально разработанные методы
дочных методов анализа данных и нейросетевых
анализа, предназначенные для отыскания законо-
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 90 № 10 2020
1586
БОНДАРЕВ
мерностей в многомерных данных - факторный
характеризуемая наличием внутримолекулярной
анализ, кластерный анализ (древовидная клас-
полости, для включения катионов в краун-эфир и
сификация, метод k-средних), дискриминантный
краун-эфирные фрагменты путем нековалентных
анализ, канонический анализ, построение деревь-
взаимодействий
[67]: ионных, ион-дипольных,
ев классификации [47].
ван-дер-ваальсовых, гидрофобных и водородных
В работах [1, 48-55] изложены математические
связей, формирующих супрамолекулярные струк-
основы алгоритмов разведочных, регрессионных
туры.
и нейросетевых методов анализа, приведена ин-
Целью данной работы является дальнейшее
терпретация статистических дефиниций, показа-
развитие математических моделей прогнозиро-
телей, терминов и критериев, в работах [56-59]
вания
[43] термодинамических констант ком-
показано их применение к конкретным катион-
плексообразования краун-эфиров с катионами по
краун-эфирным системам и равновесиям дис-
свойствам лиганда, взаимодействующего с ним
социации в жидких средах, а в работах [60-65]
катиона и используемого растворителя на основе
обсуждаются комплементарные, химические и
разведочных, регрессионных и нейросетевых ал-
сольватационно-термодинамические аспекты ка-
горитмов анализа данных.
тион-краун-эфирного комплексообразования в
Мерой устойчивости комплексов краун-эфиров
растворах.
с катионами является термодинамическая кон-
Ч. Педерсеном (1970) было выявлено, что мно-
станта устойчивости K = [LM+LM+/[L]γL[M+M+,
гие макроциклические полиэфиры, содержащие
отвечающая простейшей схеме комплексообразо-
5-15 атомов кислорода, образуют устойчивые ком-
вания: L + M+ = LM+, где [L] и γL, [M+] и γM+, [LM+]
плексы с солями любого из следующих элементов
и γLM+ - концентрации и коэффициенты активно-
периодической таблицы Д.И. Менделеева - груп-
сти свободного лиганда, катиона и комплекса со-
пы Ia (Li+, Na+, K+, Rb+, Cs+), Iб (Ag+, Au+), IIа
ответственно.
(Ca2+, Sr2+, Ba2+), IIб (Cd2+, Hg+, Hg2+), IIIа (La3+,
Ce3+), IIIб (Tl+) и IVб (Pb2+).
Важность разработки модельного подхода (ма-
Краун-эфиры нашли применение во многих
тематических моделей) [43] к анализу, обобщению
областях науки и техники благодаря их способно-
и прогнозированию устойчивости краун-эфирных
сти избирательно распознавать катионы разного
комплексов катионов, обусловлена с одной сторо-
заряда и размера [66]: в аналитической химии се-
ны наличием обширного экспериментального ма-
лективные катионо-связывающие свойства краун-
териала по термодинамике комплексообразования,
эфиров используются в разделительных и транс-
а с другой - отсутствием обоснованных критериев
портных технологиях для обогащения или из-
выбора оптимального растворителя для управле-
влечения катионов, при конструировании ионо-
ния процессом комплексообразования.
селективных электродов, в хроматографических
Поэтому актуальным является совместное ис-
методах в качестве стационарной фазы; во многих
пользование разведочных, регрессионных, нейро-
органических синтезах; в качестве катализаторов в
сетевых алгоритмов и сольватационно-термодина-
межфазном катализе; при имитировании фермен-
мических подходов [34-37, 43, 56-65] для анализа
тативной активности и разработке новых фарма-
и прогнозирования термодинамики образования
цевтических препаратов; в медицине в качестве
коронатов в воде, неводных и водно-органических
диагностических или терапевтических средств.
растворителях.
Это далеко неполный перечень практических
Для проведения компьютерного моделирова-
приложений уникальных комплексообразующих
свойств краун-эфиров. В научной практике кра-
ния использованы литературные данные по кон-
ун-эфиры и краун-соединения применяются как
стантам устойчивости комплексов краун-эфиров с
модели природных ионофоров для исследования
катионами из фундаментального обзора [66], в ко-
механизма транспорта катионов через биологиче-
тором собраны результаты кондуктометрического
ские мембраны. Принципиальным преимуществом
исследования образования коронатов катионов в
синтетических макроциклических ионофоров яв-
разных растворителях за четыре десятилетия под-
ляется хорошо идентифицированная структура,
ряд с 1970 по 2011 г. и представленные в 107 пу-
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 90 № 10 2020
Р
АЗВЕДОЧНЫЙ, РЕГРЕССИОННЫЙ И НЕЙРОСЕТЕВОЙ АНАЛИЗ
1587
Таблица 1. Описательная статистика показателей комплексообразования в разных растворителях, отобранных для
разведочного анализа
lgK
131
3.71
0.73
7.75
1.34
0.12
ML
7
386.54
176.20
536.60
126.44
11.05
rM
15
1.32
0.72
1.70
0.29
0.03
rL
5
1.80
0.60
3.00
0.83
0.07
d
9
4.70
3.43
5.84
0.53
0.05
BKT
9
0.42
0.06
0.69
0.20
0.02
ET
9
0.50
0.32
1.00
0.15
0.01
ε
9
37.76
10.36
78.36
14.54
1.27
бликациях в 20 авторитетных научных журналах
ние латентных факторов; (3) кластерный анализ -
мира.
алгоритм древовидной кластеризации, итераци-
Компьютерное моделирование проведено в
онный алгоритм k-средних; (4) дискриминантный
анализ Фишера - построение линейных класси-
средах STATISTICA 12 и SPSS 23 на платформе
фикационных функций; (5) канонический дискри-
Windows 10 для комплексов состава 1:1 краун-эфи-
минантный анализ - построение канонических
ров (12С4, 16С5, (СH3)216С5, DB21C7, DB24C8,
DCH24C8, DB30C10) с катионами щелочных (Li+,
линейных дискриминантных функций; (6) дере-
Na+, K+, Cs+, Rb+), щелочноземельных (Mg2+, Ca2+,
вья классификации - построение дендрограммы и
Sr2+, Ba2+), тяжелых (Ag+, Tl+, Сo2+, Сu2+, Pb2+)
правила кластеризации устойчивости коронатов;
металлов и NH4+ в воде (W) и органических рас-
(7) регрессионный анализ зависимости устой-
творителях (метаноле, ацетонитриле, ацетоне,
чивости коронатов от свойств среды, катионов и
N,N-диметилформамиде, нитробензоле, нитроме-
краун-эфиров; (8) нейросетевой анализ - нейросе-
тане, 1,2-дихлорэтане, пропиленкарбонате) при
тевой классификатор, нейросетевой аппроксима-
298.15 K.
тор; (9) прогностические возможности регресси-
онных и нейросетевых моделей.
Построены корреляционные матрицы свойств
растворителей, катионов и краун-эфиров. Методом
Первичный анализ данных. В табл. 1 приве-
главных компонент [47, 50, 51, 54] отобраны для
дены количественные параметры описательной
построения математических моделей параметры
статистики [72, 73] отобранных для анализа по-
(свойства): растворителей - диэлектрическая про-
казателей. Среднее квадратическое отклонение
ницаемость ε [68], параметры Димрота-Райхардта
(стандартное отклонение) данных меньше поло-
ET и Камлета-Тафта BKT [68], диаметр молекулы
вины среднего арифметического, поэтому распре-
растворителя d, Å [68]; катионов - эффективный
деление можно считать симметричным. Проверка
ионный кристаллохимический радиус для коорди-
гипотезы нормального распределения анализиру-
национного числа 6 rM, Å [69]; краун-эфиров - мо-
емых данных (табл. 2) выполнена по критериям
лекулярная масса МL и радиус полости краун-эфи-
Шапиро-Уилка (8 < n < 50) и Колмогорова-Смир-
ра rL [66, 70, 71].
нова (n > 50) [73, 74].
Поставленная цель достигнута путем решения
Факторный анализ. Надежность вычислений
следующих задач: (1) первичный анализ данных,
элементов корреляционной матрицы и целесо-
вычисление описательных статистик, проверка
образность ее описания с помощью факторного
нормальности распределения; (2) факторный ана-
анализа [49-51] подтверждены мерой адекватно-
лиз - построение корреляционных матриц, выделе-
сти выборки Кайзера-Мейера-Олкина (критерий
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 90 № 10 2020
1588
БОНДАРЕВ
Таблица 2. Расчетные и табличные (критические) значения критериев проверки гипотезы нормальности распреде-
ления переменныхa
Переменная, (n)
Критерий Шапиро-Уилка, Wрасч (Wтабл)
Критерий Колмогорова-Смирнова,Dрасч (Dтабл)
lgK, (131)
0.075
(0.119)
rM, (15)
0.888
(0.881)
d, (9)
0.920
(0.829)
BKT, (9)
0.842
(0.829)
ET, (9)
0.748
(0.829)
ε, (9)
0.776
(0.829)
a n - объем выборки, p - уровень значимости. Если табличное значение Wтабл меньше расчетного значения Wрасч, а Dтабл > Dрасч, то
распределение считается соответствующим нормальному на уровне значимости р = 0.05.
Таблица 3. Корреляционная матрица показателей равновесия комплексообразования
Коэффициенты корреляции
Показатели
lgK
M
rM
rL
d
BKT
ET
DP
L
lgK
1.00
0.51
0.01
0.50
0.22
-0.74
-0.43
-0.29
ML
0.51
1.00
0.06
0.98
0.24
-0.30
-0.40
-0.35
rM
0.01
0.06
1.00
0.06
0.03
-0.08
-0.06
0.01
rL
0.50
0.98
0.06
1.00
0.23
-0.32
-0.41
-0.39
d
0.22
0.24
0.03
0.23
1.00
-0.32
-0.66
0.21
BKT
-0.74
-0.30
-0.08
-0.32
-0.32
1.00
0.39
0.08
ET
-0.43
-0.40
-0.06
-0.41
-0.66
0.39
1.00
0.30
ε
-0.29
-0.35
0.01
-0.39
0.21
0.08
0.30
1.00
Таблица 4. Факторные нагрузки, собственные значения и веса факторова
Факторные нагрузки
Переменные
Фактор 1 (F
1
)
Фактор 2 (F2)
Фактор 3 (F3)
lgK
-0.623
0.486
-0.074
ML
-0.871
0.199
0.089
rM
-0.042
0.018
0.987
rL
-0.885
0.194
0.078
d
0.033
0.887
0.043
BKT
0.357
-0.635
-0.015
ET
0.384
-0.712
-0.007
ε
0.719
0.269
0.112
Собственные значения
2.724
2.082
1.009
Вес фактора, %
0.340
0.260
0.126
a
Фактор - латентная (скрытая) переменная, конструируемая таким образом, чтобы можно было объяснить корреляцию между
набором переменных; факторные нагрузки - линейные корреляции между переменными и факторами; собственное значение -
представляет полную дисперсию, объясняемую каждым фактором; вес фактора - процент от полной дисперсии, приписываемый
каждому фактору [50].
КМО = 0.573 - коэффициент, для проверки целе-
Методом главных компонент [47, 49-51] по
сообразности выполнения факторного анализа) и
выборочной совокупности значений семи ото-
коэффициентом сферичности Бартлетта (критерий
бранных показателей вычислены корреляционная
Хи-квадрат = 735.92, значимость критерия Барт-
матрица системы используемых для анализа дан-
летта р < 0.001) [50]. Высокие значения КМО (от
ных (табл. 3), ее собственные значения, факторные
0.5 до 1) указывают на целесообразность фактор-
нагрузки и веса факторов (табл. 4) [50]. Свойства
ного анализа данных. Критерий Бартлетта - стати-
растворителей и краун-эфиров проявляют как уме-
стика, проверяющая гипотезу о том, что перемен-
ренную положительную (ML, rL, d), так и отри-
ные в генеральной совокупности не коррелируют
цательную (BKT, ET, ε) взаимосвязь с lgK, радиус
между собой, если p-уровень не превышает 0.05.
катионов (rM) демонстрирует слабую зависимость
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 90 № 10 2020
Р
АЗВЕДОЧНЫЙ, РЕГРЕССИОННЫЙ И НЕЙРОСЕТЕВОЙ АНАЛИЗ
1589
Таблица 5. Коэффициенты факторных моделей
Коэффициенты ai факторных моделей
Праметр
F
1
F2
F3
lgK, a1
-0.177
0.159
-0.100
ML, a2
-0.338
-0.058
0.071
rM, a3
-0.004
-0.039
0.982
rL, a4
-0.345
-0.063
0.060
d, a5
0.185
0.508
0.006
BKT, a6
0.032
-0.291
0.015
ET, a7
0.029
-0.330
0.027
ε, a8
0.364
0.286
0.108
Таблица 6. Результаты дисперсионного анализа стандартизированных показателей комплексообразования методом
k-среднихa
Показатель
SSB
dfB
SSW
dfW
F(4, 126)
p
lgKst
73.29
4
56.71
126
40.71
0.000
ML,st
94.11
4
35.89
126
82.59
0.000
rM,st
8.18
4
121.82
126
2.12
0.083
rL,st
85.89
4
44.11
126
61.33
0.000
dst
62.67
4
67.33
126
29.32
0.000
BKT.st
108.67
4
21.33
126
160.51
0.000
ET,st
112.84
4
17.16
126
207.17
0.000
εst
42.53
4
87.47
126
15.32
0.000
a SSW - сумма квадратов отклонений значений каждого из предикторов (свойство растворителя, краун-эфира и катиона) от груп-
пового среднего значения предиктора внутри группы (кластера) - мера внутригрупповой изменчивости: σ2SSW = SSW/(n - 1), где
σ2SSW - внутригрупповая дисперсия; SSB - межгрупповая сумма квадратов отклонений средних значений предикторов в каждой
из групп от суммарного среднего значения предикторов по всем группам - мера межгрупповой изменчивости: σ2SSB = SSB/(n - 1),
где σ2SSB - межгрупповая дисперсия; значение критерия Фишера F = MSB/MSW, где MSB = SSB/dfB, MSW = SSW/dfW; MSW и MSB -
средние значения квадратов отклонений внутри групп и между ними; dfW = (n - m - 1) и dfB = (m - 1) - соответствующие сте-
пени свободы (m - число групп, n - количество наблюдений в каждой из групп); F(4, 126) - наблюдаемый критерий Фишера.
[Fкр(4, 126, p = 0.05) = 2.44]; р - наблюдаемый уровень значимости [49-51].
oт константы комплексообразования, свойств кра-
фактор объясняет 34.0% суммарной дисперсии,
ун-эфиров и растворителей (табл. 3).
второй фактор - 26% и третий фактор - 12.6%
Нагрузки латентных факторов (F1, F2 и F3)
(табл. 4).
определены методом главных компонент с исполь-
Переменные ML и rL коррелируют с фактором
зованием критерия каменистой осыпи и процеду-
1, коэффициент корреляции равен -0.871 и -0.885
ры ортогонального варимакс-вращения факторов
[50]. Метод главных компонент - один из основ-
соответственно, переменные d и ET коррелируют
ных способов уменьшить размерность данных,
с фактором 2 (0.887 и -0.712) и переменная rM на-
потеряв наименьшее количество информации.
гружена третьим фактором (0.987).
Процедура ортогонального варимакс-вращения -
Таким образом, преимущественно первый фак-
метод вращения факторов, минимизирующий чис-
ло переменных с высокими нагрузками на каж-
тор связан с вариациями свойств краун-эфиров,
дый фактор. Критерий каменистой осыпи (Cattell,
второй фактор - с изменением свойств растворите-
1966) состоит в поиске точки на графике зависи-
лей и третий фактор зависит от радиуса катионов.
мости собственных значений от числа факторов,
В табл. 5 приведены коэффициенты уравнения
где убывание собственных значений замедляется
наиболее сильно.
ai (1) для трех факторных моделей, полученных
методом главных компонент с применением вари-
Для анализа отобрано три фактора, собствен-
ные значения которых больше единицы. Первый
макс-вращения факторов [50].
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 90 № 10 2020
1590
БОНДАРЕВ
Рис. 2. Средние значения показателей комплексообра-
Рис. 1. Дендрограмма иерархической кластеризации
зования для пяти групп констант устойчивости коро-
констант устойчивости коронатов.
натов катионов.
(2)
(1)
На евклидовом расстоянии, равном 20, выявле-
Анализ рассчитанных факторов F1, F2 и F3 по-
но 5 кластеров; при увеличении расстояния до 40
зволяет выяснить, какие эффекты превалируют в
количество кластеров равно трем, на расстоянии
устойчивости коронатов в растворе - эффекты сре-
60 - 2 кластера.
ды, свойства катионов или краун-эфиров по макси-
Кластерный анализ алгоритмом k-средних.
мальному значению фактора.
Наилучшее согласие результатов двух методов
Кластерный анализ. В работе реализованы
кластерного анализа получено при выборе 5 кла-
два метода кластерного анализа [49, 50], представ-
стеров. На рис. 2 приведен график средних значе-
ленные в статистическом пакете STATISTICA 12
ний показателей комплексообразования для пяти
[47, 51, 54]: агломеративный - объединение, или
кластеров, отображающих различие между груп-
дерево кластеризации и дивизивный - кластериза-
пами констант устойчивости коронатов по каждо-
ция k-средними. Предварительно была проведена
му из свойств.
процедура стандартизации исходных данных (z-о-
Результаты дисперсионного анализа свиде-
ценки) путем вычитания среднего и деления на
тельствуют (табл. 6), что распределение констант
стандартное отклонение.
устойчивости по кластерам проведено удовлетво-
Агломеративная кластеризация. На рис. 1
рительно. Уровень значимости р у критерия Фи-
приведена дендрограмма иерархической класте-
шера значительно меньше 0.05 для всех перемен-
ризации устойчивости 131 короната по свойствам
ных, а наблюдаемый критерий Фишера больше
растворителей, катионов и краун-эфиров.
критического Fнабл > Fкр, за исключением rM,st.
Объединение констант устойчивости коронатов
Количественный (131 константа) состав кла-
в кластеры проведено методом Варда [49, 50, 51]
стеров: первый кластер объединяет 37 констант
с использованием Евклидового расстояния в ка-
устойчивости коронатов в апротонных раствори-
честве метрики пространства. В отличие от всех
телях: MeCN, ацетоне, ДМФА, пропиленкарбо-
других методов в методе Варда используется ал-
нате, нитробензоле; второй кластер - 48 констант
горитм дисперсионного анализа для оценки рас-
устойчивости коронатов в апротонных раство-
стояний между кластерами. Евклидово расстояние
рителях: MeCN, ацетоне, ДМФА; третий кластер
является геометрическим расстоянием в много-
группирует 24 константы устойчивости корона-
мерном пространстве и вычисляется по формуле
тов в 1,2-дихлорэтане и нитробензоле; четвертый
(2). Расстояние между точками:
кластер - 14 констант устойчивости коронатов в
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 90 № 10 2020
Р
АЗВЕДОЧНЫЙ, РЕГРЕССИОННЫЙ И НЕЙРОСЕТЕВОЙ АНАЛИЗ
1591
Таблица 7. Результаты дискриминантного анализа (алгоритм - переменные в модели)
Группирующая переменная: 5 кластеров констант устойчивости коронатов; Λ-Уилкса: 0.0001;
Fнабл(28, 434) = 221.43, p < 0.000;Fкр(28, 434) = 1.03, Fкр(4, 120) = 2.45
Свойство
Частная
Λ-Уилкса
Fискл(4, 120)
p-уровень
Толерантность,1-R2
R2
Λ-Уилкса
ML
0.0001
0.576
22.10
0.000
0.099
0.901
rM
0.0001
0.917
2.70
0.034
0.966
0.034
rL
0.0001
0.791
7.94
0.000
0.105
0.895
d
0.0011
0.050
570.93
0.000
0.035
0.965
BKT
0.0005
0.107
251.35
0.000
0.519
0.481
ET
0.0082
0.007
4559.35
0.000
0.017
0.983
ε
0.0023
0.023
1280.81
0.000
0.018
0.982
a R2 - коэффициент множественной корреляции данного свойства со всеми остальными свойствами, использованными в анализе.
Таблица 8. Коэффициенты линейных классификационных функций Фишераа
Кластер 1
Кластер 2
Кластер 3
Кластер 4
Кластер 5
Параметр, bі
р = 0.282
р = 0.351
р = 0.183
р = 0.107
р = 0.076
ML, b1
0.03
0.18
0.11
0.02
0.2
rM, b2
-13.14
-13.18
-19.33
-20.13
-25.7
rL, b3
58.07
47.88
60.86
87.63
71.7
d, b4
1382.94
1389.21
1556.93
1893.35
1908.1
BKT, b5
-268.53
-235.99
-397.27
-264.56
-260.0
ET, b6
14098.31
14263.48
15782.90
19673.96
19851.5
ε, b7
-61.39
-62.22
-69.20
-85.35
-86.3
b8
-5124.69
-5242.44
-6438.49
-9860.81
-10052.6
a р - апостериорные (послеопытные) вероятности [50, 73], пропорциональные числу констант комплексообразования катионов с
краун-эфирами в кластере.
протолитических растворителях (вода и МeOH) и
зования данных [75]. Поэтому для подтверждения
пятый кластер содержит 10 констант в МеОH.
результатов иерархического кластерного анализа
(агломеративная кластеризация, метод k-средних)
Распределение семи краун-эфиров по класте-
разработаны дискриминантная [47, 49-51], кано-
рам: 1, 2, 3, 5 кластеры - DB24C8; 1, 2, 3 кла-
ническая [47, 49-51], дерево решений [53, 76] и
стеры - DB21C7; 1, 4, 5 - 16C5, (CH3)216C5; 2,
нейросетевые [52, 53, 55] модели классификации
3 кластеры - DB30C10; 1, 4 кластеры - 12C4; 2
и аппроксимации (регрессии) констант устойчиво-
кластер - DCH21C7.
сти коронатов катионов.
Распределение 15 катионов по кластерам: 1 - 5
кластеры - катионы щелочных металлов (Na+, K+,
Дискриминантный анализ. Для разделения
Rb+, Cs+); 1 - 4 кластеры - Tl+, 1 - 3 кластеры NН4+;
констант устойчивости коронатов на группы по
1, 3, 4 кластеры - Li+; 2, 5 кластеры - Mg2+, Ca2+;
свойствам растворителей, краун-эфиров и катио-
2, 4 кластеры - Sr2+, Ba2+; 2, 3 кластеры - Ag+; 5
нов проведен линейный дискриминантный анализ
кластер - Co2+, Cu2+, Pb2+.
Фишера, реализованный в статистическом пакете
STATISTICA 12 [47, 51, 54].
Всегда следует иметь в виду приближенный
характер моделей. Ни один отдельный статисти-
Результаты, полученные при одновременном
ческий анализ не является универсальным и до-
введении всех переменных в дискриминантный
статочным для установления степени научной
анализ, даны в табл. 7. Λ-Уилкса для каждого пре-
обоснованности полученных результатов. Для
диктора - это отношение внутригрупповой суммы
этого требуется подтверждение результатов моде-
квадратов отклонений предиктора от выборочно-
лирования на других наборах данных и разными
го среднего к общей сумме квадратов отклонений,
алгоритмами, исключающими появление систе-
иначе говоря - это отношение меры внутригруппо-
матических ошибок из-за неправильного исполь-
вой изменчивости SSW к мере общей изменчивости
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 90 № 10 2020
1592
БОНДАРЕВ
Таблица 9. Матрица кластеризации констант устойчивости коронатовa
Доля правильной
Кластер 1
Кластер 2
Кластер 3
Кластер 4
Кластер 5
Кластер
кластеризации, %
р = 0.282
р = 0.351
р = 0.183
р = 0.107
р = 0.076
Кластер 1
100.0
37
0
0
0
0
Кластер 2
100.0
0
46
0
0
0
Кластер 3
100.0
0
0
24
0
0
Кластер 4
100.0
0
0
0
14
0
Кластер 5
80.0
0
0
0
2
8
Всего, %
98.5
37
46
24
16
8
a Строки матрицы - наблюдаемая кластеризация методом k-средних. Столбцы матрицы - предсказанная классификация дискри-
минантным анализом Фишера.
Таблица 10. Характеристика извлеченных канонических корней (канонических линейных дискриминантных функ-
ций)a
Хи-квадрат - критерий последовательности удаления корней
Извлечено корней
Со
R
R2
Λ
χ2
ν
p
0
235.60
0.9979
0.9958
0.0001
1219.10
28
0.000
1
12.23
0.9615
0.9245
0.0127
541.27
18
0.000
2
4.14
0.8976
0.8057
0.1682
221.07
10
0.000
3
0.16
0.3674
0.1350
0.8650
17.98
4
0.001
a Со - собственное значение, R - коэффициент канонической корреляции, R2 - коэффициент детерминации, Λ - значение статистики
Λ-Уилкса, χ2 - значение статистики Хи-квадрат Пирсона, ν - число степеней свободы, p - уровень значимости соответствующего
канонического корня.
SSTotal = SSW + SSB. Значение стандартной стати-
ли. Толерантность является мерой избыточности
стики Уилкса лямбда (Λ-Уилкса) равно 0.0001, что
переменной в модели (чем меньше ее значение,
свидетельствует о высокой дискриминирующей
тем избыточнее переменная в модели, тем мень-
мощности модели (1.0 - дискриминация отсут-
шую дополнительную информацию несет эта пе-
ствует, 0.0 - полная дискриминация). Этот вывод
ременная (свойство) [47], иначе говоря, чем ниже
также подтверждается наблюдаемым значением
толерантность, тем сильнее данное свойство свя-
Fнабл-статистики, Fнабл(28, 434) = 221.43, p < 0.000
зано (коррелирует) со всеми остальными (наличие
и Fнабл(28, 434) > Fкр(28, 434).
мультиколлиниарности).
Из анализа результатов табл. 7 следует, что
В табл. 8 приведены коэффициенты bi матема-
только три свойства - ET, ε и d - демонстрируют
тической модели дискриминации констант устой-
способность к дискриминации, чем больше зна-
чивости коронатов - линейных классификацион-
чение Λ-Уилкса, тем более предпочтительным яв-
ных функций (ЛКФ).
ляется это свойство в процедуре разделения кон-
стант устойчивости коронатов по группам.
(3)
Частная Λ-Уилкса, характеризующая единич-
ный вклад соответствующей переменной в разде-
Подставив в эти уравнения значения свойств
лительную силу модели, подтверждает этот вывод.
растворителя, катиона и краун-эфира, которые не
Она равна отношению Λ-Уилкса после добавления
использовались при построении линейных клас-
переменной в модель к Λ-Уилкса до добавления
сификационных функций, можно предсказать кла-
этой переменной [73]. Чем меньше значение част-
стер, к которому константа устойчивости будет от-
ной Λ-Уилкса, тем больший вклад этого свойства в
несена по наибольшему рассчитанному значению
общую дискриминацию. Наряду с этим, чем мень-
линейной классификационной функции [36].
ше значение критерия Фишера Fискл (табл. 7), тем
В табл. 9 представлен конечный результат дис-
менее желательны свойства в модели дискримина-
криминантного анализа - матрица кластеризации
ции. Переменные, у которых уровень значимости
[50]. На диагонали матрицы содержится количе-
р > 0.05, исключаются из дискриминантной моде-
ство констант устойчивости коронатов правильно
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 90 № 10 2020
Р
АЗВЕДОЧНЫЙ, РЕГРЕССИОННЫЙ И НЕЙРОСЕТЕВОЙ АНАЛИЗ
1593
Таблица 11. Коэффициенты канонических линейных классификационных функций Фишера
Параметр, Аi
DF1
DF2
DF3
DF4
ML, А1
0.0003
0.0016
-0.0329
0.0226
rM, А2
0.2376
0.4307
0.2722
-2.4149
rL, А3
-0.7031
-0.2718
2.7175
-3.5982
d, А4
-12.8920
-4.3274
1.2789
1.2964
BKT, А5
0.4069
16.5575
-2.7895
0.3113
ET, А6
-139.5100
-16.9536
1.6234
2.2455
ε, А7
0.6005
0.1270
0.0353
-0.0108
А8
108.5070
16.4554
0.4617
-6.0258
Таблица 12. Средние канонических переменных (центроиды кластеров)
Кластер
DF1
DF2
DF3
DF4
Кластер 1
9.977
0.852
2.568
0.240
Кластер 2
8.583
2.096
-1.959
-0.167
Кластер 3
-1.165
-7.160
-0.499
-0.068
Кластер 4
-30.149
1.994
1.964
-0.675
Кластер 5
-31.393
1.596
-2.040
0.987
классифицированных в кластеры. В пятый кластер
как р < 0.05, среди оставшихся корней есть стати-
правильно отнесены 8 констант устойчивости ко-
стически значимые, в третьей строке содержатся
ронатов из 10 (80.0% правильной кластеризации).
данные о значимости функций, оставшихся после
Две константы устойчивости ошибочно отнесена
удаления первых двух (р < 0.05). Каждая после-
к четвертому кластеру. Дискриминантный анализ
дующая дискриминантная функция вносит все
был выполнен в трех режимах, представленных в
меньший и меньший вклад в общую дискримина-
пакете STATISTICA 12: в стандартном (Standard),
цию. Из анализа данных табл. 10 вытекает, что все
пошаговом вперед (Forward stepwise) и пошаговом
извлеченные корни (дискриминантные функции)
назад (Backward stepwise) [51]. При этом дискри-
статистически значимы, так как уровень значимо-
минантная модель кластеризации констант устой-
сти р меньше 0.05 [47]. Собственное (характери-
чивости коронатов на 98.5% подтвердила резуль-
стическое) значение для каждой дискриминантной
таты метода k-средних.
функции - это отношение межгрупповой суммы
квадратов отклонений SSB к внутригрупповой
Канонический анализ. Для получения допол-
нительных сведений о природе дискриминации
сумме квадратов отклонений SSW. Большие соб-
ственные значения свидетельствуют о высокой
(разделения) констант устойчивости проведен ка-
статистической значимости извлеченных дискри-
нонический анализ [47, 50]. Показано как семь пе-
минантных корней (функций).
ременных (свойства растворителей, краун-эфиров
и катионов) разделяют константы устойчивости
Чем больше теоретические числа, рассчитан-
коронатов каноническими линейными дискрими-
ные на основе нулевой гипотезы (отсутствие раз-
нантными функциями (КЛДФ) на 5 групп, выде-
личий между кластерами), будут отличаться от
ленных методом k-средних.
фактических, тем сильнее критерий Хи-квадрат
Извлечены четыре независимые (ортогональ-
будет отличаться от 0 (Λ-Уилкса, наоборот, будет
приближаться к 0), тем с большей вероятностью
ные) дискриминирующие функции (табл.
10).
можно принять альтернативную статистическую
Первая строка содержит критерий значимости для
гипотезу и говорить о статистической достоверно-
всех дискриминантных функций (корней). Так как
сти имеющихся различий в сравниваемых класте-
уровень значимости р меньше 0.05, то имеется
рах.
хотя бы один канонический корень, который яв-
ляется статистически значимым, вторая стро-
В табл. 11 приведены коэффициенты Ai (i = 1-8)
ка характеризует значимость дискриминантных
канонических моделей - канонических линейных
функций, оставшихся после удаления первой. Так
дискриминантных функций DFj (j = 1-4), для ис-
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 90 № 10 2020
1594
БОНДАРЕВ
средних значений для дискриминантных функций
(табл. 12) позволяет определить кластеры, лучше
всего идентифицируемые конкретной дискрими-
нантной функцией. Функция DF1 идентифицирует
в основном кластеры 4 и 5, так как им соответству-
ют наибольшие значения этой функции. Функция
DF2 - кластеры 2 и 3. Функция DF3 - кластер 1.
Функция DF4 - кластер 5.
Деревья классификации [53, 76]. Методоло-
гические аспекты построения деревьев класси-
фикации (правил решения) констант диссоциа-
ции и комплексообразования алгоритмом СART
(Classification and Regression Trees) изложены в ра-
ботах [34, 36]. На рис. 3 приведен граф дерева клас-
Рис. 3. Граф дерева классификации устойчивости ко-
сификации устойчивости коронатов катионов -
ронатов катионов.
четыре вершины ветвления (1, 3, 4, 5, 9) и шесть
ходных (нестандартизированных) свойств катио-
терминальных вершин (2, 6, 7, 8, 10, 11) - обо-
нов, краун-эфиров и растворителей.
значения в верхней части вершин. Текст под вер-
шинами ветвления описывает условие ветвления.
Числа в нижней части вершин обозначают номер
(4)
кластера. Числа над вершинами показывают коли-
Константа устойчивости исследуемого коро-
чество констант устойчивости коронатов, отнесен-
ната катиона, для которой по свойствам раство-
ных к данной вершине. Все константы устойчиво-
рителя, краун-эфира и катиона рассчитаны кано-
сти коронатов в вершинах ветвления относятся к
нические линейные дискриминантные функции
кластеру, в котором количество констант устой-
DF1, DF2, DF3 и DF4, будет отнесена к кластеру
чивости наибольшее. Поэтому корневая вершина
по наименьшему расстоянию до центра (центро-
ветвления 1 обозначена как Кластер 2.
ида) соответствующего кластера [36]. В табл. 12
В табл. 13 приведена структура дерева клас-
приведены координаты центроидов четырех кла-
сификации устойчивости коронатов катионов по
стеров констант устойчивости коронатов.Таблица
свойствам растворителей (d, ET, BKT, ε), катионов
Таблица 13. Структура дерева классификации устойчивости коронатов
1
2
3
37
46
24
14
10
2
0.200
BKT
2
0
0
24
0
0
3
-
3
4
5
37
46
0
14
10
2
1.340
rL
4
6
7
29
0
0
14
2
1
0.617
ET
5
8
9
8
46
0
0
8
2
0.466
ET
6
29
0
0
0
0
1
-
7
0
0
0
14
2
4
-
8
0
46
0
0
0
2
-
9
10
11
8
0
0
0
8
1
0.617
ET
10
8
0
0
0
0
1
-
11
0
0
0
0
8
5
-
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 90 № 10 2020
Р
АЗВЕДОЧНЫЙ, РЕГРЕССИОННЫЙ И НЕЙРОСЕТЕВОЙ АНАЛИЗ
1595
Таблица 14. Итоги нейросетевого аппроксиматора МLP 7-7-1a
MLP
BFGS
0.958
0.909
0.902
0.08
0.15
0.15
SOS
Logistic
Exponent
7-7-1
116
а Производительность обучения, контрольная производительность, тестовая производительность - отношение стандартного от-
клонения ошибки прогноза к стандартному отклонению исходных данных на соответствующих выборках; Ошибка обучения,
контрольная ошибка, тестовая ошибка - ошибки сети на соответствующих выборках; BFGS - алгоритм Бройдена-Флетчера-Голь-
дфарба-Шанно [77, 78]; SOS - среднеквадратичная ошибка
P - количество обработанных
примеров в выборке; Exponent - экспоненциальная функция φ(x) = ex; Logistic - логистическая функция φ(x) = 1/[1 + exp(-tx)].
(rM) и краун-эфиров (ML, rL). Ранги значимости
- отбор переменных методом прямого выбора
предикторов дерева кластеризации d, BKT, ET, ε,
(forward selection)
rM, ML, rL равны 88, 80, 100, 72, 12, 77, 76 соот-
ветственно (0 - низкая значимость, 100 - высокая
значимость).
Проведенный кластер-анализ с использовани-
ем деревьев решений на 98.5% подтвердил (рис. 3,
(6)
табл. 13) результаты кластерного анализа устойчи-
стандартная ошибка = 0.78, dDW = 1.32.
вости коронатов методом k-средних. Как и в случае
- отбор переменных методом обратного исклю-
дискриминантного анализа, составы первого, вто-
чения (backward elimination)
рого, третьего и четвертого кластеров подтвержде-
ны на 100%. Две константы устойчивости пятого
кластера алгоритмом CART ошибочно отнесены в
четвертый кластер (80.0%).
Регрессионный анализ. Математические ре-
(7)
грессионные модели [51, 53, 54] имеют вид:
стандартная ошибка = 0.81, dDW = 1.46.
- включены все переменные (standard)
Критерий Дарбина-Уотсона (dDW) [51] применя-
ется при анализе остатков регрессионных моделей
для тестирования автокорреляции первого поряд-
ка переменных исследуемых моделей. Автокорре-
(5)
ляция остатков наблюдается тогда, когда значения
предыдущих остатков завышают (положительная)
R = 0.8252, наблюдаемое значение критерия
или занижают (отрицательная) значения последу-
Фишера Fнабл(7,123) = 37.51, p < 0.000, критиче-
ющих. Если 0 < dDW < 1.5 имеется положительная
ское значение критерия Фишера Fкр(7,123) = 2.01,
автокорреляция. Одной из причин автокорреляции
p = 0.05, стандартная ошибка = 0.78, критерий
может быть неучет в регрессионной модели одно-
Дарбина-Уотсона dDW = 1.38.
го или нескольких важных параметров (свойств).
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 90 № 10 2020
1596
БОНДАРЕВ
Таблица 15. Итоги кластеризации констант устойчивости коронатов многослойным персептроном МLP 7-5-5
Показатели
Архитектура
Кластер 1
Кластер 2
Кластер 3
Кластер 4
Кластер 5
Все
кластеризации
Все
37
46
24
14
10
131
MLP 7-5-5
Правильно
37
46
24
14
10
131
Таблица 16. Наблюдаемые (lgKэксп) и аппроксимированные (lgKMLP) персептроном MLP 7-1-1 значения констант
комплекообразования (lgK) катионов с краун-эфирами
Краун-
Краун-
Катион
Растворитель
lgKэксп
lgKMLP
Катион
Растворитель
lgKэксп
lgK
MLP
эфир
эфир
12C4
Mg2+
Пропиленкарбонат
2.61
1.27
DB18C6
Ag+
Вода
1.41
1.86
15С5
Ag+
Вода
0.94
1.53
DB18C6
Tl+
Вода
1.5
1.75
15С5
Tl+
Вода
1.23
1.08
DB18C6
Pb2+
Вода
1.89
1.93
15С5
Pb2+
Вода
1.85
1.56
DB18C6
Ag+
MeOH
4.04
3.93
18C6
Ag+
Вода
1.55
1.90
DB18C6
Tl+
MeCN
4.90
4.95
18C6
Tl+
Вода
2.27
2.10
DB21C7
Tl+
MeCN
> 5.0
5.36
18C6
Pb2+
Вода
4.3
2.00
DB21C7
Tl+
Ацетон
4.71
4.83
18C6
Ag+
MeOH
4.57
3.96
DB21C7
Tl+
MeOH
3.97
4.38
Таблица 17. Предсказанные моделью MLP 7-1-1 значения констант устойчивости lgKMLP
Катион
Растворитель
Краун-эфир
lgKэксп
lgKMLP
Остатки
Na+
MeOH
24C8
2.35
2.65
-0.3
K+
MeOH
24C8
3.50
3.65
-0.2
Cs+
MeOH
24C8
4.15
3.98
0.2
Ca2+
MeOH
24C8
2.66
2.64
0.0
Tl+
MeOH
DB30C10
4.47
4.89
-0.4
Na+
MeOH
DB30C10
2.10
3.51
-1.4
K+
MeOH
DB30C10
4.60
5.08
-0.5
Rb+
MeOH
DB30C10
4.60
4.92
-0.3
Cs+
MeOH
DB30C10
4.18
4.38
-0.2
Выбранные входные независимые переменные
выборках 0.15. Эти данные также свидетельствуют
были применены для построения прогностиче-
о том, что нейросетевая модель обладает большей
ских нейросетевых [45, 55] моделей зависимости
прогнозирующей силой, чем модели множествен-
констант устойчивости коронатов катионов lgK от
ной линейной регрессии, коэффициенты корреля-
свойств растворителей, катионов и краун-эфиров.
ции которых меньше 0.83.
Нейросетевой анализ. В табл. 14 приведены
Обученный нейросетевой классификатор МLP
основные характеристики обученного нейросете-
7-5-5 (табл. 15) имеет следующие основные харак-
вого аппроксиматора - многослойного персептро-
теристики: производительность обучения - 100%,
на МLP 7-7-1.
контрольная производительность - 100%, тестовая
Коэффициенты корреляции на обучающей
производительность - 100%; алгоритм обучения -
(70%), контрольной (15%) и тестовой (15%) вы-
BFGS 57; функция ошибки - SOS; функции акти-
борках равны 0.958, 0.909 и 0.902 соответственно.
вации нейронов: скрытых - логистическая, выход-
Статистические характеристики обученной ней-
ных - тождественная.
росетевой модели персептронного типа МLP 7-7-
Таким образом, алгоритм многослойного пер-
1 (табл. 14) отражают успешность проведенного
обучения. Так, качество обучения на различных
септрона MLP 7-5-5 на 100% подтвердили пра-
выборках больше 90%, ошибка обучения на обуча-
вомочность кластеризации методом k-средних
ющей выборке 0.08, а на контрольной и тестовой
(табл. 15).
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 90 № 10 2020
Р
АЗВЕДОЧНЫЙ, РЕГРЕССИОННЫЙ И НЕЙРОСЕТЕВОЙ АНАЛИЗ
1597
Воспроизведение и прогнозирование резуль-
разведочных регрессионных и нейросетевых ал-
татов в новых данных и новых условиях является
горитмов для построения прогнозных моделей
более надежным способом проверки [75] эффек-
устойчивости коронатов в разных растворителях.
тивности построенных нейросетевых моделей
Компьютерное моделирование позволит,
(персептронов). Поэтому табл. 16 и 17 в качестве
во-первых, прогнозировать устойчивость катио-
примеров демонстрируют возможности обучен-
нов с молекулами, содержащими краун-эфирные
ного многослойного персептрона MLP 7-7-1 для
фрагменты, в средах разной природы, а во-вторых,
аппроксимации (табл.
16) и прогнозирования
оптимизировать планирование экспериментов в
(табл. 17) констант устойчивости коронатов lgKMLP
растворителях, в которых комплексообразование
по свойствам растворителей, катионов и краун-
краун-эфиров с катионами еще не изучено, либо
эфиров. При этом важно отметить, что экспери-
исследовано недостаточно полно, в частности, в
ментальные константы комплексообразования
органических и смешанных растворителях.
lgKэксп (табл. 17), взятые из работы [78], не исполь-
зовались в обучении нейронной сети.
КОНФЛИКТ ИНТЕРЕСОВ
На основании анализа данных, приведенных в
Автор заявляет об отсутствии конфликта
табл. 16, можно заключить, что обученный ней-
интересов.
росетевой аппроксиматор обладает удовлетвори-
СПИСОК ЛИТЕРАТУРЫ
тельным прогностическим потенциалом, а по-
следующие усовершенствования модели лежат
1. Тьюки Д. Анализ результатов наблюдений. Разведоч-
в плоскости пополнения массивов данных как
ный анализ. М.: Мир, 1981. 696 с.
по константам устойчивости комплексов краун-
2. Donoho D. // J. Comput. Graph. Stat. 2017. Vol. 26.
эфиров с катионами, так и по свойствам катио-
N 4. P. 745. doi 10.1080/10618600.2017.1384734
нов, краун-эфиров и растворителей (поиск, сбор,
3. Брюс П., Брюс Э. Практическая статистика для
систематизация, обработка и анализ первичных
специалистов Data Science. Пер. с англ. СПб:
экспериментальных данных) для включения в мо-
БХВ-Петербург, 2018. 304 с.
дель, что подтверждает известный философский
4. Chambers J.M. // Stat. Comput. 1993. Vol. 3. N 4.
афоризм британского статистика Дж. Бокса: «Все
P. 182. doi 10.1007/bf00141776
модели неверны, но некоторые из них полезны»
5. Breiman L. // Stat. Sci. 2001. Vol. 16. N 3. P. 199. doi
(1978).
10.1214/ss/1009213726
6. Hill T., Lewicki P. Statistics: methods and applications: a
С термодинамической точки зрения, сравнение
comprehensive reference for science, industry, and data
устойчивости коронатов катионов в разных рас-
mining. Tulsa, Okla.: StatSoft. 2006. 832 p.
творителях требует детального рассмотрения эн-
7. Dhar V. // Commun. ACM. 2013. Vol . 56. N 12. P. 64.
тальпийных (связевых) и энтропийных (стохасти-
doi 10.1145/2500499
ческих) вкладов в изменение свободной энергии
8. Guo J., Chen Q., Wang C., Qiu H., Liu B., Jiang Z.-H.,
Гиббса комплексообразования, которые в свою
Zhang W. // Anal. Bioanal. Chem. 2015. Vol. 407. N 5.
очередь зависят от термодинамических характе-
P. 1389. doi 10.1007/s00216-014-8371-x
ристик сольватации (пересольватации) катионов,
9. Komorowski M., Marshall D.C., Salciccioli J.D.,
лигандов и коронатов катионов. Эти вопросы рас-
Crutain Y. // Cham: Springer, 2016. Ch. 15. P. 185. doi
смотрены нами в работах, посвященных сольвата-
10.1007/978-3-319-43742-2_15
ционно-термодинамическому подходу [65] к ис-
10. Cutcher-Gershenfeld J., Baker K.S., Berente N., Flint C.,
следованию влияния растворителя на силу слабых
Gershenfeld G., Grant B., Haberman M., King J.L.,
Kickpatrick C., Lawrence B., Lewis W., Lenhardt W.C.,
электролитов и устойчивость катион-краун-эфир-
Mayernik M., McElroy C., Mittleman B., Shin N.,
ных комплексов.
Stall S., Winter S., Zaslavsky I. // Nature. 2017.
В данной работе демонстрируется применение
Vol. 543. P. 615. doi 10.1038/543615a
модельного подхода к установлению статисти-
11. Ma X., Hummer D., Golden J., Fox P., Hazen R.,
чески значимой связи между физико-химически-
Morrison S., Downs R.T., Madhikarmi B.L., Wang C.,
ми свойствами растворителя, катиона, лиганда
Meyer M. // ISPRS Int. J. Geo-Inf. 2017. Vol. 6. N 11.
и устойчивостью комплексов краун-эфиров с ка-
P. 368. doi 10.3390/ijgi6110368
тионами на основе совместного использования
12. Biancolillo A., Marini F. // Front. Chem. 2018. Vol. 6.
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 90 № 10 2020
1598
БОНДАРЕВ
Р. 576. doi 10.3389/fchem.2018.00576
31. Schmidt J., Marques M.R.G., Botti S., Marques M.A.L.
13. Bevilacqua M., Bucci R., Magrì A.D., Magrì, A.L.,
// npj Comput. Mater. 2019. Vol. 5. N 83. P. 1. doi
Nescatelli R., Marini F. // Chemom. Food Chem.
10.1038/s41524-019-0221-0
2013. Vol. 28. P. 171. doi 10.1016/b978-0-444-59528-
32. Länge M. // Soft Comput. 2020. doi 10.1007/s00500-
7.00005-3
019-04663-3
14. Brereton R.G., Jansen J., Lopes J., Marini F.,
33. Bondarev N.V. // Klin. inform. telemed. 2019. Vol. 14.
Pomerantsev A., Rodionova O., Roger J.M., Walczak
N 15. P. 141. doi 10.31071/kit2019.15.13
B., Tauler R. // Anal. Bioanal. Chem. 2018. doi 10.1007/
34. Бондарев Н.В. // ЖОХ. 2016. Т. 86. № 6. С. 887; Bon-
s00216-018-1283-4
darev N.V. // Russ. J. Gen. Chem. 2016. Vol. 86. N 6.
15. Tauler R, Parastar H. // Angew. Chem. Int. Ed. Engl.
P. 1221. doi 10.1134/S1070363216060025
2018. doi 10.1002/anie.201801134
35. Бондарев Н.В. // ЖОХ. 2017. Т. 87. № 2. С. 207; Bon-
16. García F.P., García M.A.F., Drożdżak J., Ruiz-Sam-
darev N.V. // Russ. J. Gen. Chem. 2017. Vol. 87. N 2.
blás C. // Environ. Sci. Pollut. Res. 2012. Vol. 19. N 8.
P. 188. doi 10.1134/S1070363217020062
P. 3317. doi 10.1007/s11356-012-0849-5
36. Бондарев Н.В. // ЖОХ. 2019. Т. 89. № 2. С. 288. doi
17. De Klerck K., Vander Heyden Y., Mangelings D. // J.
10.1134/S0044460X19020197; Bondarev N.V. // Russ.
Chromatogr (A). 2014. Vol. 1326. P. 110. doi 10.1016/j.
J. Gen. Chem. 2019. Vol. 89. N 2. P. 281. doi 10.1134/
chroma.2013.12.052
S1070363219020191
18. Liu Y., Zhao T., Ju W., Shi S. // J. Materiomics. 2017.
37. Бондарев Н.В. // ЖОХ. 2019. Т. 89. № 7. С. 1085. doi
Vol. 3. N 3. P. 159. doi 10.1016/j.jmat.2017.08.002
10.1134/S0044460X1907014X; Bondarev N.V. // Russ.
19. Wei J.N., Duvenaud D., Aspuru-Guzik A. // ACS
J. Gen. Chem. 2019. Vol. 89. N 7. P. 1438. doi 10.1134/
Cent. Sci. 2016. Vol. 2. N 10. P. 725. doi 10.1021/
S1070363219070144
acscentsci.6b00219
38. Зенкин А.А. Когнитивная компьютерная графика. М.:
20. Blount D., Banda P., Teuscher C., Stefanovic D. //
Наука, 1991. 192 с.
Artif. Life. 2017. Vol. 23. N 3. P. 295. doi 10.1162/
39. Brown F.K. // Annual Reports in Medicinal Chem-
artl_a_00233
istry. 1998. Vol. 33. P. 375. doi 10.1016/s0065-
21. Coley C.W., Jin W., Rogers L., Jamison T.F., Jaakko-
7743(08)61100-8
la T.S., Green W.H., Barzilay R., Jensen K.F. // Chem.
40. Leach A.R., Gillet V.J. An Introduction to Chemoinfor-
Sci. 2019. Vol. 10. P. 370. doi 10.1039/c8sc04228d
matics. Dordrecht: Springer, 2007. 256 p.
22. Bonini Neto A., Bonini C.S.B., Reis A.R., Piazentin J.C.,
41. Bunin B.A., Siesel A., Morales G.A., Bajorath J. Chemo-
Coletta L.F.S., Putti F.F., Heinrichsb R., Moreira A. //
informatics: Theory, Practice, & Products. Dordrecht:
Commun. Soil Sci. Plant Anal. 2019. Vol. 50. N 14.
Springer, 2007. 295 p.
Р. 1785. doi 10.1080/00103624.2019.1635144
42. Baskin V., Varnek V. Chemoinformatics Approaches to
23. Meyer J.G., Liu S., Miller I.J., Coon J.J., Gitter A. //
Virtual Screening. Cambridge: RCS Publishing, 2008.
J. Chem. Inf. Model. 2019. Vol. 59. N 10. P. 4438. doi
43 р.
10.1021/acs.jcim.9b00236
43. Бондарев Н.В. // ЖОХ. 2020. Т. 90. № 6. С. 953. doi
24. Li H., Zhang Z., Liu Z. // Catalysts. 2017. Vol. 7. N 10.
10.31857/S0044460X20060170; Bondarev N.V. // Russ.
P. 306. doi 10.3390/catal7100306
J. Gen. Chem. 2020. Vol. 90. N 6. P. 1040. doi 10.1134/
25. Schütt K.T., Arbabzadah F., Chmiela S., Müller K.R.,
S1070363220060171
Tkatchenko A. // Nat. Commun. 2017. Vol. 8. N 13890.
44. Соловьев И.П. Дис
докт. хим. наук. М., 2007. 350
P. 1. doi 10.1038/ncomms13890
с.
26. Molina J., Laroche A., Richard J.-V., Schuller A.-S.,
45. Хайкин С. Нейронные сети: полный курс. М.: Изда-
Rolando C. // Front. Chem. 2019. Vol. 7. P. 375. doi
тельский дом «Вильямс», 2006. 1104 с.
10.3389/fchem.2019.00375
46. Гальберштам Н.М., Баскин И.И., Палюлин В.А.,
27. Chen X., Sztandera L., Cartwright H.M. // Int. J. Intell.
Зефиров Н.С. // Усп. хим. 2003. Т. 72. № 7. С. 706;
Syst. 2007. Vol. 23. N 1. P. 22. doi 10.1002/int.20256
Halberstam N.M., Baskin I.I., Palyulin V.A., Zefi-
28. Ye W., Chen C., Wang Z., Chu I.-H., Ong S.P. // Nat.
rov N.S. // Russ. Chem. Rev. 2003. Vol. 72. N 7.
Commun. 2018. Vol. 9. N 3800. P. 1. doi 10.1038/
P. 629. doi 10.1070/RC2003v072n07ABEH000754.
s41467-018-06322-x
47. Халафян А.А. Современные статистические методы
29. Cova T.F., Canelas_pais A.A. // Front. Chem. 2019.
медицинских исследований. М.: ЛКИ, 2008. 320 с.
Vol. 7. P. 809. doi 10.3389/fchem.2019.00809
48. Колмогоров А.Н. // Докл. АН СССР. 1957. Т. 114.
30. Alves T.H., Oliveira P., Mota L., Correa C., Abud A.K.,
№ 5. С. 953.
Oliveira Junior A. // Chem. Eng. Trans. 2019. Vol. 74.
49. Ким Дж.-О., Мьюллер Ч.У., Клекка У.Р. Факторный,
P. 1483. doi 10.3303/CET1974248
дискриминантный и кластерный анализ. М.: Финан-
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 90 № 10 2020
Р
АЗВЕДОЧНЫЙ, РЕГРЕССИОННЫЙ И НЕЙРОСЕТЕВОЙ АНАЛИЗ
1599
сы и статистика, 1989. 216 c.
66. Christy F.A., Shrivastav P.S. // Crit. Rev. Anal.
50. Малхорта Н.К. Маркетинговые исследования.
Chem. 2011. Vol. 41. N 3. P. 236. doi 10.1080/
Практическое руководство. М.: Издательский дом
10408347.2011.589284
«Вильямс», 2002. 960 с.
67. Rodgers M.T., Armentrout P.B. // Chem. Rev. 2016.
51. Боровиков В.П. STATISTICA. Искусство анализа
Vol.
116. N
9. P.
5642. doi
10.1021/acs.
данных на компьютере: Для профессионалов. СПб:
chemrev.5b00688
Питер. 2003. 686 с.
68. Marcus Y. The Properties of Solvents. Chichester: John
52. Аксенов С.В., Новосельцев В.Б. Организация и ис-
Wiley & Sons, 1999. Vol. 4. 399 p.
пользование нейронных сетей (методы и техноло-
69. Shannon R.D., Prewitt C.T. // Acta Crystallogr.
гии). Томск: НТЛ, 2006. 128 с.
(B). 1969. Vol. 25. N 5. P. 925. doi 10.1107/
53. Барсегян А.А., Куприянов М.С., Степаненко В.В.
s0567740869003220
Технологии анализа данных: Data Mining, Visual
70. Ouchi M., Inoue Y., Kanzaki T., Hakushi T. // J. Org.
Mining, Text Mining, OLAP. СПб: БХВ-Петербург,
Chem. 1984. Vol. 49. N 8. P. 1408. doi 10.1021/
2007. 384 с.
jo00182a017
54. Наследов А. IBM SPSS Statistics 20 и AMOS: профес-
71. Takeda Y., Mochizuki Y., Tanaka M., Kudo Y., Katsuta S.,
сиональный статистический анализ данных. СПб:
Ouchi M. // J. Incl. Phenom. Macrocycl. Chem. 1999.
Питер, 2013. 416 с.
Vol. 33. N 2. P. 217. doi 10.1023/a:1008099827420
55. Боровиков В.П. Нейронные сети. Statistica Neural
72. Елисеева И.И., Юзбашев М.М. Общая теория стати-
Networks. Методология и технологии современного
стики. М.: Финансы и статистика, 2004. 656 с.
анализа данных. М.: Горячая линия - Телеком, 2008.
73. Касюк С.Т. Первичный, кластерный, регрессион-
392 с.
ный и дискриминантный анализ данных спортивной
56. Бондарев С.Н., Бондарев Н.В. // Вест. Харьк. нац.
медицины на компьютере. Челябинск: Уральская
унив. 2010. № 932. Вып. 19(42). С. 70.
Академия, 2015. 160 с.
57. Бондарев С.Н. , Зайцева И.С., Бондарев Н.В. // Бут-
74. Лемешко Б.Ю. Критерии проверки отклонения рас-
леровск. сообщ. 2011. Т. 27. № 14. С. 1.
пределения от нормального закона. Руководство по
58. Бондарев С.Н. , Зайцева И.С., Бондарев Н.В. // Бут-
применению. 2014. Новосибирск: НГТУ, 192 с.
леровск. сообщ. 2011. Т. 27. № 13. С. 36.
75. Tong С. // Am. Stat. 2019. Vol. 73. N s1. P. 246. doi
59. Бондарев С.Н. , Зайцева И.С. , Бондарев Н.В. // Бут-
10.1080/00031305.2018.1518264
леровск. сообщ. 2011. Т. 27. № 16. С. 15.
76. Breiman L., Friedman J., Olshen R., Stone C. Classi-
60. Бондарев Н.В. // Укр. хим. ж. 1995. Т.61. № 11. С. 14.
fication and Regression Trees. Belmont: Wadsworth
61. Бондарев Н.В. // Укр. хим. ж. 1998. Т. 64. № 8. С. 85.
International Group,1984. 358 с.
62. Бондарев Н.В. // ЖОХ. 1999. Т. 69. Вып. 2 С. 229.
77. Nocedal J., Wright S.J. Numerical Optimization.
63. Бондарев Н.В. // ЖФХ. 1999. Т.73. № 6. С. 1019.
Dordrecht: Springer, 2006. 683 p.
64. Бондарев Н.В. // ЖОХ. 2006. Т.76. № 1. С. 13; Bon-
78. Al-Baali M., Spedicato E., Maggioni F. // Optimization
darev N.V. // Russ. J. Gen. Chem. 2006. Vol. 76. N 7.
Methods and Software. 2013. Vol. 29. N 5. P. 937. doi
P. 11. doi 10.1134/s1070363206010038
10.1080/10556788.2013.856909
65. Бондарев Н.В. Термодинамика равновесий. Эффек-
79. Izatt R.M., Bradshaw J.S., Nielsen S.A., Lamb J.D.,
ты среды и нейросетевой анализ. Saarbrucken: LAP
Christensen J.J., Sen D. // Chem. Rev. 1985. Vol. 85.
LAMBERT Academic Publishing, 2012. 380 c.
N 4. P. 271. doi 10.1021/cr00068a003
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 90 № 10 2020
1600
БОНДАРЕВ
Exploration, Regression and Neural Network Analysis
of the Stability of Cation Coronates in Some Pure Solvents
N. V. Bondarev*
V.N. Karazin Kharkiv National University, Kharkiv, 61022 Ukraine
* e-mail: bondarev_n@rambler.ru
Received May 13, 2020; revised July 29, 2020; accepted August 9, 2020
Exploratory, regression, and neural network analysis of the stability constants of crown ether 1:1 complexes
[12C4, 16C5, (CH3)216C5, DB21C7, DB24C8, DCH24C8, DB30C10] with alkaline cations (Li+, Na+, K+,
Cs+, Rb+), alkaline earth (Ca2+, Sr2+, Ba2+), heavy (Ag+, Tl+, Co2+, Cu2+, Pb2+) metals and NH4+ in water
and organic solvents (methanol, acetonitrile, acetone, N,N-dimethylformamide, nitrobenzene, nitromethane,
1,2-dichloroethane, propylene carbonate) at 298.15 K obtained by conductometric method was made. Factorial,
cluster, discriminant, canonical, decision tree, regression and neural network models of clustering, approximation
and prediction of thermodynamic constants of complexation of crown ethers with cations depending on the
properties of the ligand, the cation interacting with it, and the solvent used were developed. The trained
MLP 7-5-5 Multilayer Perceptron Cluster was 100 percent validated for the k-means exploration clustering.
Independent data on the stability constants of coronates demonstrate the predictive capabilities of the trained
perceptron-approximator MLP 7-7-1.
Keywords: crown ethers, complexation constant, exploratory analysis, multiple linear regression, neural net-
works, modeling, forecasting
ЖУРНАЛ ОБЩЕЙ ХИМИИ том 90 № 10 2020