Журнал физической химии, 2020, T. 94, № 3, стр. 324-329

Молекулярно-статистическое моделирование для идентификации неизвестных соединений

Д. Д. Матюшин a*, А. Е. Карнаева a, А. К. Буряк a

a Российская академия наук, Институт физической химии и электрохимии им. А.Н. Фрумкина
119071 Москва, Россия

* E-mail: dm.matiushin@mail.ru

Поступила в редакцию 12.06.2019
После доработки 12.06.2019
Принята к публикации 03.09.2019

Полный текст (PDF)

Аннотация

Показано, что метод молекулярно-статистических расчетов, в разработке и совершенствовании которого принимали активное участие сотрудники Института физической химии и электрохимии РАН, позволяет оценивать хроматографическое удерживание аналитов с высокой точностью. Разработанный вариант метода молекулярно-статистических расчетов (с учетом конформационной нежесткости) применен для предсказания величин удерживания алкилбензолов в условиях газоадсорбционной хроматографии. Выполнено сравнение точности оценки индексов удерживания с результатами современных методов предсказания удерживания на основе машинного обучения (для газожидкостной хроматографии), а также сравнение эффективности разделения структурных изомеров углеводородов на колонках разных видов.

Ключевые слова: газовая хроматография, адсорбция, углеродные сорбенты, математическое моделирование

Графитированная термическая сажа (ГТС) находит применение в газоадсорбционной хроматографии в качестве сорбента. Одним из первых применять ГТС в газовой хроматографии начал сотрудник Института физической химии АН СССР А.В. Киселев с коллегами из Московского государственного университета [1]. Данный сорбент состоит из частиц углерода, имеющих графитоподобную структуру и сравнительно однородную поверхность, содержащую относительно немного функциональных групп. Это позволяет сравнительно легко и эффективно моделировать адсорбцию органических молекул на молекулярном уровне. Первые работы по теоретическому вычислению адсорбции на ГТС, использующие атом-атомное приближение для вычисления потенциала взаимодействия сорбат–сорбент, были выполнены в конце 50-х – начале 60-х годов сотрудниками ИФХ АН СССР [24].

В последующие годы эти работы легли в основу так называемого метода молекулярно-статистических расчетов, позволяющего, в приближении классической молекулярной динамики, рассчитывать константу Генри адсорбции и энергию Гиббса адсорбции на однородных поверхностях и предсказывать характеристики удерживания [5]. Данный метод отличается сравнительно небольшим набором эмпирически подбираемых параметров и высокой точностью (погрешность не более 1%) для некоторых классов органических соединений. Использование различных вариантов метода для идентификации химических соединений (в том числе для предсказания порядка элюирования для смесей изомеров) описано в обзоре [6]. Исходный вариант метода обладал очень ограниченной областью применения, ввиду возможности расчета только для конформационно-жестких молекул. Вычисления для молекул с несколькими углами внутреннего вращения оказывались очень трудоемкими.

Недавно был разработан новый вариант молекулярно-статистического метода с использованием алгоритма Метрополиса для перебора всех возможных конформаций молекулы и для оценки внутренней энергии конформации [79]. Метод был протестирован на ряде соединений (алканы, хлоралканы, простые эфиры), показана его достаточная точность для больших групп молекул.

На данный момент ГТС выпускается под торговыми марками Carbopack, Carboblack, Carbochrom, кроме того, коммерчески доступны и готовые микронабивные колонки на основе этого сорбента [10]. ГТС используется в различных исследованиях, в том числе в химической кинетике для анализа реакционных смесей [11, 12]. Эффективное разделение смесей изомеров, соединений, отличающихся структурой и геометрическим строением, является характерной особенностью сорбентов данного класса [13].

Способы теоретического предсказания характеристик удерживания в газовой и жидкостной хроматографии активно разрабатываются в последние годы. Они могут быть применены при подготовке эксперимента и непосредственно для подтверждения или опровержения предположения о структуре неизвестного соединения, посредством сравнения рассчитанных и наблюдаемых характеристик, в частности, удерживания. Для этого используются самые разнообразные методы машинного обучения и подбора эмпирических формул и зависимостей [14, 15].

Цель данной работы – сравнение метода машинного обучения (на основе нейронной сети) и молекулярно-статистического метода на примере анализа смесей изомеров алкилбензолов.

ЭКСПЕРИМЕНТАЛЬНАЯ ЧАСТЬ

Были использованы экспериментальные данные по удерживанию на ГТС из литературных источников: для алкилбензолов – из работы [13] (приведены индексы удерживания, измеренные при различных температурах). Взаимодействие сорбата и однородной поверхности графита описывалось атом-атомными потенциалами в форме Леннард-Джонса, с параметрами из [16]. Для атомов углерода с поверхности ГТС использовались параметры: ε = 0.295 кДж/моль, r = 1.908 Å [7].

Внутренняя энергия конформаций, необходимая для применения алгоритма Метрополиса, рассчитывалась с использованием параметров взаимодействий MMFF94 [17] и соответствующих правил. Выполнялся перебор конформаций посредством алгоритма Метрополиса, использовался вариант молекулярно-статистического метода с учетом внутреннего вращения [79]. Произвольные шаги включали в себя поворот молекулы вокруг произвольной связи, перемещение произвольного атома (до 0.1 Å) и изменение длины произвольной связи (до 0.1 Å) с вероятностями 0.25, 0.5, 0.25 соответственно. Для каждой молекулы выполнялось 107 шагов алгоритма Метрополиса, изменения результата при дальнейшем увеличении числа шагов составляли не более 0.05 в единицах логарифма константы Генри адсорбции. Все расчеты выполнялись при помощи собственного программного обеспечения [7].

Вычисление индексов удерживания выполнялось с помощью глубокой сверточной нейронной сети по методам [18, 19]. Нейронная сеть состояла из двух сверточных слоев со 150 выходными каналами, объединяющего слоя (усреднение) и двух полносвязанных слоев (200 скрытых узлов, 1 выходной узел). Использовалась функция активации ReLU (на всех слоях кроме последнего, на последнем – линейная функция активации):

$f = \left\{ \begin{gathered} 0\quad {\text{для}}\quad x < 0, \hfill \\ x\quad {\text{для}}\quad x \geqslant 0. \hfill \\ \end{gathered} \right.$

В качестве входных данных использовались записанные в форме унитарного кода строки SMILES [20], соответствующие молекулам аналитов. Обучение производилось с использованием базы данных масс-спектров и индексов удерживания NIST 2008, из которой были предварительно исключены алкилбензолы, для которых выполнялось тестирование. Подробнее метод расчета описан в работе [19]. В случае наличия в базе NIST 2008 нескольких индексов удерживания для одной молекулы – они усреднялись. Индексы рассматривались для неполярных (полиметилсилоксан, 5%-фенил-полидиметилсилоксан, сквалан) жидких неподвижных фаз.

ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ

В табл. 1 приведены результаты молекулярно-статистического расчета логарифмов констант Генри адсорбции для всех рассмотренных алкилбензолов и индексы удерживания: экспериментальные на ГТС и неполярных жидких фазах и рассчитанные для неполярных жидких фаз. Экспериментальное [13] определение индексов удерживания выполнялось при разных температурах, все расчеты выполнялись для 150°С. Выполнение расчетов для одной температуры необходимо, чтобы получить данные для разных соединений, сравнимые между собой [7].

Таблица 1.  

Экспериментально измеренные индексы [13] удерживания Ковача алкилбензолов на ГТС (Igtcb), на неполярных жидких неподвижных фазах (In) и рассчитанные индексы удерживания на неполярных жидких фазах (Icn) и ГТС (Icg), константы Генри адсорбции (ln K1 [см32]) на ГТС

Вещество Igtcb In Icn Icg ln K1
Бензол 561 655 680 567 –0.17
Толуол 699 756 775 703 1.50
Этилбензол 762 852 876 765 2.26
1,4-Диметилбензол 840 866 891 836 3.12
1,3-Диметилбензол 824 863 885 832 3.09
1,2-Диметилбензол 836 883 880 848 3.28
Изопропилбензол 798 919 927 786 2.51
н-Пропилбензол 852 945 956 862 3.45
м-Метилэтилбензол 894 953 963 891 3.81
п-Метилэтилбензол 882 952 984 893 3.83
о-Метилэтилбензол 888 969 977 908 4.01
1,3,5-Триметилбензол 945 970 982 952 4.56
1,2,4-Триметилбензол 970 986 1003 974 4.83
1,2,3-Триметилбензол 979 1010 1021 995 5.08
трет-Бутилбензол 845 993 996 845 3.24
втор-Бутилбензол 862 1002 1014 839 3.17
Изобутилбензол 910 996 996 916 4.11
1-Метил-4-изопропилбензол 918 1020 1032 892 3.81
1,3-Диэтилбензол 941 1040 1044 952 4.55
н-Бутилбензол 945 1049 1051 956 4.61
1-Метил-4-н-пропилбензол 988 1044 1058 986 4.98
1,4-Диэтилбензол 954 1058 1045 948 4.51
1,2-Диэтилбензол 941 1049 1051 959 4.64
1-Метил-2-н-пропилбензол 980 1056 1055 1002 5.17
1,4-Диметил-2-этилбензол 1019 1069 1040 1036 5.59
1,3-Диметил-4-этилбензол 1015 1072 1080 1028 5.48
1,2-Диметил-4-этилбензол 1021 1078 1093 1027 5.48
1,2,4,5-Тетраметилбензол 1111 1112 1120 1113 6.53
1,2,3,5-Тетраметилбензол 1107 1117 1151 1112 6.52
1,2,3,4-Тетраметилбензол 1131 1144 1138 1138 6.84
втор-Пентилбензол 933 1105 1110 909 4.02
1-Этил-4-н-пропилбензол 1047 1135 1123 1045 5.70
н-Пентилбензол 1045 1150 1158 1075 6.06
1-Этил-4-н-бутилбензол 1078 1147 1167 1084 6.18
Пентаметилбензол 1271 1266 1275 1271 8.48
1,3-Диизопропилбензол 998 1138 1149 993 5.07
1,3-Диметил-5-трет-бутилбензол 1021 1160 1158 1039 5.62
1,4-Диизопропилбензол 1015 1163 1169 979 4.89
1-Изопропил-4-н-пропилбензол 1079 1187 1208 1063 5.92
1,3-Ди-н-пропилбензол 1121 1192 1189 1142 6.89
1,4-Ди-н-пропилбензол 1149 1224 1215 1147 6.95
1-Этил-4-н-бутилбензол 1142 1230 1238 1141 6.88
н-Гексилбензол 1140 1247 1257 1176 7.31
1-Метил-4-н-пентилбензол 1178 1240 1266 1204 7.65
Гексаметилбензол 1414 1433 1403 1417    10.3
1-н-Пропил-4-н-бутилбензол 1240 1311 1331 1240 8.10
1-Этил-4-н-пентилбензол 1244 1322 1341 1255 8.28
1-Метил-4-н-гексилбензол 1273 1333 1364 1309 8.95
1,4-Ди-трет-бутилбензол 1091 1295 1305 1045 5.70
1-трет-Бутил-4-изобутилбензол 1205 1291 1311 1180 7.36
1-трет-Бутил-4-втор-бутилбензол 1138 1291 1313 1096 6.33
1,4-Ди-втор-бутилбензол 1182 1304 1356 1131 6.75
1-втор-Бутил-4-изобутилбензол 1235 1306 1305 1196 7.56
1,4-Диизобутилбензол 1281 1308 1304 1272 8.49
1-трет-Бутил-4-н-бутилбензол 1216 1345 1389 1208 7.70
1-втор-Бутил-4-н-бутилбензол 1245 1358 1429 1212 7.75
1-Изобутил-4-н-бутилбензол 1309 1360 1376 1309 8.84
1,4-Ди-н-бутилбензол 1334 1411 1420 1337 9.29
1-н-Пропил-4-н-пентилбензол 1347 1419 1438 1352 9.47

Корреляционная зависимость между индексами удерживания и рассчитанными константами Генри приведена на рис. 1а. Коэффициент корреляции составляет 0.994. Среднеквадратичное отклонение между индексами, рассчитанными по уравнению корреляционной зависимости, и экспериментальными составляет 19.1. Среднее абсолютное отклонение составляет 14.1, среднее относительное – 1.3%, медианное абсолютное отклонение – 10.2. Корреляционная зависимость для индексов удерживания на неполярной жидкой неподвижной фазе приведена на рис. 1б. Среднеквадратичное отклонение между индексами, рассчитанными по уравнению корреляционной зависимости, и экспериментальными составляет 20.2. Среднее абсолютное отклонение составляет 15.4, среднее относительное – 1.4%, медианное абсолютное отклонение –11.5.

Рис. 1.

Корреляция экспериментально измеренных индексов удерживания Ковача алкилбензолов на ГТС и рассчитанных констант Генри адсорбции (ln K1 [см32]) (а) и корреляция рассчитанных с помощью нейронной сети и экспериментальных индексов удерживания для неполярной жидкой неподвижной фазы (б) для всех рассмотренных алкилбензолов.

Так как с практической точки зрения наибольший интерес представляет не абсолютная величина адсорбции, а порядок элюирования изомеров, то был также рассчитан коэффициент Спирмена (KS), который составил 0.993 для ГТС и молекулярного-статистического метода и 0.994 для нейронной сети и жидкой неподвижной фазы. Коэффициент Спирмена является ранговым, т.е. характеризует не абсолютные значения, а именно ранг (порядок), в котором располагаются переменные [21].

Большинство (57 из 59) рассмотренных в табл. 1 соединений составляют шесть групп изомеров с молекулярными массами 106, 120, 134, 148, 162, 176, 190. В табл. 2 для каждой группы изомеров приведены коэффициент корреляции и коэффициент Спирмена между рассчитанными и наблюдаемыми параметрами удерживания. Рассмотренные вычислительные методы не позволяют всегда предсказать, какой из изомеров имеет больший индекс удерживания для всех пар изомеров, однако в большинстве случаев, когда индексы удерживания отличаются достаточно сильно, чтобы можно было наблюдать два полностью разделенных пика на хроматограмме, расчет позволяет правильно предсказать порядок элюирования изомеров.

Таблица 2.  

Коэффициенты корреляции и коэффициенты Спирмена (KS) между экспериментальными и рассчитанными индексами удерживания алкилбензолов на ГТС (I) и на неполярной жидкой неподвижной фазе (II) для групп изомеров в зависимости от молекулярной массы

M, а.е.м. I II
R2 KS R2 KS
106 0.981 0.800 0.123 0.400
120 0.991 0.929 0.960 0.857
134 0.990 0.960 0.954 0.882
148 0.990 0.900 0.985 0.900
162 0.987 0.927 0.986 0.976
176 0.996 1 0.977 1
190 0.994 0.991 0.904 0.715

Молекулярно-статистический метод лишь немногим лучше предсказывает индексы удерживания для всех алкилбензолов вместе, но для каждой из серий изомеров этот метод лучше предсказывает порядок элюирования изомеров.

На рис. 2 показано сравнение результатов расчета и эксперимента для изомеров октилбензола (10 изомерных пара-дибутилбензолов и пара-пропилбутилбензол) для обеих неподвижных фаз. На ГТС наблюдается значительно больший диапазон индексов удерживания среди изомеров, а также лучшая корреляция между результатами расчета и эксперимента. Аналогичная картина наблюдается и для других серий изомеров. Таким образом, несмотря на то, что точность этих методов для предсказания индексов удерживания почти одинакова, для серий изомеров молекулярно-статистический метод расчета и неподвижная фаза ГТС подходят несколько лучше.

Рис. 2.

Корреляционная зависимость между рассчитанными и экспериментальными индексами удерживания для неполярной жидкой неподвижной фазы ($\blacksquare $) и ГТС ($\blacktriangle $) соответственно.

Однако работа с ГТС зачастую связана с рядом сложностей (уширение пиков, невысокая эффективность разделения, низкая воспроизводимость времен удерживания, необратимая адсорбция ряда аналитов) и молекулярно-статистический расчет более требователен к ресурсам по сравнению с расчетом с помощью нейронной сети. Выбор неподвижной фазы и способа расчета должен зависеть от конкретной задачи, однако, рассмотренный пример алкилбензолов показывает, что применение молекулярно-статистического метода перспективно при анализе смесей структурных изомеров.

Работа выполнена при поддержке программы фундаментальных исследований президиума РАН № 14-П “Физическая химия адсорбционных явлений и актинидных наночастиц” за 2018–2020 годы.

Список литературы

  1. Васильев В.С., Киселев А.В., Никитин Ю.С. и др. // Журн. физ. химии. 1961. Т. 35. № 8. С. 1889.

  2. Avgul N.N., Berezin G.I., Kiselev A.V. et al. //Bulletin of the Academy of Sciences of the USSR, Division of Chemical Science. 1956. V. 5. № 11. P. 1339. https://doi.org/10.1007/BF01177699

  3. Kiselev A.V., Lygina I.A. // Ibid. 1962. V.11. № 8. P. 1271. https://doi.org/10.1007/BF00907967

  4. Kiselev A.V. et al. // Ibid. 1962. V. 11. № 8. P. 1264. https://doi.org/10.1007/BF00907966

  5. Kiselev A.V., Poshkus D.P., Grumadas A.J. // J. Chem. Soc., Faraday Trans. 1: Physical Chemistry in Condensed Phases. 1979. V. 75. P. 1288. https://doi.org/10.1039/F19797501288

  6. Буряк А.К. // Успехи химии. 2002. Т. 71. № 8. С. 788. Buryak A.K. // Russ. Chem. Revs. 2002. V. 71. № 8. P. 695. https://doi.org/10.1070/RC2002v071n08ABEH000711

  7. Матюшин Д.Д., Буряк А.К. // Сорбционные и хроматографические процессы. 2017. Т. 17. № 2. С. 204. https://doi.org/10.17308/sorpchrom.2017.17/372

  8. Полунин К.Е., Матюшин Д.Д., Ульянов А.В. и др. // Коллоидн. журн. 2019. Т. 81. № 4. С.493. Polunin K.E., Matyushin D.D., Ul’yanov A.V. et al. // Colloid Journal. 2019. V. 81. № 4. P. 431 https://doi.org/10.1134/S1061933X19030104

  9. Матюшин Д.Д., Буряк А.К. // Журн. aналит. химии. 2019. Т. 74. № 7 (приложение). Matyushin D.D., Buryak A.K. // J. Analyt. Chem. 2019. V.74. Suppl. 7. P. 775. https://doi.org/10.1134/S1061934819070165

  10. CarboBlack Columns [Электронный ресурс]. Режим доступа http://www.restek.com/catalog/view/7019 Дата обращения 23.05.2019.

  11. Subramoney S.C., Nelson W.M., Naidoo P. et al. // Fluid Phase Equilibria. 2015. V. 406. P. 156. https://doi.org/10.1016/j.fluid.2015.07.039

  12. Bengesai P.N., Nelson W.M., Naidoo P., Ramjugernath D. // J. Chem. & Eng. Data. 2016. V. 61. № 9. P. 3363. https://doi.org/10.1021/acs.jced.6b00409

  13. Engewald W., Wennrich L., Pörschmann J. // Chromatographia. V. 11. № 8. P. 434.

  14. Mihaleva V.V., Verhoeven H.A. //Bioinformatics. 2009. V. 25. № 6. P. 787. https://doi.org/10.1093/bioinformatics/btp056

  15. Qiu F., Lei Z., Sumner L.W. //Anal. Chim. Acta. 2018. V. 1037. P. 316. https://doi.org/10.1016/j.aca.2018.03.052

  16. Wang J., Wolf R.M., Caldwell J.W. et al. // J. Comput. Chem. 2004. V. 25. P. 1157. https://doi.org/10.1002/jcc.20035

  17. Halgren T.A. // Ibid. 1996. V. 17. № 5–6. P. 490. https://doi.org/10.1002/(SICI)1096-987X(199604)17:5/6<490::AID-JCC1>3.0.CO;2-P

  18. Gomez-Bombarelli R., Wei J.N., Duvenaud D. et al. // ACS Central Sci. 2018. V. 4. № 2. P. 268. https://doi.org/10.1021/acscentsci.7b00572

  19. Matyushin D.D., Sholokhova A.Y., Buryak A.K. // J. Chromatography A. 2019. Р. 460395. https://doi.org/10.1016/j.chroma.2019.460395

  20. Weininger D. // J. Chem. information and computer sciences. 1988. V. 28. № 1. P. 31. https://doi.org/10.1021/ci00057a005

  21. Kobayashi K., Pillai K.S. A Handbook of Applied Statistics in Pharmacology.Boca Raton: CRC Press, 2012. P. 230.

Дополнительные материалы отсутствуют.