Автоматика и телемеханика, № 12, 2023
© 2023 г. А.И. МИХАЛЬСКИЙ, д-р биол. наук, канд. техн. наук
(ipuran@yandex.ru),
Ж.А. НОВОСЕЛЬЦЕВА, канд. техн. наук (novoselc.janna@yandex.ru)
(Институт проблем управления им. В.А. Трапезникова РАН, Москва),
А.А. АНАШКИНА, канд. физ.-мат. наук (a_anastasya@inbox.ru)
(Институт молекулярной биологии им. В.А. Энгельгардта РАН, Москва),
А.Н. НЕКРАСОВ, канд. физ.-мат. наук (a_nnekrasov@mail.ru)
(Институт биоорганической химии им. академиков М.М. Шемякина
и Ю.А. Овчинникова РАН, Москва)
ВЕРОЯТНОСТНАЯ ОЦЕНКА ВЛИЯНИЯ СОСТАВА
ПЕНТАПЕПТИДА НА ЕГО УСТОЙЧИВОСТЬ
Изучается влияние расположения аминокислотных остатков в пента-
пептиде на его устойчивость. Cтроится прогноз устойчивости пентапеп-
тида с помощью метода градиентного бустинга, позволяющего оценить
влияние каждого признака на стабильность пентапептида. Выявлены
комбинации расположения аминокислот в пентапептиде, вносящие суще-
ственный вклад в его стабильность. Показано, что использование таких
комбинаций позволяет сократить количество данных, необходимых для
получения достоверного прогноза стабильности пентапептида.
Ключевые слова: аминокислотный остаток, пентапептид, градиентный
бустинг, предсказание, достаточность информации.
DOI: 10.31857/S0005231023120048, EDN: NFXRAG
1. Введение
Проблема предсказания пространственной структуры белков является од-
ной из приоритетных задач в области математико-биологического моделиро-
вания, ведущей к практическому применению - конструированию новых бел-
ков с полезными медицинскими свойствами. На текущий момент существует
инструмент для предсказания третичной структуры белка по его аминокис-
лотной последовательности AlphaFold [1], показавший невероятную точность
предсказания структуры, сравнимую с точностью рентгеноструктурного ана-
лиза на CASP [2]. Однако этот инструмент создан на основе глубокой ней-
ронной сети и принципы, обеспечивающие укладку, остаются неизученными.
Понимание того, какие аминокислоты и в какой комбинации способствуют
повышению устойчивости фрагмента белка, позволит создать метод проек-
тирования структуры белка. Цель работы заключается в том, чтобы на ос-
нове экспериментальных данных об устойчивости пентапептидов выделить
потенциальные маркеры устойчивости (комбинации и позиции аминокислот
в молекуле).
38
Изучение энтропийных характеристик фрагментов последовательностей
белков показало, что для пяти последовательно расположенных остатков на-
блюдается пониженный уровень информационной энтропии и, следовательно,
блоки именно такого размера необходимо рассматривать как элементарные
единицы последовательности. Это приближение позволило разработать ме-
тод, выявляющий иерархическую структуру в последовательностях белков, -
метод анализа информационной структуры (метод АНИС) [3]. Анализ кон-
формационной стабильности пентапептидов методом молекулярной динами-
ки показал, что все пентапептиды можно условно разделить на три типа [4]:
конформационно-стабильные (находящиеся в преимущественной топологии
более 80% времени моделирования), триггерные (имеющие две преимуще-
ственные топологии, в каждой из которых пептид находился не менее 40%
времени моделирования) и лабильные. Молекулярная динамика - это метод,
в котором временная эволюция системы взаимодействующих атомов или ча-
стиц отслеживается интегрированием их уравнений движения. Для описания
атомов или частиц и их движения применяется классическая механика. За-
кон движения частиц находят при помощи аналитической механики, а силы
межатомного взаимодействия представляются в форме классических потен-
циальных сил (как градиент потенциальной энергии системы).
2. Данные
В работе использованы 44 860 пентапептидов, последовательности которых
созданы по определенному правилу, и 4885 ранее изученных пентапептидов
из реальных белков, устойчивость которых определялась методом молеку-
лярно-динамического моделирования. В полученном наборе из 49 745 пент-
пептидов лишь 1705 пентапептидов оказались устойчивы, что составило око-
ло 3,43% от общего числа.
При исследовании все данные были разделены случайным образом на
«обучающую», «контрольную» и «валидационную» выборки в пропорциях
0,66, 0,17, 0,17 с сохранением исходного баланса классов. Обучающая и кон-
трольная выборки использовались на этапе обучения. Обучающая выборка
использовалась и на этапе интерпретации результатов
2.1. Кодировки данных
В исходном наборе данных каждый пентапептид закодирован последова-
тельностью из пяти букв, означающих аминокислотные остатки, входящие
в пентапептид. Порядок следования букв соответствует последовательности
аминокислотных остатков в молекуле пентапептида. Для формального чис-
ленного анализа данных пятибуквенное представление кодировалось с помо-
щью трех различных представлений. Рассматривались бинарная кодировка
(One Hot Encoding), непрерывное строковое представление (n-грамма), раз-
рывное строковое представление (разрывная n-грамма). Каждый из рассмот-
ренных способов кодирования позволяет по-своему оценивать вклады и стро-
39
ить суждения о влиянии тех или иных сочетаний аминокислотных остатков
на стабильность пентапептида.
2.2. Бинарная кодировка (OHE)
One hot encoding - кодировка, при которой наличие каждой аминокислоты
на своей позиции задается положением единицы в векторе, остальные коор-
динаты которого равны нулю. Число элементов вектора равно 20 - числу
типов аминокислот. В результате каждый пентапептид кодируется матри-
цей из 20 строк и 5 столбцов. Столбец соответствует позиции аминокислоты
в молекуле пентапептида, а строка - аминокислоте. Например, при класси-
фикации аминокислот по первой букве названия пентапептид DKLNV будет
закодирован матрицей, в которой в первом столбце в третьей строке стоит 1,
остальные элементы равны нулю, во втором столбце в девятой строке стоит 1,
остальные элементы равны нулю и т.д. При вычислениях каждый пентапеп-
тид представляется вектором в 100-мерном пространстве.
2.3. Непрерывное строковое представление (n-грамма)
n-грамма - непрерывное строковое представление последовательности
аминокислот в пентапетиде. В зависимости от числа букв, входящих в строку,
различают n-граммы порядка 1, 2 и более. Например, пептид DKLNV коди-
руется пятью n-граммами порядка 1 D, K, L, N, V, четырьмя n-граммами
порядка 2 DK, KL, LN, NV, тремя n-граммами порядка 3 DKL, KLN, LNV.
В проведенном анализе использовались n-граммы от 1 до 3. Как и при ко-
дировке OHE вся совокупность n-грамм, кодирующих пентапептиды, пред-
ставляется в виде таблицы, состоящей из нулей и единиц. В каждом столб-
це таблицы на определенной строке стоит единица, а остальные элементы -
нули.
2.4. Разрывное строковое представление (рваная n-грамма)
Рваная n-грамма является обобщением непрерывной n-граммы и являет-
ся строковым представлением последовательности аминокислот в пентапеп-
тиде, при котором между группами аминокислот есть разрыв от одного до
трех символов. При формировании рваной n-граммы указываются аминокис-
лоты, входящие в n-грамму, указывается позиция первой аминокислоты из
n-граммы в молекуле пентапептида, число позиций между каждой из ами-
нокислот, входящих в n-грамму. Например, для пентапептида DKLNV су-
ществуют рваная n-грамма второго порядка 12DN, где 1 - позиция первой
аминокислоты, 2 - число позиций между аминокислотами, DN - перечень
аминокислот, входящих в рваную n-грамму. Для этого пентапептида суще-
ствует всего шесть рваных n-грамм порядка 2, а именно 11DL, 21KN, 31LV,
12DN, 22KV, 13DV. В исследовании рассматривались рваные n-граммы толь-
ко порядка 2.
40
3. Алгоритм классификации
Для классификации пентапептидов на устойчивые и неустойчивые в рабо-
те использован алгоритм градиентного бустинга над решающими деревьями
(gradient boosted decision trees) [5]. Алгоритм построен согласно принципу, по
которому относительно слабый алгоритм машинного обучения можно уси-
лить тем же алгоритмом, который будет «уточнять» предсказания предыду-
щего алгоритма, основываясь на его ошибках. При применении этого принци-
па для классификации методом случайного леса первый ряд деревьев обуча-
ется на реальных данных, предсказывая метку класса для каждого объекта.
Второй ряд деревьев обучается на тех же данных, но придавая большее значе-
ние объектам, на которых были совершены ошибки деревьями первого ряда, и
исправляя их. Деревья третьего ряда обучаются, исправляя ошибки деревьев
второго ряда и т.д. В настоящее время градиентный бустинг над решающи-
ми деревьями является одним из самых популярных алгоритмов машинного
обучения, потому что при малых затратах на обучение обеспечивает высокую
точность, защиту от переобучения за счет того, что используется случайный
лес из решающих деревьев. При этом признаки и подвыборка перемешива-
ются для построения нового дерева. Кроме того, полученный результат легко
интерпретируется.
Контроль качества обучения проводился с использованием метрики F1,
задаваемой формулой
precision ∗ recall
F1 = 2
precision + recall
При этом один класс рассматривается как класс «положительных объектов»,
например класс устойчивых пентапептидов, а другой - класс «отрицатель-
ных объектов». Метрика precision определяет долю правильно опознанных
положительных объектов среди всех объектов, отнесенных к положитель-
ным. Метрика recall определяет долю правильно опознанных положительных
объектов среди всех положительных объектов. Метрика F1 применяется для
оценки качества классификации в случае данных, в которых классы суще-
ственно не сбалансированы.
Настройка параметров алгоритма классификации проводилась для каж-
дого использованного метода кодировки с помощью процедуры кросс-
валидации в пространстве высокой размерности
[6] с помощью пакета
hyperopt. В табл. 1 приведены результаты классификации, достигнутые при
найденных параметрах настройки.
Таблица 1. Результаты классификации стабильности пентапептидов
при различных способах кодировки
Метрика
Кодировка
precision
recall
F1
OHE
0,39
0,54
0,45
n-грамма
0,39
0,41
0,40
разрывная n-грамма
0.32
0.54
0.40
41
Наилучшее качество по метрикам F1 достигается при использовании коди-
ровки OHE. Для кодировок n-грамма и рваная n-грамма качество ниже. Это
объясняется малостью выборки и, характерным для кодировки дискретных
признаков с помощью n-грамм, большим числом признаков.
4. Вероятностная оценка значимости положения аминокислот
в пентапептиде
Кроме оценки качества классификации, большой интерес представля-
ет оценка важности отдельных признаков в стабильности пентапептидов.
Для построения такой оценки при использовании градиентного бустинга
в настоящем исследовании применялся алгоритм SHAP (SHapley Additive
exPlanations) [7], который позволяет оценить вероятностный вклад каждо-
го сочетания аминокислот в вероятность классификации пентапептида как
стабильного, учитывая при этом взаимодействие факторов (аминокислот и
их положения) между собой. Этот метод вычисляет важность конкретного
признака путем сравнения результатов, полученных с учетом этого признака
и без его учета. При построении правила классификации в виде дерева на
результат может влиять порядок, в котором используются элементы обучаю-
щей выборки. Чтобы устранить такое влияние на оценку важности признака,
элементы обучающей выборки поступают на обучение многократно в случай-
ной последовательности.
Метод SHAP получил свое обоснование в теории кооперативных игр, ко-
гда участники игры могут объединяться в коалиции для достижения наи-
лучшего результата. Выигрыш каждого игрока равен его среднему по всем
коалициям вкладу в общий выигрыш при случайном равновероятном упоря-
дочивании участников. Эта величина называется индексом Шепли [7] и вы-
числяется путем суммирования по всем наборам признаков, не включающим
признак i, взвешенного эффекта от использования исключенного признака.
Под эффектом использования признака i в данном случае понимается раз-
ность точности классификации пентапептида с учетом признака i и без его
учета. Индекс Шепли вычисляется по формуле
∑
(
)
nS!(nF - nS - 1)!
Φi =
fS⋃i - fS
,
nF !
S∈F \i
здесь F обозначает множество всевозможных наборов признаков, F \i обозна-
чает множество наборов признаков, не включающих признак i, S - набор при-
знаков без признака i, S
⋃i - набор признаков S с добавлением признака i,
fS и fS⋃i - точность классификации при использовании наборов признаков S
и S
⋃i соответственно, nF и nS - число наборов признаков в множествах F
и S соответственно. Значимость признака определяется абсолютной величи-
ной соответствующего ему индекса Шепли.
42
5. Интерпретация результатов
Ниже приводятся результаты интерпретации с помощью метода SHAP
результатов классификации устойчивости пентапептидов алгоритмом гради-
ентного бустинга при использовании трех различных кодировок.
5.1. Бинарная кодировка (OHE)
В табл. 2 представлен пример оценки влияния положения аминокислот в
пентапептиде DRNAA на его стабильность. Важно отметить, что на устой-
чивость пентапептида влияет не только наличие аминокислоты в какой-либо
позиции, но и ее отсутствие.
Таблица 2. Вероятностный вклад аминокислот и их позиций
на стабильность пентапептида DRNA
Аминокислота
позиция Вероятностный вклад
наличие отсутствие
D
1
0,048
R
2
0,018
A
1
0,010
A
4
0,0040
A
5
-0,0083
N
3
-0,0096
В табл. 2 строки упорядочены по мере уменьшения вероятностного вкла-
да аминокислот и их позиций на стабильность пентапептида. Отрицательные
значения означают негативное влияние на стабильность. Из таблицы следует,
что наличие на первой позиции аминокислоты D на пятой позиции повыша-
ет вероятность того, что пентапептид стабилен, а отсутствие аминокисло-
ты A на первой позиции повышает вероятность стабильности пентапептида
только на 1%. Наличие же на последней позиции аминокислоты A на 0,8%
понижает вероятность стабильности пентапептида. При этом предполагает-
ся, что признаки влияют на стабильность пентапептида независимо друг
от друга.
Если провести подобный вероятностный анализ для множества пентапеп-
тидов, то совокупный результат можно представить в виде диаграммы веро-
ятностных вкладов аминокислот и их положений в стабильность. На рис. 1
представлена диаграмма для наиболее значимых признаков. В силу больших
вычислительных трудностей, связанных с необходимостью решения задачи
классификации для всевозможных наборов признаков, вычисления проводи-
лись для 1000 случайно выбранных пентапептидов. На диаграмме отдельная
точка соответствует результату анализа отдельного пентапептида.
Наличие признака (присутствие аминокислоты на указанном месте) изоб-
ражается открытым символом, а отсутствие - закрытым.
43
5К
1А
5D
1D
5A
1K
1R
5E
4A
2A
0
0,05
0,10
0,15
0,20
0,25
Значения SHAP
Рис. 1. Диаграмма вероятностных вкладов признаков в стабильность 1000 случайно
выбранных пентапептидов при кодировке OHE, построенная с помощью алгоритма
SHAP.
Из рисунка видно, что при наличии в пентапептиде аминокислоты K на
пятой позиции оказывает самое большое положительное влияние на его ста-
бильность. Обратный эффект - наиболее сильное отрицательное влияние на
стабильность оказывает аминокислота A на первой позиции.
5.2. Непрерывное строковое представление
При кодировке с использованием n-грамм величина оценки вероятност-
ного вклада в стабильность отдельного признака оказывается меньше, чем
при кодировке OHE. Это является следствием того, что при использовании
n-грамм до третьего порядка число признаков в 256 раз больше, чем при
ОНЕ кодировке. В табл. 3 приведены примеры оценок вероятностного вкла-
да в стабильность пептида DRNAA.
Таблица 3. Примеры оценки вероятностного вклада в стабильность
пентапептида DRNAA при кодировке с помощью n-граммы
Сочетание аминокислот
позиция
Вероятностный вклад
наличие
отсутствие
D
1
0,0030
R
2
0,0022
K
2
-0,00004
EK
1
-0,00008
T
5
-0,000028
R
5
-0,000029
A
5
-0,0001
44
5К
1R
1K
5E
2A
1E
1A
3D
1D
4AD
0,04
0,02
0
0,02
0,04
Значения SHAP
Рис. 2. Диаграмма вероятностных вкладов признаков в стабильность 1000 случай-
но выбранных пентапептидов при кодировке с помощью n-грамм, построенная по
алгоритму SHAP.
В табл. 3 строки упорядочены по мере уменьшения вероятностного вклада
аминокислот и их позиций на стабильность пентапептида. Из таблицы видно,
что при кодировке с помощью n-грамм совместный вклад аминокислот D
и R, находящихся в первой и второй позициях, в стабильность пентапептида
оценивается около 0,5%, тогда как при кодировке OHE оценка составляет 6%.
На рис. 2 приведен пример диаграммы вероятностных вкладов аминокис-
лот и их положений в стабильность 1000 случайно выбранных пентапептидов.
Из рисунка видно, что наибольшую значимость имеют единичные комбина-
ции аминокислот, самым мощным положительным эффектом по оценке обла-
дает аминокислота K на пятой позиции, а отрицательным - аминокислота А
на первой позиции.
5.3. Разрывное строковое представление
В табл. 4 представлен результат оценивания вероятностного вклада в ста-
бильность отдельного признака на примере пентапептида DRNAA при коди-
ровке разрывной n-граммой. На рис. 3 приведен пример диаграммы вероят-
ностных вкладов аминокислот и их положений в стабильность 1000 случайно
выбранных пентапептидов при той же кодировке.
В табл. 4 строки упорядочены по мере уменьшения вероятностного вкла-
да сочетания аминокислот и их позиций на стабильность пентапептида. Из
таблицы следует, что наибольший эффект на стабильность пентапептида
DRNAA оказывает сочетание аминокислот R во второй позиции и A в четвер-
той или в пятой позициях. Отсутствие аминокислоты A в первой позиции и
45
Таблица 4. Примеры оценки вероятностного вклада в стабильность
пентапептида DRNAA при кодировке разрывной n-граммой
Сочетание аминокислот
позиция
Вероятностный вклад
наличие
отсутствие
R-A
2
0,0093
R-A
2
0,0041
A-A
1
0,0031
D-A
1
0,0020
A-A
1
0,0013
A-K
2
-0,0014
D-N
1
-0,0030
одновременно в четвертой или пятой позициях также повышает вероятность
стабильности пентапептида DRNAA, но в меньшей мере.
Из рис. 3 видно, что наибольшую значимость для стабильности имеют
комбинации с аминокислотой A на второй и K на пятой позиции. Присутствие
же в пентапептиде двух аминокислот A c двумя или тремя пропусками между
ними, наоборот, является признаком его нестабильности.
22AК
13AK
13AA
12DA
22AD
12AA
12RA
22AA
22AE
23AD
0
0,05
0,10
0,15
0,20
Значения SHAP
Рис. 3. Диаграмма вероятностных вкладов признаков в стабильность 1000 случай-
но выбранных пентапептидов при кодировке разрывной n-граммой, построенная с
помощью алгоритма SHAP.
6. Заключение
В статье рассмотрен результат применения трех различных кодиро-
вок структуры пентапептида при прогнозе его стабильности через реше-
46
ние задачи классификации. Рассматривались бинарная кодировка (One Hot
Encoding), непрерывное строковое представление (n-грамма), разрывное
строковое представление (рваная n-грамма). Каждая из кодировок порож-
дает пространства признаков различной размерности: 100 при бинарной ко-
дировке OHE, 25 600 при кодировке с помощью n-грамм не выше третьего
порядка и 10 400 при использовании разрывной n-граммы. При этом возни-
кает различная степень разреженности данных. Задача классификации пен-
тапептидов на устойчивые и неустойчивые решалась методом градиентного
бустинга (LGBM). В исследовании использовался набор из 49 745 пентапепти-
дов, среди которых устойчивыми были 3,43%. Данные были разделены слу-
чайным образом на «обучающую», «тестовую» и «валидационную» выборки
в пропорциях с сохранением исходного баланса классов. После обучения ре-
зультаты проверки на контрольной выборке на каждой из кодировок пока-
зали примерно одинаковую величину метрики качества F1, равную 0,45 для
бинарной кодировки и 0,40 при использовании различных n-грамм.
Оценка важности признаков для прогноза стабильности пентапептидов
выделила наиболее важные признаки. Каждый из способов кодировки об-
ладает своей особенностью. При кодировке OHE оценивается важность рас-
положения конкретной аминокислоты на определенной позиции. Кодировка
при использовании n-грамм позволяет оценить важность сочетания амино-
кислот на соседних позициях, а при использовании рваных n-грамм оцени-
вается важность расположения аминокислот на удаленных друг от друга по-
зициях. Кодировка с использованием рваных n-грамм позволяет выделять
эффект влияния комбинации аминокислот, расположенных в разных пози-
циях молекулы пентапептида.
Вопрос о структурной стабильности пентапептидов рассматривался в [8].
В этой работе при бинарной кодировке OHE применялся метод снижения раз-
мерности задачи, основанный на вычислении взаимной информации между
признаком стабильности и описанием пентапептида. Выяснилось, что сниже-
ние размерности с помощью взаимной информации позволяет применять для
прогноза стабильности «простой» метод классификации «К ближайших со-
седей». При этом качество результата в терминах метрик «точность» и «пол-
нота» практически совпадает с результатом применения метода «случайный
лес», требующего значительно больших вычислительных и временных затрат.
Вероятностная оценка влияния состава пентапептида на его устойчивость в
этом исследовании не проводилась. В настоящей работе акцент ставился на
оценку влияния состава пентапептида и приведены результаты такой оцен-
ки для 1000 случайно выбранных пентапептидов, что связано с большими
требованиями к необходимым вычислительным мощностям.
СПИСОК ЛИТЕРАТУРЫ
1. Senior A.W., Evans R., Jumper J. et al. Improved protein structure prediction using
potentials from deep learning // Nature. 2020. V. 577. P. 706-710.
47
2. Pereira J., Simpkin A.J., Hartmann M.D. et al. High accuracy protein structure
prediction in CASP14 // Proteins Structure Function and Bioinformatics. 2021.
3. Nekrasov A.N., Kozmin Yu.P., Kozyrev S.V. et al. Hierarchical structure of protein
sequence // Int. J. Mol. Sci. 2021. V. 22. No. 15. 8339.
4. Anashkina A.A., Nekrasov A.N., Alekseeva L.G. et al. A minimum set of stable
blocks for rational design of polypeptide chains // Biochimie. 2019. V. 160. P. 88-92.
5. Ke G., Meng Q., Finley T., Wang T. et al. A Highly Efficient Gradient Boosting
Decision Tree // Proc. 31st Conference on Neural Information Processing Systems
(NIPS). Long Beach. 2017. P. 3149-3157.
6. Bergstra J., Yamins D., Cox D.D. Making a Science of Model Search: Hyper-
parameter Optimization in Hundreds of Dimensions for Vision Architectures // Proc.
of the 30th International Conference on Machine Learning (ICML). 2013. P. 115-123.
7. Lundberg S.M., Lee S.I. A unified approach to interpreting model predictions // Proc.
31st Conference on Neural Information Processing Systems (NIPS). Long Beach.
2017. P. 4765-4774.
8. Mikhalskii A.I., Petrov I.V., Tsurko V.V., Anashkina A.A. et al. Application
of mutual information estimation for prediction the structural stability of
pentapeptides // Rus. J. Numer. Anal. Math. Model. 2020. V. 35. No. 5. P. 263-271.
Статья представлена к публикации членом редколлегии А.А. Галяевым.
Поступила в редакцию 31.05.2023
После доработки 12.09.2023
Принята к публикации 30.09.2023
48