БИОФИЗИКА, 2020, том 65, № 6, с. 1065-1071
МОЛЕКУЛЯРНАЯ БИОФИЗИКА
УДК 577.3
УРОВНИ ИЕРАРХИЧЕСКОЙ ОРГАНИЗАЦИИ БЕЛКОВЫХ
ПОСЛЕДОВАТЕЛЬНОСТЕЙ. АНАЛИЗ ЭНТРОПИЙНЫХ ХАРАКТЕРИСТИК
© 2020 г. А.Н. Некрасов*, Ю.П. Козмин*, С.В. Козырев**, Н.Г. Есипова***,
Р.Х. Зиганшин*, А.А. Анашкина***
*Институт биоорганической химии им. академиков М.М. Шемякина и Ю.А. Овчинникова РАН,
117997, Москва, ГСП-7, ул. Миклухо-Маклая, 16/10
E-mail: alexei_nekrasov@mail.ru
**Математический институт им. В.А. Стеклова РАН, 119991, Москва, ул. Губкина, 8
***Институт молекулярной биологии им. В.А. Энгельгардта РАН, 119991, Москва, ул. Вавилова, 32
E-mail: anastasya.anashkina@gmail.com
Поступила в редакцию 18.03.2020 г.
После доработки 18.03.2020 г.
Принята к публикации 15.09.2020 г.
Исследованы 24647 негомологичных белковых последовательностей. Для каждой из последова-
тельностей построен профиль встречаемости пептапептидов и в каждом из этих профилей специ-
альным математическим методом выявлены иерархически организованные элементы различных
размеров. Исследованы корреляции между этими иерархическими элементами и показано, что в
исследованном наборе белковых последовательностей существуют 11 уровней организации белков
с элементами размером от 7 до 56 аминокислотных остатков. Высказано предположение, что выяв-
ленные уровни организации соответствуют различным по топологии элементам супер-вторичной
структуры.
Ключевые слова: белковые последовательности, иерархическая организация, энтропия.
DOI: 10.31857/S0006302920060046
ривались как элементы фолдинга белков на раз-
Наблюдаемое многообразие свойств белков и
ных стадиях [5-7]. В процессе анализа баз данных
их функциональные характеристики обеспечива-
последовательностей белков был найден ряд по-
ются пространственным расположением состав-
вторяющихся элементов (паттернов) [8-10]. Та-
ляющих эти белки аминокислотных остатков.
кие паттерны использовались для предсказания
Обладая различными физико-химическими
пространственной организации и функции бел-
свойствами, аминокислотные остатки обеспечи-
ков [11-13]. Однако в отличие от структурных
вают существование ряда уникальных свойств
элементов, полученных при анализе простран-
белков. Одним из этих свойств является способ-
ность к самоорганизации - фолдингу. При этом
ственных структур, паттерны, выявляемые в пер-
вичных структурах белков, не имеют установлен-
для нативного фолдинга большинству белков до-
ной иерархической организации.
статочно «правильного расположения» амино-
кислотных остатков в первичной структуре белка,
Ранее в работе [14] мы показали, что в белко-
т.е. пространственная структура таких белков
вых последовательностях наиболее низкий уро-
полностью определяется последовательностью
вень энтропии Шеннона[15] наблюдается внутри
аминокислотных остатков.
блоков из пяти аминокислотных остатков. Под-
ход, при котором первичная структура белков
Наличие иерархической организации в про-
рассматривается как система из перекрывающих-
странственной структуре белков было выявлено
ся или последовательно расположенных блоков
разными авторами с привлечением различных
из пяти аминокислотных остатков, был ранее ис-
подходов, таких как расчет локальной плотности
пользован для создания структурного алфавита
упаковки атомов в структуре [1-3] и энергии вза-
белков [16], исследования топологически устой-
имодействия внутри белковой глобулы [4]. Выяв-
чивых элементов низшего уровня организации
ляемые иерархические элементы белков рассмат-
пространственной структуры белков [17], описа-
Сокращениe: ЭЛИС - элементы информационной струк-
ния фолдинга белковых молекул [18, 19]. Взяв за
туры.
единицу последовательности белка фрагмент из
1065
1066
НЕКРАСОВ и др.
пяти аминокислотных остатков, мы предложили
смотрение фрагментов длины пять является оп-
метод выявления иерархически организованных
тимальным для учета большей части корреляций,
структур в белковых последовательностях (метод
существующих в последовательностях белков.
АНИС) [20, 21]. Этот метод выделяет в последова-
Рассмотрим фрагменты длиной в пять остат-
тельности белков древовидные иерархические
ков (мы рассматриваем всевозможные перекры-
структуры (графы). На ряде примеров было пока-
вающиеся фрагменты, т. е. соседние фрагменты
зано, что отдельно стоящие графы соответствуют
пересекаются по четырем остаткам). Каждому
структурным доменам [22]. Впоследствии выяв-
фрагменту I, рассматриваемому как последова-
ляемые иерархические элементы были использо-
тельность остатков длиной пять, мы сопоставим
ваны нами для дизайна белковых молекул [23-26]
частоту φ(I) его встречаемости в базе данных не-
и для исследования механизмов функционирова-
гомологичных белковых последовательностей.
ния белков [22, 27, 28]. В работах [23-26] экспери-
Для получения более надежной статистики мы
ментально было показано, что удаление отдельно
рассматриваем усредненную частоту
стоящих графов из нативной последовательности
белка приводит к минимальным нарушениям
Φ(I)
=
φ(J),
(2)
фолдинга рекомбинантного белка, а в работах
J d(I,J)≤δ
[22, 27, 28] с помощью анализа таких иерархиче-
где усреднение идет по последовательностям J,
ских элементов в структуре белка были предложе-
удаленным от I на расстояние не более δ. В на-
ны механистические модели функционирования
ших работах [20, 21] было использовано расстоя-
белковых молекулярных машин.
ние δ в метрике Хамминга, равное единице, т. е.
усреднение проводили по последовательностям,
Применение метода АНИС к большому числу
отличающимся от данной заменой не более одно-
природных белковых последовательностей при-
го аминокислотного остатка.
вело нас к наблюдению, что существуют харак-
терные размеры фрагментов последовательно-
Далее последовательности белка I = i1iN со-
стей, при которых древовидные графы разделя-
поставляется последовательность фрагментов Ij
ются на более мелкие иерархические элементы.
длиной пять, нумеруемых центральными остат-
Такие фрагменты меньше структурных доменов,
ками в этих фрагментах, т. е. j = 3, …, N-2. Про-
однако больше структурного алфавита, предло-
анализировав встречаемость пентапептидов в ба-
женного в работе [16]. Настоящая работа посвя-
зе данных белковых последовательностей NRDB,
щена анализу размеров таких выявляемых иерар-
получим значение встречаемости j-го пентапеп-
хически организованных элементов белковой по-
тида в белке I. При анализе встречаемости экви-
следовательности.
валентными считаются пентапептиды, отличаю-
щиеся по расстоянию Хэмминга на единицу, т. е.
встречаемостью пентапептида мы называем сум-
ФРАГМЕНТЫ И ИНФОРМАЦИОННАЯ
му встречаемости конкретного пентапептида и
СТРУКТУРА БЕЛКА
всех пентапептидов, отличающихся на один ами-
нокислотный остаток. На исследуемой белковой
Длина структурного элемента, оптимальная
последовательности мы строим функцию, в кото-
для описания белковых последовательностей,
рой каждый аминокислотный остаток характери-
может быть оценена следующим образом. Пусть x
зуется суммой fI(j) = Φ(Ij) встречаемостей всех
и y - суть дискретные случайные величины, при-
нимающие конечное множество значений. В рас-
пентапептидов, в которые он вошел.
сматриваемом случае x и y - случайно выбирае-
Рассмотрим гауссову функцию на веществен-
мые аминокислотные остатки, расположенные в
ной оси, предложенную в работах [20, 21]:
белковой цепи на некотором расстоянии друг от
2
x
друга. Тогда эти остатки можно охарактеризовать
-
1
2
вероятностями p(x), p(y) выпадения тех или иных
g x,σ)
=
e
(3)
σ
аминокислот, совместным распределением веро-
ятностей p(x, y) для пар аминокислот (зависящим
и введем сглаженное распределение как свертку
от расстояния между x и y вдоль цепи) и взаимной
гауссовой функции с частотами встречаемости
информацией (тоже зависящей от расстояния
фрагментов в белке I:
между x, y):
I
F x)
= f j)g(
I
x- j σ).
(4)
20
j
p x,y)
I x,y)
p(xy)log
(1)
=
Далее будем вписывать гауссовы функции с
xy=1
p(x)p(y)
шириной 2y > 0 и высотой h в график функции
В работе [14] было показано, что взаимная ин-
FI(x), т. е. рассмотрим функцию
формация довольно быстро уменьшается при
2
(z x
)
увеличении расстояния больше пяти между ами-
2
2y
нокислотными остатками. Таким образом, рас-
H x,y)=maxh
: min[F z)
he
]
0,
(5)
I
I
БИОФИЗИКА том 65
№ 6
2020
УРОВНИ ИЕРАРХИЧЕСКОЙ ОРГАНИЗАЦИИ БЕЛКОВЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ
1067
Рис. 1. (а) - Информационной структура последова-
тельности белка 1GWE.PDB (цепь А), которая полу-
чена с помощью метода АНИС. Обозначения осей:
N - номер аминокислотного остатка в первичной
структуре, y - параметр из уравнения (5). (б) - Древо-
видный граф, построенный по локальным максиму-
мам функции HI(x, y), в которой выделены ЭЛИС.
измеряющую, насколько высокую гауссову функ-
цию с центром в x и шириной 2y можно вписать в
график функции FI(x).
Носитель такой функции будет определен на
~
равнобедренном треугольнике на координатной
Рис. 2. Разностная производная
S
' (y)
по y. (а) -
I
плоскости (x, y) с основанием в виде отрезка
График первой производной от разности между
[0, N] на оси абсцисс и высотой N/2. Пример
реальной и модельными значениями энтропии. (б) -
Иерархическая структура белка, на которой
функции HI(x, y) на своем носителе показан на
отмечены три точки слияния ветвей. Точка слияния
рис. 1а. На локальных максимумах этой функции
ветвей x0y0 упомянута в тексте статьи и отмечена
(рис. 1б) можно построить древовидный граф.
белым кружком. Две другие точки слияния ветвей
Ветви этого графа естественно сопоставить про-
отмечены серыми кружками. Пунктирными линиями
показана взаимосвязь между точками слияния в
межуточным элементам иерархической органи-
иерархической структуре белка с пиками на графике
зации белка (ЭЛИС, ЭЛементы Информацион-
первой производной.
ной Структуры [20]). Полученный древовидный
граф описывает иерархическую организацию по-
следовательности белка (рис. 1).
остатки с номерами, попадающими в отрезок оси
Любой иерархический элемент можно охарак-
абсцисс с центром в точке x0 и шириной 2y0.
теризовать его положением в последовательности
белка и количеством слившихся ветвей, его фор-
мирующих (рангом). Рассмотрим один из иерархи-
ИЕРАРХИЯ СТРУКТУР В БЕЛКЕ
ческих элементов графика HI(x, y) с ветвлением в
Рассмотрим набор из M = 24647 белков. Для
точке (x0, y0) (т.е. из этой точки вниз отходят не-
каждого из белков из этого набора вычисляем
сколько «ветвей») (рис. 2б). Точке (x0, y0) отвечает
функцию HI(x, y) (уравнение (5)). Поскольку рас-
отрезок белка I, содержащий аминокислотные
сматриваемые белки имеют разную длину, разме-
БИОФИЗИКА том 65
№ 6
2020
1068
НЕКРАСОВ и др.
ры носителей таких функций для разных белков
V
,V
y y'
будут различаться.
r
=
,
A,B =
A
B
(10)
'
yy
I I
V
,
y y
V
'
V
y'
,V
y'
I
Рассмотрим набор значений y = 1, …, L, ис-
пользуемых для построения функции HI(x, y). Ве-
Такая матрица корреляций (ryy) содержит дан-
личину L выбирали равной от 50 до 150.
ные о корреляциях между ЭЛИС различных раз-
Для белка I и фиксированного значения y рас-
меров (y и y′) в иерархической структуре белков.
смотрим функцию HI(x, y) как функцию распре-
Эта матрица отражает совпадения размеров фраг-
деления вероятностей, т.е. нормируем функцию
ментов белковых последовательностей, на кото-
так, чтобы
рых метод АНИС выявил точки ветвления иерар-
хических структур. Матрица корреляций (ryy)
I
H x,y)dx =
1.
(6)
была построена для 24647 иерархических струк-
тур белковых последовательностей, размер кото-
Для такого нормированного распределения
рых лежал в интервале от 50 до 400 аминокислот-
вероятностей вычислим его энтропию Шеннона:
ных остатков из базы NRDB90 [29]. Значения
S y)
=-
H x,y)log
H x,y)dx
(7)
элементов матрицы (ryy) лежат в интервале от
I
I
I
0.01 до 1.0. На рис. 3 представлены изображения
Аппроксимируем равномерное распределение
элементов матрицы (ryy) (см. формулу (10)).
на отрезке [0, 1] равномерным распределением на
разбиении отрезка на n одинаковых частей (веро-
Если у двух исследуемых белков в иерархиче-
ятность каждой такой части будет равняться 1/n)
ской структуре точки ветвления находятся на
и получим для энтропии следующую зависимость
близких значениях полуширины функции сгла-
от разбиения:
живания, то для матрицы ryy в придиагональной
n
области возникают утолщения (рис. 3). Такие
1
1
1
log
=-log
=
logn
(8)
утолщения возникают при разных дискретных
i
=1
n
n
n
значениях полуширины функции сглаживания и
в пределе формируют серию дискретных квадрат-
Вычислим регуляризованную энтропию сле-
ных областей, разделенных между собой. Можно
дующим образом. Функция HI(x, y) имеет носите-
утверждать, что таким способом удалось выявить
лем отрезок длиной N - 2y (где N есть длина белка I).
новые уровни организации белковых молекул,
Разделим такой отрезок на n одинаковых подот-
меньшие, чем структурные домены белков.
резков, тогда энтропия Шеннона для равномер-
ного распределения на таком разбиении будет
На рис. 3а-д видно, как при уменьшении ве-
равна log n (как показано выше). Вычислим эн-
личины значения критерия фильтрации форми-
тропию SI(y) для нормированного распределения
руются придиагональные области и связи между
HI(x, y) на разбиении носителя HI(x, y) на n одина-
придиагональными областями. На диагонали на-
ковых подотрезков и вычтем для регуляризации
блюдается самый высокий уровень взаимной
энтропию для равномерного распределения:
корреляции первых производных (на рис. 3а-д
они отмечены черным цветом). При снижении
~
критерия фильтрации от 0.9 до 0.01 видно, что
I
S y)
I
=S y)−log
n
(9)
квадратные области на диагонали формируются и
Естественно предположить, что такая функ-
принимают максимальные размеры. Эти области
ция будет испытывать скачки в точках ветвления
отмечены на рисунке квадратами с границами се-
дерева, когда происходит разделение ветвей на
рого цвета. При дальнейшем снижении величины
~
критерия фильтрации увеличения размеров и ко-
ЭЛИС меньшего ранга. Вычислим для
раз-
' (
)
I
S
y
личества придиагональных областей не происхо-
ностную производную по y, максимумы такой
дит. Если учесть, что были исследованы
функции должны отвечать точкам ветвления. На
24647 негомологичных последовательностей с
рис. 2б приведен пример иерархической инфор-
размером от 50 до 400 аминокислотных остатков,
мационной структуры белка и рассчитанной вы-
то можно говорить, что полученная характери-
шеописанным способом разностной производ-
стика является общей новой уникальной характе-
ной (рис. 2а).
ристикой белковых последовательностей.
Далее рассмотрим для каждого y = 1, …, L век-
тор Vy, содержащий разностные производные
База NRDB90 [29] включает очень разнород-
~
ные последовательности, т.е. последовательности
S
' (I
y), матричные элементы вектора нумеруются
белков всех известных структурных типов и
белками I (в численном эксперименте мы рас-
функций. В данной работе предпринята попытка
сматриваем, как было сказано выше, 24647 бел-
получить структурные характеристики для всей
ков). Рассмотрим корреляцию таких векторов для
совокупности этих разнородных данных. Вслед-
разных y:
ствие этого для получения устойчивых результа-
БИОФИЗИКА том 65
№ 6
2020
УРОВНИ ИЕРАРХИЧЕСКОЙ ОРГАНИЗАЦИИ БЕЛКОВЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ
1069
~
Рис. 3. Элементы ryy¢ матрицы взаимной корреляции векторов Vy, содержащих разностные производные
' (
)
S
y
I
(формула (10)) при различных значениях критериев фильтрации. Данные получены для 24647 негомологичных
белковых последовательностей размером от 50 до 400 аминокислотных остатков из базы NRDB90 [29].
тов потребовалось использовать столь маленькие
санного метода к белкам с известной простран-
значения критерия фильтрации.
ственной структурой должно позволить выявить
новые топологии структурно-устойчивых эле-
В таблице приведены размеры придиагональ-
ментов.
ных областей, размеры соответствующих им эле-
ментов структурной организации белков.
ЗАКЛЮЧЕНИЕ
Таким образом, удалось выявить одиннадцать
уровней организации белковых последовательно-
В работе дано описание метода исследования
стей. Структуры с подобными характерными раз-
информационной структуры белковых последо-
мерами ранее рассматривались как элементы
вательностей (метод AНИС), который позволяет
супер-вторичной структуры. Применение опи-
выявить их иерархическую организацию. Приме-
БИОФИЗИКА том 65
№ 6
2020
1070
НЕКРАСОВ и др.
Уровни организации элементов последовательности
ФИНАНСИРОВАНИЕ РАБОТЫ
белков
Работа выполнена при частичной поддержке
Диапазон
Диапазон длины
Российского фонда фундаментальных исследова-
Имя уровня
значений
соответствующей
ний (грант 20-04-01085а).
структурной
полуширины
последователь-
организации
сглаживающей
ности белка,
КОНФЛИКТ ИНТЕРЕСОВ
функции
а.к.о.
Авторы заявляют об отсутствии конфликта
X1
1-6
7-12
интересов.
X2
9-14
15-20
X3
16-18
22-24
СОБЛЮДЕНИЕ ЭТИЧЕСКИХ СТАНДАРТОВ
X4
20-21
26-27
Настоящая работа не содержит описания ис-
следований с использованием людей и животных
X5
22-24
28-30
в качестве объектов.
X6
25-27
31-33
X7
28-30
34-36
СПИСОК ЛИТЕРАТУРЫ
X8
31-34
37-40
1. G. M. Crippen, J. Mol. Biol. 126, 315 (1978). DOI:
X9
36-38
42-44
10.1016/0022-2836(78)90043-8
2. G. D. Rose, J. Mol. Biol. 134, 447 (1979).
X10
39-40
45-46
3. L. Holm and C. Sander, Proteins 19, 256 (1994). DOI:
X11
44-50
50-56
10.1002/prot.340190309
4. I. N. Berezovsky, V. G. Tumanyan, and N. G. Esipova,
FEBS Lett. 418, 43 (1997). DOI: 10.1016/S0014-
нение метода АНИС для исследования 24647 не-
5793(97)01346-X
гомологичных белковых последовательностей
5. A. M. Lesk and G. D. Rose, Proc. Natl. Acad. Sci. USA
размером от 50 до 400 аминокислотных остатков
78, 4304 (1981).
из базы NRDB90 [29] позволило выявить одинна-
6. D. B. Wetlaufer, Proc. Natl. Acad. Sci. USA 70, 697
дцать уровней организации белковых последова-
(1973).
тельностей.
7. M. J. Zaki, V. Nadimpally, D. Bardhan, and
В дальнейшем планируется изучение фраг-
C. Bystroff, Bioinformatics 20 (Suppl. 1), i386 (2004).
ментов пространственной структуры белков,
DOI: 10.1093/bioinformatics/bth935
соответствующих элементам разных уровней
8. P. Bork and E. V. Koonin, Curr. Opin. Struct. Biol. 6,
иерархии, размеры которых соответствуют вы-
366 (1996). DOI: 10.1016/s0959-440x(96)80057-1
явленным в этой работе интервалам. Есть пред-
9. T. P. Exarchos, C. Papaloukas, C. Lampros, and
положение, что такие фрагменты будут включать
D. I. Fotiadis, J. Biomed. Inform. 41, 165 (2008). DOI:
10.1016/j.jbi.2007.05.004
как уже известные элементы супер-вторичной
структуры, так и элементы пространственной ор-
10. N. Hulo, A. Bairoch, V. Bulliard, et al., Nucl. Acids
Res. 34, D227 (2006). DOI: 10.1093/nar/gkj063
ганизации белков, ранее не выделяемые как эле-
менты супер-вторичной структуры. Мы предпо-
11. F. S. Domingues and T. Lengauer, Appl. Bioinformat-
ics 2, 3 (2003).
лагаем, что выявляемые фрагменты обладают
повышенной структурной устойчивостью, спо-
12. J. D. Watson, R. A. Laskowski, and J. M. Thornton,
собны к самосборке и могут являться ядрами сво-
Curr. Opin. Struct. Biol.
15,
275
(2005). DOI:
10.1016/j.sbi.2005.04.003
рачивания, начиная формирование нативной
13. A. Valencia, Curr. Opin. Struct. Biol. 15, 267 (2005).
пространственной организации белков.
DOI: 10.1016/j.sbi.2005.05.010
Полученные в этой статье результаты могут
14. A. N. Nekrasov, J. Biomol. Struct. Dyn. 20, 87 (2002).
быть использованы для выявления элементов су-
DOI: 10.1080/07391102.2002.10506825
пер-вторичной структуры, из которых формиру-
15. C. E. Shannon, Bell System Techn. J. 27, 379 (1948).
ются структурные домены, исследования струк-
DOI: 10.1002/j.1538-7305.1948.tb01338.x
турной организации доменов, для изучения моле-
16. A. G. de Brevern, Biophys. J. 114, 231a (2018). DOI:
кулярной эволюции полипептидных цепей, для
10.1016/j.bpj.2017.11.1286
дизайна белков рекомбинантных белков и проек-
17. A. N. Nekrasov, L. G. Alekseeva, R. А. Pogosyan,
тирования белков с новыми типами простран-
et al., Biochimie 160, 88 (2019). DOI: 10.1016/j.bio-
ственной организации.
chi.2019.02.006
БИОФИЗИКА том 65
№ 6
2020
УРОВНИ ИЕРАРХИЧЕСКОЙ ОРГАНИЗАЦИИ БЕЛКОВЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ
1071
18. W. Jurkowski, M. Brylinski, L. Konieczny, et al., Pro-
24. Y. Briers, K. Miroshnikov, O. Chertkov, et al., Bio-
teins 55, 115 (2004). DOI: 10.1002/prot.20002
chem. Biophys. Res. Commun. 374, 747 (2008). DOI:
19. W. Jurkowski, T. Kułaga, and I. Roterman, J. Biomol.
10.1016/j.bbrc.2008.07.102
Struct.
Dyn.
29,
79
(2011).
DOI:
25. A. N. Nekrasov, L. E. Petrovskaya, V. A. Toporova,
10.1080/07391102.2011.10507376
et al., Biochemistry (Moscow) 74, 399 (2009).
20. A. N. Nekrasov, A. A. Anashkina, and A. A. Zinchen-
26. A. G. Mikhailova, A. N. Nekrasov, A. A. Zinchenko,
ko, in Proc. 2nd Int. Conf. “Theoretical Approaches to
et al., Biochemistry (Moscow) 80, 1331 (2015). DOI:
Bioinformation Systems”(TABIS 2013) (Institute of
10.1134/S0006297915100156
Physics, Belgrade, 2014), pp. 1-22.
27. R. V. Chertkova, N. A. Brazhe, T. V. Bryantseva, et al.,
21. A. A. Anashkina and A. N. Nekrasov, Russ. J. Numer-
PLoS One
12
(2017). DOI:
10.1371/journal.
ic. Analysis Math. Model. 29, 265 (2014).
pone.0178280
22. A. N. Nekrasov and A. A. Zinchenko, J. Biomol. Struc-
ture & Dynamics
25,
553
(2008).
DOI:
28. L. N. Shingarova, L. E. Petrovskaya, A. N. Nekrasov,
10.1080/07391102.2008.10507202
et al., Russ. J. Bioorg. Chem. 36, 301 (2010). DOI:
10.1134/S1068162010030040
23. A. N. Nekrasov, V. V. Radchenko, T. M. Shuvaeva,
et al., J. Biomol. Structure & Dynamics 24, 455 (2007).
29. L. Holm and C. Sander, Bioinformatics 14, 423 (1998).
DOI: 10.1080/07391102.2007.10507133
DOI: 10.1093/bioinformatics/14.5.423
Levels of Hierarchical Organization of Protein Sequences.
Analysis of Entropy Characteristics
A.N. Nekrasov*, Y.P. Kozmin*, S.V. Kozyrev**, N.G. Esipova***,
R.H. Ziganshin*, and A.A. Anashkina***
*Shemyakin-Ovchinnikov Institute of Bioorganic Chemistry, Russian Academy of Sciences,
ul. Miklukho-Maklaya 16/10, Moscow, 117997 Russia
**Steklov Mathematical Institute, Russian Academy of Sciences, ul. Gubkina 8, Moscow, 119991 Russia
***Engelhardt Institute of Molecular Biology, Russian Academy of Sciences, ul. Vavilova 32, Moscow, 119991 Russia
This research investigates 24647 non-homologous protein sequences. The occurrence profile of peptapep-
tides was constructed for every sequence and hierarchically organized elements of various sizes were revealed
by a special mathematical method in each profile. The correlations between these hierarchical elements were
analyzed and it was shown that in the tested set of protein sequences there are 11 levels of protein organization
with elements ranging in length from 7 to 56 amino acid residues. It was suggested that the identified levels of
organization correspond to elements of a super-secondary structure with different topology.
Keywords: protein sequences, hierarchical organization, entropy
БИОФИЗИКА том 65
№ 6
2020