Молекулярная биология, 2022, T. 56, № 4, стр. 663-670

Анализ множественных выравниваний белков с использованием 3D-структурной информации по ориентации боковых цепей аминокислот

Д. С. Тимонина a, Д. А. Суплатов b*

a Факультет биоинженерии и биоинформатики Московского государственного университета им. М.В. Ломоносова
119234 Москва, Россия

b Научно-исследовательский институт физико-химической биологии им. А.Н. Белозерского, Московский государственный университет им. М.В. Ломоносова
119234 Москва, Россия

* E-mail: d.a.suplatov@belozersky.msu.ru

Поступила в редакцию 31.01.2022
После доработки 25.02.2022
Принята к публикации 02.03.2022

Аннотация

Множественное выравнивание аминокислотных последовательностей гомологичных белков – ключевой инструмент современной биоинформатики и эволюционного анализа. Различия в пространственной ориентации боковых цепей аминокислот могут предопределять существенное функциональное разнообразие представителей одного суперсемейства, однако это обстоятельство никак не учитывают при построении выравниваний и последующем сравнительном анализе. Прежде всего, это связано с недостатками соответствующих алгоритмов, которые опираются на биохимическое сходство “алфавита” аминокислотных замен и либо вообще не используют информацию о 3D-структурной организации белков, либо ограничиваются сравнением остова (атомов основной цепи). Впервые разработано программное обеспечение для систематического исследования специфической ориентации боковых цепей аминокислот в эквивалентных позициях структур гомологов. Программа предназначена для использования в качестве вспомогательного средства при анализе множественных выравниваний аминокислотных последовательностей белков. Новый метод, основанный на алгоритме машинного обучения HDBSCAN, позволяет выявить статистически значимые различия в положении боковых цепей аминокислот в каждой позиции множественного выравнивания и классифицировать их на подсемейства. Метод апробирован на широкой выборке данных. Полученные результаты позволяют говорить о феномене специфической ориентации боковых цепей аминокислот как о достаточно распространенном явлении, требующем дальнейшего изучения и заслуживающем внимания при сравнительном анализе функционально разнообразных суперсемейств белков. Разработанное программное обеспечение находится в свободном доступе по адресу: https://github.com/TimoninaDaria/Subfamily-Specific-Sidechain-Orientations.

Ключевые слова: множественное выравнивание, биоинформатический анализ, суперсемейство белков, боковая цепь, специфическая позиция, машинное обучение

Список литературы

  1. Chagoyen M., García-Martín J., Pazos F. (2016) Practical analysis of specificity-determining residues in protein families. Brief. Bioinform. 17, 255–261. https://doi.org/10.1093/bib/bbv045

  2. De Juan D., Pazos F., Valencia A. (2013) Emerging methods in protein co-evolution. Nat. Rev. Genet. 14, 249–261. https://doi.org/10.1038/nrg3414

  3. Marques S., Planas-Iglesias J., Damborsky J. (2021) Web-based tools for computational enzyme design. Curr. Opin. Struct. Biol. 69, 19–34. https://doi.org/10.1016/j.sbi.2021.01.010

  4. Timonina D., Sharapova Y., Švedas V., Suplatov D. (2021) Bioinformatic analysis of subfamily-specific regions in 3D-structures of homologs to study functional diversity and conformational plasticity in protein superfamilies. Comput. Struct. Biotechnol. J. 19, 1302–1311. https://doi.org/10.1016/j.csbj.2021.02.005

  5. Fesko K., Suplatov D., Švedas V. (2018) Bioinformatic analysis of the fold type I PLP-dependent enzymes reveals determinants of reaction specificity in L-threonine aldolase from Aeromonas jandaei. FEBS Open Bio. 8(6), 1013–1028. https://doi.org/10.1002/2211-5463.12441

  6. Suplatov D., Sharapova Y., Geraseva E., Švedas V. (2020) Zebra2: advanced and easy-to-use web-server for bioinformatic analysis of subfamily-specific and conserved positions in diverse protein superfamilies. Nucleic Acids Res. 48, W65–W71. https://doi.org/10.1093/nar/gkaa276

  7. Zuckerkandl E., Pauling L. (1965) Evolutionary divergence and convergence in proteins. In: Evolving Genes and Proteins. Eds Bryson V., Vogel H.J. New York: Academic Press, pp. 97–166. https://doi.org/10.1016/B978-1-4832-2734-4.50017-6

  8. Shegay M., Suplatov D., Popova N., Švedas V., Voevodin V. (2019) parMATT: parallel multiple alignment of protein 3D-structures with translations and twists for distributed-memory systems. Bioinformatics. 35(21), 4456–4458. https://doi.org/10.1093/bioinformatics/btz224

  9. Suplatov D., Shegay M., Sharapova Y., Timokhin I., Popova N., Voevodin V., Švedas V. (2021) Co-designing HPC-systems by computing capabilities and management flexibility to accommodate bioinformatic workflows at different complexity levels. J. Supercomput. 77, 12382–12398. https://doi.org/10.1007/s11227-021-03691-x

  10. Sequeiros-Borja C.E., Surpeta B., Brezovsky J. (2021) Recent advances in user-friendly computational tools to engineer protein function. Brief. Bioinform. 22(3), bbaa150. https://doi.org/10.1093/bib/bbaa150

  11. Suplatov D., Kopylov K., Popova N., Voevodin V., Švedas V. (2018) Mustguseal: a server for multiple structure-guided sequence alignment of protein families. Bioinformatics. 34(9), 1583–1585. https://doi.org/10.1093/bioinformatics/btx831

  12. Suplatov D., Sharapova Y., Švedas V. (2021) Mustguseal and sister web-methods: a practical guide to bioinformatic analysis of protein superfamilies. In: Multiple Sequence Alignment. Ed. Katoh K. Humana Press, New York, pp. 179–200. https://doi.org/10.1007/978-1-0716-1036-7_12

  13. Rozewicki J., Li S., Amada K., Standley D., Katoh K. (2019) Mafft-dash: integrated protein sequence and structural alignment. Nucleic Acids Res. 47, W5–W10. https://doi.org/10.1093/nar/gkz342

  14. Shegay M., Švedas V., Voevodin V., Suplatov D., Po-pova N. (2021) Guide tree optimization with genetic algorithm to improve multiple protein 3D-structure alignment. Bioinformatics. 38(4), 985‒989. https://doi.org/10.1093/bioinformatics/btab798

  15. Li J., Koehl P. (2014) 3D representations of amino acids-applications to protein sequence comparison and classification. Comput. Struct. Biotechnol. J. 11(18), 47‒58. https://doi.org/10.1016/j.csbj.2014.09.001

  16. Kalinina O., Mironov A., Gelfand M., Rakhmaninova A. (2004) Automated selection of positions determining functional specificity of proteins by comparative analysis of orthologous groups in protein families. Protein Sci. 13(2), 443‒456. https://doi.org/10.1110/ps.03191704

  17. Nadzirin N., Gardiner E., Willett P., Artymiuk P., Firdaus-Raih M. (2012) SPRITE and ASSAM: web ser-vers for side chain 3D-motif searching in protein structures. Nucleic Acids Res. 40(W1), W380‒W386. https://doi.org/10.1093/nar/gks401

  18. Burley S., Berman H., Bhikadiya C., Bi C., Chen L., Di Costanzo L., Christie C., Dalenberg K., Duarte J., Dutta S., Feng Z. (2019) RCSB Protein Data Bank: biological macromolecular structures enabling research and education in fundamental biology, biomedicine, biotechnology and energy. Nucleic Acids Res. 47(D1), D464‒D474. https://doi.org/10.1093/nar/gky1004

  19. McInnes L., Healy J., Astels S. (2017) hdbscan: Hierarchical density based clustering. J. Open Source Softw. 2(11), 205. https://doi.org/10.21105/joss.00205

  20. Hrabe T., Li Z., Sedova M., Rotkiewicz P., Jaroszew-ski L., Godzik A. (2016) PDBFlex: exploring flexibility in protein structures. Nucleic Acids Res. 44(D1), D423–D428. https://doi.org/10.1093/nar/gkv1316

  21. Porter C., Bartlett G., Thornton J. (2004) The Catalytic Site Atlas: a resource of catalytic sites and residues identified in enzymes using structural data. Nucleic Acids Res. 32, D129–D133. https://doi.org/10.1093/nar/gkh028

  22. Capra J., Singh M. (2008) Characterization and prediction of residues determining protein functional specificity. Bioinformatics. 24(13), 1473–1480. https://doi.org/10.1093/bioinformatics/btn214

  23. Hoff R., Wu L., Zhou B., Zhang Z., Hengge A. (1999) Does positive charge at the active sites of phosphatases cause a change in mechanism? The effect of the conserved arginine on the transition state for phosphoryl transfer in the protein-tyrosine phosphatase from Yersinia. J. Am. Chem. Soc. 121(41), 9514–9521. https://doi.org/10.1021/ja992361o

  24. Ploom T., Thöny B., Yim J., Lee S., Nar H., Leimbacher W., Richardson J., Huber R., Auerbach G. (1999) Crystallographic and kinetic investigations on the mechanism of 6-pyruvoyl tetrahydropterin synthase. J. Mol. Biol. 286(3), 851–860. https://doi.org/10.1006/jmbi.1998.2511

  25. Kusakabe Y., Ishihara M., Umeda T., Kuroda D., Nakanishi M., Kitade Y., Gouda H., Nakamura K., Tanaka N. (2015) Structural insights into the reaction mechanism of S-adenosyl-L-homocysteine hydrolase. Sci. Rep. 5, 16641. https://doi.org/10.1038/srep16641

  26. Ge X., Penney L., Van De Rijn I., Tanner M. (2004) Active site residues and mechanism of UDP-glucose dehydrogenase. Eur. J. Biochem. 271(1), 14–22. https://doi.org/10.1046/j.1432-1033.2003.03876.x

  27. Kasireddy C., Ellis J., Bann J., Mitchell-Koch K. (2016) Tautomeric stabilities of 4-fluorohistidine shed new light on mechanistic experiments with labeled ribonuclease A. Chem. Phys. Lett. 666, 58–61. https://doi.org/10.1016/j.cplett.2016.10.072

  28. Igarashi R., Seefeldt L. (2003) Nitrogen fixation: the mechanism of the Mo-dependent nitrogenase. Crit. Rev. Biochem. Mol. Biol. 38(4), 351–384. https://doi.org/10.1080/10409230391036766

  29. Guan R., Tyler P., Evans G., Schramm V. (2013) Thermodynamic analysis of transition-state features in picomolar inhibitors of human 5′-methylthioadenosine phosphorylase. Biochemistry. 52(46), 8313–8322. https://doi.org/10.1021/bi401188w

  30. Cramer P. (2021) AlphaFold2 and the future of structural biology. Nat. Struct. Mol. Biol. 28(9), 704–705. https://doi.org/10.1038/s41594-021-00650-1

  31. Baek M., DiMaio F., Anishchenko I., Dauparas J., Ovchinnikov S., Lee G., Wang J., Cong Q., Kinch L.N., Schaeffer R.D., Millán C., Park H., Adams C., Glassman C.R., DeGiovanni A., Pereira J.H., Rodrigues A.V., van Dijk A.A., Ebrecht A.C., Opperman D.J., Sagmeister T., Buhlheller C., Pavkov-Keller T., Rathinaswamy M.K., Dalwadi U., Yip C.K., Burke J.E., Garcia K.C., Grishin N.V., Adams P.D., Read R.J., Baker D. (2021) Accurate prediction of protein structures and interactions using a three-track neural network. Science. 373(6557), 871–876. https://doi.org/10.1126/science.abj8754

Дополнительные материалы отсутствуют.