БИОФИЗИКА, 2022, том 67, № 2, с. 234-239
МОЛЕКУЛЯРНАЯ БИОФИЗИКА
УДК 519.876.5
АНАЛИЗ СТРУКТУРНОЙ ВАРИАБЕЛЬНОСТИ ГЕНОМОВ ЛЬНА
Linum usitatissimum L.
© 2022 г. М.А. Дук*, А.A. Канапин*, А.А. Самсонова*, Т.А. Рожмина**, М.Г. Самсонова*
*Санкт-Петербургский политехнический университет Петра Великого,
195251, Санкт-Петербург, Политехническая ул., 29
**Институт льна - обособленное подразделение Федерального научного центра лубяных культур,
172002, Торжок Тверской области, ул. Луначарского, 35
E-mail: m.samsonova@spbstu.ru
Поступила в редакцию 07.12.2021 г.
После доработки 07.12.2021 г.
Принята к публикации 12.12.2021 г.
У 100 хорошо секвенированных геномов льна проанализированы два типа структурной изменчиво-
сти: вариация присутствия/отсутствия генов и вариация числа копий. Показано, что в геномах рас-
сматриваемых образцов льна в сравнении с референсным геномом наблюдаются делеции последо-
вательностей (участков ДНК), вставки новых последовательностей и увеличение числа копий по-
следовательностей. Функциональная аннотация соответствующих районов в референсном геноме
и новых последовательностей показала, что они кодируют белки, участвующие в ответе растения на
биотический и абиотический стрессы, в энергетическом обмене, вирусной и транспозонной актив-
ности, а также в формировании клеточных мембран. Выявленные функции могут свидетельство-
вать об адаптации сортов к региональным условиям выращивания посредством структурной измен-
чивости.
Ключевые слова: лен, геномика, секвенирование, структурная вариабельность
DOI: 10.31857/S0006302922020041
Лен является важной сельскохозяйственной
очередь благодаря публикациям результатов ис-
культурой двойного назначения. Семена маслич-
следований генетического разнообразия льна из
ного льна являются ценным источником высоко-
ряда национальных коллекций [2-6]. Коллекция
качественных ненасыщенных кислот, лигнанов,
льна, созданная в Федеральном центре лубяных
легко усваиваемых протеинов, диетической̆клет-
культур (ФЦЛК), является одной из крупнейших
чатки, витаминов и минеральных элементов.
в мире и охватывает практически все генетиче-
Лен-долгунец служит основным источником на-
ское разнообразие этой культуры. Помимо совре-
турального волокнистого сырья, в котором в на-
менных отечественных и зарубежных сортов
стоящее время нуждается не только текстильная,
ФЦЛК располагает образцами семян ценных се-
но и другие высокотехнологичные отрасли эко-
лекционных линий, староместных и кряжевых
номики - фармацевтическая промышленность,
форм, а также дикорастущих видов, большинство
космос, оборонный̆комплекс, автомобилестрое-
из которых уже невозможно обнаружить в приро-
ние [1]. В современных условиях лен-долгунец
де. Особенно важно подчеркнуть, что коллекция
рассматривается как стратегическая культура
ФЦЛК включает сорта льна из Евразии с боль-
России, позволяющая заменить хлопок-сырец,
шой долей унаследованных русских местных
который перешел в разряд импортного сырья.
форм, что отличает ее от коллекций, использо-
ванных в предыдущих генетических исследова-
Детальная характеристика генетического раз-
ниях.
нообразия льна имеет первостепенное значение
для долгосрочной устойчивости и диверсифика-
Ранее мы охарактеризовали генетическое раз-
ции производства этой сельскохозяйственной
нообразие в форме однонуклеотидных полимор-
культуры, а также для общего успеха селекцион-
физмов у репрезентативной выборки образцов
ных программ. В последнее время в этой области
льна из коллекции ФЦЛК [7]. Мы наблюдали
был достигнут значительный прогресс, в первую
значительную дифференциацию популяций мас-
234
АНАЛИЗ СТРУКТУРНОЙ ВАРИАБЕЛЬНОСТИ ГЕНОМОВ ЛЬНА
235
личного льна и льна-долгунца, идентифицирова-
альной базой данных Pfam [12], то же самое дела-
ли области генома, маркированные сигналами
лось для комплементарных последовательностей
недавней селекции, и показали, что они заметно
выбранных прочтений.
отличаются у долгунцов и масличных форм,
Вариации числа копий генов были найдены с
впервые попытались всесторонне охарактеризо-
помощью программы CNVnator [13]. Для анализа
вать кряжи
- староместные сорта русского
делеций и увеличения числа копий генов были
происхождения, чтобы пролить свет на их селек-
найдены пересечения их с известными генами
ционную историю и их связь с современными
льна, а также на основе референсного генома вы-
сортами льна-долгунца. Здесь мы приводим ре-
браны участки, отсутствующие в образцах; доме-
зультаты анализа структурной вариабельности ге-
ны, попавшие в эти участки, сравнивали с акту-
номов образцов коллекции.
альной базой данных Pfam.
При сравнении с базой Pfam было обнаружено
множество доменов, связанных с активностью
МАТЕРИАЛЫ И МЕТОДЫ
транспозонов в геноме, которые присутствовали
Коллекция из 100 образцов льна была выра-
одновременно и среди вставок, и среди делеций,
щенa на опытном поле ФЦЛК в Торжке (Твер-
иными словами, не являлись новыми вставками,
ская обл.) в нее вошли 47 долгунцов, 24 межеум-
поэтому для анализа новых вставок подобные
ка, 10 крупносемянных образцов и 22 кудряша.
домены были исключены из рассмотрения для
Среди образцов обеих групп были представлены
каждого образца. Для обобщения функций доме-
местные формы (ландрасы), кряжи (старомест-
нов, найденных среди вставок и делеций, было
ные сорта, выведенные российскими крестьяна-
проведено сравнение с базой данных GO (Gene
ми в XIX веке), современные селекционные сорта
Ontology).
и селекционные линии из 30 стран со всех конти-
нентов. ДНК из листьев, собранных у образцов,
выделяли с помощью набора DNeasy Plant Mini
РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ
(Qiagen, США).
Общее число обнаруженных структурных ва-
Секвенирование ДНК было выполнено в BGI
риантов в 100 образцах льна составило 216863,
с использованием протокола Illumina, генериру-
среди этих вариантов преобладали делеции
ющего считывания парных концов длиной
(209294).
150 п.н. Было получено 9220.83 Гб необработан-
Анализ вариации присутствия/отсутствия. Сум-
ных данных, содержащих 6147221648 прочтений
марная длина контигов, не выравнивавшихся на
со средним покрытием 20.6×. Обработанные чте-
референсный геном, составляла в среднем
ния были выровнены относительно NCBI-сбор-
8727963.5 п.н. при длине референсного генома
ки референсного генома льна ASM22429v2 с по-
316167074 п.н., т. е. в среднем составляла порядка
мощью bwa-mem с использованием стандартных
3% генома у рассматриваемых образцов.
параметров [8].
Функциональная аннотация последователь-
Были проанализированы два типа структур-
ностей, отсутствующих в референсном геноме,
ной вариабельности - вариации присутствия/от-
но присутствуюших в индивидуальных образцах
сутствия генов и участков ДНК, а также вариации
(«новые вставки») с помошью базы данных Pfam
числа копий. При анализе вариаций присут-
выявила 1786 уникальных белковых доменов на
ствия/отсутствия генов вставки и делеции, на-
прямой цепи ДНК и 623 на комплементарной це-
блюдаемые в геномах образцов, были проанали-
пи. В среднем каждый образец содержал 352 та-
зированы отдельно. Для анализа вставок с помо-
ких домена на прямой цепи ДНК и 74 домена на
щью SAMtools [9] были выбраны прочтения, не
комплементарной цепи. На рис. 1 показано, ка-
выравнивавшиеся на референсный геном льна, и
кие белковые домены встречаются наиболее ча-
собраны в длинные контиги с помощью програм-
сто в среднем на каждый образец. Среди них мож-
мы ABySS [10]. С помощью алгоритма blat [11]
но отметить домены белков с антимикробными
контиги были проанализированы на степень сов-
функциями (MatE, Antimicrobial10); анкирино-
падения с референсным геномом, для дальней-
вые повторы, связанные со множеством функций
шего анализа в качестве новых вставок были вы-
(Ank, Ank_2, Ank_3, Ank_4, Ank_5); домены, не-
браны прочтения, длина которых составляет бо-
обходимые для расщепления фитопатогенов
лее
1000 пар оснований, а совпадение с
(TAXi_C, TAXi_N); домены, связанные с энерге-
референсным геномом менее 25%. В выбранных
тическим обменом (Polysacc_synt_C, Glyco_trans-
прочтениях были найдены рамки считывания
f_61, PC_Esterase); домены вирусных белков (Lu-
(ORFs), найденные домены сравнивали с акту-
teo_Vpg).
БИОФИЗИКА том 67
№ 2
2022
236
ДУК и др.
Рис. 1. Функциональная аннотация и среднее число на образец белковых доменов, кодируемых «новыми вставками»
последовательностей.
Рис. 2. Функциональная аннотация (по Gene Onthology) всех найденных доменов в новых вставках последовательностей и
их среднее число на образец.
БИОФИЗИКА том 67
№ 2
2022
АНАЛИЗ СТРУКТУРНОЙ ВАРИАБЕЛЬНОСТИ ГЕНОМОВ ЛЬНА
237
Рис. 3. Гены, наиболее часто пересекающиеся с делециями, объединенные по функциям.
На рис. 2 показан график, обобщающий с по-
тилтрансферазы), связанные с энергетическим
мощью GO (Gene Onthology) функции всех най-
обменом. При анализе увеличения числа копий
денных доменов в новых вставках последователь-
генов в среднем обнаруживалось 76 подобных
ностей в геномах образцов. Следует отметить, что
случаев на образец. Аннотация таких участков
наиболее часто встречающиеся домены, показан-
показала, что они содержат гены, связанные с ре-
ные ранее на рис. 1, не аннотированы по GO и на
акцией на абиотический стресс (RING/U-box,
рис. 2 не представлены, однако по доменам, ан-
PPR, TTR, LRR), различные ферменты, белки,
нотированным по GO, также можно сделать вы-
связанные с формированием семян и реакцией на
вод, что вставки (т. е. последовательности, при-
освещенность (рис. 4).
сутствующие в образцах, но отсутствующие в ре-
ференсе) часто кодируют белки, связанные с
Подводя итог анализу вариаций присут-
ДНК-процессами, энергетическим обменом,
ствия/отсутствия генов и участков ДНК и вариа-
прочностью клеточных мембран, вирусной ак-
ций числа копий, можно отметить, что в геномах
тивностью.
рассматриваемых образцов льна в сравнении с
референсным геномом наблюдаются делеции по-
Анализ вариации числа копий. Случаи умень-
следовательностей (участков ДНК), вставки но-
шения числа копий (т. е. делеции) и увеличения
вых последовательностей и увеличение числа ко-
числа копий были проанализированы по отдель-
пий последовательностей. Функциональная
ности. При анализе делеций были проанализиро-
аннотация соответствующих районов в рефе-
ваны гены, попадающие в такие районы. На
ренсном геноме и новых последовательностей
рис. 3 показан обобщенный график функций ге-
показала, что они кодируют белки, участвующие
нов, наиболее часто пересекающихся с выявлен-
ными делециями у рассматриваемых образцов.
в ответе растения на биотический и абиотический
Здесь можно отметить белки, связанные с отве-
стрессы, в энергетическом обмене, вирусной и
том на окислительный и солевой стресс и имму-
транспозонной активности, а также в формиро-
нитетом (TPR, PPR, ARM); белки, связанные с
вании клеточных мембран. Выявленные функ-
реакцией на засуху и колебания температуры
ции могут свидетельствовать об адаптации сортов
(WD40, TPR, LRR); различные ферменты (проте-
к региональным условиям выращивания посред-
инкиназы, гидролазы, гликозилтрансферазы, ме-
ством структурной изменчивости генома.
БИОФИЗИКА том 67
№ 2
2022
238
ДУК и др.
Рис. 4. Гены, наиболее часто пересекающиеся с увеличением числа копий, объединенные по функциям, и их среднее
количество в образце.
ФИНАНСИРОВАНИЕ РАБОТЫ
4. F. M. You, J. Xiao, P. Li, et al., Int. J. Mol. Sci. 19 (8),
2303 (2018). DOI: 10.3390/ijms19082303
Исследование выполнено при финансовой
поддержке Российского научного фонда (проект
5. D. Guo, H. Jiang, W. Yan, et al., Front. Plant Sci. 10,
№ 19-16-00030).
1682 (2019). DOI: 10.3389/fpls.2019.01682
6. Chandrawati, N. Singh, R. Kumar, et al., Physiol.
КОНФЛИКТ ИНТЕРЕСОВ
Mol. Biol. Plants
23,
207
(2017).
DOI:
10.1007/s12298-016-0408-5
Авторы заявляют об отсутствии конфликта
интересов.
7. M. Duk, A. Kanapin, S. Surkova, et al., Front. Plant
Sci. 12, 764612 (2021). DOI: 10.3389/fpls.2021.764612
СОБЛЮДЕНИЕ ЭТИЧЕСКИХ СТАНДАРТОВ
8. H. Li and R. Durbin, Bioinformatics 25, 1754 (2009).
Настоящая работа не содержит описания ис-
9. P. Danecek, J. K. Bonfield, J. Liddle, et al., Giga-
следований с использованием людей и животных
science 10 (2), giab008 (2021). DOI: 10.1093/giga-
в качестве объектов.
science/giab008
10. G. Robertson, J. Schein, R. Chiu, et al., Nat. Methods
СПИСОК ЛИТЕРАТУРЫ
7 (11), 909 (2010). DOI: 10.1038/nmeth.1517
1. Т. А. Рожмина, Л. Н. Павлова, Н. В. Мельникова
и Л. М. Голубева, Успехи соврем. науки 1 (10), 184
11. W. J. Kent, Genome Res. 12 (4), 656 (2002).
(2017).
12. J. Mistry, S. Chuguransky, L. Williams, et al., Nucl.
2. A. Diederichsen, P. M. Kusters, D. Kessler, et al.,
Acids Res.
49 (D1), D412
(2021).
DOI:
Gen. Resources Crop Evol. 60, 1479 (2012). DOI:
10.1093/nar/gkaa913
10.1007/s10722-012-9936-1
3. B. J. Soto-Cerda, A. Diederichsen, R. Ragupathy, and
13. A. Abyzov, A. E. Urban, M. Snyder, and M. Gerstein,
S. Cloutier, BMC Plant Biol. 13, 78, (2013). DOI:
Genome Res.
21
(6),
974
(2011).
DOI:
10.1186/1471-2229-13-78
10.1101/gr.114876.110
БИОФИЗИКА том 67
№ 2
2022
АНАЛИЗ СТРУКТУРНОЙ ВАРИАБЕЛЬНОСТИ ГЕНОМОВ ЛЬНА
239
Analysis of Structural Variation in the Genome of Flax Linum usitatissimum L.
M.A. Duk*, А.A. Кanapin*, А.А. Samsonova*,
T.A. Rozhmina**, and М.G. Samsonova*
*Peter the Great St. Petersburg Polytechnic University, ul. Polytekhnicheskaya 29, St. Petersburg, 195251 Russia
**Flax Institute, ul. Lunacharskogo 35, Thorzhok, Tver Region, 172002 Russia
Two types of structural variation such as presence-absence and copy number variations were analyzed in
100 well-sequenced flax genomes. In this study, we observed deletions of DNA sequences, insertions of new
sequences, and copy number amplification in individual flax varieties compared to the reference genome.
The functional annotation of the corresponding regions in the reference genome and new sequences showed
that they encode proteins involved in the plant response to biotic and abiotic stresses, in energy metabolism,
viral and transposon activity, and in the formation of cell membranes. Our analysis demonstrates that identi-
fied functions might be indicative of adaptation of varieties to regional growing conditions through structural
variation.
Keywords: flax, genomics, sequencing, structural variation
БИОФИЗИКА том 67
№ 2
2022