БИОФИЗИКА, 2020, том 65, № 2, с. 280-289
МОЛЕКУЛЯРНАЯ БИОФИЗИКА
УДК 519.876.5
ГЕНЕТИЧЕСКИЕ ВАРИАНТЫ, АССОЦИИРОВАННЫЕ
С ПРОДУКТИВНОСТЬЮ И СОДЕРЖАНИЕМ БЕЛКА И МАСЛА У СОИ
© 2020 г. A.A. Канапин*, **, А.Б. Соколкова*, А.А. Самсонова*, **, А.В. Щегольков***,
С.В. Болдырев****, А.Ф. Аюпова****, Ф.E. Хайтович****,
С.В. Нуждин*****, М.Г. Самсонова*
*Санкт-Петербургский политехнический университет Петра Великого,
195251, С.-Петербург, Политехническая ул., 29
**Санкт-Петербургский университет, 199034, Санкт-Петербург, Университетская наб., 7-9
***Компания «Соевый комплекс», 350038, Краснодар, ул. Филатова, 19/2
****Сколковский институт науки и технологий, 143026, Москва, ул. Нобеля, 3
*****Университет Южной Калифорнии, CA 90089, Лос-Анджелес, США
E-mail: m.samsonova @spbstu.ru
Поступила в редакцию 20.12.2019 г.
После доработки 20.12.2019 г.
Принята к публикации 22.01.2020 г.
Подходы, основанные на учете биоразнообразия, находятся на переднем крае создания новых сор-
тов в соеводстве. В этой статье с помощью полногеномного поиска ассоциаций проведен анализ
естественной вариабельности в популяции сортов культурной сои, используемых в отечественной
селекции. Идентифицированы районы генома, контролирующие содержание белка и масла в семе-
нах, а также продуктивность, из которых многие не были описаны ранее. Полученные результаты
открывают путь к созданию новых маркеров для маркерной селекции этой культуры.
Ключевые слова: cоя, полногеномный поиск ассоциаций, продуктивность, содержание балка и масла в
семенах.
DOI: 10.31857/S000630292002009X
циаций, являются данные фенотипирования.
Соя (Glycine max (L.) Merr.) - один из самых
Технология полногеномного поиска ассоциаций
динамичных и перспективных в России агрорын-
делает возможной идентификацию локусов коли-
ков, биологический потенциал которого сейчас
чественных признаков, контролирующих фено-
почти не ограничен. Одним из ключевых требова-
типическую изменчивость по агрономически
ний времени к селекции сортов сои является про-
важным признакам, на основе которых затем мо-
блема качества - содержание белка и масла в се-
гут быть разработаны маркеры для маркерной се-
менах, а также повышение продуктивности.
лекции [2]. Полногеномный поиск ассоциаций и
Современные технологии молекулярного марки-
маркерная селекция особенно эффективны в слу-
рования и полногеномного поиска ассоциаций
чае локусов большого эффекта, контролирующих
могут значительно ускорить этот процесс.
просто наследуемые количественные признаки.
Эти технологии используют результаты пол-
В случае количественных, сложных признаков,
ногеномного секвенирования или генотипирова-
контролируемых большим числом генов малого
ния путем секвенирования (genotyping by se-
эффекта и зависящих от внешней среды, разрабо-
quencing, GBS). Генотипирование путем секвени-
таны статистические методы предсказания селек-
рования
- сравнительно дешевый метод,
ционной ценности растений с использованием
который «прочитывает» многочисленные корот-
всей информации об изменчивости генома.
кие участки генома, позволяет выявить поли-
Селекция на качество у бобовых усложняется
морфные позиции и тем самым охарактеризовать
взаимодействием признаков, зависимостью их от
генетическое разнообразие и структуру популя-
внешней среды и значительным взаимодействи-
ции изучаемого вида [1]. Другим типом данных,
ем генотип х среда [3]. Значительные отрицатель-
необходимых для полногеномного поиска ассо-
ные корреляции были обнаружены между уро-
Сокращения: ОНП - однонуклеотидные полиморфизмы,
жайностью и содержанием белка в семенах сои, а
QTL - локусы количественных признаков.
также между содержанием белка и масла, в то вре-
280
ГЕНЕТИЧЕСКИЕ ВАРИАНТЫ
281
мя как урожайность и масло коррелируют поло-
опыт включал 191 четырехрядную делянку пло-
жительно [4]. Было также показано, что условия
щадью 14 м2 каждая. Все сортообразцы высеяны в
культивирования влияют на эти признаки [5].
двухкратной повторности. Кроме того, 139 сорто-
За истекшее двадцатилетие обнаружено много
образцов, полученных от Всероссийского инсти-
участков генома, контролирующих продуктив-
тута генетических ресурсов им. Н.И. Вавилова, с
ность и содержание белка и масла в семенах [3].
ограниченным числом семян были высеяны на
Однако из-за их частого плейотропного действия
однорядных делянках площадью 3.5 м2 без по-
на отрицательно коррелированные признаки, а
вторностей. Общая площадь участка под опытом
также из-за отсутствия у них большого эффекта и
составила 0.8 га. В период вегетации сои были
стабильности очень немногие из этих участков
проведены визуальные наблюдения за растения-
были далее использованы или включены в селек-
ми, заключающиеся в фиксировании дат появле-
ционные программы.
ния всходов и полного созревания для определе-
Генетическая основа современных сортов
ния продолжительности вегетационных перио-
сужена многолетней селекцией, и одним из под-
дов исследуемых сортообразцов. Уборочные
ходов к увеличению разнообразия, столь важного
работы на экспериментальном опытном участке
для селекции, является интрогрессия материала
были проведены при полном созревании расте-
диких образцов или староместных сортов, широ-
ний. Основаниями для назначения сроков убор-
ко используемых до начала «зеленой» революции.
ки являются: опадение листьев, подсыхание веге-
Неоценимым источником такой информации яв-
тативных частей растения и снижение влажности
ляются образцы коллекции ВИP (Всероссийско-
семян до 14%. На четырехрядных делянках уборка
го института генетических ресурсов растений им.
проведена путем прямого комбайнирования с ис-
Н.И. Вавилова) - самой большой в Европе и со-
пользованием селекционного комбайна. Скаши-
держащей уникальный материал из всех соесею-
ванию комбайном подвергали два средних (учет-
щих районов мира и для всех направлений ис-
ных) ряда четырехрядной делянки. Боковые ряд-
пользования этой высокобелковой культуры: пи-
ки делянки не убирали
- они являются
щевого, кормового и технического.
защитными, так как испытывают влияние сосед-
них делянок. Растения с однорядных делянок
В этой статье методы геномики и биоинфор-
срезали вручную (серпом), формировали в сноп и
матики были применены для описания генетиче-
затем обмолачивали с помощью селекционного
ского разнообразия образцов сои коллекции ВИР
комбайна.
и современных культурных сортов, а также для
идентификации участков генома, ассоциирован-
Фенотипирование растений. Полученные семе-
ных с хозяйственно важными признаками про-
на были очищены от сорной примеси и взвешены
дуктивности - количеством белка и масла.
с определением влажности. Продуктивность сор-
тов (г/м2) устанавливали путем деления массы се-
мян с делянки при пересчете на стандартную
МАТЕРИАЛЫ И МЕТОДЫ
(14%-ю) влажность на учетную площадь. Для
Материал. Исследуемая выборка из 280 сортов
определения биохимического состава семян (со-
состояла из 121 образца сои коллекции ВИР
держание белка и масла в процентах) использова-
(114 сортов G. max, 2 образца G. gracilis и 5 образ-
ли спектрометр ближней инфракрасной области,
цов мутантов и гибридов G. soja) и 160 образцов
анализы на котором осуществляли в соответствии
сои G. max коллекции компании «СоКо» (79 со-
с ГОСТ Р 32749-2014. Анализ проводили на целых
временных сортов и 80 линий из предварительно-
(неразрушенных) семенах, которые помещали в
го сортоиспытания).
прибор в стандартных кюветах. Масса анализиру-
емой навески семян составляла 8-10 г (40-
Выращивание. Посев сортов и линий сои был
60 шт.), время измерения одного образца - 30 с.
произведен в Центральной зоне Краснодарского
Для получения достоверного результата были вы-
края 1 мая. Расстояние между рядами 70 см, рас-
полнены три параллельных измерения одного об-
стояние между семенами 3 см. Почвенный по-
разца.
кров экспериментального участка представлен
выщелоченным слабогумусным сверхмощным
Генотипирование образцов. Геномная ДНК бы-
тяжелосуглинистым черноземом. В целом почва
ла разрезана двумя рестриктазами - HindIII и
обладает благоприятными водно-физическими
NlaIII. Использовали два типа адаптеров - барко-
свойствами и химическим составом для выращи-
ды, которые пришивали к концам, образованным
вания всех сельскохозяйственных культур, в том
разрезанием HindIII, и второй общий адаптер,
числе сои. Предшественник - озимая пшеница.
который пришивали к свесам, образовавшимся
Агротехника сои на экспериментально участке -
при действии NlaIII. Количество полученных
рекомендованная для данной зоны выращива-
библиотек оценивали при помощи флуориметра
ния. Посев осуществлялся механизированно с
Qubit (Thermo Fisher Scientific, США) и высоко-
помощью селекционной кассетной сеялки. Всего
чувствительного набора для оценки концентра-
БИОФИЗИКА том 65
№ 2
2020
282
КАНАПИН и др.
ции ДНК (Qubit DNA HS Assay Kit). Качество по-
Во втором анализе выбор количества субпопуля-
лученных библиотек оценивали на биоанализато-
ций был основан на критерии кросс-энтропии.
ре Agilent 2100 (Agilent Technologies, Inc., США) с
Этот критерий основан на прогнозировании доли
использованием высокочувствительного набора
замаскированных генотипов (завершение матри-
Agilent High Sensitivity DNA Kit. Секвенирование
цы) и на методе перекрестной проверки. Мень-
образцов, подготовленных по методу генотипи-
шие значения критерия кросс-энтропии обычно
рования путем секвенирования, проводили на се-
означают лучшие запуски. Для каждого смодели-
квенаторе HiSeq400 (Illumina, США) со следую-
рованного значения K в диапазоне от 1 до 10 были
щими установками: длина прочтения - 150 нук-
выполнены десять независимых запусков. Было
леотидов, парные чтения, длина индексного
выбрано значение K, для которого кривая кросс-
чтения - 7 нуклеотидов. По завершении запуска
энтропии выходит на плато (K = 6). Индивиду-
проводили конверсию в формат fastq с помощью
альный образец с более чем 55%-й идентично-
программы bcl2fastq. Оценку качества файлов
стью к одной из субпопуляций классифицирова-
fastq проводили с помощью программы AfterQC
ли как принадлежащий этой субпопуляции.
[6], версия 0.9.6. Прочтения Illumina выравнива-
Поиск ассоциаций. Полногеномный поиск ас-
ли на референсный геном сои G.max Wm82.a2.v1
социаций был выполнен с использованием одно-
с использованием программы bowtie2, версия
локусной линейной смешанной модели, реализо-
2.3.4.3 и параметров, взятых по умолчанию [7].
ванной в пакетах программ plink (версия 1.9) [16]
Поиск однонуклеотидных полиморфизмов
и rMVP (версия
0.99.17) (https://cran.r-proj-
(ОНП) выполнен программой NGSEP [8]. Филь-
ect.org/web/packages/rMVP/index.html). Анализ
трация ОНП выполнена стандартно с сохранени-
2385 ОНП методом главных компонент показал,
ем полиморфизмов, отвечающих условиям Map-
что первые пять из них объясняют 36% дисперсии
ping Quality (MQ) > 40. Дальнейшая фильтрация
всех маркеров. Однолокусная модель была реали-
ОНП выполнена с использованием VCFtools [9] и
зована с использованием первых пяти компонент
заключалась в выборе вариантов, у которых ча-
в качестве ковариант для всех фенотипических
стота минорной аллели была больше 1%, а пред-
данных. Для обнаружения значимых ассоциаций
ставленность образцов была выше 85%. Результи-
между признаком и ОНП использовали значение
рующее количество ОНП составило 2385.
частоты ложного обнаружения [17], равное 0.05.
Анализ фенотипических данных. Тест Шапиро-
Для дальнейшего анализа были использованы
Уилка на нормальность [10] был применен к ко-
только варианты, для которых статистически на-
личественным фенотипическим признакам. Ко-
дежная ассоциация с фенотипическим призна-
эффициенты корреляции Спирмена для призна-
ком была подтверждена обоими программными
ков были рассчитаны с использованием функции
пакетами. C помощью базы данных Legume infor-
«rcorr» из библиотеки «Hmisc» R [11].
mation system [18] была произведена аннотация
Оценка величины неравновесного сцепления.
значимо ассоциированных ОНП.
Неравновесное сцепление оценивали, вычисляя
РЕЗУЛЬТАТЫ
квадрат коэффициента корреляции (r2) между ге-
нотипами. VCFtools [9] был использован для рас-
Фенотипический анализ образцов. Пo всей изу-
чета внутрихромосомных значений r2 и значений
ченной выборке в среднем продуктивность рав-
r2 между ОНП на разных хромосомах. Неравно-
нялась 160.8 г/м2, содержание белка - 41.3%, со-
весное сцепление оценивали путем построения
держание масла 21.3%. Для образцов коллекции
ВИР средние значения этих фенотипических
графика внутрихромосомных значений r2 отно-
сительно физического расстояния (т.п.н.) между
признаков 116.8 г/м2, 41.9%, 20.1% соответствен-
маркерами в R [12]. В качестве критического зна-
но, для образцов коллекции компании «CoKo» -
чения r2 была принята 95 перцентиль значений r2
182.5 г/м2, 40.9%, и 21.2%, а для линий из предва-
между ОНП на разных хромосомах после транс-
рительного сортоиспытания этой компании -
формации с использованием квадратного корня.
205.1 г/м2, 41.2% и 22.8%.
Убывание неравновесного сцепления оценивали
Признак продуктивности имеет среднюю по-
путем построения регрессионной линии, исполь-
ложительную корреляционную связь с содержа-
зуя подход Хилла и Вайра [13]. Пересечение ре-
нием масла (коэффициент корреляции Спирме-
грессионной линии внутрихромосомных значе-
на, r = 0.6) и слабую отрицательную корреляци-
ний r2 с пороговым значением r2 считалось оцен-
онную связь с содержанием белка (коэффициент
кой величины неравновесного сцепления.
корреляции Спирмена, r = -0.21). Кроме того,
Анализ структуры популяции. Структуру попу-
признак содержание белка имеет среднюю отри-
ляции образцов анализировали методом главных
цательную корреляционную связь с содержанием
компонент (библиотека в R SNPRelate [14]) и с
масла (коэффициент корреляции Спирмена,
помощью пакета программ на языке R LEA [15].
r = -0.4).
БИОФИЗИКА том 65
№ 2
2020
ГЕНЕТИЧЕСКИЕ ВАРИАНТЫ
283
(а)
(б)
r2
400
1.0
0.8
300
0.6
200
0.4
100
0.2
0.0
0
1
10 1112 131415 1617 18 19 2 20 3
4
5
6
7
8
9
0
10
20
30
40
50
Хромосома
Расстояние между маркерами, Мб
Рис. 1. (a) - Распределение снипов по 20 хромосомам генома сои. (б) - График неравновесного сцепления (r2) для
сои. Горизонтальная черная линия соответствует 95 перцентили значений r2 между ОНП на разных хромосомах после
трансформации с использованием квадратного корня.
Анализ полиморфизмов. Идентификацию од-
генетических данных. Как видно, образцы линий
нонуклеотидных вариантов в геноме образцов
«СоКо» из предварительного сортоиспытания и
проводили методом генотипирования путем се-
образцы дикой сои и ее мутантов и гибридов об-
квенирования. Идентифицированные ОНП были
разуют отдельные группы, a образцы коллекций
отфильтрованы для сохранения полиморфизмов,
ВИР и компании «СоКо» группируются вместе. В
присутствующих по меньшей мере в 85% геноти-
результате анализа в R-пакете LEA [15], в котором
пов и имеющих частоту минорной аллели по
выбор количества субпопуляций основан на кри-
меньшей мере 1%. Из рис. 1a видно, что результи-
терии кросс-энтропии, были выделены шесть
рующие ОНП распределены по всем 20 хромосо-
субпопуляций (рис. 2б). При использовании 55%
мам сои. Наибольшее число ОНП находится в
в качестве порога для отнесения образца к одной
18-й, 19-й и 15-й хромосомах, которые не являют-
из субпопуляций 205 (62.5%) образцов были отне-
ся самыми длинными по сравнению с остальны-
сены к одной из шести групп (табл. 1). Оставшие-
ми хромосомами.
ся образцы являются результатом адмиксии, их
не удалось однозначно отнести ни к одной из суб-
Достаточность набора маркеров для полноге-
популяций. К первой субпопуляции относятся
номного поиска ассоциаций прежде всего опре-
образцы компании «СоКо», вторая субпопуляция
деляется величиной неравновесного сцепления.
преимущественно состоит из образцов коллек-
В меньших популяциях преимущественно само-
ции ВИР и линий компании «СоКо». Третья и пя-
опыляющихся организмов дрейф и отбор обычно
тая субпопуляции, за исключением нескольких
имеют более сильные эффекты, чем рекомбина-
образцов полностью состоит из линий компании
ция, и, таким образом, неравновесное сцепление
«СоКо». Четвертая и шестая субпопуляции пре-
распространяется на большие области генома.
имущественно состоят из образцов коллекций
График неравновесного сцепления между поли-
ВИР и компании «СоКо», которые, как видно на
морфизмами образцов сои представлен на
рис. 2а, группируются вместе.
рис. 1б. В качестве критического значения было
выбрано значение r2 = 0.29. Регрессионная линия
Анализ отдельных признаков. Полногеномный
поиск ассоциаций был реализован с использова-
внутрихромосомных значений r2 пересекает этот
нием первых пяти компонент в качестве ковари-
порог на физическом расстоянии примерно в
ант для всех фенотипических данных в пакетах
8.4 млн п.н. (рис. 1б).
программ plink (версия 1.9) и rMVP (версия
Анализ структуры популяции. Характер диффе-
0.99.17). Лучший тип анализа был выбран для
ренциации популяции был проанализирован ме-
каждого признака в отдельности на основе пара-
тодом главных компонент и визуализирован с по-
метра геномного контроля (λGC).
мощью неукорененных филогенетических дере-
вьев. На рис. 2а показан график, полученный
Мы обнаружили 61 ОНП, значимо ассоцииро-
методом главных компонент для первой и второй
ванный с содержанием масла в семенах, 63 ОНП,
главных компонент, объясняющих изменчивость
значимо ассоциированных с продуктивностью, и
БИОФИЗИКА том 65
№ 2
2020
284
КАНАПИН и др.
(а)
(б)
PC2
50
Образцы «СоКо»
0.65
Линии «СоКо»
Образцы ВИР (культивируемые)
0.60
25
Образцы ВИР (дикие)
0.55
0
0.50
25
0.45
0.40
30
20
10
0
10
20
30
40
50
2
4
6
8
10
PC1
Количество субпопуляций
Рис. 2. (a) - График, полученный методом главных компонент для первой и второй главной компонент. (б) - График
кросс-энтропии для образцов сои. Для каждого смоделированного значения K в диапазоне от 1 до 10 были выполнены
десять независимых запусков. Было выбрано значение K, для которого кривая кросс-энтропии выходит на плато (K = 6).
35 ОНП, значимо ассоциированных с содержани-
ОНП и фенотипами. Тем не менее мы исследова-
ем белка в семенах (рис. 3). Из них 25 ОНП имеют
ли потенциальную природу ассоциированных ге-
плейотропный эффект: 2 ОНП положительно и
нов (табл. 2). Так, например, ген Glyma.01g151300
13 ОНП отрицательно влияют на содержание
cодержит два ОНП, значимо ассоциированных с
масла в семенах и продуктивность, 10 ОНП поло-
продуктивностью. Этот ген кодирует нодулин
жительно влияют на содержание белка и отрица-
[19] и принадлежит суперсемейству вспомога-
тельно на содержание масла в семенах, 4 ОНП,
тельных белков (Major facilitator superfamily), осу-
наоборот, - положительно на содержание масла
ществляющих транспорт широкого круга веществ
и отрицательно на содержание белка в семенах.
через биомембраны [20]. ОНП Gm04:6140945, по-
При этом 7 ОНП значимо ассоциированы со все-
ложительно влияющий на содержание масла в се-
ми тремя фенотипическими признаками.
менах и отрицательно - на содержание белка, на-
Аннотация областей генома, где расположены
ходится внутри гена Glyma.04g073700, кодирую-
значимые ОНП, показала, что внутри последова-
щего
амимоацил-тРНК-синтетазу.
ОНП
тельностей известных генов находится 14, 5, 2 и
Gm15:10947679, ассоциированный с содержани-
16 ОНП, значимо ассоциированных с содержани-
ем масла в семенах, находится в гене Gly-
ем масла в семенах, белка в семенах, масла и бел-
ma.15g135700, кодирующем ацетил-КоА-синтета-
ка в семенах и с продуктивностью соответственно
зу, которая играет важную роль в деградации и
(табл. 2).
синтезе липидов в семенах [21, 22]. Важную роль
Из-за значительного неравновесного сцепле-
в биосинтезе жирных кислот играют 3-оксоацил
ния мы не можем однозначно идентифицировать
[белок-переносчик ацил-группы] синтазы I, одну
причинно-следственные связи между этими
из которых кодирует ген Glyma.05g129600, в кото-
Таблица 1. Количество образцов в субпопуляциях
Количество образцов в субпопуляциях
Образцы
№ 1
№ 2
№ 3
№ 4
№ 5
№ 6
Адмиксия
Образцы ВИР
29
1
20
4
17
58
Дикая соя и ее гибриды
4
1
1
3
Образцы компании «СоКо»
19
9
1
14
2
17
48
Линии компании «СоКо»
13
31
22
14
БИОФИЗИКА том 65
№ 2
2020
ГЕНЕТИЧЕСКИЕ ВАРИАНТЫ
285
(а)
(б)
5
5
4
4
3
3
2
2
1
1
0
0
0
1
2
3
4
Сhr
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16
17 18 19 20
Ожидаемое
Хромосома
значение log
(
)
10 p
(в)
(г)
5
5
4
4
3
3
2
2
1
1
0
0
0
1
2
3
4
Сhr
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16
17 18 19 20
Ожидаемое
Хромосома
значение log
10 p
(д)
(е)
5
5
4
4
3
3
2
2
1
1
0
0
0
1
2
3
4
Сhr
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16
17 18 19 20
Ожидаемое
Хромосома
значение log
10 p
Рис. 3. (Результаты полногеномного поиска ассоциаций для продуктивности, содержания белка и масла в семенах. (а, в,
д) - Графики QQ-plot для содержания масла, белка и для продуктивности. Эти графики показывают соответствие
квантилей распределения значений q-статистики при справедливости нулевой гипотезы (отсутствие ассоциаций,
нормальное распределение, X-ось) и квантилей распределения значений этой тестовой статистики, получаемым
при тестировании (Y-ось). (б, г, е) - Манхеттановские графики для содержания масла, белка в семенах и продуктивности,
X-ось - геномные координаты, Y-ось - отрицательный логарифм тестовой статистики ассоциации q для снипов, которые
обозначены точками. Значимо ассоциированные полиморфизмы расположены выше пунктирной линии.
ром находится ОНП Gm05:32274272, ассоцииро-
солевой, осмотический и бикарбонатные стрессы
ванный с продуктивностью
[23]. Ген Gly-
[25]. ОНП Gm16:4345707, ассоциированный с со-
ma.02g017500, содержащий ассоциированный с
держанием белка в семенах, локализуется в гене
продуктивностью ОНП GM02:1553466, кодирует
Glyma.16g0045900, который кодирует синтаксин,
фотолиазу - фермент, участвующий в фоторепа-
белок, обеспечивающий специфичность слияния
рации. Этот фермент вырезает из ДНК пирими-
везикул при везикулярном транспорте [26]. ОНП
диновые димеры, возникновение которых инду-
Gm20:35399322, также ассоциированный с содер-
цирует ультрафиолетовое излучение [24]. Ассо-
жанием белка в семенах, локализуется в гене Gly-
циированный также с продуктивностью ОНП
ma.20g111900, который кодирует транспортер ка-
Gm14:140838 локализуется в гене Gly-
тионов аминокислот [27]. У A. thaliana ген CAT9
ma.14g001200, который кодирует кальцийсвязы-
транспортерa катионов аминокислот 9 участвует
вающий белок с доменом EF-рука. Ортолог этого
в поддержании азот-зависимого гомеостаза ами-
гена у Glycine soja участвует в ответе растения на
нокислот [28].
БИОФИЗИКА том 65
№ 2
2020
286
КАНАПИН и др.
Таблица 2. Однонуклеотидные полиморфизмы внутри последовательностей известных генов
ОНП
Хромосома
Ген
Эффект
Признак
1_48811028_T_C
+
1
GLYMA_01G151300
1_48811056_G_A
+
2_449825_A_C
GLYMA_02G003800
-
Продуктивность
2_1553466_T_C
2
GLYMA_02G017500
-
2_26061066_T_C
GLYMA_02G168900
+
+
Содержание масла
3_2161482_T_A
3
GLYMA_03G021000
+
Продуктивность
4_6140945_T_C
+
Содержание масла
GLYMA_04G073700
-
Содержание масла
4
+
Содержание масла
4_6163480_T_C
GLYMA_04G074000
-
Содержание масла
5_31849296_T_G
GLYMA_05G125100
-
5
Продуктивность
5_32274272_T_C
GLYMA_05G129600
-
6_47133259_T_C
6
GLYMA_06G283400
+
9_41467035_G_T
9
GLYMA_09G190100
+
Содержание масла
10_12734575_T_C
GLYMA_10G092000
-
10_39381094_T_C
10
GLYMA_10G159500
-
Продуктивность
10_44728567_T_C
GLYMA_10G215100
+
11_3245369_T_C
GLYMA_11G043800
-
Содержание масла
11
11_30226778_T_C
GLYMA_11G210100
+
Продуктивность
13_27118432_G_C
13
GLYMA_13G156200
+
Содержание масла
14_140838_G_A
14
GLYMA_14G001200
-
Продуктивность
15_10947679_C_T
15
GLYMA_15G135700
-
Содержание масла
16_659516_T_A
GLYMA_16G007900
+
16_4345707_T_G
GLYMA_16G045900
-
16
Содержание масла
16_4782762_T_C
GLYMA_16G049900
-
16_29296946_T_C
GLYMA_16G135500
+
Продуктивность
-
Содержание масла
18_12210395_C_T
18
GLYMA_18G107800
-
Продуктивность
19_39885214_A_G
GLYMA_19G137500
-
19_45429114_G_A
19
GLYMA_19G197100
-
Содержание масла
19_48356373_T_A
GLYMA_19G233800
-
20_35399322_G_C
20
GLYMA_20G111900
-
Содержание масла
БИОФИЗИКА
том 65
№ 2
2020
ГЕНЕТИЧЕСКИЕ ВАРИАНТЫ
287
ОБСУЖДЕНИЕ
этих QTL для селекции сои имеет некоторые
ограничения [3]. Продемонстрирована стабиль-
Подходы, основанные на учете биоразнообра-
ность в разных условиях выращивания QTL qOil-
зия, находятся на переднем крае создания новых
5-1, qOil-10-1 и qOil-14-1 [36]. Недавно авторы ра-
сортов в соеводстве. В этой статье с помощью
боты [37] провели сравнительный анализ нуклео-
полногеномного поиска ассоциаций проведен
тидных последовательностей между линиями с
анализ естественной вариабельности в популя-
высоким и низким содержанием масла и выявили
ции сортов культурной сои, используемых в оте-
различие в ОНП и количестве копий генов, кон-
чественной селекции, что в потенциале открыва-
тролирующих биосинтез и деградацию липидов у
ет путь к созданию новых маркеров для маркер-
этих линий. Сравнительный анализ показывает
ной селекции этой культуры.
увеличенное количество копий гена белка транс-
За истекшее двадцатилетие в многочисленных
порта липидов (LPT; Glyma.16g31780, Gly-
исследованиях обнаружено большое количество
ma.16g31840 и Glyma.16g31540) в линиях с высо-
локусов количественных признаков (QTL), кон-
ким содержанием масла и большее число копий
тролирующих содержание белка и масла в семе-
генов негативных регуляторов биосинтеза липи-
нах и продуктивность, а также ОНП, ассоцииро-
дов (ABC-транспортер, Glyma.03g36310, Lipase3,
ванных с этими признаками [3]. Однако из-за от-
и Glyma.13g04561) в линиях с низким содержани-
сутствия большого эффекта и стабильности, а
ем масла. Возможно, это различие в числе копий
также из-за негативной корреляции между со-
генов обуславливает различие между линиями.
держанием белка и маслом /урожайностью и не-
согласованностью эффектов в разных условиях
Наши результаты добавляют новое измерение
выращивания очень немногие из этих районов
в эти исследования благодаря включению в ана-
были далее использованы или включены в селек-
лиз сортов культурной сои, используемых в оте-
ционные программы [29]. По данным Комитета
чественной селекции, и позволяет выделить ассо-
по генетике сои (http://www.soybase.org), только
циации с геномными областями, не обнаружен-
два QTL, один на Хр. 15 (cqPro-15) и еще один на
ными в предыдущих анализах GWAS и QTL.
Хр. 20 (cqPro-20) обозначены как официально
Идентифицированные нами районы картируют-
подтвержденные QTL, контролирующие содер-
ся в непосредственной близости от генов, участ-
жание белка в семенах, и исследования подтвер-
вующих в транспорте веществ через мембраны в
дили сегрегацию аллелей этих локусов во всех те-
клубеньках, синтезе белка и транспорте амино-
стируемых популяциях (http://soybase.org/). QTL
кислот, синтезе и деградации липидов в семенах,
на Хр. 20 был в центре внимания нескольких ис-
фоторепарации, реакции на стресс, а также генов,
следований, в том числе по тестированию алле-
обеспечивающих специфичность слияния вези-
лей с высоким содержанием белка нa разных ге-
кул при везикулярном транспорте. Некоторые из
нетических фонах, в этих экспериментах этот ло-
идентифицированных нами ОНП близки к уже
кус показал большой аддитивный эффект [5].
известным
ОНП,
например
ОНП
Важно, что в этом локусе обнаружены как аллели
Gm04:37264793, положительно влияющий на со-
с отрицательной корреляцией между белком и
держание масла в семенах и отрицательно - на
продуктивностью, так и аллели с незначитель-
содержание белка, локализуется на расстоянии 69
ным отрицательным влиянием на этот признак
т.п.н. от ранее идентифицированного ОНП, ассо-
[30]. QTL на Хр. 20 также часто подтверждается
циированного с содержанием белка [38]. Ассоци-
при полногеномном поиске ассоциаций в раз-
ированный с содержанием масла в семенах ОНП
личных популяций зародышевой плазмы [2, 4,
Gm19:45429114 локализован в районе длиной
31], хотя уровень значимости этого района варьи-
около 85 т.п.н., в котором находятся три ОНП, ас-
ровал между исследованиями.
социированных с продуктивностью [39] и числом
Данные о локусах, одновременно контролиру-
семян [32]. Gm14:42540153, ассоциированный с
ющих продуктивность и качество семян, немно-
содержанием масла в семенах, локализуется в
гочисленны. Обнаружено, что локус E2, отвечаю-
районе длиной порядка 100 т.п.н., в котором
щий за скорость созревания, обладает плейотроп-
идентифицированы четыре ОНП, ассоциирован-
ным эффектом и одновременно контролирует
ных с сухим весом
100 семян
[40]. ОНП
продуктивность и качество семян [32]. Контроль
Gm06:51013713, Gm14:34210754 и Gm17:15598101,
продуктивности также полигенный: в исследова-
ассоциированные с продуктивностью, находятся
ниях по полногеномному поиску ассоциаций вы-
соответственно на расстоянии 58 т.п.н., 45 т.п.н. и
явлены до 30 значимо ассоциированных ОНП,
56 т.п.н. от известных ОНП, ассоциированных с
локализованных на 12 из 20 хромосом сои [33-
различными признаками, характеризующими
35], некоторые из них воспроизводятся в разных
урожайность (число семян в бобе, вес семян и су-
условиях выращивания.
хой вес 100 семян соответственно) [32, 40, 41]. На-
Не менее 110 QTL для содержания соевого мас-
конец, ОНП Gm13:32199622, ассоциированный с
ла были нанесены на карту, но использование
содержанием белка, находится на расстоянии
БИОФИЗИКА том 65
№ 2
2020
288
КАНАПИН и др.
26 т.п.н. от известного ОНП, ассоциированного с
11. F. E. Harrell, Jr, Hmisc: Harrell Miscellaneous. R pack-
весом семян [39].
age version
4.1-1. URL: https://CRAN.R-proj-
ect.org/package=Hmisc.
Результаты, полученные в этой статье, будут
использованы для создания молекулярных мар-
12. The R Project for Statistical Computing. URL:
керов с целью ускорения селекции сои и получе-
https://www.R-project.org/.
ния новых сортов.
13. W. G. Hill and B. S. Weir, Theor. Popul. Biol. 33, 54
(1988).
БЛАГОДАРНОСТИ
14. X. Zheng, D. Levine, J. Shen, et al., Bioinformatics 28
(24), 3326 (2012).
Вычисления были проведены в Суперкомпью-
15. D. Falush, M. Stephens, and J. K. Mol. Ecol. Notes 7,
тером центре «Политехнический» CПбПУ и кла-
574 (2007).
стере Университета Южной Калифорнии. Исход-
ные данные получены на базе уникальной научной
16. Ch. C. Chang, C. C. Chow, L. C. Tellier, et al., Giga-
установки Коллекция генетических ресурсов рас-
Science 4, 1 (2015).
тений ВИР.
17. J. D. Storey, Ann. Stat. 31, 2013 (2003).
18. S. Dash, J. D. Campbell, E. K. Cannon, et al., Nucl.
ФИНАНСИРОВАНИЕ РАБОТЫ
Acids Res. 44, D1181 (2016).
Работа выполнена в рамках и при финансовой
19. D. P. S. Verma, M. G. Fortin, J. Stanley, et al., Plant
поддержке Федеральной целевой программы (про-
Mol. Biol. 7, 51 (1986).
ект
№14.575.21.0136 от
26.09.2017, уникальный
20. E. M. Quistgaard, C. Löw, F. Guettou, and P. Nord-
идентификатор проекта RFMEFI57517X0136).
lund, Nature Rev. Mol. Cell Biol. 17 (2), 123 (2016).
DOI: 10.1038/nrm.2015.25
21. L. Yu, X. Tan, B. Jiang, Sun X, Gu S, Han T, et al.,
КОНФЛИКТ ИНТЕРЕСОВ
PLoS One 9 (7), e100144 (2014). DOI: 10.1371/jour-
Авторы заявляют об отсутствии конфликта
nal.pone.0100144
интересов.
22. T. R. Larson, T. Edgell, J. Byrne, et al., Plant J. 32 (4),
519 (2002). DOI: 10.1046/j.1365-313x.2002.01440.x
СОБЛЮДЕНИЕ ЭТИЧЕСКИХ СТАНДАРТОВ
23. N. Li, Ch. Xu, Y. Li-Beisson, and K. Philippar, Trends
Настоящая работа не содержит описания ка-
Plant
Sci.
21
(2),
145
(2016).
DOI:
ких-либо исследований с использованием людей
10.1016/j.tplants.2015.10.011
и животных в качестве объектов.
24. S. S. Gill, N. A. Anjum, R. Gill, et al., Sci. World J.
2015, 250158 (2015). DOI: 10.1155/2015/250158
25. C. Chen, X. Sun, H. Duanmu, et al., PLoS One 10
СПИСОК ЛИТЕРАТУРЫ
(11),
e0141888
(2015).
DOI:
10.1371/jour-
1. C. B. Heim and J. D. Gillman, G3: Genes, Genomes,
nal.pone.0141888
Genetics 7 (1), 299 (2017).
26. F. Y. H. Teng, Y. Wang, and B. L. Tang, Genome Biol.
2. N. B. Bandillo, A. J. Lorenz, G. L. Graef, et al., Plant
2, reviews3012.1 (2001). DOI: 10.1186/gb-2001-2-11-
Genome 10 (2),
1
(2017). doi:
10.3835/plantge-
reviews3012
nome2016.06.0054
27. W.-N. Fischer, D. D. F. Loo, et al., Plant J. 29 (6), 717
3. G. Kumawat, S. Gupta, M. B. Ratnaparkhe, et al.,
(2002).
Front Plant Sci.
7,
1852
(2016).
doi:
10.3389/fpls.2016.01852
28. H. Yang, Y.-D. Stierhof, and U. Ludewig, Front. Plant
Sci. 6, 212 (2015). DOI: 10.3389/fpls.2015.00212
4. E.-U. Hwang, Q. Song, G. Jia, et al., BMC Genomics
15, 1 (2014).
29. J. Wang, P. Chen, D. Wang, et al., Mol. Breeding 35, 92
5. C. van Warrington, H. Abdel-Haleem, J. H. Orf, et al.,
(2015). DOI: 10.1007/s11032-015-0285-6
Crop Sci. 54, 963 (2014).
30. C. V. Warrington, H. Abdel-Haleem, D. L. Hyten,
6. Sh. Chen, T. Huang, Y. Zhou, et al., BMC Bioinfor-
et al., Theor. Appl. Genet. 128 (5), 839 (2015). DOI:
matics 18, 80 (2017).
10.1007/s00122-015-2474-4
7. B. Langmead and S. L. Salzberg, Nature Methods 9
31. H. Sonah, L. O’Donoughue, E. Cober, et al., Plant
(4), 357 (2012). doi: 10.1038/nmeth.1923.
Biotechnol. J.
13
(2),
211
(2015).
DOI:
10.1111/pbi.12249
8. D. Tello, J. Gil, C. D. Loaiza, et al., Bioinformatics, 35
(22), 4716 (2019). doi: 10.1093/bioinformatics/btz275
32. C. Fang, Y. Ma, S. Wu, et al., Genome Biol. 18, 161
9. P. Danecek, A. Auton, G. Abecasis, et al., Bioinfor-
(2017). doi: 10.1186/s13059-017-1289-9
matics 27, 2156 (2011).
33. B. W. Diers, J. Specht, K. M. Rainey, et al., G3: Genes,
10. S. S. Shapiro and M. B. Wilk, Biometrika 52 (3-4), 591
Genomes, Genetics
8
(10),
3367
(2018). DOI:
(1965). doi: 10.1093/biomet/52.3-4.591
10.1534/g3.118.200332
БИОФИЗИКА том 65
№ 2
2020
ГЕНЕТИЧЕСКИЕ ВАРИАНТЫ
289
34. A. Xavier, D. Jarquin, R. Howard, et al., G3: Genes,
38. Y. Han, X. Zhao, D. Liu, et al., New Phytol. 209 (2),
Genomes, Genetics
8
(2),
519
(2018). DOI:
871 (2016). DOI: 10.1111/nph.13626
10.1534/g3.117.300300
39. R. I. Contreras-Soto, F. Mora, F. Lazzari, et al., Breed
35. Ya. Jing, et al., Front. Plant Sci. 9, 1392 (2018). DOI:
Sci. 67 (5), 435 (2017). DOI: 10.1270/jsbbs.17024
10.3389/fpls.2018.01392
40. X. Li, X. Zhang, L. Zhu, et al., BMC Genetics 20 (1),
36. Y. Cao, S. Li, Z. Wang, et al., Front. Plant Sci. 8, 1222
39 (2019). DOI: 10.1186/s12863-019-0737-9
(2017). DOI: 10.3389/fpls.2017.01222
41. Q. Song, D. L. Hyten, G. Jia, et al., G3: Genes, Ge-
37. B. Valliyodan, Dan Qiu, G. Patil, et al., Sci. Rep. 6,
nomes, Genetics
5
(10),
1999
(2015). DOI:
23598 (2016). DOI: 10.1038/srep23598
10.1534/g3.115.019000.
Genetic Variants Associated with Productivity and Protein and Oil Content in Soybeans
A.A. Kanapin*, **, A.B. Sokolkova*, A.A. Samsonova*, **, A.V. Schegolkov***, S.V. Boldyrev****,
A.F. Aupova****, P.E. Khaitovich****, S.V. Nuzhdin*****, and M.G. Samsonova*
*Peter the Great St. Petersburg Polytechnic University, ul. Polytekhnicheskaya 29, St. Petersburg, 195251 Russia
**St. Petersburg State University, Universitetskaya nab. 7/9, St. Petersburg, 199034Russia
***The “SOKO” Company, ul. Filatova 19/2, Krasnodar, 350038 Russia
****Skolkovo Institute of Science and Technology, ul. Nobelya 3, Moscow, 143026 Russia
*****University of Southern California, CA 90089, Los Angeles, USA
Biodiversity-based approaches are at the forefront of creating new varieties in soybean production. This paper
presents an analysis of natural variability in the population of cultivated soybean varieties used in breeding in
Russian Federation which was performed using Genome-Wide Association Studies. Genome regions con-
trolling the protein and oil content in seeds as well as productivity have been identified, many of which have
not been described previously. The obtained results open the way to the creation of new markers for marker
selection of this crop.
Keywords: soybean, Genome-Wide Association Studies, productivity, protein and oil content in seeds
БИОФИЗИКА том 65
№ 2
2020