БИОФИЗИКА, 2020, том 65, № 4, с. 676-679
МОЛЕКУЛЯРНАЯ БИОФИЗИКА
УДК 577.3
ИСПОЛЬЗОВАНИЕ НЕЙРОННЫХ СЕТЕЙ С ПАМЯТЬЮ
ДЛЯ ПРЕДСКАЗАНИЯ ИНТРОН-ЭКЗОННОЙ СТРУКТУРЫ ГЕНА
© 2020 г. Л.А. Урошлев, Н.В. Баль, Е.А. Чеснокова
Институт высшей нервной деятельности и нейрофизиологии РАН, 117485, Москва, ул. Бутлерова, 5а
E-mail: leoniduroshlev@gmail.com
Поступила в редакцию 21.04.2020 г.
После доработки 21.04.2020 г.
Принята к публикации 29.04.2020 г.
Построены несколько типов нейросетей с памятью. Каждая из них была обучена на полном геноме
мыши для предсказания интрон-экзонной структуры гена. Было проведено сравнение нейросетей
в работе как на тестовой выборке, так и на экспериментальном материале, полученном после
секвенирования культуры мозга крысы, обработанного реагентами, ингибирующими сплайсинг.
Ключевые слова: рекуррентные нейросети, сплайсинг, LSTM-сеть, GRU-сеть, пладиенолид.
DOI: 10.31857/S0006302920040079
Сплайсинг - один из ключевых механизмов в
форм in silico. В качестве основы алгоритма могут
обеспечении белкового разнообразия у эукарио-
быть использованы графы де Брюина, жадные ал-
тических организмов. Сплайсинг также регули-
горитмы, графы перекрытий и другие. Однако
рует стабильность различных вариантов мРНК.
почти все алгоритмы предназначены для обра-
Сравнение экспрессии транскриптов в разных
ботки данных, полученных с помощью различ-
тканях человека показало, что мозг, печень и се-
ных вариаций секвенатора Illumina. Если же для
менники имеют самые высокие уровни альтерна-
получения данных используется иной секвена-
тивного сплайсинга, при этом в разных тканях
тор, алгоритмы могут ошибаться, так как боль-
могут преобладать разные типы альтернативного
шая часть современных алгоритмов для определе-
сплайсинга [1].
ния сплайс-изоформ работает с множеством
В нервной системе важным фактором, завися-
небольших отдельных чтений (100 п.н.), выров-
щим от альтернативного сплайсинга, является
ненных на референсный геном. Последователь-
пространственная локализация транскриптов [2].
ности, получаемые с помощью таких приборов
Кроме того, обнаружено, что активность нейро-
как IonTorrent или Oxford Nanopore, представля-
нов может оказывать влияние на вырезание ин-
ют собой небольшой набор достаточно длинных
тронов [3], что, в свою очередь, влияет на экс-
(свыше 500 пар нуклеотидов) контигов, которые
прессию целевых белков и является механизмом
должен последовательно обрабатывать алгоритм.
тонкой настройки работы нейронов в различных
Еще одной возможной областью применения ал-
условиях их функционирования [4].
горитма, работающего с длинными последова-
тельностями нуклеотидов, является поиск и ан-
Альтернативный сплайсинг обеспечивает раз-
нотация интронов в NGS-данных различного
нообразие транскриптов не только внутри кле-
происхождения, уже собранных в транскрипты,
ток, но и между ними. При формировании
что может быть полезно при аннотации сборок.
нервной системы происходит дифференцировка
клеток-предшественников в различные типы
Чтобы выстроить достаточно эффективный
нейронов и глии. С помощью выделения рибосо-
алгоритм выделения сплайс-изоформ, необходи-
мо-ассоциированной РНК из разных типов ней-
мо воспользоваться методами, которые способны
ронов было обнаружено достоверное различие
эффективно выделять паттерны из последова-
наборов альтернативных сплайс-изоформ РНК в
тельности. К таковым можно отнести методы ма-
разных типах клеток, что может свидетельство-
шинного обучения, которые успешно использу-
вать о том, что альтернативный сплайсинг вовле-
ются в самых разных областях вычислительной
чен в процесс дифференциации нейронов в ходе
молекулярной биологии. В частности, примера-
развития нервной системы [5].
ми использования этих методов могут служить
В настоящее время существует множество ал-
классификация событий сплайсинга [6] и влия-
горитмов для поиска и аннотации сплайс-изо-
ния полиморфизмов на патогенность [7].
676
ИСПОЛЬЗОВАНИЕ НЕЙРОННЫХ СЕТЕЙ
677
МЕТОДЫ
‚2ˆ ‡†4 † 5ˆ 2‡0
Для поиска интрон-экзонной структуры генов
использовали несколько моделей машинного
обучения с памятью, подходящих для обработки
одномерных последовательностей. Модель долж-
conv Id_1: Conv ID
на запоминать самые устойчивые паттерны и за-
бывать незначимые. Такие задачи очень распро-
странены в различных областях вычислительной
лингвистики и обработки изображений. Для этих
bidirectional_1 (gru_1): ‚2idirectional (GRU)
целей используются различные виды рекуррент-
ных нейронных сетей. Дополнительным аргумен-
том в пользу выбора этих моделей может служить
то, что, при правильной стратегии обучения, мо-
dropout_1: Dropout
дель может быть устойчива к ошибкам секвени-
рования.
В качестве первого слоя нашей нейронной се-
ти (см. рис. 1) мы использовали одномерный
dense_1: Dense
сверточный слой нейронов с размером окна в
2 п.н. На втором слое нашей модели мы использу-
ем два вида рекуррентных сетей - однонаправ-
Рис. 1. Схема нейросети, используемой для предска-
зания интрон-экзонной структуры гена.
ленная GRU-сеть [9] и LSTM-сеть [8], двунаправ-
ленная GRU и LSTM-сеть. Третий слой исполь-
зуется для предотвращения переобучения модели
РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ
с помощью дропаута. Все реализации нейросетей
строили с помощью пакета keras для языка про-
В определенных условиях вырезание интронов
граммирования Python версии 3.8.
может быть подавлено, поэтому сети, обученные
отличать участки интронов от участков экзонов,
Тестирование нейросетей проходило в два эта-
могут использоваться для опознавания ситуации,
па - на первом этапе нейросеть обучалась с помо-
щью искусственных данных. Данные об интрон-
в которой происходит такое подавление. Это дает
экзонной структуре генов брали из аннотации.
возможный путь для экспериментальной провер-
При помощи аннотации генома мыши были вы-
ки разработанного алгоритма.
делены полные последовательности генов, для
На втором этапе уже предобученную сеть те-
которых были сформированы характеристиче-
стировали на наборе экспериментальных данных,
ские векторы по следующему правилу: 0 соответ-
полученных с помощью секвенатора IonTorrent.
ствует нуклеотидам, попавшим в интроны, 1 - в
Для этого были отсеквенированы транскриптомы
экзоны. Далее выборка делилась на обучающую и
образцов нейроглиальной культуры гиппокампа
тестовую в соотношении 80% (обучающая выбор-
ка) и 20% (тестовая). Вычислительные экспери-
крысы [11], два из которых были обработаны пла-
менты по обучению сетей проводили для разных
диенолидом - реагентом, который ингибирует
объемов окон последовательности, а именно 600,
процесс сплайсинга, два же были оставлены в ка-
700, 800, 1000 п.н. Для поиска коэффициентов
честве контроля. Экспериментальный и кон-
моделей использовался метод оптимизации AD-
трольный образцы были собраны с помощью
AM [10]. Результаты для наших моделей показаны
сборщика SPAdes [12] в контиги. N50 для полу-
в таблице.
чившейся сборки был равен 1022 п.н. для кон-
Таблица 1. Средняя величина корректно предсказанной принадлежности нуклеотидов для разных типов
нейронных сетей
Тип сети
600
700
800
1000
Однонаправленная GRU
65%
74%
71%
80%
Двунаправленная GRU
82%
84%
91%
92%
Однонаправленная LSTM
72%
72%
80%
82%
Двунаправленная LSTM
93%
71%
67%
81%
БИОФИЗИКА том 65
№ 4
2020
678
УРОШЛЕВ и др.
чимых результатов в предсказании интрон-эк-
1.0
зонной структуры.
Отдельным вопросом для исследования явля-
0.8
ются границы применимости нейросетей, обу-
ченных на одних видах, для предсказания интро-
0.6
нов в геномах других видов, эволюционно доста-
точно далеких. Это чрезвычайно важно для
аннотации геномов новых модельных организ-
0.4
мов, таких как, например, виноградная улитка. С
одной стороны, ее геном и транскриптом чрезвы-
чайно важны для задач по исследованию памяти
0.2
[13]. С другой стороны, из-за обилия повторов и
отсутствия близкородственных видов ее аннота-
ция имеющимися алгоритмами крайне затруд-
0.0
0.2
0.4
0.6
0.8
1.0
нена.
Выпадение (FPR)
ФИНАНСИРОВАНИЕ РАБОТЫ
Рис. 2. ROC-кривая нейросетевого классификатора
«эксперимент-контроль».
Pабота выполнена пpи финансовой поддержке
Российcкого научного фонда, грант № 19-74-
00141.
трольных образцов и 913 п.н. для эксперимен-
тальных образцов.
КОНФЛИКТ ИНТЕРЕСОВ
Вычислительный эксперимент заключался в
следующем: разделить контрольные и экспери-
Авторы заявляют об отсутствии конфликта
ментальные (с «застрявшими» интронами) кон-
интересов.
тиги. С этой целью для каждой группы были вы-
браны 50 случайных контигов, для которых была
произведена разметка интрон-экзонной структу-
СОБЛЮДЕНИЕ ЭТИЧЕСКИХ СТАНДАРТОВ
ры с помощью разработанной программы. Пред-
Настоящая работа не содержит описания ка-
полагалось, что те последовательности, в которых
ких-либо исследований с использованием людей
длина интронов больше пороговой, - экспери-
и животных в качестве объектов.
ментальные. В противном случае контиг опреде-
лялся как принадлежащий к контрольной группе.
Далее на основе количества обнаруженных ин-
СПИСОК ЛИТЕРАТУРЫ
тронов контиги классифицировались на кон-
1. G. Yeo, D. Holste, and G. Kreiman, Genome Biol. 5
трольные и экспериментальные. Для иллюстра-
(10), R74 (2004).
ции классификации построена ROC-кривая
2. E. Furlanis and P. Scheiffele, Annu. Rev. Cell Dev. Bi-
(рис. 2) для нейросети, которая на этапе тестиро-
ol. 34, 451 (2018).
вания показала наилучший результат. Как видно,
3. O. Mauger, F. Lemoine, and P. Scheiffele, Neuron 92
полученные нейросети обеспечивают достаточно
(6), 1266 (2016).
неплохой уровень классификации, даже при ис-
пользовании обучения на организмах, с близкой,
4. G. Biamonti, A. Amato, E. Belloni, et al., Aging Clin.
хотя и иной видовой принадлежностью.
Exp. Res. (2019). DOI: 10.1007/s40520-019-01360-x
Работа большей части нейросетей, в том числе
5. E. Furlanis, L. Traunmüller, G. Fucile, and P. Scheif-
свойства обучающей выборки и архитектура каж-
fele, Nat. Neurosci. 22 (10), 1709 (2019).
дой отдельно взятой сети по-прежнему является
6. Louadi Z. et al. Genes 10 (8), 587 (2019).
«черным ящиком» для исследователей, и пара-
7. J. Cheng, T. Y. D. Nguyen, K. J. Cygan, et al., Genome
метры, обеспечивающие эффективную работу се-
Biol. 20 (1), 48 (2019).
ти на тех или иных данных, подбираются эмпири-
8. F. A. Gers, J. Schmidhuber, and F. Cummins, in Neural
чески. В дальнейших исследованиях планируется
Nets WIRN Vietri-99 (Springer, Lond., 1999), pp. 133-
подробно разобрать вопросы эффективности той
138.
или иной архитектуры, особенно связанные с ме-
9. J. Chung, C. Gulcehre, K. H. Cho, and Y. Bengio,
тодами выбора и обучения тех или иных нейрон-
arXiv, 1412.3555 (2014).
ных сетей. Например, в ходе подготовки данной
работы были также рассмотрены архитектуры Se-
10. D. P. Kingma and J. Ba, arXiv preprint: arXiv,
q2Seq и сети, основанные на механизмах внима-
1412.6980 (2014).
ния. Несмотря на более сложное внутреннее
11. O. Mauger, F. Lemoine, and P. Scheiffele, Neuron 92
устройство, эти сети не показали каких-либо зна-
(6), 1266 (2016).
БИОФИЗИКА том 65
№ 4
2020
ИСПОЛЬЗОВАНИЕ НЕЙРОННЫХ СЕТЕЙ
679
12. A. Bankevich, S. Nurk, D. Antipov, et al., J. Comput.
13. N. Aseyev, A. K. Vinarskaya, M. Roshchin, et al.,
Biol. 19 (5), 455 (2012).
Front. Cell. Neurosci. 11, 348 (2017).
Prediction of the Exon-Intron Structure of a Gene Based
on Long Short-Term Memory Neural Network
L.A. Uroshlev, N.V. Bal, and E.A. Chesnokova
Institute of Higher Nervous Activity and Neurophysiology, Russian Academy of Sciences,
ul. Butlerova 5a, Moscow, 117485 Russia
This paper suggests several models of long short-term memory neural networks. We trained every model on
a full mouse genome to predict the exon-intron structure of a gene. In this work we compare the performance
of the neural networks in the test sample and experimental material obtained after screening rat brain cells
treated with splicing inhibitors.
Keywords: recurrent neural networks, splicing, LSTM-neural network, GRU-neural network, pladienolide
БИОФИЗИКА том 65
№ 4
2020