БИОФИЗИКА, 2020, том 65, № 6, с. 1045-1050
МОЛЕКУЛЯРНАЯ БИОФИЗИКА
УДК 577.3
ЭФФЕКТИВНОСТЬ ОПРЕДЕЛЕНИЯ 5-МЕТИЛЦИТОЗИНА В ДНК
КЛЕТОК Escherichia coli, НЕСУЩИХ ГЕНЫ БАКТЕРИАЛЬНЫХ ДНК-
МЕТИЛТРАНСФЕРАЗ, С ПОМОЩЬЮ УСТАНОВКИ OXFORD NANOPORE
© 2020 г. В.В. Ильинский*, **, E.M. Козлова*, ***, С.Х. Дегтярев****,
Н.К. Янковский*, *****, В.Ю. Макеев*, ***, ******, *******
*Институт общей генетики им. Н.И. Вавилова РАН, 119991, Москва, ул. Губкина, 3
**ООО «Генотек», 105120, Москва, Наставнический пер., 17/1
***Московский Физико-Технический Институт. 141701, Долгопрудный Московской области, Институтский пер., 9
****НПО «СибЭнзим», 630060, Новосибирск, ул. Академика Тимакова, 2/12
*****Московский государственный университет имени М.В. Ломоносова, Москва, 119991, Воробьевы горы, 1
******Институт молекулярной биологии РАН им. В.А. Энгельгардта, 119991, Москва, ул. Вавилова, 32
*******НИЦ «Курчатовский институт» - ГосНИИгенетика, 117545, Москва, 1-й Дорожный проезд, 1
E-mail: vsevolod.makeev@vigg.ru
Поступила в редакцию 28.08.2020 г.
После доработки 28.08.2020 г.
Принята к публикации 24.09.2020 г.
С помощью системы MinION (Oxford Nanopore Technologies Ltd, Великобритания) проведено пря-
мое секвенирование геномной ДНК двух рекомбинантных штаммов Escherichia coli. В одном случае
в клетках присутствовала плазмида с геном ДНК-метилтрансферазы M.HpaII, метилирующей вто-
рой цитозин в сайте CCGG, во втором случае штамм E. coli содержал ДНК-метилтрансферазу
M.HspAI, модифицирующую центральный цитозин в последовательности GCGC. В обоих случаях
при метилировании образуется 5-метилцитозин. Показано, что в случае высокого покрытия при се-
квенировании ДНК, наличие 5-метилцитозина в ДНК определяется с высокой точностью. В част-
ности, в ДНК E. coli с клонированным геном ДНК-метилтрансферазы M.HspAI при прочтении с
покрытием 1300× 98.9% сайтов GСGC определяются как метилированные по первому цитозину. В
то же время лишь 0.09% остальных тетрануклеотидов, имеющих в середине динуклеотид CpG, дают
ложноположительный результат и определяются как метилированные по центральному цитозину.
В присутствии гена ДНК-метилтрансферазы M.HpaII среди позиций, покрытых более чем 700 ри-
дами, 91.3% всех сайтов СCGG определяются как метилированные, при этом только 0.13% других
тетрануклеотидов с центральным CG-динуклеотидом определяются как содержащие 5-метилцито-
зин во втором положении. Делается вывод, что при используемой методике для надежного опреде-
ления 5-метилцитозина и исключения ложноположительных результатов покрытие должно быть не
менее 700-1000×.
Ключевые слова: нанопоры, 5-метилцитозин, метилирование, E. coli, DeepSignal.
DOI: 10.31857/S0006302920060010
Нанопорное секвенирование — это уникаль-
ноцепочечная ДНК, скорость подачи которой
ная перспективная технология определения по-
контролируется ферментативной системой,
следовательности нуклеиновых кислот, разрабо-
включающей хеликазу [1]. Использование хели-
танная компанией Oxford Nanopore Technologies
казы явилось ключевым изобретением при созда-
Ltd (Великобритания). Основным элементом та-
нии технологии, поскольку позволило контроли-
кого секвенатора является мембрана с отверстием
ровать скорость прохождения ДНК через пору.
порядка 10-9 м в диаметре. Мембрана помещается
Скорость диффундирования свободной ДНК по
в электролитический раствор. Постоянное элек-
градиенту электрического поля составляет при-
трическое поле прикладывается в перпендику-
близительно 10 мкс на нуклеотид и слишком ве-
лярном к поверхности направлении. При этом
лика, чтобы позволить разрешить последователь-
возникает ионный ток, величина которого посто-
ность нуклеотидов ДНК. В результате была скон-
янно фиксируется цифровым преобразователем.
струирована молекулярная машина, основанная
Кроме того, через это же отверстие подается од-
на использовании хеликазы, фермента разделяю-
1045
1046
ИЛЬИНСКИЙ и др.
щего двунитевую ДНК на две однонитевых ДНК.
ния CpG островков позволяют различить нор-
В установке MinION хеликаза не только разделя-
мальные и опухолевые ткани [5].
ет двунитевую ДНК на две однонитевых ДНК, но
Фирмой Oxford Nanopore Technologies и сто-
и разделяет нити, направляя одну нить в пору, а
ронними разработчиками создан ряд декодеров,
другую - возвращая в исходный раствор. Вы-
позволяющих переводить последовательность
бранная MinION хеликаза позволяет подавать од-
электронных импульсов в последовательность ос-
ноцепочечную ДНК со скоростью порядка
нований ДНК. Согласно обзору [1], наиболее точ-
500 нуклеотидов в секунду, что позволяет наибо-
ным декодером является программа Guppy
лее эффективно разрешать последовательность
(https://community.nanoporetech.com). За послед-
нуклеотидов [1]. Система позволяет получать
ние несколько лет был разработан ряд методов,
очень длинные риды (одиночные прочтения, от
позволяющих с достаточной уверенностью опре-
английского «read»), до 100000 оснований, одна-
делять наличие 5-метилцитозина в последователь-
ко доля таких длинных ридов невелика, а боль-
ности ДНК. Для этой цели используются статисти-
шинство ридов не превышают по своей длине не-
ческие алгоритмы [3] и, в последнее время, нейро-
скольких тысяч нуклеотидов.
сетевые технологии, которые реализованы в
Сила ионного тока определяется пропускной
программах DeepMod, DeepSignal [6, 7]. Таким об-
способностью отверстия, которая, в свою оче-
разом, в распоряжении исследователей впервые
редь, зависит от последовательности нуклеотидов
появился метод прямого определения модифика-
исследуемой ДНК. Эти изменения достаточно ве-
ций одиночных молекул ДНК, не подвергавшихся
лики, чтобы по ним можно было восстановить
амплификации. К сожалению, несмотря на боль-
последовательность нуклеотидов. Таким обра-
шую работу, проведенную Oxford Nanopore Tech-
зом, секвенаторы MinION, разработанные ком-
nologies Ltd, точность определения как классиче-
панией Oxford Nanopore Technologies, осуществ-
ских оснований, так и их модификаций невелика,
ляют прямой анализ одноцепочечных молекул
и при одиночном прочтении не превышает 89%
ДНК, не подвергая их амплификации и не ис-
[1]. Такая ошибка в определении оснований до
пользуя химический синтез.
определенной степени может быть исправлена пу-
тем глубокого секвенирования и статистической
Последовательность импульсов, получаемая
обработки полученной большой выборки пере-
на выходе прибора, зависит не только от чередо-
крывающихся ридов.
вания классических оснований ДНК (аденина,
гуанина, тимина и цитозина) [1], но и от наличия
В настоящем исследовании было проведено
модификаций ДНК, таких как 5-метилцитозин
прямое секвенирование двух геномов рекомби-
[2, 3]. Возможность прямого определения 5-ме-
нантных штаммов Escherichia coli с клонирован-
тилцитозина является важнейшим преимуще-
ными генами бактериальных ДНК-метилтранс-
ством нанопорных технологий и принципиально
фераз, осуществляющими высокоспецифичное
недоступна для систем, использующих техноло-
метилирование сайтов GCGC и CCGG по цен-
гию секвенирования на основе применения
тральному цитозину. Геномы бактерий можно се-
ДНК-полимеразы (sequencing by synthesis), реа-
квенировать очень глубоко, и именно на геноме
лизованных, например, семейством установок
бактерий была впервые продемонстрирована воз-
HiSeq, созданных компанией Illumina (США).
можность точного определения последователь-
Знание профиля метилирования ДНК чрезвы-
ности с помощью секвенатора MinION [8].
чайно важно как для медицинских приложений,
так и для фундаментальных исследований в обла-
сти молекулярной биологии, поскольку эти мо-
МАТЕРИАЛЫ И МЕТОДЫ
дификации играют важнейшую роль в развитии,
регуляции и поддержании жизнедеятельности
В работе использовали штамм E. coli ER2267,
как бактериальной, так и эукариотической клет-
любезно предоставленный компанией NEB
ки. В частности, они являются ключевыми эле-
(США). Ген ДНК-метилтрансферазы M.HspAI из
ментами геномного импринтинга, инактивации
Haemophilus sp. A1 был клонирован в вектор
X-хромосомы, репрессии ретроэлементов и про-
pUC19, полученной плазмидой трансформирова-
цесса старения. Метилирование промоторных
ли клетки E. coli ER2267 (http://science.siben-
участков, как правило, подавляет транскрипцию,
zyme.com/soft-data/database/nucleotide-sequence-
и этот механизм реализуется, в частности, при
of-plasmid-dna-phspai2). Ген ДНК-метилтранс-
формировании различных типов клеток позво-
феразы M.HpaII из Haemophilus parainfluenzae был
ночных. Многие заболевания имеют характер-
клонирован в вектор PMTL22 и клетки E. coli
ный профиль метилирования ДНК. Например,
ER2267 трансформировали
этой
ДНК
локальное 5mC-гиперметилирование и общее ги-
(http://www.sibenzyme.com/info624.php). Геном-
пометилирование генома в целом характерно для
ную ДНК из полученных рекомбинантных штам-
опухолевых клеток [4], а паттерны метилирова-
мов выделяли, как описано ранее [9].
БИОФИЗИКА том 65
№ 6
2020
ЭФФЕКТИВНОСТЬ ОПРЕДЕЛЕНИЯ 5-МЕТИЛЦИТОЗИНА В ДНК КЛЕТОК
1047
Рис. 1. Количество контекстов, определенных как метилированные, в зависимости от минимального покрытия
ридами MinION: (а) - контексты GCGC, (б) - контексты NCGN, отличные от GCGC. Риды фильтрованы по индексу
уверенности DeepSignal.
Оба препарата геномной ДНК были отсекве-
РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ
нированы с помощью MinION (R9.4.1) с приме-
Секвенирование генома E. coli с клонированным
нением протокола SQK-LSK108 и получением
геном ДНК-метилтрансферазы M.HspAI (контекст
исходного среднего покрытия 2193× и 1832× для
метилирования GCGC). Распределение ридов
геномов клеток E. coli, несущих гены метилтранс-
MinION вдоль генома E. coli достаточно неодно-
фераз M.HpaII и M.HspAI соответственно. Риды
родно. Поскольку работа в первую очередь на-
в формате fast5 были обработаны программой
правлена на анализ метилирования, было вычис-
Guppy. После чернового определения оснований
лено покрытие выявленных 5-метилцитозинов
результаты были согласованы с последовательно-
ридами MinION, которое варьировало от значе-
стью генома E. coli штамма NRRL B-1109 с ис-
ний меньше 100× до значений, превышающих
пользованием программы tombo resquiggle (Ox-
1500×. Как видно из рис. 1а, доля определяемых
ford Nanopore Technologies). Этот алгоритм созда-
сайтов G(5mC)GC существенно зависит от вели-
ет новое соответствие сигнала и нуклеотидов, ис-
чины покрытия ридами MinION.
пользуя последовательности из референсного ге-
При покрытии 1500× определяется 98.9% всех
нома. Полученные файлы с координатами ридов
сайтов G(5mC)GC (не определяется 31 сайт из
в референсном геноме и сигналом секвенирова-
2789). Доля неопределяемых сайтов G(5mC)GC
ния использовали в качестве источника входных
на уровне приблизительно 1% сохраняется и при
данных программы DeepSignal [7] для определе-
дальнейшем росте покрытия. При максимальных
ния 5-метилцитозинов. Программа DeepSignal
покрытиях (больше 2000×) определяются как ме-
присваивает каждой CpG-паре индекс надежно-
тилированные все сайты GCGC, но сайтов с та-
сти метилирования цитозинов, представляющий
ким покрытием очень мало (16). Приблизительно
собой число от 0 до 1 (0 - надежно неметилиро-
2/3 цитозинов во втором положении искомого
ванный цитозин; 1 - цитозин надежно метилиро-
сайта имеют покрытие меньше, чем 100 ридов,
ван). Была проведена фильтрация ридов с сохра-
однако и среди этих цитозинов более 80% опреде-
нением ридов, содержащих СpG-пары с индек-
ляются как метилированные.
сом менее 0.1 (неметилированные цитозины) или
В то же время для контекстов NCGN, отлич-
более 0.9 (метилированные цитозины). Среднее
ных от GCGC, метилирование нехарактерно
покрытие геномов после такой фильтрации со-
(рис. 1б). Низкое качество ридов приводит к то-
ставило 175 (M.HspAI), и 146 (M.HpaII). При этом
му, что такие контексты в некотором количестве
дисперсия значений покрытия оказалась очень
определяются как метилированные. Число это не
велика, и в геноме наблюдались участки с покры-
очень велико - на уровне покрытия 1500× имеет-
тием до 1500 ридов для отдельных CpG-пар. Ци-
ся 59 из 3448 контекстов NCGN, отличных от
тозин, для которого после фильтрации было по-
GCGC и определяемых как метилированные
казано метилирование более чем в 50% покрыва-
(рис. 1б).
ющих его ридов, считался метилированным.
Индекс уверенности DeepSignal играет исклю-
Статистический анализ полученных результатов
чительно важную роль при определении метили-
проводили с использованием интерпретируемого
рования конкретных CG-динуклеотидов. Если не
языка Python.
фильтровать риды по этому индексу, многие кон-
БИОФИЗИКА том 65
№ 6
2020
1048
ИЛЬИНСКИЙ и др.
Таблица 1. Процент различных контекстов NCGN, от-
не всегда соблюдается. Например, тетрануклео-
личных от GCGC, метилированных в геноме E. coli,
тид TCGC почти никогда не определяется как ме-
несущем
рекомбинантную
метилтрансферазу
тилированный, в то же время комплементарный
M.HspAI
ему контекст GСGA, напротив, часто выявляется
Доля
как метилированный.
Контекст
метилированных
Данные табл. 1 показывают также, что тетра-
0
ACGC
0.17
нуклеотиды TCGN практически никогда не опре-
деляются как метилированные, а тетрануклеоти-
1
GCGT
0.16
ды ACGN показывают незначительный уровень
2
CCGC
0.13
ошибочного метилирования по сравнению с
3
GCGA
0.12
остальными сайтами. Причины такой зависимо-
сти ошибки от контекста могут быть связаны как
4
GCGG
0.10
с формированием сигнала MinION, так и с осо-
5
CCGG
0.07
бенностяими работы программы DeepSignal,
определяющей метилирование цитозина.
6
CCGA
0.09
7
CCGT
0.05
Секвенирование генома E. coli с клонированным
геном ДНК-метилтрансферазы M.HpaII (контекст
8
ACGG
0.04
метилирования СCGG). Покрытие генома штамма
9
ACGT
0.03
E. coli с ДНК-метилтрансферазой M.HpaII рида-
ми MinION с высоким индексом уверенности
10
ACGA
0.03
DeepSignal оказалось более низким, чем у штам-
11
TCGC
0.01
ма, несущего ДНК-метилтрансферазу M.HspAI.
Более низким оказался и уровень метилирования
12
TCGG
0
контекстов CCGG, являющихся мишенями
13
TCGA
0
M.HpaII (рис. 2а). Показательно, что даже среди
14
TCGT
0
сайтов, характеризующихся очень высоким по-
крытием ридами MinION, существует около 10%
неметилированных контекстов, причем для ма-
лой доли сайтов с очень высоким покрытием про-
цент контекстов, определенных как неметилиро-
тексты, являющиеся мишенями ДНК-метил-
ванные, не падает, а даже растет. Так, из 47 сайтов
трансферазы, при большом покрытии определя-
CCGG с покрытием не менее 1700× 12 сайтов не
ются как неметилированные, а с другой стороны,
метилированы, что составляет практически чет-
около 6% контекстов NCGN с высоким покрыти-
вертую часть. Тем не менее при покрытии от 200×
ем определяются как метилированные (данные
и более приблизительно 10% сайтов CCGG опре-
не показаны). Подавляющее большинство этих
деляются как неметилированные, т. е. около 90%
позиций определится «правильно» (метилиро-
таких контекстов имеют последовательность
ванными являются только сайты узнавания
C(5mC)GG (приблизительно 1400 сайтов в гено-
ДНК-метилтрансферазы) после фильтрации ри-
ме). Для контестов ССGG с покрытием меньше
дов по индексу уверенности DeepSignal.
100× как метилированные определяются прибли-
Отдельный интерес представляет собой анализ
зительно 85% сайтов. Данные рестрикционного
случаев, в которых метилирование определяется
анализа генома не показывают гидролиза геном-
вне контекстов, распознаваемых метилтрансфе-
ной ДНК рестриктазой HpaII, расщепляющей
разой. В табл. 1 даны частоты разных контекстов
неметилированные сайты CCGG (данные не по-
NCGN, отличных от GCGC, в которых ошибочно
казаны), причем наличие даже менее 3% немети-
определялось метилирование. Поскольку с ро-
лированных сайтов давало бы видимую картину
стом покрытия доля контекстов NCGN, распо-
расщепления. Таким образом, 10% неметилиро-
знаваемых как метилированные, падает практи-
ванных контекстов CCGG с большей вероятно-
чески до нуля, мы предполагаем, что имеем дело
стью объясняются ненадежной обработкой сиг-
с ошибками определения сайтов метилирования,
нала с помощью программы DeepSignal, а не ре-
а не с аберрантным метилированием метилтранс-
альным недометилированием геномной ДНК.
феразой.
Если рассматривать позиции в контекстах
Из табл. 1 видно, что комплементарные тетра-
NCGN, отличных от CCGG (рис. 2б), то в геноме
нуклеотиды AСGС и GCGT имеют высокие и
E. coli, несущей ген метилтрансферазы M.HpaII,
близкие по величине частоты ошибочно опреде-
такие контексты определяются как практически
ляемого метилирования. Однако в случае других
неметилированные уже при покрытии в 200×.
комплементарных тетрануклеотидов это правило
При покрытии 700× определяются как метилиро-
БИОФИЗИКА том 65
№ 6
2020
ЭФФЕКТИВНОСТЬ ОПРЕДЕЛЕНИЯ 5-МЕТИЛЦИТОЗИНА В ДНК КЛЕТОК
1049
Рис. 2. Количество контекстов, определенных как метилированные, в зависимости от минимального покрытия
ридами MinION: (а) - контексты CCGG, (б) - контексты NCGN, отличные от CCGG. Риды фильтрованы по индексу
уверенности DeepSignal.
ванные только 0.13% контекстов NCGN, отлич-
делении метилированных сайтов GCGC (сайт
ных от CCGG (53 контекста из 41002).
узнавания M.HspAI) и CCGG (сайт узнавания
M.HpaII) максимальное значение ошибочно
Как видно из табл. 2, контекст СCGТ и ком-
установленного метилирования наблюдается для
плементарный ему ACGG наиболее часто оши-
этих же сайтов, но с заменой последнего нуклео-
бочно определяются как метилированные. В слу-
тида на T (или первого основания на A в случае
чае сайта GCGC (табл. 1) максимальные значе-
комплемента).
ния ошибочного определения метилирования
В случае M.HpaII, так же как и в случае с
наблюдались для комплементарных тетрануклео-
M.HspAI, тетрануклеотиды TCGN практически
тидов GCGT и ACGC. Таким образом, при опре-
не определяются как метилированные, а тетра-
нуклеотиды ACGN показывают незначительный
Таблица 2. Процент различных контекстов NCGN,
уровень ошибочного метилирования по сравне-
отличных от ССGG, метилированных в геноме E. coli,
нию с остальными сайтами.
несущем рекомбинантную метилазу M.HpaII
Доля
Контекст
ЗАКЛЮЧЕНИЕ
метилированных
В настоящей работе мы показали, что в случае
0
CCGT
0.27
высокого уровня покрытия при секвенировании
ДНК система MinION может определять наличие
1
ACGG
0.21
5-метилцитозина в ДНК, практически исключая
2
GCGG
0.12
ложноположительные результаты. При этом
определение 5-метилцитозина в различных кон-
3
CCGA
0.18
текстах ДНК отличается. Для сайтов G(5mC)GC
4
CCGC
0.05
доля определяемых метилированных контекстов
растет с ростом покрытия практически до 100%,
5
GCGA
0.05
однако имеется некоторое количество других тет-
6
GCGT
0.04
рануклеотидов NCGN, которые ошибочно опре-
деляются прибором как метилированные. В слу-
7
GCGC
0.02
чае сайта C(5mC)GG процент ошибочного опре-
8
ACGC
0.02
деления
5-метилцитозина в тетрануклеотидах
NCGN очень мал.
9
ACGA
0.03
Для сайтов C(5mC)GG доля определяемых ме-
10
ACGT
0.01
тилированных контекстов растет с ростом по-
крытия приблизительно до 90%, причем, по-ви-
11
TCGG
0.01
димому, часть контекстов не определяется как
12
TCGC
0
метилированные из-за неудачной работы про-
граммы DeepSignal. Почему DeepSignal показы-
13
TCGA
0
вает такую разную эффективность на двух кон-
14
TCGT
0
текстах, еще предстоит узнать.
БИОФИЗИКА том 65
№ 6
2020
1050
ИЛЬИНСКИЙ и др.
Таким образом, полученные результаты секве-
СПИСОК ЛИТЕРАТУРЫ
нирования на приборе MinION двух геномных
1. R. R. Wick, L. M. Judd, and K. E. Holt, Genome Biol.
ДНК, имеющих 5-метилцитозин в различных
20, 129 (2019).
контекстах, позволяют говорить о возможности
использования прибора для достоверного опре-
2. M. Stoiber, J. Quick, R. Egan, et al., Biorxiv 094672
деления 5-метилцитозина в геномной ДНК.
(2017). DOI: 10.1101/094672
3. J. T. Simpson, R. E. Workman, P. C. Zuzarte, et al.,
ФИНАНСИРОВАНИЕ РАБОТЫ
Nat. Methods 14, 407 (2017).
Работа выполнена при финансовой поддержке
4. M. Ehrlich, Epigenomics 1 (2), 239 (2009).
Министерства науки и высшего образования Рос-
сийской Федерации (грант № RFMEFI60419X0218).
5. G. P. Pfeifer, Int. J. Mol. Sci. 19 (4), 1166 (2018).
6. Q. Liu, L. Fang, G. Yu, D. Wang, et al., Nat. Commun.
10 (1), 2449 (2019).
КОНФЛИКТ ИНТЕРЕСОВ
Авторы заявляют об отсутствии конфликта
7. P. Ni, N. Huang, Z. Zhang, et al., Bioinformatics 35
интересов.
(22), 4586 (2019).
8. N. J. Loman, J. Quick, and J. T. Simpson, Nat. Meth-
СОБЛЮДЕНИЕ ЭТИЧЕСКИХ СТАНДАРТОВ
ods, 12, 733 (2015).
Настоящая работа не содержит описания ис-
9. C. L. Smith, S. R. Klso, and C. R. Cantor, Genome
следований с использованием людей и животных
analysis: A Practical Approach, Ed. by K. Davis (URL
в качестве объектов.
Press, Oxford, UK, 1987).
Efficiency of Identification of 5-Methylcytosine in Escherichia coli DNA Cells
that Carry Genes of Bacterial DNA-Methyltransferases
Using an Oxford Nanopore Device
V.V. Ilinsky*, **, E.M. Kozlova*, ***, S. Kh. Degtyarev****,
N.K. Yankovsky*, *****, and V.J. Makeev*, ***, ******, *******
*Vavilov Institute of General Genetics, Russian Academy of Sciences, ul. Gubkina 3, Moscow, 119991 Russia
**Genotek, Nastavnicheskiy per. 17/1, Moscow, 105120 Russia
***Moscow Institute of Physics and Technology, Institutskiy per. 9, Dolgoprudny, Moscow Region, 141701 Russia
**** Scientific Production Association “SibEnzyme”, ul. Akad. Timakova 2/12, Novosibirsk, 630060 Russia
*****Lomonosov Moscow State University, Vorobyovy Gory 1, Moscow, 119991 Russia
******Engelhardt Institute of Molecular Biology, Russian Academy of Sciences, ul. Vavilova 32, Moscow, 119991 Russia
*******National Research Center «Kurchatov Institute» - GOSNIIGENETIKA,
1-i Dorozhnyi proezd 1, Moscow, 117545 Russia
The MinION system (Oxford Nanopore Technologies Limited) was used for direct sequencing of genomic
DNA of two recombinant E. coli strains. In one case, the cells contained a plasmid with the M.HpaII gene of
DNA methyltransferase, which methylates the second cytosine in CCGG site; in the second case, the E. coli
strain contained M.HspAI DNA methyltransferase, which modifies the central cytosine in the GCGC se-
quence. In both cases, DNA methyltransferases methylate cytosine to 5-methylcytosine. It has been shown
that when DNA is sequenced at high coverage, the presence of 5-methylcytosine in DNA can be detected
with high accuracy. In particular, in E. coli DNA containing the cloned gene of DNA methyltransferase
M.HspAI, at 1300× coverage, 98.9% of the GCGC sites are identified as methylated at the first cytosine. At
the same time, only 0.09% of the remaining tetranucleotides, which have the CpG dinucleotide in the mid-
dle, give a false positive result being identified as methylated at the central cytosine. In the presence of the
gene of DNA methyltransferase M.HpaII, among the positions covered by more than 700 reads, 91.3% of all
CCGG sites are identified as methylated, while only 0.13% of other tetranucleotides with a central CG-dinu-
cleotide are identified as sites containing 5-methylcytosine in the second position. Therefore, when this
method is used, at least 700-1000× coverage is needed for accurate measurements of 5-methylcytosine and
elimination of false-positive results.
Keywords: nanopores, 5-methylcytosine, methylation, E. coli, DeepSignal
БИОФИЗИКА том 65
№ 6
2020