БИОХИМИЯ, 2021, том 86, вып. 12, с. 1826 - 1839
УДК 573
НЕСОСТОЯВШЕЕСЯ ИНТЕРВЬЮ С СИДНЕЕМ БРЕННЕРОМ:
ПРЕВРАЩЕНИЕ ДАННЫХ В ЗНАНИЕ, БИОИНФОРМAТИКА,
BIG DATA И … «IS WATER H2O?»
© 2021
Л.Г. Кондратьева1,2*, М.В. Патрушев1, Е.Д. Свердлов1*
1 НИЦ Курчатовский институт, 123182 Москва, Россия;
электронная почта: liakondratyeva@yandex.ru, edsverd@gmail.com
2 ФГБУН Институт биоорганической химии им. академиков М.М. Шемякина и Ю.А. Овчинникова РАН,
117997 Москва, Россия
Поступила в редакцию 10.11.2021
После доработки 10.11.2021
Принята к публикации 10.11.2021
Обзор представляет собой попытку объяснить некоторые непростые проблемы, связанные с попытками ра
зобраться в механизмах функционирования организмов, в частности, с использованием коллекций Big
Data (больших данных). Форма обзора - воображаемое интервью с одной из наиболее ярких фигур эпохи
возникновения молекулярной генетики и биологии, уникальным учёным и философом науки Нобелевским
лауреатом Сиднеем Бреннером, открывшим для науки замечательный объект исследования - прозрачного
1000 клеточного червя Caenorhabditis elegans и многое другое. Его размышления и выводы относительно не
избежного «конфликта» между быстрорастущими массивами данных (Big Data), получаемых с помощью
современных технологий секвенирования, и принципиальными ограничениями («запретами»), возникаю
щими потому, что сложные взаимодействующие системы (организмы) вследствие взаимодействий порож
дают непредсказуемые «возникающие» свойства, абсолютно актуальны для понимания нерешаемых проб
лем таких современных тенденций, как «системная биология». Помимо принципиальных ограничений, са
ми по себе Big Data страдают от серьёзных дефектов, среди которых наиболее явными являются скрытые
ошибки и принципиально низкая воспроизводимость. Отдельно следует отметить ещё один, возможно,
принципиальный барьер - неполноту данных (количество данных n ≠ all). Эту проблему демонстрируют два
небольших наиболее изученных организма, Escherichia coli (1600 генов, то есть 34,6% из 4623 уникальных ге
нов не имеют экспериментальных доказательств функционирования) и C. elegans с белками, идентифици
рованными примерно для 50% генов. Другой яркий пример - «искусственная» бактерия, JCVI syn3.0, с ми
нимальным набором генов в геноме. Из её 473 генов биологическая функция не приписана 149 (31,5%).
Бреннер указывает, что преобразование данных в знания представляет собой серьёзную проблему для буду
щих биологических исследований. Для этой цели биологии срочно нужна теоретическая база для её унифи
кации. При этом правильным уровнем исследований он считает клетку и предлагает проект CELLMAP, как
системы для организации биологической информации. Как абсолютно честный учёный, он говорит: «Если
бы я знал [как это делать], я бы делал это, а не писал о проблеме. Понять, как это делать - остаётся главной
проблемой биологических наук».
КЛЮЧЕВЫЕ СЛОВА: биоинформатика, Big Data, геном, системная биология, интервью, Сидней Бреннер.
DOI: 10.31857/S0320972521120071
ВВЕДЕНИЕ. КРАТКАЯ БИОГРАФИЯ
нием за её детальной структурой под микроско
СИДНЕЯ БРЕННЕРА
пом. Он мог окрашивать и проводить диссекцию
тканей для визуализации хромосом. Сидней уз
Сидней Бреннер родился в Южной Африке в
нал о концепциях теории информации и зарож
1927 г. Его отец был сапожником, евреем им
дающейся области информатики. В частности,
мигрантом из Литвы; его мать эмигрировала из
его очень поразила концепция фон Неймана.
Латвии. Сидней научился читать с помощью
В период учёбы он был вовлечён в левую поли
старых газет, и в возрасте 14 лет отправился в
тику, читал Ленина и Троцкого и приобрёл ост
Университет в Йоханнесбурге, чтобы изучать
рое понимание социального контекста науки.
медицину [1]. С самого начала ему удавалось
Это увлечение продолжалось до конца жизни.
совмещать формальную программу обучения с
В 1952 г. Бреннер получил стипендию на фа
работой в лаборатории. Он увлёкся методами
культете физической химии Оксфорда. Весной
окрашивания биологической ткани и наблюде
1953 г. группа оксфордских исследователей,
включая Бреннера, была приглашена в Кемб
* Адресат для корреспонденции.
ридж, чтобы увидеть модель двойной спирали
1826
НЕСОСТОЯВШЕЕСЯ ИНТЕРВЬЮ С СИДНЕЕМ БРЕННЕРОМ
1827
Джима Уотсона и Френсиса Крика. В 1956 г.
следователей со всего мира начали заниматься
Крик пригласил Бреннера в Кембриджский уни
молекулярной биологией, Крик и Бреннер на
верситет в Великобританию. В Кембридже Брен
чали готовиться к следующему этапу: пытаться с
нер провёл значительную часть своей жизни,
использованием нового молекулярного пони
тесно сотрудничая с Криком. В начале 1960 х гг.,
мания решить серию биологических проблем,
работая с бактериями и бактериофагами, Крик
каждая из которых будет основываться на ис
и Бреннер интерпретировали многие важные
пользовании конкретного биологического орга
функции генов. С конца 1950 х гг. и до конца
низма. Таким образом, наметился переход на
1970 х гг. Бреннер и Крик занимали одну комна
следующий уровень исследований - молекуляр
ту, сохраняя эту привычку, несмотря на серию
ные основы функционирования организма.
переездов возникшей Лаборатории молекуляр
В 1963 г. Сидней Бреннер писал руководителю
ной биологии (ЛМБ). В процессе этих передви
ЛМБ, Максу Перуцу: «Сейчас широко известно,
жений ЛМБ постепенно приобретала её нынеш
что почти все “классические” проблемы моле
нюю форму, становясь Лабораторий № 1 в моле
кулярной биологии либо решены, либо будут
кулярной биологии.
решены в ближайшее десятилетие... Из за этого
Со временем Бреннер стал одним из веду
я давно чувствовал, что будущее молекулярной
щих биологов 20 и 21 веков. Он был блестящим
биологии лежит в распространении исследова
экспериментатором и одним из самых умных и
ний на другие области биологии, особенно на
дальновидных учёных за последние 70 лет. Он
развитие и нервную систему» [5-7].
постоянно искал следующий большой вопрос.
Они составили список из четырёх видов,
Удивительно, но он поднялся на волнaх откры
каждый из которых позволял исследовать важ
тия трёх ключевых моментов биологии 20 го ве
ную биологическую проблему: фаг лямбда (про
ка: подъём молекулярной генетики, поворот к
ект L), мышь (проект M), нематода (проект N) и
пониманию генетических основ развития и раз
кишечная палочка (проект K). В то же время и
работка проектов генома.
по тем же причинам Сеймур Бензер (Seymour
Бреннер теоретически доказал в середине
Benzer, 1921-2007) решил изучить нейрогенети
1950 х гг., что генетический код «не перекрыва
ку дрозофилы, а Крик в конечном итоге обра
ется» - каждый нуклеотид является частью
тился к изучению механизмов сознания. Сид
только одного триплета (три нуклеотида опреде
ней был в авангарде этого шага: его первона
ляют каждую аминокислоту в белке), а последу
чальная цель состояла в том, чтобы использо
ющие «триплетные кодоны» читаются по поряд
вать стратегии молекулярной генетики, разра
ку. В 1961 г. Бреннер и Крик доказали это экспе
ботанные на прокариотах. Но в отличие от мно
риментально [2].
гих его современников, которые остановились
В том же году Бреннер вместе с Франсуа Жа
на хорошо зарекомендовавших себя модельных
кобом и Мэтью Мезельсоном (все из поколения
системах, таких как Drosophila, Сидней отпра
научных гигантов, которые формулировали ги
вился на поиски многоклеточного организма,
потезы и умели их обосновывать эксперимен
которого можно было бы поддерживать и раз
тально) опубликовали экспериментальное под
множать на чашках с агаром так же эффективно,
тверждение существования информационной
как это делалось для изучения бактерий и фа
РНК, которая переносит информацию от ДНК
гов [1].
к белкам [3].
Принцип Бритвы Оккама гласит: «Не следу
Наступила эпоха центральной догмы моле
ет привлекать новые сущности без крайней на
кулярной биологии: генетическая информация
то необходимости». Бреннер использовал этот
передаётся от нуклеиновых кислот к белку, но не
принцип, по видимому, рефлекторно, врождён
в обратном направлении. Правило было сфор
но.
мулировано Френсисом Криком в 1957 г. и
После нескольких лет изучения различных
опубликовано в 1958 г. [4]. В течение следующих
видов к 1963 г. Бреннер решил изучать прозрач
двух лет с помощью Крика Бреннер установил,
ного червя Caenorhabditis elegans для решения
как завершается синтез белков, кодируемых
новой важной проблемы молекулярной биоло
последовательностями ДНК.
гии (на самом деле, это была не молекулярная
Революционный момент в научной карьере
биология, а биология организма): генетика и
Бреннера наступил, когда вместе с Криком он
биохимия механизмов контроля клеточного
решил, что интересная часть молекулярной био
развития [8, 9]. Это была смена парадигм, кото
логии позади. (Заметьте, это произошло в пери
рая описывалась философом науки Куном [10].
од начала расцвета молекулярной биологии и
Кун разделял развитие науки на различные пе
генетики, который эти два индивидуума в зна
риоды: 1) нормальная наука, согласие между
чительной степени выковали!) Когда тысячи ис
учёными, накапливается новое знание; 2) кри
БИОХИМИЯ том 86 вып. 12 2021
1828
КОНДРАТЬЕВА и др.
зисный период, рождаются новые проблемы,
глава «Refuge of spandrels» в книге «Loose Ends
которые не находят адекватные решения; 3) пе
and False starts» [15], и её заглавие, скорее всего,
риод научной революции, когда существующий
должно быть переведено как прибежище беспо
набор парадигм отбрасывается в пользу других.
лезных, но неизбежных. Хотя это всё равно
Появляются новые идеи, новые технологии, ко
несправедливо по отношению к биоинформати
торые позволяют отвергнуть отжившие части
ке. Но мы обсудим это в воображаемом ин
научной структуры и сделать ещё один шаг к ис
тервью.
тине. При этом сторонники старой парадигмы
Решение Бреннера исследовать организм
оказывают ожесточённое сопротивление аполо
повлекло за собой изменение методологической
гетам новой. В случае Бреннера - это была
базы, в частности использование электронной
счастливая революция без борьбы и сильного
микроскопии для идентификации клеток в чер
сопротивления. Это стало возможным благода
вях и применение компьютеров для обработки
ря высокому авторитету, который Бреннер при
данных. Это изменило подходы к науке. Из ис
обрёл благодаря всем своим предыдущим успе
тории исследований C. elegans под эгидой Брен
хам. И, конечно же, благодаря поддержке таких
нера [16] видно, что Бреннер (сам) начал их
гигантов, как Френсис Крик [11]. Вот оценка са
примерно в 1966 г. Первая статья по генетике и
мого Бреннера: «Некоторые люди думали, что
ряду мутантов C. elegans, написанная исключи
наш подход слишком “биологический” и уведёт
тельно Бреннером, появилась только в
нас от молекулярной биологии, но в любом слу
1974 г. [17]. Восемь лет он работал без единой
чае нас попросили сделать официальное пред
публикации. Сегодня невозможно представить,
ложение, и в октябре 1963 г. соответствующий
чтобы эффективность учёного оценивали не по
документ был представлен Совету» [12].
количеству опубликованных им статей.
В годы, когда Бреннер работал над проектом
Сидней Бреннер сделал C. elegans центром
нематоды в Кембридже, была особая атмосфера.
внимания биологов [6, 18].
В любое время дня и ночи там можно было най
В 1974 г. Сидней и его сотрудник Джон Салс
ти Сиднея в генетической лаборатории у компь
тон (John Sulston, 1942-2018 гг. [19]) подсчита
ютера или у электронного микроскопа [9].
ли, что геном C. elegans примерно в 20 раз боль
Не зря Бреннера называли мятежным лиде
ше, чем геном E. coli, и начали думать об уста
ром золотого века молекулярной биологии
новлении последовательности этого генома. Ра
(Mischievous steward of molecular biology’s golden
бота по секвенированию полного генома, как и
age) [11]. Он всегда старался найти более рацио
вообще все работы по секвенированию полных
нальное объяснение имеющимся фактам. Иног
геномов, были революционизированы появле
да в шутливой форме. Так и для смены парадигм
нием методов клонирования ДНК и разработ
он нашёл своё (почти) объяснение: «Часто но
кой Сэнгером и Максамом с Гилбертом методов
вая волна встречает сильное сопротивление, но,
быстрого секвенирования ДНК. Полная после
как указывал Макс Планк, она побеждает, пото
довательность генома C. elegans была опублико
му что оппоненты стареют и умирают. Процесс
вана в 1998 г., это была первая полногеномная
затем повторяется. Радикалы становятся либе
последовательность многоклеточного организ
ралами. Либералы становятся консерваторами,
ма [20]. Эта 97 мегабазная геномная последова
консерваторы реакционерами, и реакционеры
тельность содержит более 19 000 генов.
исчезают» [13].
Бреннер понимал, что возможность сравни
Иногда его оценки были слишком резкими.
вать последовательности генома разных орга
Например, такая история:
«Однажды меня
низмов открыла бы целую большую область
представили сэру Сиднею Бреннеру, как челове
сравнительной геномики, которая привела бы к
ка, занимающегося “биоинформатикой”. Док
более глубокому понимание того, как эволюци
тор Бреннер от души рассмеялся и сказал: “Био
онные механизмы приводят к видовому разно
информатика? Последнее прибежище негодяев
образию. Но для секвенирования многих гено
(The last refuge of scoundrels)”. Я указал, что ра
мов необходимы более быстрые и экономичные
ботаю над предсказанием структуры белков, и
методы массового секвенирования, чем те, ко
он ответил: “О, это другое. НАМНОГО ЛУЧ
торые использовались для проектов C. elegans и
ШЕ”. Это было большим облегчением для ме
генома человека. И в 1994 г. он предложил тех
ня» [14]. Наверное, автор ошибся и перепутал
нологию для массового параллельного секвени
scoundrel и SPANDREL. Первое действительно
рования, в которой использовались полинукле
означает негодяй, мерзавец, тогда как второе
отиды, связанные с иммобилизованными мик
(НАМНОГО ЛУЧШЕ): это неизбежные и бес
рогранулами (microbeads) [21, 22]. Хотя эта тех
полезные пространства в архитектуре сложных
нология не вошла в практику, она стала мощ
сооружений. У Бреннера есть широко известная
ным двигателем в быстроразвивающейся облас
БИОХИМИЯ том 86 вып. 12 2021
НЕСОСТОЯВШЕЕСЯ ИНТЕРВЬЮ С СИДНЕЕМ БРЕННЕРОМ
1829
ти и в конечном итоге вылилась в одну из доми
Даже на этом этапе он каждое утро ходил в лабо
нирующих технологией секвенирования фирмы
раторию, обсуждал последние результаты своих
«Illumina».
молодых коллег, вносил предложения по их экс
Здесь хотелось бы упомянуть, что уже в кон
периментам и работал над своим последним не
це 1980 х гг. в Институте молекулярной биоло
опубликованным проектом: понимание струк
гии АН СССР под руководством академика
туры генома.
Андрея Мирзабекова активно шли работы по
Бреннер породил поколение выдающихся
разработке нового метода секвенирования ДНК
учёных, в том числе 5 лауреатов Нобелевской
на микрочипах с использованием близкой идео
премии. В значительной степени молекулярная
логии секвенирования, основанного на гибри
биология перешла на новый уровень… [11, 30].
дизации коротких олигонуклеотидов, иммоби
Что очень важно, в отличие от громадного
лизованных на оригинальной российской мат
большинства современников Сидней не попа
рице. Приоритетная российская публикация
дал в ловушку мнения большинства и загляды
появилась в печати в журнале
«DNA
вал в будущее человечества: «Я думаю, что наи
Sequence» [23]. Также можно упомянуть, что
более важные успехи будут достигнуты в пони
стратегию быстрого секвенирования ДНК на
мании биологии наиболее интересного вида -
основе специфического химического расщепле
Homo sapiens. Я думаю, что благодаря этому по
ния, которая длительно использовалась в мето
ниманию мы сможем оценить различия между
де Максама-Гилберта, была предложена нами в
развитыми и разработанными сложными систе
70 х гг. [24-26].
мами. Это если мы вообще выживем... Конечно,
В области сравнительной геномики Бреннер
даже если произойдёт крупная катастрофа, не
предложил использовать геном рыбы фугу, Fugu
которые из нас выживут. Тогда природа возьмёт
rubripes, который содержал в 8 раз меньше ДНК,
верх, и биологическая эволюция начнётся сно
чем у человека, при примерно таком же количе
ва, поскольку культурная эволюция потерпит
стве генов [27]. Полная последовательность бы
неудачу. Я с уверенностью предсказываю, что
ла опубликована в 2002 г. [28].
будет выбор в пользу маленьких людей с телом,
Бреннер также принимал активное участие в
достаточным для поддержки необходимого ко
организации науки и формировании направле
личества умственных способностей
Наши
ний её практического применения. В 1975 г.
преемники будут поражены количеством обсуж
вместе с Полом Бергом и другими он организо
даемого сегодня научного мусора, если у них
вал знаменитую встречу в Асиломаре, Калифор
хватит терпения пролистать электронные архи
ния, нацеленную на формирование способов
вы устаревших журналов» [31].
использования новых технологий генной инже
Сегодня предсказания Бреннера вот вот
нерии. Его популярные колонки в Current
осуществятся. Мы на грани катастрофы [32]:
Biology (названные «Свободные концы», а затем
климатической, биосферной и демографичес
«Ложные начала», Loose Ends and False Starts,
кой. Учёные бьют тревогу. Правительства прак
собранные в книгу [29]) в середине 1990 х гг.
тически бездействуют. Народ веселится. Тита
пользовались большим успехом в научной среде.
ник тонет, а оркестр играет бодрые песни.
Почти 10 лет он был директором известной
Лаборатории молекулярной биологии. В 1986 г.
он перешёл в новый отдел молекулярной гене
НЕСОСТОЯВШЕЕСЯ ИНТЕРВЬЮ
тики Совета медицинских исследова
С СИДНЕЕМ БРЕННЕРОМ
ний (MRC), где начал исследования в области
эволюционной геномики. В начале 1990 х гг.
A big computer, a complex algorithm,
Бреннер также координировал участие Вели
and a long time does not equal science.
кобритании в зарождающемся проекте «Ге
Robert Gentleman
ном человека».
В последний период своей жизни Бреннер
Поиск истины в условиях предвзятости публикаций
путешествовал по миру. В этот период он был
впечатлён динамизмом Сингапура, где он помог
Евгений Свердлов (Е.С.). Существует обыч
создать центр биомедицинских исследований
ный (и сильный) bias (предвзятость) в публикаци
«Биополис» и стал важной фигурой в Агентстве
ях. Др. Бреннер, я в последние годы очень инте
по науке, технологиям и исследованиям. Он
ресуюсь проблемами, связанными с потенциа
также помог реструктурировать молекулярную
лом науки в расшифровке механизмов функцио
биологию в Японии. Именно в Сингапуре он
нирования сложных живых систем. Понятно,
провёл свои последние годы, не имея возмож
что большие надежды в этой расшифровке воз
ности путешествовать по состоянию здоровья.
лагают на компьютерные технологии и, в част
БИОХИМИЯ том 86 вып. 12 2021
1830
КОНДРАТЬЕВА и др.
ности, на биоинформатику. Мы живём в период
которую, кстати, высоко оценил «отец библио
всеобщих восторгов по поводу биоинформатики
метрии» Евгений Гарфилд, я высказал мнение,
(определение см. в Частях 1 и 2 Приложения), и
что любые библиометрические данные, в том
существует обычный (и сильный) bias в публи
числе цитируемость отдельных статей в качестве
кациях (см. Часть 3 Приложения), который, в
независимой меры оценки научной значимости
частности, выражается в предвзятости ревьюе
работ учёного, не могут служить критерием эф
ров и редакторов журналов, которые предпочи
фективности исследований или ценности пуб
тают публиковать позитивные оценки теорий,
ликаций. Потом я много раз возвращался к этой
вписывающихся в рамки существующих пара
проблеме, но тщетно.
дигм, и отвергают всё, что в них не вписывается.
С.Б. Не все согласились бы с критериями выбо
Сидней Бреннер (С.Б., перебивает). Сегодня
ра [статей для публикации]. Авторов бесит бес
Бог никогда не получит грант на исследования.
церемонность, с которой редакторы и рецензен
Да, я об этом много писал и говорил в своих
ты относятся к их великим произведениям; ре
выступлениях [29]: манускрипты, поданные на
дакторы жалуются на огромное количество
публикацию, теперь подвергаются микроскопи
скучных и повторяющихся манускриптов, кото
ческому исследованию, но, к сожалению, не их
рые они получают; и рецензенты жалуются на
научное содержание. То, что ищется, это с кем
мусор, на чтение которого им приходится тра
ты пишешь статьи, и где они опубликованы. Се
тить своё драгоценное время. Когда понимаешь,
годня Бог никогда не получит грант на исследо
что довольно часто это одни и те же люди, тогда
вания. Один член редколлегии будет отрицать
очевидно, что у нас серьёзная проблема.
это на том основании, что работа была сделана
Все в биологии знают, что необходимо разде
очень давно; второй подтвердит это, отмечая,
лить то, что считается важными новостями, и
что это никогда не было воспроизведено. Отказ
то, что является достойным (но не слишком но
будет подхвачен третьим членом, указавшим,
вым или значительным) дополнением к архиву.
кроме всего прочего, что работа была опублико
Некоторые журналы считают, что это их право и
вана в нерецензируемом журнале.
обязанность решать, что доносить до своих ау
Прежде чем развивать псевдонауку анализа
диторий, оставив большую часть исследований
цитирования, мы должны напоминать себе, что
для «более технических журналов». Из за этой
самым главным является научное содержание
общепризнанной политики журналы имеют вы
статьи, и ничто не заменит её знание или чте
сокую видимость, подкреплённую желанием
ние. Мы должны также признать, что цитирова
каждого появиться на их страницах. Хотя мно
ние часто даёт нам больше информации о соци
гие согласны с такой политикой, не все - и осо
ологии науки, чем о самой науке. В быстро раз
бенно те, кто не избран, - согласились бы с кри
вивающихся областях продолжительность жиз
териями выбора.
ни средней статьи очень мала, возможно, всего
Это таит в себе опасность того, что все из
несколько месяцев, прежде чем она полностью
бранные образуют клубы, а те, кто отброшены,
исчезает, и о ней больше никогда не будет упо
сформируют свой клуб, из которого, конечно,
минаний. Мне говорили, что по физике только
они смогут исключить других. Это легко повто
несколько статей с возрастом более 25 лет все
рить, поэтому количество журналов будет про
ещё цитируется. Это должно быть очень прият
должать расти, пока существуют группы, кото
но иметь работу в этом классе, но ещё лучше
рые чувствует себя исключёнными. Опублико
быть автором работы, которая так хорошо изве
вать свои работы в нужных журналах стало поч
стна, что не требует литературного цитирова
ти так же сложно, как и выполнить само иссле
ния. Если при написании теперь процитируют
дование.
Уотсона и Крика (1953 г.), то это, вероятно, бу
Основная проблема, с которой мы сталкива
дет рассматриваться как шутка [29].
емся, - что делать с бесконечно растущим архи
Самое тревожное развитие состоит в том, что
вом полученных научных результатов в массив
рейтинг цитирования, кажется, принят очень
ных томах журналов. Читать статью становится
серьёзно. Все мы знаем, что наиболее цитируе
испытанием на физическую силу.
мые статьи - это те, которые содержат широко
Один из моих самых циничных друзей ска
используемый рецепт или метод [29].
зал, что единственный способ быть абсолютно
Е.С. Миражи цитируемости. Др. Бреннер, на
справедливым в принятии решений по заявкам
минуточку вклинюсь. Я хорошо понимаю Ваше
на гранты, - это создать экспертную комиссию,
возмущение. В 2006 г. я написал на эту тему
которая совершенно невежественна и не заин
статью: «Миражи цитируемости. Библиометри
тересована, таким образом, гарантируя, что лю
ческая оценка значимости научных публикаций
бые предубеждения, которые могут возникнуть
отдельных исследователей» [33]. В этой статье,
из знания предмета, полностью исключены.
БИОХИМИЯ том 86 вып. 12 2021
НЕСОСТОЯВШЕЕСЯ ИНТЕРВЬЮ С СИДНЕЕМ БРЕННЕРОМ
1831
Е.С. Есть возможность прибегнуть к помощи
тельно поддерживаю, но я также не могу ска
блогов. Они показывают резкое изменение отно
зать, что он полностью ошибочен».
шения к биоинформатике в 2010 г. Спасибо, Док
Этот автор написал: «Биоинформатика - это
тор Бреннер. Я, с Вашего позволения, продолжу
попытка сделать молекулярную биологию акту
относительно предубеждённости редакторов и
альной. Все молекулярные биологи, лишённые
рецензентов. В последнее время появилась воз
навыков, превышающих навыки лаборанта,
можность прибегнуть к помощи блогов, где учё
взывали к математикам и программистам, что
ные могут позволить себе высказать своё мне
бы они волшебным образом извлекли науку из
ние без опасения быть неопубликованным. Эта
их горы дерьмовых результатов.
идея проникла в научное сообщество (см., на
И вот программисты спустились и построи
пример [34, 35]).
ли гигантские базы данных, в которых можно
Ведение блогов стало широко распростра
было быстро искать огромное количество дерь
нённым социальным явлением. В настоящее
мовых результатов. Они написали алгоритмы,
время блоги признаны средством беспрецедент
чтобы систематизировать дерьмовые результаты
ной силы для распространения информации.
в виде деревьев и построить из них красивые
Научное сообщество подхватило эти методы, и в
графики, а молекулярные биологи старательно
настоящее время существует более 1200 блогов,
избегали сообщать программистам фактическое
посвящённых учёным и их беседам [34].
качество результатов. Когда для всех участников
Издатели начали ценить потенциал блогов
стало очевидно, что какой то массив результа
по более интерактивному взаимодействию со
тов, например данные, полученные с помощью
своими читателями, по продвижению обсужде
микрочипов, бесполезен, последовала волна
ния содержания своих журналов. У многих
разговоров о том, что “эти данные не совсем ко
крупных журналов теперь есть собственные
личественные, но мы можем сделать качествен
блоги [34]. Я тоже попытался воспользоваться
ные выводы”, после чего последовал поспеш
этой возможностью и посмотрел блог Дерека
ный переход на новую технику, бесполезность
(Derek Lowe - a science writer), дающий оценки
которой ещё не была доказана.
биоинформатике в разные годы.
И базы данных росли, и все аннотировали
18 июня 2010 г. в его блоге [36] перед читате
свои данные путём поиска в базах данных, а за
лями был поставлен вопрос: «Что биоинформа
тем отправляли их обратно в базы данных. Ка
тика когда либо сделала для нас (What Has
жется, никто не указал, что это делает вашу базу
Bioinformatics Ever Done For Us)?» Приведу не
данных отражением вашей базы данных, а не
сколько типичных ответов на этот вопрос.
реальности. Вытащите какую нибудь аннота
1) Биоинформатика является основой сов
цию из GenBank сегодня, и не так уж маловеро
ременной биологии - представьте, насколько
ятно, что она полностью неверна».
бесполезной была бы любая последователь
Далее следовали более 60 комментариев в
ность ДНК (особенно целая) без инструментов
целом согласных с этой точкой зрения.
для их исследования. … Находка, что «бакте
Что же изменилось с 2010 г.? Рисунок пока
рии» распались на две древние расходящиеся
зывает скорость роста сиквенсовой информации
клады (Eubacteria и Archea), произошла исклю
по годам, и можно видеть, что 2010 г. в какой то
чительно на основе сравнения последователь
степени переломный: примерно с этого времени
ностей. И открытие того, что Archea действи
начинается взрывной рост информации о после
тельно больше похожа на эукариот в большин
довательностях нуклеиновых кислот и белков.
стве своих механизмов ... произошло исключи
Это связано с новыми технологиями секвениро
тельно благодаря просмотру последовательнос
вания (next generation sequencing, NGS) [38, 39].
тей.
Общее количество данных о последовательнос
2) Очевидный ответ - это BLAST и последу
тях удваивается примерно каждые 7 месяцев.
ющие выводы о сходстве последовательностей.
Необработанные показания секвенирования,
3) Ни один из противовирусных препаратов,
используемые в большинстве опубликованных
одобренных за последнее десятилетие, не поя
исследований, архивируются либо в Архиве дан
вился бы на рынке без биоинформатики для
ных секвенирования (Sequence Read Archive,
анализа данных о мутациях резистентности.
SRA), который поддерживается Национальным
В целом практически все ответы весьма по
центром биотехнологической информации На
зитивно оценивают биоинформатику.
ционального института здравоохранения США
В 2013 г. Дерек опубликовал скетч «Farewell
(NIH/NCBI), либо в одном из его международ
to Bioinformatics» [37], где он привёл высказыва
ных партнеров. В настоящее время SRA содер
ние одного из авторов и комментировал его:
жит более 3,6 петабайт (ПБ) данных и, по прог
«Вот разгневанный взгляд, который я не обяза
нозам, вырастет до 43 ПБ к 2023 г. В частности,
БИОХИМИЯ том 86 вып. 12 2021
1832
КОНДРАТЬЕВА и др.
там есть последовательности геномов растений
1) Большие данные = большой шум, слабый
и животных и ~250 000 индивидуальных гено
сигнал. «Получение большого количества не
мов человека, которые секвенированы или на
верных данных не помогает».
ходятся в стадии разработки. Объём хранилища
2) Со всеми деньгами, временем, презента
становится всё дороже в обслуживании, а дан
циями, публикациями и общей суетой, затра
ные труднее масштабировать. В настоящее вре
ченными для секвенирования ДНК больных ра
мя мировая производственная мощность по сек
ком, узнали ли мы что нибудь действенное?
венированию, вероятно, превышает 35 пета
И можно утверждать, что мы никогда не узна
баз (petabases) в год [40]. Если рост продолжится
ем, потому что рак по определению имеет сотни
с теми же темпами, то к 2025 г. эта цифра приб
зависимых мутаций. …Big Data, небольшие дан
лизится к одной зеттабазе (zettabase) последова
ные, любые данные - все это бесполезно, если
тельностей в год. В общей сложности к 2025 г.
вы не измеряете что то реальное и повторяе
будет расшифровано не менее 2,5 млн последо
мое.
вательностей геномов растений и животных.
3) Какой смысл подгонять всё больше и
Таким образом, проблемы перед вычисли
больше переменных ко всё большему количест
тельными мощностями невероятно возрастут
ву данных, чтобы проверить всё больше и боль
(Computational challenges will thus incredibly
ше потенциальных корреляций, когда половина
increase [40]).
данных всё равно не может быть воспроизведе
21 октября 2016 г. всё тот же Дерек опублико
на? (Е.С. см. мою статью [43].)
вал блог: «Ограничения Big Data» [42].
4) Раньше я работал с большими данными и
Из введения Дерека: «Данные помогут вам
обнаружил, что это в основном GIGO (Garbage
только постольку, поскольку они ведут к боль
In, Garbage Out, мусор на входе, мусор на выхо
шему пониманию. Усилия по работе с Big Data
де). Хуже того, «мусор» - это, по сути, шум, ко
помогут, но они не сразу откроют руководство к
торый заглушает любые полезные данные.
действию».
Sic transit gloria mundi. Биоинформатика
Эта статья в блоге привлекла 40 комментари
вступила в сферу Big Data. И это оказалось выше
ев, некоторые из которых заслуживают внима
уровня её компетенции.
ния, потому что исследователи, написавшие
Е.С. «Big Data» и проблема полноты данных.
комментарии, работают с биологическими и био
n (количество данных) = all (все)? Др. Бреннер, я
медицинскими базами данных, содержащими
читал, что однажды Вы сказали, что хотели бы
соответствующие Big Data. Ниже я привожу
построить Грифона [14], мифологическое суще
несколько типичных комментариев.
ство с головой, крыльями и когтями орла и те
Рост общемировой производительности секвенирования ДНК. Значения после 2020 г. (пунктирные линии) представляют
собой прогноз по трём различным сценариям (изменено из [40, 41])
БИОХИМИЯ том 86 вып. 12 2021
НЕСОСТОЯВШЕЕСЯ ИНТЕРВЬЮ С СИДНЕЕМ БРЕННЕРОМ
1833
лом льва, поскольку, только построив такой ор
чества к качеству. Но крайне редко можно найти
ганизм, Вы могли бы утверждать, что понимаете
критическую статью, призывающую к точной
до малейших деталей, как работает развитие ор
оценке творческого потенциала биоинформати
ганизма. Вы и искали в конце 1960 х гг. подходя
ки больших данных.
щий организм для изучения развития, содержа
Обычно там, где новые технологии обещают
щий относительно мало клеток, так чтобы мож
«большие успехи», как и в случае с большими
но было получить исчерпывающие данные:
данными, серьезные проблемы остаются или
n = all. И нашли C. elegans. Меньше 1000 клеток.
возникают [48]. Настоящая полезность больших
Но позже, если позволите, я вернусь к этой
данных может заключаться в их сочетании с
проблеме, потому что, как я понимаю, даже в
классическими методами, основанными на ги
этом случае полноты данных достичь не удалось.
потезах. При использовании обоих может повы
Что касается «Big Data», то, несмотря на ши
ситься клиническая эффективность и умень
рокое использование термина, согласованного
шиться эффект «Garbage in» и, как следствие,
или единого определения «больших данных» не
«Garbage out», Gigo.
было и нет. И здесь в полный рост возникает
С.Б. Попытки получить концептуальные зна
проблема полноты данных, т.е. насколько n (ко
ния из огромных коллекций Big Data. Компьютеры
личество данных) = all (все)? Многие авторы об
могут извлекать биологическое значение непос
суждали двусмысленность, связанную с терми
редственно из последовательностей ДНК?
ном «Big Data». В глобальном интернет слова
Биоинформатика имеет своё место. Её ос
ре IGI можно найти 217 его определений [44].
новная деятельность была полезной в том, что
Среди них 16 содержат утверждения, что эти
большие массивы данных теперь можно легко
данные превышают возможности обычно ис
использовать для исследований. Однако идея о
пользуемого оборудования и программного
том, что данные последовательности могут до
обеспечения. Более того, иногда авторы прямо
бавить дополнительную информацию к той, ко
указывают, что данные становятся большими
торую дадут нам знания о функциях, неуместна.
данными, когда их объём, разнообразие и ско
Для этого мы должны сделать больше, чем пе
рость превышают возможности архитектуры и
регруппировать то, что известно; и нужна тео
алгоритма нашей системы (см., напри
рия, которую мы можем проверить. Предмет,
мер [45, 46]). Некоторые авторы считают, что
который будет развиваться, следует назвать «Тео
можно определить Big Data, как полную коллек
ретической Биологией», но так как это название
цию данных, которая содержит все данные, су
имеет плохую репутацию, мы назовём это
ществующие в исследуемой области, и может
«Компьютационной биологией». Последова
быть описана просто как n = all. Полнота явля
тельность станет инструментом исследования,
ется важным аспектом крупномасштабных био
как от неё ожидали, а не самоцелью. Вероятно,
логических исследований [47].
что проекты генома для C. elegans и Drosophila
Однако, кажется, сложно (если возможно)
окажут такое же влияние на эти области иссле
даже дать определение полноты. Достижение
дований в основном из за большого числа ис
n = all для многих биологических данных может
следователей, которые могут немедленно ис
быть недостижимой или нереальной целью.
пользовать этот продукт [29].
Вопрос в том, есть ли момент, когда сбор данных
С геномами позвоночных мы обнаруживаем,
«достаточно хорош», даже если он не является
что на первый план выходит новая идея. Грубо
исчерпывающим.
говоря, сторонники этого явления пришли к
В общем, доступные знания обычно фраг
выводу, что компьютеры могут извлекать биоло
ментарны, разрознены и разбросаны по много
гическое значение непосредственно из последо
численным базам данных и бесчисленным ин
вательностей ДНК. Этот подход породил два
формативным статьям. Не менее важно преоб
новых направления деятельности. Одно - био
разовать полученные знания в полезную инфор
информатика, которая просто претенциозно
мацию. Однако реализовать это по прежнему
пытается произвести впечатление, что имеет
сложно [34]. Big Data не могут установить при
большее значение или заслуги, чем имеет на са
чинно следственную связь [47].
мом деле; другое - функциональная геномика -
В заключение: пока информация полная и
нелепа. Последнее использует первое, чтобы по
стоит задача её систематизировать, биоинфор
пытаться найти функцию из последовательнос
матика находится на своём уровне компетен
ти генов. Я не думаю, что есть какие нибудь фа
ции. Но она не может дать положительный дос
культеты университета, посвящённые этим
товерный результат при анализе неполных или
предметам, но, безусловно, растёт число компа
ошибочных или неполных и ошибочных дан
ний, занятых одной или двумя этими проблема
ных. Произошёл классический переход от коли
ми [29].
7 БИОХИМИЯ том 86 вып. 12 2021
1834
КОНДРАТЬЕВА и др.
Я начал свою Нобелевскую лекцию первыми
Но профессор Вигнер и другие биологичес
словами из моей статьи по нематоде в 1974 г.
кие организмы не производятся путём конден
«The genetics of Caenorhabditis elegans» [17]: «Как
сации в пакете элементарных частиц, а «форми
гены могут определять сложные структуры, об
руются» некоторыми очень особенными про
наруженные у высших организмов, - главная
цессами, которые, конечно, происходят в соот
нерешённая проблема биологии».
ветствии с законами физики, но не могут быть
Выступая в 2008 г. на симпозиуме в Индии, я
напрямую выведены из них.
сказал [49]: «Существует кризис во всех науках в
Проблема с физикой состоит в том, что её
наши дни. Мы тонем в море данных, и всё таки
самые глубокие заявления совершенно непо
мы томимся от жажды. Сегодня наука вознаг
нятны почти всем, кроме самых глубоких физи
раждает только тех, кто коллекционирует и
ков, и, хотя заявления вполне могут быть абсо
распределяет данные... Данные являются заме
лютно правдивыми, все они довольно бесполез
нителями мышления».
ны, если моя цель - понять E. coli.
«Самое время остановиться и спросить самих
Бесполезно сожалеть о кончине золотого ве
себя: что мы ожидаем найти в конце этой громад
ка молекулярной генетики, когда многое было
ной головоломки омиков» (omic brainbow) [50].
достигнуто путём объединения мысли с не
С.Б. Превращение данных в знание - большая
сколькими хорошо подобранными эксперимен
проблема.
«Превращение данных в знание
тами с простыми вирусными и бактериальными
представляет собой большую проблему для бу
системами. Также бесполезно осуждать нынеш
дущих биологических исследований. Новая нау
ний подход биологии «низкие затраты, высокая
ка, системная биология, заявляет, что она спо
производительность, отсутствие результатов»,
собна решить эту проблему, но я утверждаю, что
который доминирует на страницах наших остро
этот подход потерпит неудачу» [51].
конкурирующих научных журналов. Мы долж
Идея, если её можно так назвать, состоит в
ны с распростёртыми объятиями приветство
том, чтобы взять миллионы точек данных и про
вать всё, что могут предложить нам современ
пустить их через некую компьютерную програм
ные технологии, но мы должны научиться ис
му, и посмотреть, какие ассоциации могут быть
пользовать их по новому. Биологии срочно
обнаружены. Некоторые даже намекнули на
нужна теоретическая база для её унификации, и
анализ данных Фурье, но, что наиболее неспра
только теория позволит нам преобразовать дан
ведливо, один из миссионеров новой области
ные в знания [51].
заявил, что это освободит нас от «оков биологи
С.Б. Геном должен лежать в основе любой тео
ческих исследований, в которых доминируют
рии, которую мы строим. Но нет простого спосо
гипотезы». Проще говоря, вам не нужно больше
ба картировать организм на его геном. «Геном
думать, чтобы проводить исследования. Неуже
должен лежать в основе любой теории, которую
ли мы действительно собираемся вступить в фа
мы строим, но так как преобразование инфор
зу упадка биологии, в которой учёные не смогут
мации в геноме в конечный живой организм
увидеть, в чём заключаются проблемы, или, ес
включает в себя множество сложных процессов,
ли они это сделают, не смогут сформулировать
опосредованных молекулами, запрограммиро
вопросы, на которые можно было бы ответить
ванными в геноме, всё это нужно будет изучить
либо путём наблюдения и измерения, либо пу
довольно подробно, прежде чем мы сможем чи
тём вмешательства и эксперимента [29]?
тать и понимать геномы. Нет простого способа
Биология отличается от физики тем, что ор
“картировать” организмы на их геномы, если
ганизмы появились путём естественного отбора,
они достигли определённого уровня сложности.
а не как решения математических уравнений.
Таким образом, хотя последовательность гено
Много лет назад я слышал, как великий теоре
мов является центральной, она представляет со
тический физик, Юджин Вигнер, выступал с
бой уровень абстракции, который является
докладом про нефизические или «чудесные»
слишком загадочным, чтобы использоваться
свойства биологической системы. Он утверж
как таковой для организации данных и построе
дал, что невозможно получить достаточное ко
ния теоретических моделей. Предложения ос
личество уравнений для определения квантовых
новывать всё на последовательности генома, ан
состояний и что что то ещё должно было быть
нотируя его дополнительными данными (Пря
вовлечённым - возможно, сознание.
мая задача. - Е.С.), будут приводить только к
Я указал, что если я возьму профессора Вигне
увеличению его непонятности» [51].
ра и разложу его на ансамбль элементарных час
E.C. Сложные системы. Возникающие в слож
тиц, шансы на то, что они снова соберутся в одно
ных системах свойства непредсказуемы. Is water
го и того же профессора Вигнера с акцентом, бу
H2О? В этой связи я хотел бы ещё раз подчерк
дут равны нулю и действительно потребуют чуда.
нуть то, что уже давно присутствует в нашей бе
БИОХИМИЯ том 86 вып. 12 2021
НЕСОСТОЯВШЕЕСЯ ИНТЕРВЬЮ С СИДНЕЕМ БРЕННЕРОМ
1835
седе, но не получило чёткого определения. Это
ки работают». В мгновение ока я увидел исто
то, что называется «сложной системой». Слож
рию о прибытии Френсиса на небеса, и апостол
ная система - многокомпонентная система,
Пётр приветствует его словами: «О, Доктор
состоящая из взаимодействующих субъединиц,
Крик, вы, должно быть, устали после долгого
результатом взаимодействия которых являются
путешествия. Садитесь, есть выпить, и рас
так называемые возникающие (emergent) свой
слабьтесь». «Нет», - говорит Френсис: «Я дол
ства, присущие целой системе и не предсказуе
жен увидеть этого парня, Бога. Я должен задать
мые на основании свойств исходных субъеди
ему вопрос». После некоторых уговоров ангел
ниц.
соглашается привести Френсиса к Богу. Они пе
В своё время я нашёл в Интернете замеча
ресекают среднюю часть неба и подходят к са
тельный и наглядный пример сложной системы.
раю с крышей из гофрированного железа. А в
Заметка называлась: «Is water H2O?» Ответ на за
задней части сидит человечек в комбинезоне с
данный в заголовке вопрос кажется очевидным:
большим гаечным ключом в заднем кармане.
«Конечно». На самом деле H2O - это только
«Бог», - говорит ангел: «Это доктор Крик; Док
структура молекул, из которых состоит вода. Но
тор Крик, - это Бог». «Я очень рад познако
формула мало говорит нам о свойствах воды,
миться с вами», - говорит Френсис: «Я должен
например таких, как температура кипения и за
задать Вам один вопрос. Как имагинальные дис
мерзания, поверхностное натяжение, свойства
ки работают?» «Хорошо», - отвечает Бог: «Мы
льда и др. Это очень простой и поучительный
взяли немного этого материала, и мы добавили
пример. Он полностью относится к биологии.
к нему кое что и..., на самом деле, мы не знаем,
Из структур молекул их функции прямо не сле
но я могу сказать вам, что мы строили эту муху,
дуют. В результате взаимодействий молекул в ве
которая летает здесь в течение 200 млн лет, и жа
ществе, образуемом ими, появляются новые
лоб нам не поступало» [54]…. Бог никогда не па
непредсказуемые свойства
- возникающие
тентовал эволюцию. Он держал это, как произ
свойства, по английски - emergent properties.
водственный секрет [54].
Три взаимодействующих атома - это уже доста
С.Б. Биологические науки должны уделять
точно сложная система, чтобы стать непредска
внимание деталям. Биологические науки долж
зуемой для нас. А представьте себе мозг!
ны уделять внимание деталям, потому что жи
Любая живая система или даже её отдельный
вые организмы являются продуктами эволюци
модуль - это система сложная. Такие системы
онировавших геномов и не могут быть представ
характеризуются большим числом гетерогенных
лены в виде решений дифференциальных урав
компонентов, будь то гены, белки или клетки.
нений. Будет важно найти все факторы тран
Эти компоненты взаимодействуют мириадами
скрипции и все последовательности, с которы
способов во временнóм (от микросекунд до лет)
ми они связываются, и мы не должны рассмат
и пространственном (от нанометров до метров)
ривать первый случай как революционную но
режимах. Полное понимание этих систем требу
вость, а последующие случаи - как повторяю
ет, чтобы большая часть этих взаимодействий
щиеся [54].
была экспериментально или компьютационно
Хорошие теории молекулярных или клеточ
изучена. Это очень трудно [52].
ных сетей потребуют знания всех взаимодей
Такие разные области, как нейробиология и
ствий [54].
биология рака, не поддаются лёгким предсказа
Е.С. Даже наиболее изученные простые живые
ниям относительно неминуемых практических
организмы далеки от n = all. Это относится так
приложений. Улучшенные технологии наблюде
же к широко обсуждаемым сейчас так называе
ния и тестирования биологических систем при
мым ген регуляторным сетям (ГРС, см. послед
вели только к дальнейшим уровням сложности,
ние обзоры [55-57]). ГРС представляет собой
с которой нужно работать… Мы очень далеки от
систему молекулярных взаимодействий, в кото
понимания клеточной биологии, геномов или
рой внутренние сигналы (например, в процессе
мозгов и от превращения этого понимания в
эмбрионального развития) или сигналы из ок
практически полезное знание [53]!
ружающей среды преобразуются в дифференци
С.Б. Френсис Крик в раю. Сам Бог не знает,
альную экспрессию генов, иными словами, в
как работают сложные системы. Я делил офис с
экспрессию, различающуюся для разных клеток
Френсисом Криком 20 лет в Кембридже. Одно
или для одних и тех же клеток, но в разное вре
время его интересовала эмбриология, и он пот
мя. Регуляция транскрипции опосредована
ратил много времени, думая о имагинальных
комбинаторными взаимодействиями между
дисках дрозофилы. Однажды он бросил книгу,
цис регуляторными элементами ДНК и транс
которую он читал, на свой стол с раздражённым
действующими факторами транскрипции и яв
криком: «Бог знает, как эти воображаемые дис
ляется, по видимому, самым важным механиз
БИОХИМИЯ том 86 вып. 12 2021
7*
1836
КОНДРАТЬЕВА и др.
мом контроля экспрессии генов. Необходи
интересовалась функциями организмов. Я часто
мость полноты данных для создания ГРС об
слышу, как говорят, что то, что нам сейчас нуж
суждал ещё один из пионеров этого подхода,
но - это интегративная (системная) биология;
Эрик Дэвидсон [58].
что у нас очень хорошо получается выяснить,
Но даже в самых простых системах мы не
как работают простые системы с небольшим ко
можем достичь этой полноты.
личеством компонентов, но мы очень плохо
Первая геномная последовательность E. coli
складываем детали многокомпонентных систем
была определена более 20 лет назад. Однако мо
вместе. Что касается последнего, я считаю, что
лекулярные и физиологические функции для
нам понадобятся две вещи. В конце концов,
1600 (около 35%) из 4623 генов остаются неизве
клетка выполняет интеграцию функций всех
стными [59].
своих компонентов, так что клетки могли бы вы
Более того, у Вашей любимой и наиболее
явить, что такое интегрированное поведение.
изученной С. elegans 23% генов, кодирующих
Итак, первое требование будет разработать
белки, остаются функционально неясными [47].
теоретическую модель (framework), в которую
И ещё хуже: недавно Вентер и его коллеги
можно встроить все подробные знания, которые
синтезировали геном Mycoplasma genitalium, наз
мы накопили, чтобы позволить нам вычислять
ванный JCVI syn3.0. Из 473 генов в сокращён
результаты сложных взаимодействий и начать
ном наборе 149 генам (31,5%) никакая конкрет
понимать динамику системы. Во вторых, воз
ная биологическая функция не может быть при
можность проводить параллельные измерения
писана. Вопрос в том, что делают эти гены и по
поведения многих компонентов во время вы
чему они необходимы. Это «известные неизве
полнения клеткой интегрированного действия с
стные» [60, 61].
целью проверки, верна ли теория. Есть ли дру
Поистине, мир легче создать, чем понять.
гие подходы? Если бы я знал это, я бы делал это,
По видимому, n никогда не будет = all.
а не писал о проблеме [29].
С.Б. Сложность биологических систем возни
На самом деле, оргия добычи фактов, в кото
кает в эволюции в результате приобретений и мо
рой все в настоящее время участвуют, накопила
дификаций. Нам нужно поместить всё в эволю
огромный долг. Это долг создания теории, и не
ционные рамки просто потому, что сложность
которые из нас скоро будут иметь захватываю
биологических систем возникает в результате
щее время, оплачивая его обратно - надеюсь, с
приобретений и модификаций, а не в результате
интересом.
повторного изобретения. Свойства многих ком
С.Б. Правильный уровень абстракции - это
понентов в наших клетках, будь то мРНК или
клетка. CELLMAP. Правильный уровень
белки, будут обусловлены не только процессами
абстракции - это клетка. Клетка является фун
отбора на определённые активности и уровни,
даментальной единицей структуры, функции и
потому что они дают позитивный эффект, но
организации живых систем. Это ключевая осо
также и теми, которые не вызывают негативных
бенность того, что я назвал CELLMAP и что яв
последствий для организма и могут принимать
ляется основой для биологической информаци
любое значение. Это условие «безразличия»
онной системы, которая позволит нам не только
почти наверняка будет присутствовать, потому
обрабатывать огромное количество данных, но
что это дешёвое решение проблемы регулирова
и генерировать и проверять гипотезы.
ния сложных систем. Таким образом, 20% или
CELLMAP представляет собой карту молекул в
двукратное увеличение, или даже само присут
клетках и карту клеток в организме. Для микро
ствие белка может быть очень значительным
бов клетка также является организмом. Все мы
или совершенно не относящимся к делу в зави
начали своё существование как одна клетка, ко
симости от того, соответствует ли он условию
торая умножалась, производя больше клеток.
«безразличия». Только эксперимент может ре
Эти клетки далее дифференцировались во мно
шить, что происходило [62, 63].
гие разные типы клеток, образуя ткани и орга
В 1990 г. я заметил, что биохимия и комму
ны, ответственные за наши физиологические
низм, казалось, исчезли в этом году (оригиналь
функции. При выборе уровня клетки мы избега
ные высказывания Сиднея Бреннера на анг
ем вопроса о том, должны ли наши анализы
лийском языке приведены в Части 4 Приложе
быть сверху вниз (top down) или снизу вверх
ния). Большинство людей думали, что я это ска
(bottom up); вместо этого наш подход является
зал с ликованием, но, на самом деле, - с сожале
средним, потому что, с точки зрения клетки, мы
нием, по крайней мере для биохимии. Есть ещё
можем смотреть вниз на молекулы, которые
одна тема, которая исчезла несколько десятиле
составляют её, и смотреть вверх на организм,
тий назад, которую нам тоже нужно изобретать
который её содержит. Кроме того, мы можем
заново - физиология. Классическая физиология
принять единую концептуальную архитектуру
БИОХИМИЯ том 86 вып. 12 2021
НЕСОСТОЯВШЕЕСЯ ИНТЕРВЬЮ С СИДНЕЕМ БРЕННЕРОМ
1837
для всех уровней, рассматривая организм, как
день своей жизни с четырёхлетнего возраста, у
сеть взаимодействующих клеток так же, как мы
него было 6 жён и бесчисленное количество
рассматриваем клетку в виде сети взаимодей
подруг, и он участвовал в гонках на Феррари.
ствующих молекул [51].
К сожалению, он погиб в результате несчаст
ного случая во время альпинизма в возрасте
92 лет в Гималаях. Я тщетно пытался заинтере
ПОЛУСЕРЬЕЗНОЕ ЗАКЛЮЧЕНИЕ.
совать учёных и политиков запуском проекта
ГЕНЕТИКА ГЕНИАЛЬНОСТИ УДАЧИ.
«Геном дяди Фрэнка», чтобы мы могли заполу
ВОСПРОИЗВОДИМОЕ И УНИКАЛЬНОЕ
чить все эти хорошие гены [29].
Мне сказали, что дяди Фрэнки в этом мире
Е.С. Др. Бреннер, в заключение позвольте
единственные, кто удачлив; но я не считаю это
задать такой специфический вопрос: «Вы очень
удовлетворительным ответом. Генетика удачи
рано научились читать, причём росли, как мож
кажется мне хорошей темой, намного лучше,
но понять, в семье не очень интеллектуальной.
чем генетика алкоголизма или гомосексуализма.
Это очень напоминает биографии по крайней
Е.С. Спасибо, Доктор Бреннер. Я, в связи с
мере некоторых гениальных людей, Гаусса (Ио
уникальностью, вспомнил слова Вольфганга
ганн Карл Гаусс (1777-1855)), например. Он
Паули (Wolfgang Pauli), одного из основателей
также родился и рос в семье далёкой от образо
квантовой физики: «Учёный естествоиспыта
вания и считается одним из величайших мате
тель интересуется определёнными явлениями,
матиков всех времен, «королём математики».
...он должен ограничиваться воспроизводи
Кстати, иностранный почётный член Петербург
мым... Я не утверждаю, что воспроизводимое,
ской АН. Так же, как и Вы, он сам научился и в
само по себе, более важно, чем уникальное. Но
3 года уже умел читать и писать. Как и Вы, в
я утверждаю, что уникальное выше исследова
15 лет поступил в колледж. Есть по крайней ме
ния научным методом».
ре несколько подобных примеров. Есть ли гены
гениальности? Удачи?
В России есть прочно устоявшийся термин
Финансирование. Работа выполнена при под
«фартовый» (удачливый). Во время Отечествен
держке гранта Министерства науки и высшего
ной войны - это, например люди, которые
образования Российской Федерации, выделен
прошли всю войну, не получив ни одного ране
ного Курчатовскому геномному центру
ния, при этом не отсиживались в тылу. С удач
(грант № 075 15 2019 1659).
ливыми командирами солдаты охотно шли в
Конфликт интересов. Авторы заявляют об от
разведку, будучи уверенными, что вернуться жи
сутствии конфликта интересов.
выми с этим командиром более вероятно, чем с
Соблюдение этических норм. Настоящая
другим. Можно привести много других приме
статья не содержит описания каких либо иссле
ров: есть люди, которые открывали древние кла
дований с участием людей или животных в каче
ды и т.д.
стве объектов.
С.Б. Не буду говорить о гениальности. Но
Дополнительные материалы. Приложение к
несколько лет назад я обнаружил, что в каждой
статье опубликовано на сайте журнала «Биохи
семье есть дядя Фрэнк. Он тот, кто выкуривал
60 сигарет и выпивал 2 бутылки водки каждый
вып. 12, 2021.
СПИСОК ЛИТЕРАТУРЫ
1.
White, J., and Bretscher, M. S. (2020) Sydney Brenner.
6. Sydney Brenner moves C. elegans into the limelight, Worm
13
January 1927-5 April 2019, The Royal Society
Publishing, doi: 10.1098/rsbm.2020.0022.
got started/.
2.
Crick, F. H., Barnett, L., Brenner, S., and Watts Tobin,
7. Brenner, S. (1963) A letter to Max Perutz, 5, June,
R. J. (1961) General nature of the genetic code for pro
teins, Nature, 192, 1227 1232, doi: 10.1038/1921227a0.
SBrenner.htm.
3.
Brenner, S., Jacob, F., and Meselson, M. (1961) An unsta
8. Kenyon, C. (2019) Sydney Brenner (1927 2019), Science,
ble intermediate carrying information from genes to ribo
364, 638, doi: 10.1126/Science.Aax8563.
somes for protein synthesis, Nature, 190, 576581,
9. Grens, K. (2019) Sydney Brenner, mRNA Discoverer, Dies,
doi: 10.1038/190576a0.
4.
Crick, F. H. C. (1957) Nucleic acids, Sci. Am., 197, 188
opinion/sydney brenner mrna discoverer dies 65708.8.
203.
10. Kuhn, T. S. (1962) The Structure of Scientific Revolutions:
5.
CSHL Archives repository. Preserving and promoting the his
University of Chicago Press, Original Edition.
tory of molecular biology. Letter from Sydney Brenner to Max
11. Friedberg, E. (2019) Sydney Brenner (1927 2019), Nature,
568, 459 460.
БИОХИМИЯ том 86 вып. 12 2021
1838
КОНДРАТЬЕВА и др.
12.
From the C. elegans server: Sydney Brenner, January 1,
35.
Batts, S. A., Anthis, N. J., and Smith, T. C. (2008) Advanc
ing science through conversations: bridging the gap
Biographies/SBrenner.htm.
between blogs and the academy, PLoS Biol., 6, e240,
13.
Brenner, S. (2012) The revolution in the life sciences,
doi: 10.1371/journal.pbio.0060240.
Science, 338, 1427 1428.
36.
Lowe, D. (2010) What has bioinformatics ever done for us?
14.
Dunbrack, R. L. (2003) A scoundrel’s refuge, Nat. Struct.
Mol. Biol., 10, 590 590, doi: 10.1038/nsb0803 590.
post/has bioinformatics ever done us.
15.
Brenner, S. (1998) Refuge of spandrels, Curr. Biol., 8, R669.
37.
Lowe, D. (2013) Farewell to bioinformatics, Science,
16.
Ankeny, R. A. (2001) The natural history of Caenorhabditis
elegans research, Nat. Rev. Genet., 2, 474 479.
3/01/30/farewell_to_bioinformatics.
17.
Brenner, S. (1974) The genetics of Caenorhabditis elegans,
38.
Maljkovic Berry, I., Melendrez, M. C., Bishop Lilly, K. A.,
Genetics, 77, 71 94.
Rutvisuttinunt, W., Pollett, S., et al.
(2020) Next
18.
Brenner, S. (2009) In the beginning was the worm,
Generation sequencing and bioinformatics methodologies
Genetics, 182, 413 415, doi: 10.1534/genetics.109.104976.
for infectious disease research and public health: approach
19.
Sulston, J. (2002) A conversation with John Sulston, Yale
es, applications, and considerations for development of
J. Biol. Med., 75, 299 306.
laboratory capacity, J. Infect. Dis, 221, S292 S307,
20.
C. elegans Sequencing Consortium
(1998) Genome
doi: 10.1093/infdis/jiz286.
sequence of the nematode C. elegans: a platform for inves
39.
Sakr, S., and Zomaya, A. Y. (2019) Encyclopedia of Big
tigating biology, Science, 282, 2012 2018, doi: 10.1126/
Data Technologies, Springer International Publishing,
science.282.5396.2012.
doi: 10.1007/978 3 319 77525 8.
21.
Brenner, S. (1997) Massively Parallel Sequencing of Sorted
40.
Stephens, Z. D., Lee, S. Y., Faghri, F., Campbell, R. H.,
Polynucleotides, Google Patents.
Zhai, C., et al. (2015) Big Data: astronomical or genomi
22.
Brenner, S., Johnson, M., Bridgham, J., Golda, G., Lloyd,
cal? PLoS Biol., 13, e1002195, doi: 10.1371/journal.pbio.
D. H., et al. (2000) Gene expression analysis by massively
1002195.
parallel signature sequencing (MPSS) on microbead
41.
Improving our understanding of genome structure and
arrays, Nat. Biotechnol., 18, 630 634, doi: 10.1038/76469.
function is central to biology and medicine,
23.
Khrapko, K., Lysov, Y. P., Khorlin, A., Ivanov, I.,
Yershov, G., et al. (1991) A method for DNA sequencing by
ries/planet research/einzelansicht/article/cracking the
hybridization with oligonucleotide matrix, DNA Sequence,
code within us bioinformatics of the human genome/.
1, 375 388.
42.
Lowe, D. (2016) The Limits of Big Data, URL: https://
24.
Sverdlov, E., Monastyrskaya, G., Chestukhin, A., and
blogs.sciencemag.org/pipeline/archives/2016/10/21/the
Budowsky, E. (1973) The primary structure of oligonu
limits of big data.
cleotides. Partial apurinization as a method to determine
43.
Alekseenko, I. V., Pleshkan, V. V., Monastyrskaya, G. S.,
the positions of purine and pyrimidine residues, FEBS
Kuzmich, A. I., Snezhkov, E. V., et al.
(2016)
Lett., 33, 15 17.
Fundamentally low reproducibility in molecular genetic
25.
Sverdlov, E., Monastyrskaya, G., Budowsky, E., and
cancer research, Genetika, 52, 745 760.
Grachev, M. (1972) A novel approach to structural analysis
44.
of oligonucleotides, FEBS Lett., 28, 231 235.
com/dictionary/data knowledge and intelligence/39008.
26.
Müller Hill, B. (1996) The Lac Operon: A Short History of a
45.
Moseley, E. T., Hsu, D. J., Stone, D. J., and Celi, L. A.
Genetic Paradigm, Berlin, New York, Walter de Gruyter,
(2014) Beyond open big data: addressing unreliable
doi: 10.1515/9783110879476.
research, J. Med. Int. Res., 16, e259, doi: 10.2196/
27.
Brenner, S., Elgar, G., Sanford, R., Macrae, A.,
jmir.3871.
Venkatesh, B., et al. (1993) Characterization of the puffer
46.
Ware, A., Janvale, G., Shaikh, F., and Harke, S. (2017)
fish (Fugu) genome as a compact model vertebrate
HADOOP: Solution for Big Data challenges in bioinformat
genome, Nature, 366, 265 268.
ics and its prospective in India, IOSR J. Comp. Eng., 51 54.
28.
Aparicio, S., Chapman, J., Stupka, E., Putnam, N., Chia,
47.
Hutter, H., and Moerman, D. (2015) Big Data in
J. M., et al. (2002) Whole genome shotgun assembly and
Caenorhabditis elegans: quo vadis? Mol. Biol. Cell, 26, 3909
analysis of the genome of Fugu rubripes, Science, 297,
3914, doi: 10.1091/mbc.E15 05 0312.
1301 1310, doi: 10.1126/science.1072104.
48.
Hulsen, T., Jamuar, S. S., Moody, A. R., Karnes, J. H.,
29.
Brenner, S. (2019) Loose Ends... False Starts, World
Varga, O., et al. (2019) From Big Data to precision medi
Scientific.
cine, Front. Med. (Lausanne), 6, 34, doi: 10.3389/fmed.
30.
Cobb, M. (2019) Sydney Brenner (1927 2019), Dev. Cell,
2019.00034.
49, 493 495.
49.
Brenner, S. (2008) Data Is a “Substitute for Thinking”,
31.
Brenner, S. (2006) Sydney Brenner forecasts the future,
thinking.
scientist.com/article/mg19225780 079 sydney brenner
50.
Brenner, S., and Sejnowski, T. J. (2011) Understanding the
forecasts the future.
human brain, Science, 334, 567, doi: 10.1126/science.
32.
Buzdin, A. V., Patrushev, M. V., and Sverdlov, E. D. (2021)
1215674.
Will plant genome editing play a decisive role in
51.
Brenner, S. (2010) Sequences and consequences, Phil.
“Quantum Leap” improvements in crop yield to feed an
Trans. R. Soc. Lond. Ser. B Biol. Sci., 365, 207 212,
increasing global human population? Plants, 10, 1667.
doi: 10.1098/rstb.2009.0221.
33.
Свердлов, Е. (2006) Миражи цитируемости. Библио
52.
Koch, C. (2012) Systems biology. Modular biological com
метрическая оценка значимости научных публикаций
plexity, Science, 337, 531532, doi: 10.1126/science.
отдельных исследователей, Вестник Российской акаде<
1218616.
мии наук, 76, 1073 1085.
53.
Greek, R., and Hansen, L. A. (2013) Questions regarding
34.
Attwood, T. K., Kell, D. B., McDermott, P., Marsh, J.,
the predictive value of one evolved complex adaptive sys
Pettifer, S. R., et al. (2009) Calling International Rescue:
tem for a second: exemplified by the SOD1 mouse, Prog.
knowledge lost in literature and data landslide! Biochem. J.,
Biophys. Mol. Biol., 113, 231 253, doi: 10.1016/j.pbiomolbio.
424, 317 333, doi: 10.1042/BJ20091474.
2013.06.002.
БИОХИМИЯ том 86 вып. 12 2021
НЕСОСТОЯВШЕЕСЯ ИНТЕРВЬЮ С СИДНЕЕМ БРЕННЕРОМ
1839
54.
Brenner, S. (1995) Loose ends, Curr. Biol., 5, 1328.
59. Ghatak, S., King, Z. A., Sastry, A., and Palsson, B. O.
55.
Ewe, C. K., Cleuren, Y. N. T., and Rothman, J. H. (2020)
(2019) The y ome defines the 35% of Escherichia coli
Evolution and developmental system drift in the endoderm
genes that lack experimental evidence of function, Nucleic
gene regulatory network of Caenorhabditis and other
Acids Res., 47, 2446 2454, doi: 10.1093/nar/gkz030.
nematodes, Front. Cell. Dev. Biol., 8, 170, doi: 10.3389/
60. Hutchison, C. A., 3rd, Chuang, R. Y., Noskov, V. N.,
fcell.2020.00170.
Assad Garcia, N., Deerinck, T. J., et al. (2016) Design and
56.
Halfon, M. S. (2017) Perspectives on gene regulatory net
synthesis of a minimal bacterial genome, Science, 351,
work evolution, Trends Genet., 33, 436 447, doi: 10.1016/
aad6253, doi: 10.1126/science.aad6253.
j.tig.2017.04.005.
61. Coyle, M., Hu, J., and Gartner, Z. (2016) Mysteries in a
57.
Lavin, D. P., and Tiwari, V. K. (2020) Unresolved
minimal genome, ACS Cent. Sci., 2, 274 277, doi: 10.1021/
complexity in the gene regulatory network underlying EMT,
acscentsci.6b00110.
Front. Oncol., 10, 554, doi: 10.3389/fonc.2020.00554.
62. Moran, L. (2008) In the Words of Sydney Brenner, Sandwalk:
58.
Peter, I. S., and Davidson, E. H. (2009) Modularity and
design principles in the sea urchin embryo gene regulatory
blogspot.com/2008/09/in words of sydney brenner.html.
network, FEBS Lett., 583, 3948 3958, doi: 10.1016/j.febslet.
63. Brenner, S. (2000) Biochemistry strikes back, Trends
2009.11.060.
Biochem. Sci., 25, 584.
NONUHAPPENED INTERVIEW WITH SYDNEY BRENNER:
TRANSFORMING DATA INTO KNOWLEDGE, BIOINFORMATICS,
BIG DATA, AND ... “IS WATER H2O?”
L. G. Kondratyeva1,2*, M. V. Patrushev1, and E. D. Sverdlov1*
1 National Research Center Kurchatov Institute, 123182 Moscow, Russia;
E<mail: liakondratyeva@yandex.ru, edsverd@gmail.com
2 Shemyakin-Ovchinnikov Institute of Bioorganic Chemistry of the Russian Academy of Sciences, 117997 Moscow, Russia
The review is an attempt to explain some of the challenges associated with the efforts to understand the mechanisms
of organisms functioning, in particular, using Big Data collections. This review is a fictional interview with one of the
brightest figures of the golden era of modern molecular genetics and biology, a unique scientist and a philosopher, the
Nobel prize winner Sydney Brenner, who among other things introduced a remarkable organism - a transparent
roundworm C. elegans. His reflections and conclusions regarding the inevitable “conflict” between rapidly growing
data sets (Big Data) accumulated with use of the next generation sequencing technologies, and fundamental “taboos”
arising due to complex interactions in organisms generating unpredictable “emerging” properties explain unsolvable
problems faced by such modern trends as “systems biology”. On the other hand, Big Data itself suffers from serious
shortcomings such as hidden errors and fundamentally low reproducibility. Another possibly insurmountable barrier
facing Big Data is data incompleteness (n ≠ all). An example is two small best studied organisms, E. coli (1600 genes,
that is, 34.6% of 4623 unique genes have unknown functions) and C. elegans, with proteins identified for only about
50% of genes. Another striking example is an “artificial” bacterium, JCVI syn3.0, with a minimal set of genes in its
genome. Out of its 473 genes, biological function could not be assigned to 149 (31.5%). Brenner points out that con
verting data into knowledge is a major challenge for future biological research and that biology urgently needs a strong
theorethical basis. He considers the cell to be the correct level of research and proposes the CELLMAP project as a
system for organizing biological information. As a completely honest scientist, he says: If I knew [how to do it], I
would do it, and not write about the problem. Understanding how to do this transformation remains the main prob
lem of the biological sciences.
Keywords: bioinformatics, Big Data, genome, system biology, interview, Sydney Brenner
БИОХИМИЯ том 86 вып. 12 2021