Журнал общей биологии, 2020, T. 81, № 6, стр. 469-480

Моделирование эффектов взаимодействия между обучением и эволюцией

В. Г. Редько *

Научно-исследовательский институт системных исследований РАН
117218 Москва, Нахимовский просп., 36, к. 1, Россия

* E-mail: vgredko@gmail.com

Поступила в редакцию 10.05.2020
После доработки 20.08.2020
Принята к публикации 24.08.2020

Полный текст (PDF)

Аннотация

Построена и исследована модель взаимодействия между обучением и эволюцией. Проведено моделирование основных эффектов взаимодействия между обучением и эволюцией. Эти эффекты таковы: 1) генетическая ассимиляция приобретаемых в результате индивидуального обучения навыков в течение ряда поколений эволюционного процесса; за счет генетической ассимиляции приобретаемые индивидуально навыки становятся наследуемыми; 2) эффект экранирования, который приводит к тому, что сильное обучение тормозит эволюционный поиск оптимального генотипа, так как оно увеличивает шансы нахождения хорошего фенотипа независимо от генотипа особи; 3) эффект нагрузки на обучение, который приводит к уменьшению приспособленности особи: чем сильнее изменение фенотипа в процессе обучения, тем меньше приспособленность особи. Наличие нагрузки на обучение может приводить к ускорению эволюционной оптимизации. Путем компьютерного моделирования продемонстрировано функционирование всех трех эффектов. Рассматривается эволюция популяции модельных особей, каждая особь имеет генотип и фенотип, представляющие собой цепочки символов большой длины. Каждое поколение эволюции длится определенное число тактов времени. Генотип особи определяет ее фенотип в начале поколения. В течение поколения фенотипы особей оптимизируются путем обучения. Генотипы особей в течение поколения остаются неизменными. При переходе к следующему поколению особи выбираются в новую популяцию с вероятностями, пропорциональными их приспособленности. Приспособленность особей определяется их фенотипами в конце поколения. По наследству особям-потомкам передаются модифицируемые мутациями генотипы особей-родителей. Ранее в наших работах был проведен анализ эффектов взаимодействия между обучением и эволюцией для упрощенного варианта модели, когда имеется только один максимум приспособленностей особей. В настоящей работе эти эффекты исследованы для более сложного варианта с большим числом максимумов приспособленности.

После появления Дарвиновской теории эволюции у многих исследователей возникал вопрос: если эволюционный процесс происходит в результате мутаций и последующего отбора, то могут ли за счет случайного мутационного поиска возникать весьма нетривиальные полезные навыки живых организмов? Еще в XIX в. возникли концепции, предполагающие, что между обучением (или другими процессами приобретения индивидуальных навыков при жизни отдельного организма) и эволюцией возможно взаимодействие (Baldwin, 1896; Morgan, 1896; Osborn, 1896), и обучение может существенно способствовать эволюционному процессу.

Возможный механизм влияния обучения на эволюцию состоит в следующем. Механизм работает в два этапа. На первом этапе эволюционирующие организмы (благодаря соответствующим мутациям) приобретают свойство обучаться некоторому полезному навыку. Приспособленность таких организмов увеличивается, следовательно, они распространяются по популяции. Но обучение имеет и свои недостатки, так как оно требует энергии и времени. Поэтому возможен второй этап, который называют генетической ассимиляцией (genetic assimilation) (Waddington, 1942, 1953, 1961): приобретенный полезный навык может быть повторно “изобретен” генетической эволюцией, в результате чего он записывается непосредственно в генотип и становится наследуемым. В результате организмы имеют полезный навык с самого рождения. Второй этап длится множество поколений; устойчивая окружающая среда и высокая корреляция между генотипом и фенотипом облегчают этот этап. Таким образом, полезный навык, который первоначально был индивидуально приобретаемым, может стать наследуемым, хотя эволюция имеет дарвиновский характер.

Отметим, что понятие “генетическая ассимиляция” было введено Уоддингтоном, который обратил внимание на то, что мозоли на ногах страусов (которые могут рассматриваться как результат трения в течение многих поколений страусов) наблюдаются уже у эмбрионов, т.е. формирование этих мозолей, полезных взрослым страусам, передается по наследству (Duerden, 1920; Waddington, 1942). Уоддингтон также экспериментально изучил наследование отсутствия поперечных жилок в крыльях дрозофил. Это свойство возникает при воздействии на яйца дрозофил высоких температур. Подвергая мушек-дрозофил термическому воздействию, Уоддингтон обнаружил, что в течение нескольких поколений у некоторых особей отсутствие поперечных жилок начинает проявляться без всякого термического воздействия, т.е. приобретенные предками черты ассимилировались, отразились в генотипе потомства (Waddington, 1953, 1961). При этом Уоддингтон использовал понятие “канализированность” (canalization), которое означает способность организмов порождать одинаковые фенотипы независимо от действия генов или условий внешней среды (Waddington, 1942, 1953, 1961). Он также отмечает, что близкие концепции развивались И.И. Шмальгаузеном (Шмальгаузен, 1946; Schmalhausen, 1949).

Отметим, что эффект генетической ассимиляции часто называют эффектом Болдуина (Baldwin effect).

АНАЛИЗ МЕТОДОВ МОДЕЛИРОВАНИЯ ВЗАИМОДЕЙСТВИЯ МЕЖДУ ОБУЧЕНИЕМ И ЭВОЛЮЦИЕЙ

Попытки моделирования и анализа взаимодействия между обучением и эволюцией предпринимались многими авторами (например, Hinton, Nowlan, 1987; Adaptive Individuals…, 1996; Turney et al., 1996; Mayley, 1997; Ackley, Littman, 1992; Nolfi, Floreano, 1999; Редько, 2012; Red’ko, 2014, 2017). Кратко охарактеризуем эти исследования, которые можно отнести к двум основным группам. В первой группе рассматриваются модельные особи, которые имеют генотипы и фенотипы, задаваемые цепочками дискретных символов (например, эти символы равны 0 или 1). Во второй группе исследуются особи, имеющие нейронные сети, меняющиеся в процессе обучения и эволюции особей.

Начнем с первой группы, с моделей с цепочками символов генотипов и фенотипов. Важное исследование было проведено Хинтоном и Ноланом (Hinton, Nowlan, 1987), в котором было показано, как обучение может направлять эволюцию. В этой работе построена и исследована компьютерная модель эволюции популяции обучающихся особей. Цепочки генотипов и фенотипов особей включали 20 символов. Символы цепочек принимали значения 0 или 1. Генотип определял начальный фенотип, а именно веса связей в мысленно представляемой нейронной сети особи (начальные веса связей считались равными символам генотипа). Предполагалось, что имеется только один оптимальный генотип, для которого приспособленность особи отлична от нуля. То есть если не учитывать процесс обучения, то имелся один единственный пик приспособленности в пространстве генотипов; образно говоря, поиск такого пика аналогичен поиску иголки в стоге сена. Поиск этого оптимального генотипа без обучения может быть осуществлен либо путем полного перебора всех генотипов, либо случайным поиском, что потребует перебора порядка 220 ~ 106 вариантов (полное число всех возможных генотипов равно 220). Оптимальный генотип определял и оптимальный фенотип, т.е. оптимальную нейронную сеть. Фенотип, т.е. веса связей нейронной сети, мог меняться в процессе жизни особи (в течение одного эволюционного поколения) путем обучения простым методом проб и ошибок. В процессе эволюции особи отбирались в следующее поколение в соответствии с приспособленностью, определяемой по их конечным фенотипам, т.е. в соответствии с результатом обучения. И если нейронная сеть особи в процессе обучения приближалась к оптимальной, то и приспособленность этой особи увеличивалась. С учетом этого в пространстве генотипов в окрестности единственного пика приспособленности за счет обучения возникала область повышенной приспособленности (Hinton, Nowlan, 1987, fig. 1). Достаточно было искать не единственный пик приспособленности, а область повышенной приспособленности (образно говоря, достаточно было искать довольно обширный участок в стоге сена, в котором находится иголка). В результате за счет обучения оптимизация генотипов значительно упрощалась. Итак, в работе Хинтона и Нолана (Hinton, Nowlan, 1987) с помощью компьютерного моделирования было продемонстрировано, что обучение может направлять эволюционный процесс к достижению оптимума.

Рис. 1.

Зависимость энергии фенотипа особи E(SPk) от времени обучения t. Результаты усреднены по 1000 различным расчетам.

Работа Мейли (Mayley, 1997) является эффективным развитием работы Хинтона и Нолана. В статье Мейли было показано, что обучение может не только направлять эволюцию, но и, наоборот, препятствовать эволюционной оптимизации генотипов, если обучение увеличивает шансы нахождения хорошего фенотипа независимо от генотипа особи. Этот эффект был назван автором эффектом экранирования (hiding effect). Суть его состоит в том, что если обучение достаточно сильно меняет фенотип особи и особи отбираются при эволюции в соответствии с конечным фенотипом (полученным в результате обучения), то селекция особей может слабо зависеть от генотипа. Эффект экранирования приводит к тому, что сильное обучение тормозит эволюционный поиск оптимального генотипа. Кроме этого, в работе Мейли (Mayley, 1997) было учтено, что процесс обучения имеет дополнительную нагрузку на особь, и приспособленность особи может уменьшаться под влиянием этой нагрузки. Мейли также подчеркивает, что нагрузка на обучение способствует генетической ассимиляции.

При моделировании Мейли использовал NK-автоматы С.А. Кауффмана (Кауффман, 1991; Kauffman, 1993). NK-автомат есть сеть из N булевых логических элементов, каждый из которых имеет K входов от других элементов. NK-автоматы могут рассматриваться как модель генетической регуляторной системы живых клеток.

Фактически, Мейли отчетливо выделил основные эффекты взаимодействия между обучением и эволюцией: генетическая ассимиляция, эффект экранирования, влияние нагрузки на обучение (Mayley, 1996, 1997).

Перейдем ко второй группе работ по моделированию взаимодействия между обучением и эволюцией, к исследованиям с использованием нейронных сетей. Эти работы содержат ряд интересных моделей. В работе Экли и Литтмана (Ackley, Littman, 1992) построена и исследована модель особей, ведущих поиск пищи в клеточной среде и пытающихся избегать опасностей, в том числе хищников. Нейронная сеть особи состоит из двух блоков: 1) блок поведения, т.е. блок, определяющий действия особи (он состоит из двух нейронов), и 2) блок оценки действий, формирующий цели поведения (в этот блок входит один нейрон). Нейронная сеть оптимизировалась путем обучения вариантом обычного в теории нейронных сетей метода обратного распространения ошибки (Rumelhart et al., 1986) и эволюции (путем передачи по наследству и мутаций весов синапсов нейронных сетей). Показано, что обучение и эволюция совместно обеспечивают лучшее выживание особей, чем обучение или эволюция по отдельности.

В цикле работ исследователей из Италии и Швейцарии было исследовано взаимодействие между обучением и эволюцией (Nolfi et al., 1994; Parisi, Nolfi, 1996; Nolfi, Parisi, 1997; Nolfi, 1999; Nolfi, Floreano, 1999). Были разработаны несколько вариантов нейронных сетей с небольшим числом нейронов (порядка 10). В одной из работ (Nolfi et al., 1994) была предложена самообучающаяся нейронная сеть, в которой планировались действия, направленные на поиск пищи модельной особью в двумерной клеточной среде (модельное пространство было разбито на клетки, в которых могли находиться порции пищи). В одном из вариантов этой модели использовалась нейронная сеть, включающая в себя блок, обеспечивающий предсказания результатов действия особи; показано, что предсказания существенно ускоряют поиск адаптивного поведения. В целом в этих работах было показано, что обучение способствует эффективной эволюции.

В наших работах (Red’ko et al., 2005; Мосалов и др., 2006) исследовалось обучение и эволюция модельных особей с нейронными сетями, в которых использовалось обучение с подкреплением (Sutton, Barto, 1998; Саттон, Барто, 2014), обеспечивающее достаточно большое суммарное подкрепление особей в будущем. Было показано, что обучение и эволюция совместно приводят к большему суммарному подкреплению, чем обучение или эволюция по отдельности. Также нами была продемонстрирована простая форма генетической ассимиляции.

В целом, хотя работы по исследованию взаимодействия между обучением и эволюцией с применением нейронных сетей содержат ряд остроумных схем, их трудно использовать для анализа собственно эффектов этого взаимодействия, так как эти эффекты во многом скрыты в многочисленных весах синапсов нейронных сетей.

Резюмируя предыдущие работы по моделированию взаимодействия между обучением и эволюцией, важно отметить, что часто не хватает ясности в понимании эффектов этого взаимодействия, например, в работе Борнштейна с соавторами (Borenstein et al., 2006) отмечается, что в некоторых случаях обучение ускоряет эволюцию, а в других, наоборот, замедляет ее.

Настоящая работа опирается на очерченные выше исследования. Наиболее близкими к излагаемой далее модели являются работы Хинтона, Нолана и Мейли (Hinton, Nowlan, 1987; Mayley, 1997). Для того, чтобы яснее представить механизмы эффектов взаимодействия между обучением и эволюцией, будем использовать одну существенную переменную, характеризующую приближение к оптимуму или к оптимумам. Использование одной существенной переменной позволяет получать и анализировать распределение особей по этой переменной в популяции и динамику этого распределения. В качестве эволюционной основы нашей модели будем использовать хорошо известную модель квазивидов (Eigen, 1971; Эйген, 1973; Eigen, Schuster, 1979; Эйген, Шустер, 1982), а также результаты наших оценок скорости и эффективности эволюционных процессов (Редько, 1986, 2018, 2020; Редько, Цой, 2005).

Ранее был исследован упрощенный вариант нашей модели для случая, когда имеется один искомый оптимум, т.е. один максимум приспособленностей особей, причем чем больше расстояние генотипов или фенотипов от максимума, тем ниже приспособленность особи (Редько, 2012; Red’ko, 2014, 2017). Результаты исследования этого варианта модели представлены в открытом доступе на сайтах, приведенных в ссылках (Редько, 2012; Red’ko, 2014). Для упрощенного варианта путем компьютерного моделирования были продемонстрированы и проанализированы указанные выше три эффекта взаимодействия между обучением и эволюцией. В настоящей работе мы представим более сложный вариант модели с большим числом максимумов приспособленности. При этом мы будем использовать хорошо известную в физике модель спиновых стекол и при оптимизации будем искать минимумы энергии спинового стекла, а число таких минимумов велико (экспоненциально растет с увеличением размерности системы).

ОПИСАНИЕ МОДЕЛИ

Рассмотрим эволюционирующую популяцию модельных особей. Каждая особь имеет генотип и фенотип. Генотип SGk или фенотип SPkk-й особи представляет собой цепочку символов большой длины L; k = 1, 2, …, n, где n – численность популяции. Символы генотипов и фенотипов SGki и SPki равны +1 или –1 (i = 1, …, L). Например, как и в работе Хинтона и Нолана (Hinton, Nowlan, 1987), можно считать, что генотип кодируется модельной цепочкой ДНК, “буквы” которой равны –1 либо +1, а фенотип определяется нейронной сетью особи, при этом веса синапсов нейронной сети также равны –1 либо +1. Эволюционный процесс состоит из последовательности поколений. Новое поколение порождается старым путем отбора и мутаций особей. В первом поколении генотипы особей случайны.

При размножении потомки наследуют генотипы своих родителей SGk, эти генотипы не меняются в течение жизни и передаются потомкам. В процессе передачи генотипы мутируют. Особи рождаются в начальный момент формирования поколения. В момент рождения особь получает генотип SGk, а фенотип SPk в этот момент времени t равен генотипу: SPk(t = 1) = SGk . После рождения особи живут в течение Т тактов времени, Т – время жизни одного поколения. Время дискретно: t = 1, …, Т. Фенотипы SPk меняются в течение жизни особей путем обучения.

Длина цепочек генотипов и фенотипов L и численность популяции n велики: L, n $ \gg $ 1, L и n не меняются в ходе эволюции. Считаем, что L настолько велико, что только малая часть из всех возможных 2L генотипов может быть представлена в отдельной популяции: 2L$ \gg $ n.

Отдельная цепочка символов SGki или SPki задает определенное спиновое стекло и энергию спинового стекла (подробней о спиновых стеклах см. ниже). В процессах обучения и эволюции минимизируется энергия спинового стекла. Генотипы особей оптимизируются путем эволюции, фенотипы оптимизируются путем обучения. В конце поколения (при t = T) происходит отбор особей в следующее поколение. Отбор осуществляется в соответствии с приспособленностью особей. Приспособленность каждой особи определяется энергией спинового стекла, задаваемого конечным фенотипом SPk(t = T) этой особи: чем меньше эта энергия, тем больше приспособленность данной особи. Важно, что число возможных минимумов энергии спинового стекла и, соответственно, число максимумов функции приспособленности особей растут с ростом числа символов в генотипе или фенотипе L.

Остановимся на деталях модели.

Формальная модель спиновых стекол

Используем модель спиновых стекол Шеррингтона–Киркпатрика (Sherrington, Kirkpatrick, 1975; Kirkpatrick, Sherrington, 1978). Модель описывает систему попарно взаимодействующих спинов, взаимодействия между которыми случайны. Формально модель спиновых стекол сводится к следующему.

Имеется система S, состоящая из L спинов: S = S1, S2, …, SL; число спинов предполагается большим, L $ \gg $ 1. Спины принимают значения +1 либо –1: Si = +1, –1. Энергия E(S) спиновой системы есть

(1)
$E({\mathbf{S}}) = - \sum\limits_{i,j = 1;\,\,i < j}^L {{{J}_{{ij}}}{{S}_{i}}{{S}_{j}}} ,$
где Jij – элементы матрицы случайных взаимодействий между спинами. Величины Jij нормально распределены, плотность распределения P(Jij) определяется выражением:

(2)
$P({{J}_{{ij}}}) = \sqrt {\frac{{L - 1}}{{2\pi }}} \exp \left[ { - \frac{{J_{{ij}}^{2}(L - 1)}}{2}} \right].$

Для модели (1)–(2) известно, что число локальных минимумов энергии M при больших L экспоненциально растет с увеличением L (Tanaka, Edwards, 1980):

(3)
$M\sim {\text{exp}}\left( {\alpha L} \right),\,\,\,\,\alpha \approx 0.2{\text{ }}.$

Локальный минимум есть такое состояние системы спинов SL, для которого изменение знака любого спина (Si → –Si) приводит к повышению энергии.

Глобальный минимум энергии E0 при больших L приближенно составляет величину –0.8L (Young, Kirkpatrick, 1982):

(4)
${{E}_{0}} \approx --0.8L.$

Из формул (1), (2) следует, что среднее вариации энергии ΔE при изменении знака одного спина (Si → –Si) порядка 1 (Редько, 1990), среднее значение энергии при случайной ориентации спинов равно нулю.

Процессы обучения и эволюции

Считаем, что генотип SG или фенотип SP любой особи определяется цепочкой спинов (символов, равных +1 или –1) длины L. Как генотип, так и фенотип особи определяют энергию спинового стекла согласно выражению (1).

При обучении минимизируется энергия, определяемая фенотипом особи SP. Обучение использует пошаговый метод проб и ошибок. На каждом шаге случайно выбирается отдельный спин фенотипа особи SPi (i – номер спина) и полагается равновероятно SPi = +1 либо SPi = –1. Если при этом энергия фенотипа уменьшилась, то новое значение рассматриваемого спина фенотипа сохраняется. Если энергия увеличилась, то восстанавливается старое значение спина.

Отметим, что при интерпретации символов цепочек фенотипов SP как весов синапсов нейронных сетей процесс обучения имеет простой смысл: обучение происходит путем поиска оптимальных весов синапсов.

Эволюция происходит в ряду поколений G =1, 2, …. В конце каждого поколения, т.е. в момент времени t = T, вычисляются приспособленности всех особей популяции. Эти приспособленности определяются конечными фенотипами особей (полученными в результате обучения) в данный момент времени. Выражения для приспособленности немного различаются в зависимости от типа исследуемого процесса. В наиболее простом случае приспособленность k-й особи рассчитывается как

(5)
${{f}_{k}} = {\text{exp}}[--\beta E({{{\mathbf{S}}}_{{\mathbf{P}}}}_{k})]{\text{ }},~$
где β – параметр интенсивности отбора, β > 0; E(SPk) – энергия, определяемая конечным фенотипом k-й особи SPk; k = 1, 2, …, n; n – численность популяции.

Отбор особей в новое поколение носит вероятностный характер. Выбор одной новой особи в следующее поколение производится ровно n раз. Каждый раз вероятность выбора k-й особи равна ${{q}_{k}} = {{f}_{k}}{{\left[ {\sum\nolimits_{l = 1}^n {{{f}_{l}}} } \right]}^{{ - 1}}}$, т.е. особи отбираются в новое поколение с вероятностями, пропорциональными их приспособленности. При таком отборе численность популяции n остается постоянной.

При переходе к следующему поколению в генотипах особей происходят мутации. Вероятность модификации отдельного символа генотипа (т.е. изменения его знака: SGki → –SGki) при мутациях равна PM.

Таким образом, обучаемые особи отбираются по конечным фенотипам SPk(t = Т), т.е. по конечному результату обучения, а по наследству передаются потомкам (с мутациями) генотипы SGk, которые особи получили от своих родителей.

Поскольку потомкам передаются именно генотипы SGk, полученные от родителей, а не конечные фенотипы SPk, полученные в результате обучения, то эволюционный процесс имеет дарвиновский характер.

Процессы взаимодействия между обучением и эволюцией

Для анализа процессов генетической ассимиляции использовалось модифицированное выражение для приспособленности:

(6)
${{f}_{{mk}}}_{1} = {\text{exp}}\left[ {--\beta E\left( {{{{\mathbf{S}}}_{{\mathbf{P}}}}_{k}} \right)} \right] + {{E}_{r}},$
в котором к обычной приспособленности (5) добавлялось большое слагаемое Er , существенно ослабляющее силу отбора.

Для анализа эффекта нагрузки на обучение использовалась другая модификация функции приспособленности:

(7)
${{f}_{{mk2}}} = \exp ( - \gamma d)\exp [ - \beta E({{{\mathbf{S}}}_{{{\mathbf{P}}k}}})],$
где γ – неотрицательный параметр, d = ρ(SPk(t = 1), SPk(t = T)) – расстояние по Хеммингу между начальным фенотипом SPk(t = 1) и конечным фенотипом SPk(t = T) особи, величина d характеризует интенсивность всего процесса обучения особи в течение ее жизни.

Отметим, что расстояние по Хеммингу между цепочками символов равно числу несовпадающих символов в соответствующих позициях этих цепочек. Согласно (7), чем больше изменился фенотип особи в процессе обучения, тем сильнее уменьшается приспособленность особи за счет обучения.

РЕЗУЛЬТАТЫ КОМПЬЮТЕРНОГО МОДЕЛИРОВАНИЯ

Параметризация модели

Параметры модели выбирались таким образом, чтобы эволюционный поиск проходил достаточно эффективно, при этом использовался опыт предыдущих работ (Редько, 1986, 2018, 2020; Редько, Цой, 2005) для случая эволюции без обучения. Охарактеризуем выбор параметров расчета. Полагаем, что длина цепочек генотипов и фенотипов достаточно велика: L = 100. Параметр отбора считаем равным β = 1, это соответствует достаточно высокой его интенсивности. Интенсивность мутаций должна быть не слишком велика, чтобы не было мутационных потерь уже найденных в процессе эволюции удачных особей, но и не слишком мала, для того чтобы мутационный поиск происходил достаточно быстро. С учетом этого полагаем, что вероятность замены любого символа в цепочках SGk при мутациях равна PM = = L–1 = 0.01. При такой интенсивности мутаций PM при переходе к следующему поколению происходит мутационное изменение примерно одного символа в генотипе особи. Численность популяции считаем достаточно большой n = L, при этом, как показано в предыдущих работах (Редько, 2018, 2020), нейтральной фиксацией особей, не зависящей от приспособленности (Кимура, 1985; Red’ko, 1998; Редько, 2018), в процессе эволюции можно пренебречь.

Итак, основные параметры модели приняты равными: L = 100, β = 1, PM = L–1 = 0.01, n = L = 100.

Оптимизация путем обучения

Процесс обучения рассматривался применительно к единичным особям. Обучение происходило методом проб и ошибок (см. выше). Типичная усредненная зависимость энергии фенотипа особи E(SPk) от времени обучения t представлена на рис. 1. При обучении энергия E(SPk) уменьшается до величин, приближенно равных –66. Согласно выражению (4) эти значения энергии достаточно близки к глобальному минимуму.

Оптимизация путем эволюции

Типичный результат минимизации энергии спинового стекла в процессе эволюции без обучения (при этом фенотипы особей равны их генотипам) представлен на рис. 2. Приспособленность особей определялась выражением (5). Рис. 1, 2 показывают, что процессы минимизации энергии спинового стекла путем обучения и путем эволюции качественно подобны друг другу.

Рис. 2.

Зависимость средней по популяции энергии спиновых стекол E(SGk), определяемых генотипами особей, от номера поколения G. Приспособленность особей определялась выражением (5). Результаты усреднены по 1000 различным расчетам.

Взаимодействие между обучением и эволюцией

Эффект генетической ассимиляции

При генетической ассимиляции навыки, приобретенные в процессе индивидуального обучения, в течение ряда поколений становятся наследуемыми. Приобретаемый или наследуемый навык в нашем случае – уменьшение энергии спинового стекла, кодируемого фенотипом или генотипом. Генетическую ассимиляцию можно продемонстрировать на примере функции приспособленности вида (6). При этом параметр Er целесообразно выбрать большим, чтобы эффективно уменьшить интенсивность отбора. При расчетах полагалось Er = 1013. Эффект генетической ассимиляции демонстрируется рис. 3, 4. Рис. 3 показывает зависимость средней по популяции энергии спинового стекла, определяемого генотипами особей, от номера поколения при наличии обучения (кривая 1) и для “чистой эволюции” в отсутствии обучения (кривая 2). Время обучения особей, т.е. длительность одного поколения, равна 100 тактов времени: T = 100. Параметры эволюции обычные: n = 100, β = 1, PM = 0.01.

Рис. 3.

Зависимость энергии спиновых стекол E(SGk), определяемых генотипами особей, от номера поколения G. Приспособленность особей определялась выражением (6), Er = 1013, T = 100. 1 – средняя по популяции энергия при наличии обучения, 2 – средняя по популяции энергия при чистой эволюции, без обучения. Результаты усреднены по 1000 различным расчетам.

Рис. 4.

Распределение особей по энергии спиновых стекол в разные моменты первого поколения при наличии обучения. Представлено относительное число особей n(E) для рассматриваемых значений энергии E. Приспособленность особей определялась выражением (6), Er = 1013, T = 100. 1 – начальное распределение для исходных генотипов, 2 – распределение для фенотипов после обучения, 3 – распределение для генотипов после отбора. Результаты усреднены по 100000 различным расчетам.

Рис. 3 показывает, что в рассматриваемом случае минимизация энергии спиновых стекол при эволюции с обучением значительно эффективнее эволюции без обучения. Механизм генетической ассимиляции при наличии обучения характеризуется рис. 4.

Рис. 4 показывает динамику распределений энергии E для генотипов и фенотипов в первом поколении эволюции при наличии обучения. Видно, что обучение существенно уменьшает энергию для фенотипов, и распределение n(E) по фенотипам смещается к меньшим значениям E, а после отбора распределение n(E) по генотипам также смещается, следуя за распределением по фенотипам.

Если обучение отсутствует, то исходное распределение по генотипам совпадает с распределением 1 на рис. 4, а конечное распределение по генотипам после отбора также практически совпадает с распределением 1. То есть при отсутствии обучения средняя энергия спиновых стекол для генотипов уменьшается очень медленно, как это и демонстрирует рис. 3. Только при наличии обучения происходит явное уменьшение энергии спиновых стекол, кодируемых генотипами. При этом, как показывает рис. 4, сначала это уменьшение энергии происходит при обучении для спиновых стекол, кодируемых фенотипами, а затем в результате отбора отбираются и генотипы (определяющие начальные фенотипы), которые задают энергию, меньшую по сравнению с исходной. В результате навык уменьшения энергии “перекодируется” из фенотипов в генотипы, т.е. происходит генетическая ассимиляция.

Эффект экранирования

Суть эффекта экранирования состоит в следующем: если обучение достаточно сильное, то удачный фенотип может быть найден для большого числа генотипов, независимо (либо слабо зависимо) от генотипа. В результате сильное обучение может подавлять эволюционную оптимизацию генотипов. Согласно рис. 1, характерное время обучения в нашей модели составляет 1000 тактов времени. Таким образом, если время обучения особей и длительность поколения составляет T = 1000, то эффект экранирования должен быть сильным. Рис. 5 представляет пример сильного влияния эффекта экранирования на процесс минимизации энергии спиновых стекол, кодируемых генотипами особей.

Рис. 5.

Зависимость энергии спиновых стекол E(SGk) и E(SPk), определяемых генотипами и фенотипами особей, от номера поколения G. Рассматривается эволюция популяции обучаемых особей. Приспособленность особей определяется выражением (5). Время обучения особей составляет T = 1000. 1 – средняя по популяции энергия E(SGk), соответствующая генотипам особей; 2 – средняя по популяции энергия E(SPk), соответствующая фенотипам обученных особей. Результаты усреднены по 30 различным расчетам.

На рис. 5 показана зависимость энергии спиновых стекол, кодируемых генотипами и фенотипами особей, от номера поколения эволюции G. Рассматривается процесс эволюции с обучением. Время одного поколения, т.е. время обучения особей, составляет T = 1000. Приспособленность особей определяется выражением (5). Параметры модели: n = 100, β = 1, PM = 0.01.

Рис. 5 показывает, что из-за сильного обучения эволюционная оптимизация генотипов подавляется (кривая 1), в то время как оптимизация фенотипов путем обучения явно происходит (кривая 2).

Детали эффекта экранирования для расчета с теми же параметрами характеризуются рис. 6, на котором показана динамика распределения особей по энергиям спиновых стекол, кодируемых генотипами и фенотипами особей, в первом поколении эволюции.

Рис. 6.

Распределение особей по энергии спиновых стекол в разные моменты первого поколения. Приспособленность особей определяется выражением (5), T = 1000. 1 – начальное распределение для исходных генотипов, 2 – распределение для фенотипов после обучения, 3 – распределение для генотипов после отбора. Результаты усреднены по 10000 различным расчетам.

Рис. 6 показывает, что в рассматриваемом случае сильного обучения (T = 1000) эффективно происходит минимизация энергии фенотипов сразу в первом поколении (кривая 2). А генотипы практически не оптимизируются: распределение для генотипов после отбора (кривая 3) фактически совпадает с распределением для исходных генотипов (кривая 1). Таким образом, при сильном обучении фенотипы оптимизируются, а оптимизация генотипов подавляется.

Другой аспект эффекта экранирования характеризуется рис. 7, 8. Рассматривается процесс эволюции с обучением и без обучения (рис. 7). Время обучения особей по сравнению с результатами, представленными на рис. 5, 6, уменьшено и составляет T = 100. Рис. 7 показывает, что обучение и в данном случае явно тормозит эволюционный поиск. Эволюция без обучения приводит к поиску минимумов энергии спиновых стекол эффективнее, чем эволюция с обучением. Хотя при достаточно длительной эволюции (при G > 200) в обоих типах процессов находятся примерно одинаковые значения энергии.

Рис. 7.

Зависимость энергии спиновых стекол E(SGk), определяемых генотипами особей, от номера поколения G. Приспособленность особей определяется выражением (5), T = 100. 1 – средняя по популяции энергия при наличии обучения, 2 – средняя по популяции энергия при чистой эволюции, без обучения. Результаты усреднены по 100 различным расчетам.

Рис. 8.

Распределение особей по энергии спиновых стекол в разные моменты первого поколения. Приспособленность особей определяется выражением (5), T = 100. 1 – начальное распределение для исходных генотипов, 2 – распределение для фенотипов после обучения, 3 – распределение для генотипов после отбора. Результаты усреднены по 10 000 различным расчетам.

Распределение особей по энергии спиновых стекол в разные моменты первого поколения для того же расчета (T = 100) представлено на рис. 8. Так как время обучения уменьшено по сравнению с расчетами, охарактеризованными на рис. 5, 6, то эффект экранирования ослабевает, энергия для фенотипов при обучении уменьшается не так сильно (кривая 2), а энергии для генотипов после отбора (кривая 3) уменьшаются по сравнению с энергией для исходных генотипов. И в этом случае, как показывает рис. 7, обучение явно затормаживает процесс эволюционной оптимизации генотипов.

Таким образом, при достаточно сильном обучении возможен эффект экранирования: фенотипы особей оптимизируются путем обучения для различных начальных генотипов, и поэтому эволюционная оптимизация генотипов может замедляться, так как сильное обучение увеличивает шансы нахождения хорошего фенотипа независимо от генотипа.

Эффект нагрузки на обучение

С учетом нагрузки на обучение приспособленность особей определяется выражением (7), согласно которому чем больше изменяется фенотип в процессе обучения, тем больше нагрузка на особь и тем сильнее за счет этой нагрузки уменьшается приспособленность особи.

Влияние нагрузки на обучение на процессы эволюционной минимизации энергии спиновых стекол характеризуется рис. 9, 10. Рис. 9 показывает зависимость энергии спиновых стекол E(SGk), определяемой генотипами особей, от номера поколения G. Приспособленность особей определяется выражением (7); T = 100. Кривые 1 и 2 отображают среднюю по популяции энергию особей при наличии нагрузки на обучение (γ = 1) и без нагрузки на обучение (γ = 0) соответственно. Видно, что нагрузка на обучение приводит к ускорению эволюционного поиска.

Рис. 9.

Зависимость энергии спиновых стекол E(SGk), определяемых генотипами особей, от номера поколения G. Приспособленность особей определяется выражением (7), T = 100. 1 – средняя по популяции энергия E(SGk) при наличии нагрузки на обучение (γ = 1), 2 – средняя по популяции энергия E(SGk) без нагрузки на обучение (γ = 0). Результаты усреднены по 100 различным расчетам.

Рис. 10.

Распределение особей по энергии спиновых стекол в разные моменты первого поколения при наличии нагрузки на обучение. Приспособленность особей определяется выражением (7), T = 100, γ = 1. 1 – начальное распределение для исходных генотипов, 2 – распределение для фенотипов после обучения, 3 – распределение для генотипов после отбора. Результаты усреднены по 10 000 различным расчетам.

Распределение особей по энергии спиновых стекол в разные моменты первого поколения для того же расчета при наличии нагрузки на обучение представлено на рис. 10.

Сопоставление рис. 8 (без нагрузки на обучение) и рис. 10 (с нагрузкой на обучение) показывает, что при наличии нагрузки преимущественно отбираются те особи, которым “нужно меньше обучаться”, т.е. кривая 3 для отобранных генотипов при наличии нагрузки на обучение приближается к кривой 2 для конечных (обученных) фенотипов значительно сильнее, чем без нагрузки.

Таким образом, наличие нагрузки на обучение приводит к ускорению эволюционной оптимизации.

ОБСУЖДЕНИЕ

Обсудим детали используемой модели взаимодействия между обучением и эволюцией и полученные результаты. Подчеркнем, что в данной работе мы рассматриваем случайное попарное взаимодействие между символами цепочек генотипов или фенотипов (см. выражения (1), (2)). Это радикально отличает настоящий вариант модели от предыдущего (Редько, 2012; Red’ko, 2014, 2017), в котором символы генотипов или фенотипов могут рассматриваться как не зависящие друг от друга, вносящие аддитивные вклады в оптимизируемую функцию, в приспособленность особей. Это различие приводит к тому, что в предыдущем варианте (Редько, 2012; Red’ko, 2014, 2017) имеется единственный максимум приспособленности, в настоящем же варианте число максимумов приспособленностей велико. Несмотря на это различие, результаты обоих вариантов модели качественно подобны друг другу. Во многом это подобие обусловлено тем, что в обоих вариантах выделяется одна существенная переменная (в предыдущем варианте – расстояние до оптимума, в настоящем варианте – энергия спинового стекла), и динамические процессы обучения и эволюции можно отслеживать с помощью этой переменной.

Важно подчеркнуть, что при анализе генетической ассимиляции в данной работе в функцию приспособленности (выражение (6)) введено большое слагаемое Er , существенно ослабляющее силу отбора. Причем при небольших по абсолютной величине значениях энергии E(SPk) это слагаемое больше величины exp[–βE(SPk)], которое может приводить к дифференцированию особей при отборе. Как показывает рис. 4 (кривая 1), величины энергии для исходных генотипов достаточно малы. Поэтому без обучения все приспособленности особей в популяции приближенно равны величине Er , т.е. практически нет дифференцировки особей при отборе. В результате без обучения эволюционный поиск минимумов энергии (т.е. максимумов приспособленностей) сильно ослабевает (рис. 3, кривая 2). Только при наличии обучения величина E(SPk) значительно уменьшается (рис. 4), величины exp[–βE(SPk)] возрастают, приближаясь к величине Er , поэтому приспособленности особей становятся различными, и дифференцированный отбор приводит к уменьшению величин E(SPk) в популяции (рис. 3, кривая 1). Фактически этот эффект близок к тому, который обсуждался в работе Хинтона и Нолана (Hinton, Nowlan, 1987), – обучение приводит популяцию в область облегченного отбора. Также близкий эффект описан в наших предыдущих работах (Редько, 2012; Red’ko, 2014, 2017). А именно, добавление в приспособленность дополнительного слагаемого (интерпретируемого как влияние случайных факторов внешней среды) приводило к тому, что эволюция без обучения подавлялась, и только обучение приводило популяцию в область облегченного дифференцированного отбора особей. Дополнительно отметим, что просто ослабление интенсивности отбора (уменьшение параметра β) в настоящей работе не приводит к аналогичному эффекту, важна роль именно двух слагаемых в выражении (6). Итак, генетическая ассимиляция в рассматриваемых случаях проявляется в том, что обучение направляет популяцию в область облегченного дифференцированного эволюционного отбора особей.

Также отметим, что в настоящей работе ясно наблюдаются следствия эффекта экранирования, при котором обучение ослабляет и даже существенно подавляет эволюционный поиск (рис. 5, 7, 9). Только учет нагрузки на обучение приводит примерно к такой же скорости эволюционного поиска, что и эволюция без обучения (см. рис. 2 и кривую 1 на рис. 9).

Отметим, что некоторые полученные в результате компьютерных расчетов зависимости имеют небольшие разбросы. Это обусловлено тем, что для достаточного усреднения требовалось большое время расчетов (несколько часов на обычном компьютере), усреднение проводилось так, что ошибка расчетов составляла величины порядка 1% (обычно немного меньше).

В порядке обсуждения отметим подход, использованный в работах Нишикавы и Киндзё (Nishikawa, Kinjo, 2014, 2018), в которых обращается внимание на то, что в работе Уоддингтона (Waddington, 1953) генетическая ассимиляция происходила довольно быстро, в течение небольшого числа поколений (обычно 10–20 поколений). Для объяснения этой повышенной скорости генетической ассимиляции авторы предложили модель эпигенетической модификации, в которой при попадании особей в новую среду возрастает интенсивность мутаций. Результаты моделирования показали, что при этом процесс поиска новых свойств действительно ускоряется (Nishikawa, Kinjo, 2014, 2018). Хотя возможно, что для интерпретации ускорения эволюционного поиска новых свойств за счет повышенной интенсивности мутаций в новой среде можно использовать модель генов-мутаторов (Семенов, Теркель, 1985). В модели генов-мутаторов предполагается, что уровень мутаций может меняться и наследоваться, в результате чего при попадании популяции в новую среду, когда выгоден активный поиск новых свойств, уровень мутаций возрастает, а при длительном нахождении в постоянной среде, где важно сохранение уже найденных свойств, интенсивность мутаций падает. Пример использования модели генов-мутаторов приведен в работе В.Г. Редько (1991).

ЗАКЛЮЧЕНИЕ

Таким образом, проведено исследование эффектов взаимодействия между обучением и эволюцией для варианта модели с большим числом максимумов приспособленности. Продемонстрированы и проанализированы следующие эффекты взаимодействия между обучением и эволюцией: 1) генетическая ассимиляция, 2) эффект экранирования, 3) эффект влияния нагрузки на обучении на исследованные процессы.

Показано, что процессы взаимодействия между обучением и эволюцией в настоящем варианте модели с большим числом максимумов приспособленности качественно подобны этим же процессам в предыдущем варианте модели с одним максимумом приспособленности (Редько, 2012; Red’ko, 2014, 2017).

Настоящая работа выполнена при финансовой поддержке РФФИ, проект № 19-01-00331.

Список литературы

  1. Кауффман С.А., 1991. Антихаос и приспособление // В мире науки. № 10. С. 58–65.

  2. Кимура М., 1985. Молекулярная эволюция: теория нейтральности. М.: Мир. 394 с.

  3. Мосалов О.П., Прохоров Д.В., Редько В.Г., 2006. Сравнение эволюции и обучения как методов адаптации агентов // VIII Всерос. науч.-технич. конф. “Нейроинформатика-2006”: Сб. науч. тр. Ч. 1. М.: МИФИ. С. 201–208.

  4. Редько В.Г., 1986. Оценка скорости эволюции в моделях Эйгена и Куна // Биофизика. Т. 31. № 3. С. 511–516.

  5. Редько В.Г., 1990. Спиновые стекла и эволюция // Биофизика. Т. 35. № 5. С. 831–834.

  6. Редько В.Г., 1991. К теории эволюции. Модель происхождения “программ жизнедеятельности” // Журн. общ. биологии. Т. 52. № 3. С. 334–342.

  7. Редько В.Г., 2012. Модель взаимодействия между обучением и эволюционной оптимизацией // Мат. биол. и биоинф. Т. 7. № 2. С. 676–691.

  8. Редько В.Г., 2018. Моделирование когнитивной эволюции: На пути к теории эволюционного происхождения мышления. Изд. 2, испр. и доп. М.: ЛЕНАНД/URSS. 264 с.

  9. Редько В.Г., 2020. Модели предбиологической эволюции // Журн. общ. биологии. Т. 81. № 2. С. 108–122.

  10. Редько В.Г., Цой Ю.Р., 2005. Оценка эффективности эволюционных алгоритмов // ДАН. Т. 404. № 3. С. 312–315.

  11. Саттон Р.С., Барто Э.Г., 2014. Обучение с подкреплением. М.: Бином. 402 с.

  12. Семенов М.А., Теркель Д.А., 1985. Об эволюции механизмов изменчивости посредством косвенного отбора // Журн. общ. биологии. Т. 46. № 2. С. 271–277.

  13. Шмальгаузен И.И., 1946. Факторы эволюции (теория стабилизирующего отбора). М.; Л.: Изд-во АН СССР. 396 с.

  14. Эйген М., 1973. Самоорганизация материи и эволюция биологических макромолекул. М.: Мир. 224 с.

  15. Эйген М., Шустер П., 1982. Гиперцикл. Принципы самоорганизации макромолекул. М.: Мир. 270 с.

  16. Ackley D., Littman M., 1992. Interactions between learning and evolution // Artificial Life II: Proceedings of the Second Artificial Life Workshop / Eds Langton C.G., Taylor C., Farmer J.D., Rasmussen S. Redwood, CA: Addison-Wesley. P. 487–509.

  17. Adaptive Individuals in Evolving Populations: Models and Algorithms, 1996 / Eds Belew R.K., Mitchell M. Massachusetts: Addison-Wesley. 533 p.

  18. Baldwin J.M., 1896. A new factor in evolution // Am. Nat. V. 30. № 354. P. 441–451.

  19. Borenstein E., Meilijson I., Ruppin E., 2006. The effect of phenotypic plasticity on evolution in multipeaked fitness landscapes // J. Evol. Biol. V. 19. № 5. P. 1555–1570.

  20. Duerden J.E., 1920. The inheritance of callosities in the ostrich // Am. Nat. V. 54. № 633. P. 289–312.

  21. Eigen M., 1971. Selforganization of matter and the evolution of biological macromolecules // Naturwissenschaften. V. 58. № 10. P. 465–523.

  22. Eigen M., Schuster P., 1979. The Hypercycle: A Principle of Natural Self-Organization. Berlin: Springer Verlag. 92 p.

  23. Hinton G.E., Nowlan S.J., 1987. How learning can guide evolution // Complex Systems. V. 1. № 3. P. 495–502.

  24. Kauffman S.A., 1993. Origins of Order: Self-Organization and Selection in Evolution. N.-Y.: Oxford Univ. Press. 728 p.

  25. Kirkpatrick S., Sherrington D., 1978. Infinite range model of spin-glass // Phys. Rev. B. V. 17. № 11. P. 4384–4403.

  26. Mayley G., 1996. Landscapes, learning costs, and genetic assimilation // Evol. Comput. V. 4. № 3. P. 213–234.

  27. Mayley G., 1997. Guiding or hiding: Explorations into the effects of learning on the rate of evolution // Proc. 4th European Conf. on Artificial Life (ECAL 97) / Eds Husbands P., Harvey I. Cambridge, Massachusetts: MIT Press. P. 135–144.

  28. Morgan C.L., 1896. On modification and variation // Science. V. 4. № 99. P. 733–740.

  29. Nishikawa K., Kinjo A.R., 2014. Cooperation between phenotypic plasticity and genetic mutations can account for the cumulative selection in evolution // Biophysics (Nagoya-shi). V. 10. P. 99–108.

  30. Nishikawa K., Kinjo A.R., 2018. Mechanism of evolution by genetic assimilation: Equivalence and independence of genetic mutation and epigenetic modulation in phenotypic expression // Biophys. Rev. V. 10. № 2. P. 667–676.

  31. Nolfi S., 1999. How learning and evolution interact: The case of a learning task which differs from the evolutionary task // Adapt. Behav. V. 7. № 2. P. 231–236.

  32. Nolfi S., Floreano D., 1999. Learning and evolution // Auton. Robot. V. 7. № 1. P. 89–113.

  33. Nolfi S., Parisi D., 1997. Learning to adapt to changing environments in evolving neural networks // Adapt. Behav. V. 5. № 1. P. 75–98.

  34. Nolfi S., Elman J.L., Parisi D., 1994. Learning and evolution in neural networks // Adapt. Behav. V. 3. № 1. P. 5–28.

  35. Osborn H.F., 1896. Ontogenetic and phylogenetic variation // Science. V. 4. № 100. P. 786–789.

  36. Parisi D., Nolfi S., 1996. The influence of learning on evolution // Adaptive Individuals in Evolving Populations / Eds Belew R.K., Mitchell M. Massachusetts: Addison-Wesley. P. 419–428.

  37. Red’ko V.G., 1998. Neutral evolution game // Principia Cybernetica Web (Principia Cybernetica, Brussels) / Eds Heylighen F., Joslyn C., Turchin V. http://cleamc11.vub.ac.be/NEUTEG.html.

  38. Red’ko V.G., 2014. Model of interaction between learning and evolution // arXiv. https://arxiv.org/abs/1411.5053.

  39. Red’ko V.G., 2017. Mechanisms of interaction between learning and evolution // Biol. Inspired Cogn. Arc. V. 22. P. 95–103.

  40. Red’ko V.G., Mosalov O.P., Prokhorov D.V., 2005. A model of evolution and learning // Neural Netw. V. 18. № 5–6. P. 738–745.

  41. Rumelhart D.E., Hinton G.E., Williams R.G., 1986. Learning representation by back-propagating error // Nature. V. 323. № 6088. P. 533–536.

  42. Schmalhausen I.I., 1949. Factors of Evolution: The Theory of Stabilizing Selection. Philadelphia: Blakiston. 327 p.

  43. Sherrington D., Kirkpatrick S., 1975. Solvable model of spin-glass // Phys. Rev. Lett. V. 35. № 26. P. 1792–1796.

  44. Sutton R., Barto A., 1998. Reinforcement Learning: An Introduction. Cambridge: MIT Press. 322 p.

  45. Tanaka F., Edwards S.F., 1980. Analytic theory of the ground state of a spin glass: 1. Ising spin glass // J. Phys. F. Metal Phys. V. 10. № 12. P. 2769–2778.

  46. Turney P., Whitley D., Anderson R., 1996. Evolution, learning, and instinct: 100 years of the Baldwin effect // Evol. Comp. V. 4. № 3. P. 4–8.

  47. Waddington C.H., 1942. Canalization of development and the inheritance of acquired characters // Nature. V. 150. № 3811. P. 563–565.

  48. Waddington C.H., 1953. Genetic assimilation of an acquired character // Evolution. V. 7. № 2. P. 118–126.

  49. Waddington C.H., 1961. Genetic assimilation // Adv. Genet. V. 10. P. 257–293.

  50. Young A.P., Kirkpatrick S., 1982. Low-temperature behavior of the infinite-range Ising spin-glass: Exact statistical mechanics for small samples // Phys. Rev. B. V. 25. № 1. P. 440–451.

Дополнительные материалы отсутствуют.