Российский физиологический журнал им. И.М. Сеченова, 2019, T. 105, № 1, стр. 36-42

Физиологические механизмы предвидения будущего результата целенаправленного поведения

С. К. Судаков^*

НИИ нормальной физиологии имени П.К. Анохина
г. Москва, Россия

Поступила в редакцию 07.08.2018
После доработки 07.11.2018
Принята к публикации 04.12.2018

DOI: 10.1134/S0869813919010084

Аннотация

В аппарате предвидения будущего результата (акцептор результата действия) можно выделить два компонента. Первый компонент, информационный, это классический акцептор результата действия, необходимый для построения гармонического поведения и избегания ошибки. Он находится в постоянном сличении результатов сделанного с ранее предсказанными афферентными параметрами результатов, т.е. в этом компоненте на основании индивидуального опыта и генетической информации формируются информационные памятные следы о будущем результате. Второй компонент – опережающее подкрепление. Оно формируется также на основании генетического и индивидуально-приобретенного опыта о биологической или социальной значимости будущего результата, а также о вероятности его достижения в данных условиях. Если вероятность достижения результата более 50%, будет возникать опережающее положительное подкрепление, если вероятность меньше 50% – опережающее отрицательное подкрепление, состояние тревожности. В работе описаны основные нейрофизиологические и нейрохимические механизмы информационного компонента, опережающего положительного и отрицательного подкрепления, а также возможные механизмы оценки вероятности достижения результата.

Ключевые слова: целенаправленное поведение, функциональная система, акцептор результата действия, опережающее подкрепление, афферентный синтез

В книге “Биология и нейрофизиология условного рефлекса” [1] П.К. Анохин впервые описал узловые механизмы функциональной системы как основы физиологической архитектуры поведенческого акта. Было определено, что функциональная система является избирательным центрально-периферическим материальным образованием, и описаны нейрофизиологические субстраты афферентного синтеза, принятия решения и обратной афферентации. П.К. Анохиным была предложена гипотеза о возможном нейрофизиологическом субстрате акцептора результата действия как аппарата предвидения достижения будущего результата. В 1969 г. [2] П.К. Анохин впервые сформулировал представления об информационном эквиваленте результата. Впоследствии теория функциональных систем плодотворно развивалась Судаковым К.В. и его коллегами, при этом большое внимание уделялось выяснению нейрофизиологических механизмов афферентного синтеза и особенно аппарата предвидения результатов, удовлетворяющих доминирующие потребности животных и человека – акцептора результата действия. К.В. Судаков писал [3] “Доминирующая мотивация и подкрепление взаимодействуют на нейронах, составляющих аппарат акцептора результатов действия. С позиций развиваемых нами представлений о голографических свойствах функциональных систем организма [4] акцептор результата действия выступает в качестве информационного голографического экрана”. Были сформулированы представления об “информационном эквиваленте потребности” и “информационном эквиваленте подкрепления”, что и формирует в структурах мозга аппараты акцепторов результатов действия различных функциональных систем [5]. Тем не менее, до настоящего времени аппарат акцептора результатов действия рассматривается только как оценивающий параметры достигнутого результата. Так, П.К. Анохин предположил, что акцептор результата действия может формироваться только на основе взаимодействия между эфферентным комплексом действия и афферентной проекцией результатов в центральной нервной системе. Он считал, что доставку “копий” эфферентных возбуждений в зону формирования акцептора действия осуществляют аксонные коллатерали нейронов, которые выполняют функцию конечных путей и лежат в зоне формирования потока эфферентных возбуждений. Эти коллатеральные ответвления возбуждают комплексы сателлитных клеток, которые образуют своеобразные замкнутые образования, много раз описанные под видом “ловушек возбуждения” [1]. К.В. Судаковым была предложена многоуровневая организация акцептора результатов действия. Сначала под влиянием доминирующей мотивации, распространяющей свои влияния на пирамидные нейроны головного мозга, через коллатерали аксонов пирамидного тракта на различных уровнях мозга возбуждаются комплексы вставочных нейронов, связанных циклическими взаимоотношениями. Затем – обратная афферентация от различных параметров результата действия поступает к соответствующим отделам акцептора результатов действия. Составляющие акцептор результата действия нейроны фиксируют свойства параметров достигнутых результатов, в результате чего формируются нейрональные энграммы подкрепления. При последующих возникновениях мотивации опережающе возбуждаются ранее сформированные отпечатки действительности – энграммы акцептора результата действия, ранее сформированные предшествующими подкрепляющими воздействиями [3].

Согласно импринтинговой гипотезе формирования акцептора результатов действия [6], при воздействии на организм результатов поведения их различные параметры посредством обратной афферентации запечатляются на соответствующих структурах акцептора результата действия в виде молекулярных энграмм. Доминирующие мотивации опережающе извлекают из акцепторов результатов действия информационные параметры требуемого подкрепления и средства его достижения, с которыми в процессе поиска субъектами веществ, удовлетворяющих их исходные потребности, все время осуществляется сравнение свойств внешних раздражителей.

Хорошо известно, что достижение индивидуумом требуемого результата сопровождается приятными эмоциональными ощущениями. С другой стороны, при несовпадении параметров достигнутого результата с параметрами, заложенными в акцепторе результата действия, возникают отрицательные эмоции. Это положительное и отрицательное подкрепление. В данной работе мы рассматриваем положительное и отрицательное подкрепление как процесс возникновения состояния удовольствия или неудовольствия при достижении биологически или социально значимого результата. Удовлетворение любой потребности ведет к возникновению положительного подкрепления, неудовлетворение потребности – к возникновению подкрепления отрицательного.

Нами показано [7, 8], что существует как реальное подкрепление при достижении или недостижении необходимого результата, так и подкрепление “виртуальное”. “Виртуальное” подкрепление наступает до завершения поведенческого акта и связано с предвкушением достижения (или не достижения результата). Таким образом, “виртуальное” подкрепление также является опережающим отражением действительности и может быть отнесено к аппарату акцептора результатов действия.

Мы полагаем, что “виртуальное” положительное подкрепление, связанное с ожиданием получения результата имеет четкие нейрохимические механизмы. Центральную роль играет взаимодействие нейромедиаторов с рецепторами – дофаминовыми, серотониновыми, никотиновыми, опиоидными и каннабиноидными. При этом мезокортиколимбическая дофаминовая система имеет наиважнейшее значение [9]. Дофамин-синтезирующие нейроны, тела которых расположены в области вентральной покрышки, постоянно находятся под тормозным влиянием ГАМК-содержащих нейронов. Во время естественного физиологического подкрепления ГАМК-содержащие нейроны тормозятся при действии на них опиоидных пептидов, в результате чего активируются дофамин-синтезирующие нейроны и происходит выделение дофамина из их нервных окончаний, расположенных во многих отделах мозга, в частности, в прилежащем ядре и коре. В этих же отделах располагаются другие нейрохимические системы, которые способны модулировать дофаминовую нейромедиацию во время подкрепления. Мы полагаем, что эти процессы сопровождают формирование акцептора результата действия в центральной архитектонике функциональной системы целенаправленного поведения. При этом оцениваются не только параметры будущего результата, но и вероятность его достижения. Чем более важен результат и чем выше оцениваемая субъектом вероятность его достижения, тем больше дофамина выделяется и тем сильнее приятные ощущения, возникающие при этом. Тем не менее, результат еще не достигнут, и реального подкрепления еще нет.

С другой стороны, “виртуальное” отрицательное подкрепление, когда индивидуум опасается, что результат не будет достигнут, также является частью акцептора результатов действия. По-видимому, “виртуальное” отрицательное подкрепление тесно связано с механизмами тревожности. Именно состояние тревожности возникает при ожидании негативного результата. Нейрофизиологические и нейрохимические механизмы тревожности неплохо изучены. Так, считается, что центральной структурой для формирования состояния тревожности является миндалина [10]. Подавление ГАМК-ергической регуляции уменьшает ингибиторные влияния на основные нейроны базолатеральной части миндалины, что приводит к их гипервозбудимости, которая вызывает состояние тревожности [11, 12]. Такое может произойти вследствие множественных корковых и подкорковых воздействий на нейроны миндалины. Это могут быть каннабиноидные, дофаминергические, серотонинергические, холинергические, ГАМК и глютаматергические воздействия на ГАМК-интернейроны. Эти воздействия приводят к снижению выделения ГАМК в перинейрональное пространство базолатеральных отделов миндалины, происходит повышение выделения глютамата и гипервозбудимость нейронов миндалины. Можно полагать, по аналогии с положительным подкреплением, что чем важнее результат, которого индивидуум опасается не достигнуть, и чем больше вероятность того, что он не будет достигнут, тем больше будет происходить гипервозбудимость миндалины. Таким образом, в аппарате акцептора результата действия должен быть механизм, не только оценивающий параметры будущего результата, но и вероятность его достижения. Впервые на важность оценки вероятности достижения результата (удовлетворения потребности) указал П.В. Симонов. Он полагал, что эмоция есть отражение мозгом человека и животных какой-либо актуальной потребности (ее качества и величины) и вероятности (возможности) ее удовлетворения, которую мозг оценивает на основе генетического и ранее приобретенного индивидуального опыта". Это утверждение было представлено в виде формулы:

${\text{Э }} = {\text{П }} \times \left( {{\text{И н }} - {\text{И с }}} \right),$

где Э – эмоция (ее сила, качество и знак); П – сила и качество актуальной потребности; (Ин – Ис) – оценка вероятности (возможности) удовлетворения данной потребности, на основе врожденного (генетического) и приобретенного опыта; Ин – информация о средствах, прогностически необходимых для удовлетворения существующей потребности; Ис – информация о средствах, которыми располагает человек в данный момент времени. Из формулы хорошо видно, что при Ис > Ин эмоция приобретает положительный знак, а при Ис < Ин – отрицательный [13].

Какие же нейрофизиологические механизмы могут оценивать вероятность достижения результата?

В последние годы огромное внимание привлекает опорное ядро терминального тяжа (bed nucleus of the stria terminalis, BNST). Считается, что BNST является центром интеграции информации негативной направленности или состояния тревожности в связи с тем, что именно отсюда распространяются проекции в миндалину, которые приводят к высвобождению в ее центральной части кортикотропин-рилизинг фактора (КРФ), который затем активирует гипоталамо-гипофизарно-надпочечниковую ось [14, 15]. Кроме этого, мю- и каппа-опиоидные рецепторы, располагающиеся на ГАМК-ергических интернейронах BNST модулируют активность синаптической передачи в КРФ синапсах [16, 17]. Такая модуляция может определять, возникнет ли у индивидуума состояние тревожности (виртуальное отрицательное подкрепление) или ожидание положительного подкрепления (виртуальное положительное подкрепление).

Многие отделы мозга могут быть вовлечены в предсказание информационного будущего, его оценки и расчетов вероятностей. Можно думать, что возбуждение, связанное с предсказанием негативного результата, исходящее из латеральной миндалины может взаимодействовать с возбуждениями положительной модальности из вентральной покрышки на уровне прилежащего ядра и корковых образований. Здесь может происходить оценка важности достижения результата и вероятности его достижения. В результате возникает либо положительное, либо отрицательное опережающее подкрепление. Как положительное, так и отрицательное опережающее подкрепление обладают стимулирующим действием и усиливают исходную мотивацию [18]. Это способствует более оптимальному достижению полезного приспособительного результата.

Таким образом, в аппарате предвидения будущего результата можно выделить два компонента (см. рис. 1). Первый компонент оценивает параметры достигнутого результата. Это классический акцептор результата действия необходимый для построения гармонического поведения и избегания ошибки. Он состоит в постоянном сличении результатов сделанного, с ранее предсказанными афферентными параметрами результатов [1], т.е. в этом компоненте на основании индивидуального опыта и генетической информации формируются информационные памятные следы о будущем результате.

Рис. 1.

Схема акцептора результата действия.

Второй компонент – опережающее подкрепление. Оно формируется также на основании генетического и индивидуально-приобретенного опыта (памяти индивидуума) о биологической или социальной значимости будущего результата, а также о вероятности его достижения в данных условиях.

На рисунке показаны афферентные и эфферентные связи компонентов акцептора результата действия с аппаратом афферентного синтеза. Можно думать, что на основании интегрированной импульсации, поступающей из афферентного синтеза, где доминирующая мотивация извлекает из памяти на основе обстановочной афферентации генетическую и индивидуально-приобретенную информацию, необходимую, как для оценки важности результата, его параметров, так и для оценки вероятности его достижения (красные линии). После этого формируется опережающее положительное или отрицательное подкрепление, а также информационный компонент параметров будущего результата. Опережающее подкрепление оказывает обратное влияние на афферентный синтез, активируя доминирующую мотивацию. При достижении результата и совпадении его параметров с заложенными в акцепторе, возникает “реальное” положительное подкрепление, что приводит к подавлению механизмов опережающих подкреплений и торможению работы афферентного синтеза. Мотивация перестает доминировать и поведенческий акт прекращается.

По-видимому, опережающее положительное или отрицательное подкрепление формируется лишь тогда, когда индивидуум осознает какой результат будет достигаться и как он будет это делать. Если поведенческий акт является “автоматическим”, не осознаваемым субъектом, то опережающее подкрепление не формируется. Однако, при достижении результата “автоматического” поведенческого акта его параметры все равно сравниваются с параметрами, заложенными в акцепторе. Так, в начале обучения, когда наблюдалось большое количество ошибок (недостижение результата) наблюдалась высокая активность дофаминовых нейронов в стриатуме обезьян. Когда в результате обучения поведение становилось практически “автоматическим”, активность дофаминовых нейронов существенно падала [19]. Авторы полагают, что активность дофаминовых нейронов стриатума является своеобразным “детектором ошибок” – чем больше ошибок, тем сильнее активность. Однако, по нашему мнению, активность дофаминовых нейронов связана с опережающим положительным подкреплением, возникающем при высокой, но не 100% вероятности достижения результата.

Раскрытие нейрофизиологических и нейрохимических механизмов компонентов акцептора результатов действия в будущем даст возможность фармакологической регуляции поведения человека и животных. Так, например, ненормальное усиление процессов опережающего положительного подкрепления при патологическом игровом поведении или при формировании зависимости от психоактивных веществ требует коррекции путем подавления активности мезокортиколимбической дофаминовой системы. Прекращение любых форм патологического поведения могло бы осуществляться при появлении возможности воздействия на информационный эквивалент будущего результата данного патологического поведения. Таким образом, избирательное подавление или активация механизмов опережающего подкрепления, оценки важности результата и вероятности его достижения, а также информационного эквивалента будущего результата позволило бы полностью решить проблему таких нарушений, как болезни зависимости, нарушения полового, пищевого и социального поведения человека. Кроме этого, при помощи воздействий на механизмы акцептора результатов действия возможна оптимизация трудовой, спортивной и другой “нормальной” деятельности людей. Возможно также направленное воздействие на поведение сельско-хозяйственных животных.

В настоящее время не подлежит сомнению, что способность к предвидению является свойством биологических субъектов. П.К. Анохин писал: “Любая дробная функция организма оказывается возможной только в том случае, если в момент формирования решения и команды к действию формируется сразу же и аппарат предсказания. Совершенно очевидно, что машины, которые могли бы на каждом этапе своего действия "заглядывать в будущее”, получили бы значительное преимущество перед современными".

Список литературы

Анохин П.К. Биология и нейрофизиология условного рефлекса. Москва, Медицина. 1968. [Anokhin P.K. Biologia I neurophiziologia uslovnogo refleksa [Biology and neurophysiology of condition reflex]. Moscow. Medicina. 1968].
Анохин П.К. Психическая форма отражения действительности. В кн.: Ленинская теория отражения и современность. Под редакцией Павлова Т. София: Наука и искусство. 109–138. 1969. [Anokhin P.K. Psychic form of reflection of reality. In Lenin’s theory of reflection and modernity. Sofia. Nauka I izkustvo. 109–138. 1969].
Судаков К.В. Акцептор результатов действия – структурно-функциональная основа динамических стереотипов головного мозга. Журнал высш. нерв. деятельности. 55(2) : 272–283. 2005. [Sudakov K.V. Acceptor of action result – structural and functional basis of dynamic stereotypes of the brain. Zhurnal Vysshej Nervnoi Deyatelnosti Imeni Pavlova 55(2): 272–283. 2005 (In Russ)].
Судаков К.В. Доминирующие стереотипы или информационные отпечатки действительности. М. ПЕРСЭ. 2002. [Sudakov K.V. Dominiruyuschie stereotypy ili informacionnyje otpechatki dejstvitelnosti. The dominant stereotypes or informational imprints of reality Moscow. PERSE.2002].
Судаков К.В. Информационный феномен жизнедеятельности. М. Рос. мед. акад. постдипл. Образования. 1999. [Sudakov K.V. Informaciommyi fenomen zysnedejatelnosty. [Informational phenomenon of life activity]. Moscow. Ros. Med. Akad. Postdipl. Obrazovanija. 1999].
Судаков К.В. Системное построение динамических стереотипов головного мозга. Успехи современной биологии, 128(3): 227–244. 2008. [Sudakov K.V. Systemic building of dynamic stereotypes of the brain. Advanc. Modern. 128(3): 227–244. 2008 (In Russ)].
Судаков С.К. Механизмы виртуального подкрепления и действие психоактивных веществ. Вопросы наркологии. 2–3: 109–116. 2017. [Sudakov S.K. Mechanisms of virtual reinforcements and action of psychoactive substances. Narcol. Issues. 2–3: 109–116. 2017. (In Russ.)].
Судаков С.К. Физиология и фармакология положительного подкрепления. Бюлл. Эксперим. биологии и медицины. 2018. 166(12): 664-669. [Sudakov S.K. Physiology and pharmacology of positive reinforcement]. Bull. Exp. Biol. Med. 2018. (in press). (In Russ.)].
Fibiger H.C., Phillips A.G. Mesocorticolimbic dopamine systems and reward. Ann. N.Y. Acad. Sci. 537: 206–215. 1988.
Sharp B.M. Basolateral amygdale and stress-induced hyperexitability affect motivated behavior and addiction. Transl. Psychiatry. 7(8): 1–13. 2017.
Prager E.M., Bergstrom H.C., Wynn G.H., Braga M.F. The basolateral amygdale gamma-aminobutyric acidargic system in health and disease. J. Neurosci. Res. 96(6): 548–567. 2016.
Woodruff A.R., Sah P. Networks of parvalbumin-positive interneurons in the basolateral amygdala. J. Neurosci. 27(3): 253–263. 2007.
Симонов П.В. Эмоциональный мозг. Москва. Наука. 1981. [Simonov P.V. Emotsionalnyi mozg [Emotional brain]. Moscow. Nauka. 1981].
Davis M., Walker D.L., Miles L., Grillon C. Phasic vs sustained fear in rats and humans: role of the extended amygdale in fear vs anxiety. Neuropsychopharmacology. 35(1): 105–135. 2010.
Dong H.W., Petrovich G.D., Watts A.G., Swanson L.W. Basic organization of proections from the oval and fusiform nuclei of the bed nuclei of the stria terminals in adult brain. J. Comp. Neurol. 436(4): 430–455. 2001.
Jaferi A., Pickel V.M. Mu-opioide and corticotrophin-releasing-factor receptors show lagely postsynaptic co-expression, and separate presynaptic disruptions, in the mouse central amygdale and bed nucleus of the stria terminals. Neuroscience. 159(2): 526–539. 2009.
Li C., Preil K.E., Stamatakis A.M., Busan S., Vong L., Lowell B.B. Presynaptic inhibition of gamma aminobutyric acid release in the bed nucleus of the stria terminals by kappa-opioide receptor signaling. Biol. Psychiatry. (8): 725–732. 2012.
Berridge K.C., Robinson T.E. What is the role of dopamine in reward: hedonic impact, reward learning, or incentive salience? Brain Res Brain Res Rev. 28(3): 309–69. 1998
Hollerman J.R., Schultz W. Dopamine neurons report an error in the temporal prediction of reward during learning. Nat. Neurosci. 1(4): 304–309. 1998.

Дополнительные материалы отсутствуют.

Инструменты

следующая статья выпуска предыдущая статья выпуска содержание выпуска

Российский физиологический журнал им. И.М. Сеченова

Архивы выпусков Информация о журнале Отправить рукопись в журнал

Российский физиологический журнал им. И.М. Сеченова, 2019, T. 105, № 1, стр. 36-42

Физиологические механизмы предвидения будущего результата целенаправленного поведения

Рис. 1.

Свяжитесь с нами

Время работы