Генетика, 2021, T. 57, № 11, стр. 1318-1329

К анализу случайных процессов изонимии. II. Динамика дивергенции популяций

В. П. Пасеков *

Вычислительный центр им. А.А. Дородницына Федерального исследовательского центра “Информатика и управление” Российской академии наук
119991 Москва, Россия

* E-mail: pass40@mail.ru

Поступила в редакцию 03.02.2021
После доработки 21.04.2021
Принята к публикации 27.04.2021

Полный текст (PDF)

Аннотация

Рассматривается случайная динамика фамильного состава популяции конечного размера в дискретном времени при неперекрывающихся поколениях. Наследование фамилий предполагается патрилинейным. Динамика анализируется на малом промежутке эффективного времени t/NE(t), где NE(t) – средний гармонический эффективный размер популяции за t поколений. Так как при этом систематическими давлениями можно пренебречь, то в результате фамильная микроэволюция приближенно соответствует процессу случайного генного дрейфа, синхронно протекающему в той же самой популяции с вчетверо меньшей, чем для фамилий, интенсивностью. Подобно модели дрейфа генов фамильный состав очередного поколения τ является случайной выборкой с возвращением размера Ne(τ)/2 из фамилий мужской составляющей родительской популяции, т. е. размера в 4 раза меньшего, чем выборка 2Ne(τ) гамет при дрейфе генов (Ne(τ) – эффективный размер популяции в поколении τ). Изучается динамика вероятности случайной встречи индивидуума с однофамильцем и поведение вероятности встречи индивидуумов с разными фамилиями. Данные вероятности аналогичны гомозиготам и гетерозиготам соответственно при анализе генетической структуры. Приведены точные зависимости от времени для указанных вероятностей, дисперсий концентраций фамилий и фамильного аналога коэффициента инбридинга. Дана аппроксимация точных зависимостей более простыми при малой величине эффективного времени t/NE(t), где дивергенция фамилий идет вчетверо быстрей, чем генная. Результаты не предполагают монофилии фамилий и описывают умозрительную теоретическую совокупность популяций-реплик, как бы прошедших заново микроэволюционную историю рассматриваемой популяции в тех же условиях. Использование малого по сравнению с размером популяции времени оправдано недавним возникновением большинства фамилий в России и тем, что прошедшее время в поколениях много меньше типичных размеров популяций. В реальных подразделенных популяциях процедуры оценивания коэффициента инбридинга по концентрациям фамилий не позволяют различить ситуации механической смеси субпопуляций или их общего происхождения.

Ключевые слова: теоретическая популяционная генетика, популяции с неперекрывающимися поколениями, коэффициент инбридинга, дрейф фамилий, случайный генный дрейф, математические модели, динамика дивергенции фамильного состава, асимптотика на малом эффективном времени.

Фамильный состав популяции отражает ее этническую принадлежность, происхождение, генеалогию (всем хотелось бы разузнать побольше о своих корнях) и он любопытен сам по себе [1, 2]. Известно, что между передачей потомкам фамилии и родительских генов имеется сходство. Для нас наибольший интерес представляет связь фамильной и генетической структур [38].

Всплеск публикаций в этом направлении появился после статьи [3], посвященной оценке коэффициента инбридинга популяции по частоте изонимных браков (см. критические моменты использования данных по изонимным бракам в [9]). Библиография подобных работ приведена в [10]. В первой части серии [11] и в настоящей работе для анализа фамильной структуры привлекаются модификации соответствующих простейших популяционно-генетических моделей популяции ограниченного размера. Подробный анализ этой связи мы начали в первой части [11], в основном посвященной описанию структуры в статике (в фиксированный момент времени). В настоящей статье основное внимание уделено динамике фамильной структуры.

Хотя пришедший из древней Греции термин “изонимия” означает равенство всех перед законом, в последующем расширении этого понятия под изонимией стали понимать совокупность одинаковых названий. Например, изонимными считаются браки, в которых фамилия супруга совпадает с девичьей фамилией жены (браки между однофамильцами). Применительно к области популяционной генетики широкое распространение получил метод оценивания коэффициента инбридинга популяции по частоте изонимных браков, но использование изонимии не ограничено только этим подходом.

Очевидно, изонимию также характеризуют состав и количество однофамильцев в популяции. Пусть k – количество разных фамилий, а mi обозначает количество индивидуумов с i-й фамилией в популяции размера N. Доля i-й фамилии pimi/N показывает ее распространенность, а совокупность таких долей дает распределение фамилий в популяции (фамильное состояние), причем

$\sum\limits_{i = 1}^k {{{m}_{i}}} = N,\,\,\,\,{{p}_{i}} \equiv {{{{m}_{i}}} \mathord{\left/ {\vphantom {{{{m}_{i}}} N}} \right. \kern-0em} N},\,\,\,\,\sum\limits_{i = 1}^k {{{p}_{i}}} = 1.$

Распространенность (долю, концентрацию) однофамильцев с учетом всех фамилий можно было бы подсчитать как ее среднее значение вида

${{\left( {\sum\limits_{i = 1}^k {{{p}_{i}}} } \right)} \mathord{\left/ {\vphantom {{\left( {\sum\limits_{i = 1}^k {{{p}_{i}}} } \right)} k}} \right. \kern-0em} k} = {\text{ }}\sum\limits_{i = 1}^k {{{\left( {{{{{m}_{i}}} \mathord{\left/ {\vphantom {{{{m}_{i}}} N}} \right. \kern-0em} N}} \right)} \mathord{\left/ {\vphantom {{\left( {{{{{m}_{i}}} \mathord{\left/ {\vphantom {{{{m}_{i}}} N}} \right. \kern-0em} N}} \right)} k}} \right. \kern-0em} k}} = {{\left( {{N \mathord{\left/ {\vphantom {N N}} \right. \kern-0em} N}} \right)} \mathord{\left/ {\vphantom {{\left( {{N \mathord{\left/ {\vphantom {N N}} \right. \kern-0em} N}} \right)} k}} \right. \kern-0em} k}{\text{ = }}{{\text{1}} \mathord{\left/ {\vphantom {{\text{1}} k}} \right. \kern-0em} k}.$

Однако такая характеристика явно мало информативна, так как тождественно равна 1/k при любом распределении однофамильцев. Ее недостаток в том, что не учитывается “вес” отдельных фамилий, т.е. их разная распространенность. Например, если при k = 2 в популяции размера 1000 индивидуумов было 998 однофамильцев по первой фамилии и 2 по второй, то данный показатель распространенности равен 1/2 и будет таким же при одинаковом (по 500) числе однофамильцев по каждой из двух фамилий.

Подойдем к построению характеристики распространенности однофамильцев иначе. Выберем из всей популяции случайным образом некоторого индивидуума. У него окажется i-я фамилия с вероятностью pi, очевидно равной ее концентрации в популяции. Независимо от результата первого наблюдения снова наугад выберем индивидуума. Вероятность, что у него та же фамилия, равна pi. Значит вероятность piso,i наблюдения пары однофамильцев с i-й фамилией (их случайной встречи) находится как $p_{i}^{2}$ независимо от монофилии фамилий (от условия, согласно которому у однофамильцев с конкретной фамилией один и тот же патрилинейный родоначальник). При суммировании по i находим вероятность Priso для индивидуума случайно встретить в популяции своего однофамильца с учетом всех фамилий как

$P{{r}_{{iso}}} \equiv \sum\limits_i {{{p}_{{iso,i}}}} = \sum\limits_i {p_{i}^{2}} ,\,\,\,\,{{p}_{{iso,i}}} \equiv p_{i}^{2}.$

Заметим, что если при наблюдении пар однофамильцев исключать пары типа индивидуум сам с собой, то вероятность выбрать второй раз индивидуума с i-й фамилией равна не pi, а (mi – 1)/N = = pi – 1/N. Величиной 1/N можно пренебречь, когда N не слишком мало. Учет поправки 1/N дает несмещенную оценку (см., например, [12]) вероятности встречи двух однофамильцев. Суть появления различий в том, используем ли мы выборку с возвращением (например, выборку фамилий из родительской популяции, когда отцом у каждого потомка при каждом выборе может быть любой из N мужчин, не имеющих в этом отношении преимуществ друг перед другом) или выборку без возвращения (например, при выборе следующего индивидуума из оставшихся в популяции).

Дополнительной к вероятности случайно наблюдать пару однофамильцев является вероятность случайной встречи индивидуумов с разными фамилиями, происходящих от заведомо разных родоначальников при патрилинейном наследовании фамилии и при отсутствии у них изменений (“мутаций”). Вероятность наблюдения индивидуума с i-й фамилией равна pi, а вероятность его встречи с носителем другой фамилии 1 – pi, так что вероятность (Hsi) наблюдения двух индивидуумов с i-й и иной фамилиями с учетом порядка равна pi(1 – pi). Когда упорядоченность индивидуумов при встрече не имеет значения, такая вероятность равна 2pi(1 – pi) и складывается из pi(1 – pi) и (1 – pi)pi, а при учете всех фамилий равна $\sum\nolimits_i {2{{p}_{i}}(1 - {{p}_{i}})} .$ Данную сумму можно интерпретировать как вероятность (Hs) встречи двух потомков разных родоначальников.

Согласно [11, 13] на малом по сравнению с размером популяции промежутке времени доминирующим фактором динамики является случайный дрейф. Именно на влиянии случайного дрейфа на указанном промежутке мы сосредоточимся далее. При этом будем использовать предпосылки стандартных широко использующихся популяционно-генетических моделей с неперекрывающимися поколениями. Так, наиболее известный вариант модели случайного генного дрейфа представлен моделью Райта–Фишера диплоидной популяции размера N со случайным скрещиванием и неперекрывающимися поколениями. Мы будем использовать модель с неперекрывающимися поколениями и дискретным временем для популяций человека, где присутствует перекрывание. Хотя очевидно, что такое применение противоречиво, но, например, при обработке данных по популяциям человека широко используется также выведенный для модели с неперекрывающимися поколениями закон Харди–Вайнберга. Его многократное употребление обычно подтверждает согласие закона с данными. Аналогично для анализа более сложных ситуаций в популяционной генетике используются как модели с дискретным, так и с непрерывным временем. Результаты их применения обычно не противоречат друг другу и могут рассматриваться как соответствующие аппроксимации.

При использовании далее модели со случайным скрещиванием Райта–Фишера генетическое состояние популяции в отношении аутосомного локуса с множественными аллелями описывается вектором концентраций аллелей, которые равноценны в том смысле, что у них нет преимуществ друг перед другом в передаче потомкам. В следующем поколении генетический состав популяции с численностью N представляет собой случайную выборку с возвращением размера 2N из пула гамет родительского поколения (по две гаметы на одного потомка).

При отсутствии давления систематических факторов, неслучайно изменяющего генетическую структуру, эта выборка извлекается из совокупности аллелей, в свою очередь полученных в предыдущем поколении как выборка аллелей из своего родительского поколения. Значит динамика состояния популяции представляет собой последовательность вложенных выборок, и в каждый момент времени нет систематического тренда в распространении одних и вымирании других аллелей.

Что касается модели динамики фамильной структуры, то фамилии равноценны в отношении передачи потомкам, предполагается их патрилинейное наследование и изменения (мутации) фамилий отсутствуют. После заключения брака жена принимает фамилию мужа. В результате фамильная структура женщин (матерей для следующего поколения) просто дублирует структуру мужчин (отцов) и не несет дополнительной информации. Более того, даже назначение женщинам любых фамилий не скажется на фамилиях следующего поколения, передающихся только от мужчин. На практике использование этой модели возможно и при отклонениях от данных предположений, но достаточно малых, чтобы ими было допустимо пренебречь. В итоге траектория состава фамилий в популяции в ряду поколений представляет собой последовательность составов вложенных выборок из фамилий мужчин соответствующих родительских поколений с объемами N(τ)/2, и на нее не влияют фамилии женщин.

Однако отметим, что информация по девичьим фамилиям женщин может быть полезна, например, при использовании данных по изонимным бракам. Если дополнительно потребовать, чтобы фамилии комбинировались в брачных парах независимо, то вероятность изонимного брака совпадает с вероятностью случайной встречи двух однофамильцев.

ДИНАМИКА ФАМИЛЬНОГО СОСТОЯНИЯ ПОПУЛЯЦИИ

Состав фамилий в следующем поколении является случайной выборкой с возвращением из совокупности фамилий мужчин родительского поколения. Динамика фамильного состава популяции представляет собой последовательность вложенных выборок с возвращением из совокупности фамилий в соответствующих родительских поколениях. Каждая выборка определяет фамильный состав популяции на очередном шагу, и при равном соотношении полов ее размер совпадает с размером N(τ)/2 мужской части популяции с общей численностью N(τ) в следующем поколении τ. Таким образом, динамика фамильной структуры формально совпадает с процессом генного дрейфа, синхронно идущего в той же самой популяции, но при вчетверо меньших размерах выборок (N(τ)/2 для дрейфа фамилий и 2N(τ) для дрейфа генов). При этом роль множественных аллелей локуса играют фамилии индивидуумов.

Уточним информацию о фамильном составе выборки. Он представляет собой результат N(τ)/2 испытаний, а если рассматривать отдельную фамилию, то результат биномиальных испытаний. У нас “испытанию” соответствует рождение потомка (мужского пола, так как женщин не рассматриваем). У потомка будет i-я фамилия с вероятностью pi, где pi – ее концентрация в поколении родителей, или какая-либо другая (с вероятностью 1 – pi). По свойствам биномиальных испытаний с вероятностью успеха pi у концентрации успехов xi в выборке размера K будут следующие характеристики:

(1)
$\begin{gathered} E\left\{ {{{x}_{i}}} \right\} = E\left\{ {\left. {{{x}_{i}}} \right|{\kern 1pt} {{p}_{i}}} \right\} = {{p}_{i}}, \\ V({{x}_{i}}) \equiv E\left\{ {{{{\left( {{{x}_{i}}--E\left\{ {{{x}_{i}}} \right\}} \right)}}^{2}}} \right\} = {{{{p}_{i}}(1{\text{ }}--{{p}_{i}})} \mathord{\left/ {\vphantom {{{{p}_{i}}(1{\text{ }}--{{p}_{i}})} K}} \right. \kern-0em} K}. \\ \end{gathered} $

Напомним, что E{.} является символом операции получения математического ожидания случайной величины, заключенной в фигурные скобки (его можно понимать как среднее значение при неограниченном увеличении размера выборки), а V(.) обозначает дисперсию случайной величины в круглых скобках.

Из (1) следует, что случайный дрейф как последовательность вложенных выборок не имеет тенденций в динамике концентраций “успехов”, оставляя их в среднем неизменными (т.е. у нас концентрации фамилий в среднем остаются равными начальным значениям). Однако при неизменности в среднем возможные концентрации фамилий как бы расплываются вокруг начальных значений. Поэтому обратимся к свойствам динамики фамильного дрейфа.

Результат 1. Пусть динамика вектора x(t) концентраций фамилий {xi(t)} в популяции постоянного эффективного размера N рассматривается как последовательность вложенных случайных выборок с возвращением размера N/2 из фамилий родителей. На каждом шагу вероятности выбора фамилий равны их концентрациям среди родителей. Обозначим начальные концентрации фамилий через p = {pi} = = {xi(0)} и положим, что можно пренебречь их мутациями и миграциями.

Тогда независимо от наличия или отсутствия монофилии фамилий динамика фамильного состава {xi(t)} популяции характеризуется следующим образом:

1. В наугад выбранной популяции-реплике из умозрительной совокупности реплик (как бы повторяющих микроэволюцию рассматриваемой популяции в тех же условиях и с теоретически возможными фамильными состояниями) вероятность E{Hs(x(t))} случайной встречи двух потомков разных родоначальников и вероятность E{Hsi(x(t))}, i = 1, 2, … встречи потомков с i-й фамилией и иной убывают по поколениям t = 1, 2, … с одним и тем же темпом 2/N своей величины за шаг (поколение) независимо от предположения о монофилии фамилий. При этом

$\begin{gathered} E\left\{ {H{{s}_{i}}({\mathbf{x}}(t))} \right\} \equiv E\left\{ {{{x}_{i}}(t)(1 - {{x}_{i}}(t))} \right\} = \\ = {{p}_{i}}(1 - {{p}_{i}}){{(1 - {2 \mathord{\left/ {\vphantom {2 N}} \right. \kern-0em} N})}^{t}} \equiv H{{s}_{i}}({\mathbf{p}}){{(1 - {2 \mathord{\left/ {\vphantom {2 N}} \right. \kern-0em} N})}^{t}}\mathop \to \limits_{t \to \infty } {\text{0,}} \\ \end{gathered} $
(2)
$\begin{gathered} E\left\{ {Hs({\mathbf{x}}(t))} \right\} \equiv E\left\{ {1 - \sum\limits_{i = 1}^k {x_{i}^{2}(t)} } \right\} = \\ = Hs({\mathbf{p}}){{(1 - {2 \mathord{\left/ {\vphantom {2 N}} \right. \kern-0em} N})}^{t}}\mathop \to \limits_{t \to \infty } 0. \\ \end{gathered} $

2. В пределе с течением времени популяция будет состоять только из однофамильцев и, более того, из потомков лишь одного родоначальника.

Доказательство. 1. Очевидно, потомки с разными фамилиями заведомо происходят от разных родоначальников независимо от монофилии фамилий. Сначала найдем значение E{xi(t)(1 – xi(t))} в первом поколении при отсутствии мутаций и миграций фамилий. Согласно (1) при xi(0) = pi ожидаемое значение E{xi(t)} в первом поколении равно pi и

$\begin{gathered} E\left\{ {H{{s}_{i}}({\mathbf{x}}(1))} \right\} \equiv E\left\{ {{{x}_{i}}(1)(1{\text{ }}--{{x}_{i}}(1))} \right\} = \\ = E\left\{ {{{x}_{i}}(1)} \right\} - E\left\{ {x_{i}^{2}(1)} \right\} = \\ = E\{ {{x}_{i}}(1)\} - \left( {Vs({{x}_{i}}(1)) + {{{\left( {E\left\{ {{{x}_{i}}(1)} \right\}} \right)}}^{2}}} \right) = \\ = {{p}_{i}} - Vs({{x}_{i}}(1)) - p_{i}^{2} = {{p}_{i}}(1 - {{p}_{i}}) - Vs({{x}_{i}}(1)), \\ \end{gathered} $

так как для любой случайной величины x

(3)
$\begin{gathered} V(x) \equiv E\left\{ {{{{\left( {x--E\left\{ x \right\}} \right)}}^{2}}} \right\} = E\left\{ {{{x}^{2}}} \right\} - {{\left( {E\left\{ x \right\}} \right)}^{2}}, \\ E\left\{ {{{x}^{2}}} \right\} = {{\left( {E\left\{ x \right\}} \right)}^{2}} + V(x). \\ \end{gathered} $

Подставим в полученное выражение для E{Hsi(x(1))} значение дисперсии Vs(xi(1)), соответствующее выборочному дрейфу фамилий, т.е. по (1) равное ${{{{p}_{i}}({\text{1 }}--{\text{ }}{{p}_{i}})} \mathord{\left/ {\vphantom {{{{p}_{i}}({\text{1 }}--{\text{ }}{{p}_{i}})} {\tfrac{N}{2}}}} \right. \kern-0em} {\tfrac{N}{2}}}{\text{:}}$

$\begin{gathered} E\left\{ {{{x}_{i}}(1)\left( {1 - {{x}_{i}}(1)} \right)} \right\} = \\ = {{p}_{i}}\left( {1 - {{p}_{i}}} \right){{(1 - V({{x}_{i}}(1))} \mathord{\left/ {\vphantom {{(1 - V({{x}_{i}}(1))} {({{p}_{i}}(1 - {{p}_{i}}))}}} \right. \kern-0em} {({{p}_{i}}(1 - {{p}_{i}}))}} = \\ = {{p}_{i}}(1 - {{p}_{i}})(1 - {2 \mathord{\left/ {\vphantom {2 N}} \right. \kern-0em} N}),\,\,\,\,i = 1,\,\,2,\,\,...\,\,. \\ \end{gathered} $

Здесь фамилия может быть произвольной, а ожидаемое значение E{Hsi(x(1))} вероятности Hsi(x(1)) случайной встречи потомков с разными фамилиями уменьшилось за поколение (шаг) по сравнению с предыдущей величиной Hsi(p) в 1 – 2/N раз, какими бы ни были концентрация фамилий x(0) ≡ p и сами фамилии. Поэтому еще за одно поколение при любом из полученных случайных значений концентраций фамилий {xi(2)} вероятность E{Hsi(x(2))} встречи двух потомков разных родоначальников на втором шагу также уменьшится в 1 – 2/N раз, откуда за два первых поколения уменьшение будет в (1 – 2/N)2 раз.

Таким образом, за каждое поколение вероятность Hs(x(t)) наблюдения пары потомков разных родоначальников с учетом всех фамилий уменьшается в 1 – 2/N раз, а через t шагов (поколений) в последовательности случайных выборок из соответствующих родительских популяций вплоть до родоначальной имеем

$E\left\{ {Hs({\mathbf{x}}(t))} \right\} = Hs({\mathbf{p}}){{(1 - {2 \mathord{\left/ {\vphantom {2 N}} \right. \kern-0em} N})}^{t}} \to 0\,\,{\text{при}}\,\,t \to \infty .$

Если эффективная численность изменяется и в поколении τ равна Ne(τ), то

$E\left\{ {Hs({\mathbf{x}}(t))} \right\} = Hs\left( {\mathbf{p}} \right)\prod\limits_{\tau = 1}^t {(1 - {2 \mathord{\left/ {\vphantom {2 {Ne(\tau )}}} \right. \kern-0em} {Ne(\tau )}})} .$

2. Когда среди конечного количества возможных вариантов реализации фамильного состава популяции среднее значение для неотрицательной вероятности xi(1 – xi) наблюдения двух потомков разных родоначальников равно нулю, то и на каждой реализации xi(1 – xi) будет равно нулю, что означает случайную утерю фамилий. В итоге вся популяция будет состоять из однофамильцев, в том числе и при росте размера популяции до некоторого предела, а также при отсутствии монофилии фамилий. В конечном итоге все индивидуумы будут потомками одного родоначальника. ◄

Следствие 2. Динамика характеристик фамильной структуры популяции в рамках предположений предыдущего результата описывается следующими зависимостями от времени:

$\begin{gathered} Vs({{x}_{i}}(t)) = {{p}_{i}}(1 - {{p}_{i}})(1 - {{(1 - {2 \mathord{\left/ {\vphantom {2 N}} \right. \kern-0em} N})}^{t}}) = \\ = H{{s}_{i}}\left( {\mathbf{p}} \right) - E\left\{ {H{{s}_{i}}({\mathbf{x}}(t))} \right\}\mathop \to \limits_{t \to \infty } {{p}_{i}}(1 - {{p}_{i}}) = H{{s}_{i}}\left( {\mathbf{p}} \right), \\ \end{gathered} $
(4)
$\begin{gathered} E\left\{ {x_{i}^{2}(t)} \right\} = {{p}_{i}} - {{p}_{i}}(1 - {{p}_{i}}){{(1 - {2 \mathord{\left/ {\vphantom {2 N}} \right. \kern-0em} N})}^{t}} = \\ = {{p}_{i}} - E\left\{ {H{{s}_{i}}({\mathbf{x}}(t))} \right\}\mathop \to \limits_{t \to \infty } {{p}_{i}},\,\,\,\,~i = 1,\,\,2,\,\,...\,\,k, \\ Fs({\mathbf{x}}(t)) = 1 - {{(1 - {2 \mathord{\left/ {\vphantom {2 N}} \right. \kern-0em} N})}^{t}}~\mathop \to \limits_{t \to \infty } 1. \\ \end{gathered} $

Здесь Vs(xi(t)) – дисперсия концентрации xi у i-й фамилии в теоретической совокупности популяций-реплик, $E\left\{ {x_{i}^{2}(t)} \right\}$вероятность случайной встречи двух индивидуумов с i-й фамилией в популяции, случайно выбранной из теоретической совокупности, Fs(x(t)) – фамильный аналог коэффициента инбридинга популяции в поколении t (в момент времени t).

Доказательство. 1. Для отыскания Vs(xi) воспользуемся выражением Vs(xi) через E{xi(1 – xi)} как при выводе (3) и (2):

$\begin{gathered} Vs\left( {{{x}_{i}}\left( t \right)} \right) = {{p}_{i}}\left( {1 - {{p}_{i}}} \right) - E\left\{ {{{x}_{i}}\left( t \right)\left( {1 - {{x}_{i}}\left( t \right)} \right)} \right\} = \\ = {{p}_{i}}\left( {1 - {{p}_{i}}} \right) - {{p}_{i}}\left( {1 - {{p}_{i}}} \right){{\left( {1 - {2 \mathord{\left/ {\vphantom {2 N}} \right. \kern-0em} N}} \right)}^{t}} = \\ = {{p}_{i}}\left( {1{\text{ }}--{{p}_{i}}} \right)\left( {1 - {{{\left( {1 - {2 \mathord{\left/ {\vphantom {2 N}} \right. \kern-0em} N}} \right)}}^{t}}} \right) \to \\ \to {{p}_{i}}\left( {1 - {{p}_{i}}} \right) = H{{s}_{i}}\left( {\mathbf{p}} \right)\,\,{\text{при}}\,\,t \to \infty . \\ \end{gathered} $

2. Вероятность случайной встречи однофамильцев с i-й фамилией при условии ее концентрации xi(t) в фиксированной популяции равна $x_{i}^{2}(t).$ При случайном выборе популяции-реплики вероятность такой встречи согласно (3) находится как Vs(xi) + (E{xi})2, где подстановка Vs(xi) = pi(1 – pi) – pi(1 – pi)(1 – 2/N)t из п. 1 дает

$\begin{gathered} E\left\{ {x_{i}^{2}\left( t \right)} \right\} = Vs\left( {{{x}_{i}}} \right) + {{\left( {E\left\{ {{{x}_{i}}} \right\}} \right)}^{2}} = \\ = \,{{p}_{i}} - {{p}_{i}}\left( {1 - {{p}_{i}}} \right){{\left( {1 - {2 \mathord{\left/ {\vphantom {2 N}} \right. \kern-0em} N}} \right)}^{t}} = {{p}_{i}} - E\left\{ {H{{s}_{i}}\left( {{\mathbf{x}}\left( t \right)} \right)} \right\}\mathop \to \limits_{t \to \infty } {{p}_{i}}. \\ \end{gathered} $

3. Из п. 1 следует, что

E{xi(1 – xi)} = pi(1 – pi) – Vs(xi) = = pi(1 – pi)(1 – Vs(xi)/(pi(1 – pi))).

Правую часть данного выражения можно записать как pi(1 – pi)(1 – Fs), где коэффициент Fs ≡ ≡ Vs(xi)/(pi(1 – pi)) является аналогом случайного коэффициента инбридинга популяции F (точнее FST) для данных по фамилиям. Поскольку Fs(xi(t)) ≡ ≡ Fs(t) = Vs(xi(t))/(pi(1 – pi)), то подстановка сюда найденного выражения для Vs(xi) дает Fs(t) = 1 – (1 – – 2/N)t и Fs(t) → 1 при t → ∞. ◄

В более реальной ситуации с изменениями размера популяции вместо (1 – 2/N)t будет $\prod\nolimits_{{{\tau = 1}}}^t {(1 - {2 \mathord{\left/ {\vphantom {2 {Ne(\tau )}}} \right. \kern-0em} {Ne(\tau )}})} $ → 0 при t → ∞, если у Ne(τ) существует конечный предел или Ne(τ) ограничено сверху константой. Отметим, что формулы (4) являются точными для модели случайного дрейфа, а далее займемся их аппроксимациями.

КОЭФФИЦИЕНТ ИНБРИДИНГА ПОПУЛЯЦИИ И СВОЙСТВА ДРЕЙФА ФАМИЛИЙ ПРИ МАЛОМ ЭФФЕКТИВНОМ ВРЕМЕНИ ДИВЕРГЕНЦИИ

Во многих исследованиях внимание фокусируется на микроэволюции, и желательно найти удобную и несложную аппроксимацию процессов динамики на небольших периодах эффективного времени 2t/N. В отношении дрейфа фамилий это особенно актуально, так как подавляющее количество фамилий появилось в России сравнительно недавно после первой Всероссийской переписи населения в 1897 г., хотя они встречались еще в новгородских летописях. Отметим, что небольшой период должен быть таковым лишь по сравнению с размером популяции, достигающим сотен, тысяч и более. Так как мы время измеряем в поколениях, то для человека это уже тысячи и десятки тысяч лет.

Рассмотрим асимптотику дивергенции состояния одной популяции от начального значения в терминах Hs (или H) и Fs (F) на малом промежутке эффективного времени в поколениях. В стационарных условиях среды зависимость от времени t это зависимость от x(t), например F(t) = F(x(t)). В популяционной генетике вероятности Hs соответствует концентрация H гетерозигот в случайно скрещивающейся популяции, и по формуле С. Райта

$\begin{gathered} E\left\{ {H({\mathbf{x}}(t))} \right\} = H({\mathbf{p}})(1 - F({\mathbf{x}}(t)), \\ {\text{откуда}}\,\,F({\mathbf{x}}(t)) = {{\left( {H({\mathbf{p}}) - E\left\{ {H({\mathbf{x}}(t)} \right\}} \right)} \mathord{\left/ {\vphantom {{\left( {H({\mathbf{p}}) - E\left\{ {H({\mathbf{x}}(t)} \right\}} \right)} {H({\mathbf{p}})}}} \right. \kern-0em} {H({\mathbf{p}})}}, \\ \end{gathered} $

где H(p) – начальное значение концентрации гетерозигот, E{H(x(t))} – ожидаемая концентрация гетерозигот в теоретической совокупности популяций-реплик с возможными генетическими состояниями x(t) при заданных условиях существования, F(x(t)) – коэффициент инбридинга популяции (см., скажем, [12]).

Аналог коэффициента инбридинга F в случае фамилий мы обозначили ранее как Fs. Случайный генный дрейф отличается от фамильного дрейфа лишь тем, что для первого изменение состояния при смене поколений происходит за счет выборки размера 2N для аллелей, а для фамилий размер выборки N/2 вчетверо меньше. Значит, подстановка нужного значения 2N или N/2 в соответствующие формулы дает характеристики дрейфа генов или дрейфа фамилий. К сожалению, по данным обследования популяций, относящихся к одному моменту времени, входящие в эти формулы начальные значения H(p) = H(0) и Hs(0) неизвестны.

Для дрейфа фамилий в случае постоянной по поколениям численности популяции N зависимость Hs(x(t)) для фамилий согласно (2) довольно проста: E{Hs(x(t))} = Hs(p)(1 – 2/N)t, а для гетерозигот E{H(x(t))} = H(p)(1 – 1/2N)t. На малом интервале эффективного времени эти зависимости еще более упрощаются:

$\begin{gathered} {{(1 - {2 \mathord{\left/ {\vphantom {2 N}} \right. \kern-0em} N})}^{t}} = {{e}^{{t\,{\text{ln}}\left( {1 - \,{2 \mathord{\left/ {\vphantom {2 N}} \right. \kern-0em} N}} \right)}}}\sim {{e}^{{{{ - 2t} \mathord{\left/ {\vphantom {{ - 2t} N}} \right. \kern-0em} N}}}}, \\ {{(1 - {1 \mathord{\left/ {\vphantom {1 {2N}}} \right. \kern-0em} {2N}})}^{t}}\sim {{e}^{{{{ - t} \mathord{\left/ {\vphantom {{ - t} {2N}}} \right. \kern-0em} {2N}}}}}\,\,{\text{при}}\,\,{1 \mathord{\left/ {\vphantom {1 N}} \right. \kern-0em} N} \ll 1. \\ \end{gathered} $

Отсюда следует, например, что в популяционной генетике приближенно

$\begin{gathered} 1 - F\left( t \right) = {{e}^{{{{ - t} \mathord{\left/ {\vphantom {{ - t} {2N}}} \right. \kern-0em} {2N}}}}}, \\ F\left( t \right) = 1 - {{e}^{{{{ - t} \mathord{\left/ {\vphantom {{ - t} {2N}}} \right. \kern-0em} {2N}}}}}\sim {t \mathord{\left/ {\vphantom {t {2N}}} \right. \kern-0em} {2N}},\,\,\,\,{t \mathord{\left/ {\vphantom {t {2N}}} \right. \kern-0em} {2N}} \ll 1. \\ \end{gathered} $

Уточним полученные выражения для ситуации неслучайного изменения численности N во времени и нарушения некоторых предпосылок модели случайного дрейфа. В таком случае размер популяции в каждом поколении τ следует заменить на эффективный размер Ne(τ)) (см., например, [14, 15]), а при учете t поколений заменить N на средний гармонический эффективный размер популяции $\tilde {N}e(t)$ за весь период дивергенции t (см. нижеследующее замечание). При этом асимптотически на малом эффективном времени ${t \mathord{\left/ {\vphantom {t {2\tilde {N}e(t)}}} \right. \kern-0em} {2\tilde {N}e(t)}}$ зависимости рассматриваемых характеристик от ${t \mathord{\left/ {\vphantom {t {2\tilde {N}e(t)}}} \right. \kern-0em} {2\tilde {N}e(t)}}$ оказываются линейными.

Замечание 3. Пусть в каждом поколении τ = 1, 2, … фамильное состояние популяции с неперекрывающимися поколениями формируется как случайная выборка с возвращением размера $\tilde {N}e(t)$/2 из совокупности фамилий родителей, а вероятности выбора фамилий равны их концентрациям среди родителей.

Тогда в t-м поколении при $\tilde {N}e(t)$/t → ∞ (t/$\tilde {N}e(t)$ → → 0) асимптотически

$\begin{gathered} E\left\{ {Hs\left( {{\mathbf{x}}\left( t \right)} \right)} \right\}\sim Hs\left( {{\mathbf{x}}\left( 0 \right)} \right)\left( {1 - {{2t} \mathord{\left/ {\vphantom {{2t} {\tilde {N}e(t)}}} \right. \kern-0em} {\tilde {N}e(t)}}} \right) = \\ = Hs\left( {{\mathbf{x}}\left( 0 \right)} \right)\left( {1 - Fs\left( {{\mathbf{x}}\left( t \right)} \right)} \right), \\ \end{gathered} $
$Fs\left( {{\mathbf{x}}\left( t \right)} \right)\sim {{2t} \mathord{\left/ {\vphantom {{2t} {\tilde {N}e\left( t \right)}}} \right. \kern-0em} {\tilde {N}e\left( t \right)}},\,\,\,\,\tilde {N}e\left( t \right) \equiv {t \mathord{\left/ {\vphantom {t {\sum\limits_{\tau = 1}^t {\left( {{1 \mathord{\left/ {\vphantom {1 {Ne(\tau )}}} \right. \kern-0em} {Ne(\tau )}}} \right)} }}} \right. \kern-0em} {\sum\limits_{\tau = 1}^t {\left( {{1 \mathord{\left/ {\vphantom {1 {Ne(\tau )}}} \right. \kern-0em} {Ne(\tau )}}} \right)} }},$
(5)
$F\left( {{\mathbf{x}}\left( t \right)} \right)\sim {1 \mathord{\left/ {\vphantom {1 4}} \right. \kern-0em} 4} \cdot Fs\left( {{\mathbf{x}}\left( t \right)} \right)\sim {t \mathord{\left/ {\vphantom {t {2\tilde {N}e\left( t \right)}}} \right. \kern-0em} {2\tilde {N}e\left( t \right)}}.$

Здесь $\tilde {N}e(t)$средний гармонический эффективный размер популяции за t поколений дивергенции, F – случайный коэффициент инбридинга.

Доказательство. В случае фамилий величина E{Hsi(x(t))} ≡ E{xi(t)(1 – xi(t))} уменьшается за поколение τ в 1 – 2/$Ne(\tau )$ раз согласно ранее доказанному. Значит через 2 поколения E{Hsi(x(2))} = = Hs(x(0))(1 – 2/Ne(1))(1 – 2/Ne(2)), а через t поколений

$\begin{gathered} E\left\{ {{{x}_{i}}\left( t \right)\left( {1 - {{x}_{i}}\left( t \right)} \right)} \right\} = {{p}_{i}}\left( {1 - {{p}_{i}}} \right)\prod\limits_{\tau = 1}^t {\left( {1 - {2 \mathord{\left/ {\vphantom {2 {Ne(\tau )}}} \right. \kern-0em} {Ne(\tau )}}} \right)} = \\ = {{p}_{i}}\left( {1 - {{p}_{i}}} \right){{{\text{e}}}^{{\sum\limits_{\tau = 1}^t {\ln (1 - {2 \mathord{\left/ {\vphantom {2 {Ne(\tau ))}}} \right. \kern-0em} {Ne(\tau ))}}} }}}\sim {{p}_{i}}\left( {1 - {{p}_{i}}} \right){{{\text{e}}}^{{--2\sum\limits_{\tau = 1}^t {{1 \mathord{\left/ {\vphantom {1 {Ne(\tau ))}}} \right. \kern-0em} {Ne(\tau ))}}} }}} \approx \\ \approx {{p}_{i}}\left( {1 - {{p}_{i}}} \right){{{\text{e}}}^{{{{ - 2t} \mathord{\left/ {\vphantom {{ - 2t} {\tilde {N}e(t)}}} \right. \kern-0em} {\tilde {N}e(t)}}}}}\sim {{p}_{i}}\left( {1 - {{p}_{i}}} \right)\left( {1 - {{2t} \mathord{\left/ {\vphantom {{2t} {\tilde {N}e(t)}}} \right. \kern-0em} {\tilde {N}e(t)}}} \right), \\ {t \mathord{\left/ {\vphantom {t {\tilde {N}e(t)}}} \right. \kern-0em} {\tilde {N}e(t)}} \ll 1, \\ \end{gathered} $

поскольку ln(1 – 2/Ne(τ)) ~ –2/Ne(τ), $\sum\nolimits_{{{\tau = 1}}}^t {{1 \mathord{\left/ {\vphantom {1 {Ne(\tau )}}} \right. \kern-0em} {Ne(\tau )}}} $) ≈ ${t \mathord{\left/ {\vphantom {t {\tilde {N}e(t)}}} \right. \kern-0em} {\tilde {N}e(t)}}$ при малом значении ${t \mathord{\left/ {\vphantom {t {\tilde {N}e(t)}}} \right. \kern-0em} {\tilde {N}e(t)}}.$ В результате суммирования E{Hsi(x(t))} по i при ${t \mathord{\left/ {\vphantom {t {\tilde {N}e(t)}}} \right. \kern-0em} {\tilde {N}e(t)}} \ll 1$ получаем

$\begin{gathered} E\left\{ {Hs\left( {{\mathbf{x}}\left( t \right)} \right)} \right\}\sim Hs\left( {\mathbf{p}} \right)\left( {1 - {{2t} \mathord{\left/ {\vphantom {{2t} {\tilde {N}e\left( t \right)}}} \right. \kern-0em} {\tilde {N}e\left( t \right)}}} \right) = \\ = Hs\left( {\mathbf{p}} \right)\left( {1 - Fs\left( t \right)} \right), \\ \end{gathered} $
$Fs\left( t \right)\sim {{2t} \mathord{\left/ {\vphantom {{2t} {\tilde {N}e\left( t \right)}}} \right. \kern-0em} {\tilde {N}e\left( t \right)}},\,\,\,\,{{t~} \mathord{\left/ {\vphantom {{t~} {\tilde {N}e\left( t \right)}}} \right. \kern-0em} {\tilde {N}e\left( t \right)}} \ll 1\,\,~\left( {F,\,\,Fs \ll 1} \right).$

Очевидно, что при увеличении $\tilde {N}e(t)$ в 4 раза согласно размеру выборки гамет мы получим соответствующие результаты для генного дрейфа, и F = 1/4 · Fs = ${t \mathord{\left/ {\vphantom {t {2\tilde {N}e(t)}}} \right. \kern-0em} {2\tilde {N}e(t)}}.$

Таким образом, коэффициент инбридинга F приблизительно в 4 раза меньше его фамильного аналога Fs. Однако это простое соотношение становится неверным при большом количестве поколений t, отделяющих рассматриваемую популяцию от родоначальной (когда коэффициент инбридинга нельзя считать малым). Например, и тот и другой показатели в пределе с течением времени теоретически станут равны единице и не будут отличаться в 4 раза.

Выражение ${{2t} \mathord{\left/ {\vphantom {{2t} {\tilde {N}e(t)}}} \right. \kern-0em} {\tilde {N}e(t)}}$ показывает, что параметр $\tilde {N}e$ играет роль масштабирования времени. Например, возрастание его в 10 раз равносильно уменьшению времени в 10 раз и такому же уменьшению скорости его течения. Подобный результат верен для любой фамилии. Поэтому можно говорить, что при относительно малом количестве поколений процесс дрейфа фамилий отличается от генного дрейфа тем, что для первого из них время течет приближенно в 4 раза быстрее.

Ремарка 4. Выражение ${{2t} \mathord{\left/ {\vphantom {{2t} {\tilde {N}e(t)}}} \right. \kern-0em} {\tilde {N}e(t)}}$ для процесса дрейфа фамилий мы назвали эффективным временем. Мы видим, что оно входит в асимптотические формулы в качестве одного неразделимого параметра. Так как асимптотически Fs(t) ~ ${{2t} \mathord{\left/ {\vphantom {{2t} {\tilde {N}e(t)}}} \right. \kern-0em} {\tilde {N}e(t)}}$ согласно (5), то фамильный коэффициент инбридинга совпадает с эффективным временем. Он монотонно увеличивается вместе с привычным временем в силу роста инбредности в последовательности поколений. Поэтому можно сказать, что приведенные асимптотические формулы верны при малом коэффициенте инбридинга (что типично для популяций человека).

Подчеркнем еще раз, что сказанное справедливо на относительно малом промежутке времени. Когда численность популяции изменяется по поколениям и допускаются некоторые отклонения от идеализированных предпосылок модели случайного дрейфа, то течение процесса дрейфа лучше характеризуется эффективным временем, в котором в качестве численности популяции N фигурирует ее средний гармонический эффективный размер $\tilde {N}e(t),$ учитывающий особенности репродукции и структуры популяции, а также динамику ее численности.

Следствие 5. Пусть фамильное состояние популяции с неперекрывающимися поколениями формируется как случайная выборка с возвращением размера Ne(τ)/2 из фамилий родителей в каждом поколении τ = 1, 2, …, и вероятности выбора фамилий равны их концентрациям среди родителей.

Тогда асимптотически при ${{\tilde {N}e(t)} \mathord{\left/ {\vphantom {{\tilde {N}e(t)} t}} \right. \kern-0em} t}$ → ∞ (${t \mathord{\left/ {\vphantom {t {\tilde {N}e(t)}}} \right. \kern-0em} {\tilde {N}e(t)}}$ → → 0) дисперсия концентраций фамилий Vs(xi(t)), i = = 1, 2, … линейно зависит от эффективного времени как

(6)
$\begin{gathered} Vs\left( {{{x}_{i}}\left( t \right)} \right)\sim {{p}_{i}}\left( {1 - {{p}_{i}}} \right) \times {{2t} \mathord{\left/ {\vphantom {{2t} {\tilde {N}e\left( t \right)}}} \right. \kern-0em} {\tilde {N}e\left( t \right)}} = \\ = H{{s}_{i}}\left( {{\mathbf{x}}\left( {\mathbf{p}} \right)} \right) \times {{2t} \mathord{\left/ {\vphantom {{2t} {\tilde {N}e\left( t \right)}}} \right. \kern-0em} {\tilde {N}e\left( t \right)}} = H{{s}_{i}}\left( {{\mathbf{x}}\left( {\mathbf{p}} \right)} \right) \times Fs\left( t \right), \\ \tilde {N}e\left( t \right) \equiv {t \mathord{\left/ {\vphantom {t {\sum\limits_{\tau = 1}^t {{1 \mathord{\left/ {\vphantom {1 {Ne\left( \tau \right)}}} \right. \kern-0em} {Ne\left( \tau \right)}}} }}} \right. \kern-0em} {\sum\limits_{\tau = 1}^t {{1 \mathord{\left/ {\vphantom {1 {Ne\left( \tau \right)}}} \right. \kern-0em} {Ne\left( \tau \right)}}} }}. \\ \end{gathered} $

Здесь Ne(τ) – дисперсионный (см., например, [14]) эффективный размер популяции в поколении τ, $\tilde {N}e(t)$средняя гармоническая эффективная численность популяции за t поколений дивергенции.

Доказательство. Дисперсия Vs(xi(t)) концентрации i-й фамилии характеризует дивергенцию популяций-реплик в теоретической совокупности мыслимых вариантов фамильного состава популяции. Согласно (4) и (5) она представима в виде

$\begin{gathered} Vs({{x}_{i}}(t)) = H{{s}_{i}}({\mathbf{p}}) - E\left\{ {H{{s}_{i}}({\mathbf{x}}(t))} \right\}\sim \\ \sim H{{s}_{i}}({\mathbf{p}}) - H{{s}_{i}}({\mathbf{x}}({\mathbf{p}}))(1 - {{2t} \mathord{\left/ {\vphantom {{2t} {\tilde {N}e(t)}}} \right. \kern-0em} {\tilde {N}e(t)}}) = \\ = H{{s}_{i}}({\mathbf{x}}({\mathbf{p}})) \times {{2t} \mathord{\left/ {\vphantom {{2t} {\tilde {N}e(t)}}} \right. \kern-0em} {\tilde {N}e(t)}}.\,\,\blacktriangleleft \\ \end{gathered} $

Следствие 6. Пусть в рамках предыдущего следствия размеры выборок фамилий при каждой смене поколений τ достаточно велики для аппроксимации распределений выборочных отклоненийi(τ)} концентрации i-й фамилии нормальными.

Тогда в t-м поколении распределение этой концентрации xi(t) приближенно будет нормальным со средним значением pi и дисперсией pi(1 – pi) × ${{2t} \mathord{\left/ {\vphantom {{2t} {\tilde {N}e(t)}}} \right. \kern-0em} {\tilde {N}e(t)}}.$

Доказательство. Значение концентрации xi(t) у i-й фамилии в t-м поколении представляет собой при ${{\tilde {N}e(t)} \mathord{\left/ {\vphantom {{\tilde {N}e(t)} t}} \right. \kern-0em} t}$ → ∞ сумму приближенно нормально распределенных некоррелирующих выборочных отклонений δi(τ) с нулевыми средними плюс фиксированная начальная концентрация pi. Поэтому аппроксимацией распределения xi(t) также будет нормальное распределение со средним значением pi = xi(0) и найденной дисперсией pi(1 – ‒ pi) × ${{2t} \mathord{\left/ {\vphantom {{2t} {\tilde {N}e(t)}}} \right. \kern-0em} {\tilde {N}e(t)}}.$

К сожалению, здесь по-прежнему фигурирует начальная концентрация pi, которую нельзя найти по данным о текущем состоянии популяции (как, впрочем, и $\tilde {N}e(t)$).

ОПИСАНИЕ НЕЗАВИСИМОЙ ДИВЕРГЕНЦИИ ДВУХ ПОПУЛЯЦИЙ

До сих пор мы рассматривали дивергенцию фамильного состояния одной популяции от начального состояния. В практическом отношении, возможно, более интересно исследование дивергенции друг от друга нескольких популяций, имеющих общее происхождение. Примером могут служить популяции, состояния которых соответствуют одному и тому же моменту времени (часто моменту обследования). При общем происхождении дивергенция состояний таких популяций напоминает дивергенцию в теоретической совокупности популяций-реплик. Ее основные черты отражают начальный этап микроэволюции популяций, когда доминирующим фактором является случайный дрейф.

Рассмотрим какую-либо пару популяций, возникшую при разделении t поколений тому назад участка родословного древа на две ветви, существующие далее изолированно. Некоторые свойства фамильной дивергенции одной популяции от начального состояния мы уже рассмотрели. Фамильное состояние другой популяции аналогично претерпевает независимые изменения в результате процесса случайного дрейфа. В итоге наблюдается фамильная дивергенция популяций друг от друга. Независимо от степени дивергенции (ее длительности и размеров популяций) имеют место следующие соотношения для концентраций x(1)(t) и x(2)(t) какой-либо фамилии в первой и второй популяциях соответственно в поколении t при одинаковой у них начальной концентрации p:

$\begin{gathered} E\left\{ {{{x}^{{\left( 1 \right)}}}\left( t \right)} \right\} = E\left\{ {{{x}^{{\left( 2 \right)}}}\left( t \right)} \right\} = p, \\ E\left\{ {{{x}^{{\left( 1 \right)}}}\left( t \right){{x}^{{\left( 2 \right)}}}\left( t \right)} \right\} = E\left\{ {{{x}^{{\left( 1 \right)}}}\left( t \right)} \right\} \times E\left\{ {{{x}^{{\left( 2 \right)}}}\left( t \right)} \right\} = {{p}^{2}}, \\ E\left\{ {{{x}^{{\left( 1 \right)}}}\left( t \right) - {{x}^{{\left( 2 \right)}}}\left( t \right)} \right\} = E\left\{ {{{x}^{{\left( 1 \right)}}}\left( t \right)} \right\} - E\left\{ {{{x}^{{\left( 2 \right)}}}\left( t \right)} \right\} = 0. \\ \end{gathered} $

Данные соотношения (кроме свойства произведения) верны для любого множества популяций с общим происхождением без предположения о независимости дивергенции. Таким образом, приведенные показатели не дают информации о течении процесса дивергенции (не зависят от времени). Эту зависимость характеризует, например, средний квадрат расстояния (дисперсия) между концентрациями фамилии x(1)(t) и x(2)(t), который при независимых изменениях x(1)(t) и x(2)(t) равен сумме их дисперсий и согласно (5)–(6) при малом эффективном времени дивергенции находится как:

$\begin{gathered} E\left\{ {{{{\left( {{{x}^{{\left( 1 \right)}}}\left( t \right) - {{x}^{{\left( 2 \right)}}}\left( t \right)} \right)}}^{2}}} \right\} = Vs\left( {{{x}^{{\left( 1 \right)}}}\left( t \right)} \right) + Vs\left( {{{x}^{{\left( 2 \right)}}}\left( t \right)} \right) \sim \\ \sim p\left( {1 - p} \right)\left( {{{2t} \mathord{\left/ {\vphantom {{2t} {\tilde {N}{{e}_{1}}\left( t \right)}}} \right. \kern-0em} {\tilde {N}{{e}_{1}}\left( t \right)}} + {{2t} \mathord{\left/ {\vphantom {{2t} {\tilde {N}{{e}_{2}}\left( t \right)}}} \right. \kern-0em} {\tilde {N}{{e}_{2}}\left( t \right)}}} \right) = \\ = p\left( {1 - p} \right) \times {{4t} \mathord{\left/ {\vphantom {{4t} {\tilde {N}e\left( t \right)}}} \right. \kern-0em} {\tilde {N}e\left( t \right)}} = p\left( {1 - p} \right) \times \\ \times \,\,\left( {F{{s}^{{\left( 1 \right)}}}\left( t \right) + F{{s}^{{\left( 2 \right)}}}\left( t \right)} \right) = p\left( {1 - p} \right) \times 2\bar {F}s\left( t \right). \\ \end{gathered} $

Здесь $\tilde {N}e(t)$ = 2/(${1 \mathord{\left/ {\vphantom {1 {\tilde {N}{{e}_{1}}(t)}}} \right. \kern-0em} {\tilde {N}{{e}_{1}}(t)}}$ + ${1 \mathord{\left/ {\vphantom {1 {\tilde {N}{{e}_{2}}(t)}}} \right. \kern-0em} {\tilde {N}{{e}_{2}}(t)}}$) – среднее гармоническое значение для пары $\tilde {N}{{e}_{1}}(t)$ и $\tilde {N}{{e}_{2}}(t),$ $\bar {F}s(t)$ – среднее арифметическое значение коэффициентов фамильного инбридинга Fs(1)(t) и Fs(2)(t).

ОБСУЖДЕНИЕ

Отметим, что в приведенном анализе не принималась во внимание возможная инбредность общего предка в точке разделения ветвей, ведущих к рассматриваемой паре популяций. Поэтому, вообще говоря, в полученной выше формуле фигурируют не коэффициенты фамильного инбридинга популяций, а скорее их приращения за период t поколений от момента разветвления.

Дивергенция по отдельной фамилии между двумя популяциями на родословном древе (средний квадрат расстояния между концентрациями фамилий, т.е. дисперсия возможных различий концентраций) пропорциональна времени дивергенции или среднему арифметическому значению коэффициентов фамильного инбридинга популяций. С другой стороны, дивергенция обратно пропорциональна средней гармонической численности $\tilde {N}e(t)$ = 2/(${1 \mathord{\left/ {\vphantom {1 {\tilde {N}{{e}_{1}}(t)}}} \right. \kern-0em} {\tilde {N}{{e}_{1}}(t)}}$ + ${1 \mathord{\left/ {\vphantom {1 {\tilde {N}{{e}_{2}}(t)}}} \right. \kern-0em} {\tilde {N}{{e}_{2}}(t)}}$) популяций. Полученные зависимости подтверждают интуитивно ожидаемый качественный характер связей (их направления), но даны количественно.

К сожалению, здесь фигурирует обычно неизвестное начальное состояние p у концентраций фамилий, влияния которого желательно избежать. В точках ветвления, играющих роль ближайшего общего предка соответствующих пар, концентрации фамилии также отличаются от значений в корне родословного древа. Поэтому коэффициенты p(1 – p) в формуле для ожидаемого квадрата расстояния принимают случайные значения, свои для каждого узла ветвления, и у конкретного родословного древа их трудно учесть.

Коснемся проблем, возникающих при анализе данных, получаемых в результате обследования генетической структуры реальных популяций. В реальной подразделенной популяции, рассматриваемой как теоретическая совокупность, вместо начального состояния (математического ожидания) обычно используют среднее значение для распределения концентраций аллелей по субпопуляциям. При этом получают оценку коэффициента инбридинга в качестве статистической корреляции гомологичных генов объединяющихся гамет как в случае субпопуляций с общим происхождением, так и в случае произвольной группы субпопуляций, у которых нет идентичных по происхождению генов. Найденная оценка не позволяет выявить, какой из этих случаев имеет место, но статистическая корреляция сама по себе имеет важное значение. Она влияет на концентраций генотипов и тем самым результаты естественного и искусственного отбора, уровень наследственной отягощенности и др.

Обратим внимание на специфические черты процесса случайного выборочного дрейфа. Ожидаемым значением концентрации фамилии (аллеля) в новом поколении будет прежнее значение, т.е. у случайного дрейфа нет преимущественного направления. Поэтому величину дивергенции за поколение (“скорость” ненаправленной эволюции) можно измерять, скажем, дисперсией, а не просто средним отклонением, которое при ненаправленной эволюции равно нулю. При одинаковых прочих условиях выборочная дисперсия x(t) при смене поколений, как характеристика скорости ненаправленной дивергенции, обратно пропорциональна размеру популяции, а также определяется текущим значением x(t). Тем самым темп дивергенции для концентрации аллеля зависит от значения x(t), что затрудняет интерпретацию величины наблюдаемых различий между популяциями с общим происхождением. Поэтому желательно использовать подходы, стабилизирующие темп дивергенции.

Настоящая статья не содержит каких-либо исследований с использованием в качестве объекта животных.

Настоящая статья не содержит каких-либо исследований с участием в качестве объекта людей.

Список литературы

  1. Бужилова А.П. География русских фамилий // Восточные славяне. Антропология и этническая история. М.: Научный мир, 1999. С. 135–152.

  2. Балановская Е.В., Романов А.Г., Балановский О.П. Однофамильцы или родственники. Подходы к изучению связи между гаплогруппами Y-хромосомы и фамилиями // Мол. биология. 2011. Т. 45. № 3. С. 473–485.

  3. Crow J.F., Mange A.P. Measurement of inbreeding from the frequency of marriages between persons of the same surname // Soc. Biol. 1982. V. 29. № 1/2. P. 101–105.

  4. Lasker W.G. Surnames and Genetic Structure. Cambridge: Cambr. Univ. Press, 2005. 148 p.

  5. Ревазов А.А., Парадеева Г.М., Русакова Г.И. Пригодность русских фамилий в качестве квазигенетического маркера // Генетика. 1986. Т. 22. № 4. С. 699–703.

  6. Tarskaia L., El’chinova G., Scapoli C. et al. Surnames in Siberia: A study of the population of Yakutia through isonymy // Am. J. Phys. Anthropol. 2009. V. 138. P. 190–198. https://doi.org/10.1002/ajpa.20918

  7. Сорокина И.Н., Чурносов М.И., Балтуцкая И.В., и др. Антропогенетическое изучение населения центральной России. М.: Издательство РАМН, 2014. 336 с.

  8. Lasker G.W. A coefficient of relationship by isonymy: A method fore stimating the genetic relationship between populations // Hum. Biol. 1977. V. 49. № 3. P. 489–493.

  9. Rogers A.R. Doubts about isonymy // Hum. Biol. 1991. V. 63. № 5. P. 663–668.

  10. Сорокина И.Н., Рудых Н.А., Крикун Е.Н., Сокорев С.Н. Применение фамилий в популяционно-генетических исследованиях (на примере зарубежных популяций) // Науч. ведомости БелГУ. Сер. Медицина. Фармация. 2016. № 19(240). Вып. 35. С. 5–10.

  11. Пасеков В.П. К анализу случайных процессов изонимии. I. Структура изонимии // Генетика. 2021. Т. 57. № 10. С. 1194–1204.

  12. Вейр Б. Анализ генетических данных: дискретные генетические признаки. М.: Мир, 1995. 400 с.

  13. Малютов М.Б., Пасеков В.П. Об одной статистической задаче популяционной генетики // Теория вероятностей и ее применения. 1971. Т. 16. Вып. 3. С. 579–581.

  14. Хедрик Ф. Генетика популяций. М.: Техносфера, 2003. 592 с.

  15. Ли Ч. Введение в популяционную генетику. М.: Мир, 1978. 555 с.

Дополнительные материалы отсутствуют.