Генетика, 2021, T. 57, № 10, стр. 1194-1204

К анализу случайных процессов изонимии. I. Структура изонимии

В. П. Пасеков *

Вычислительный центр им. А.А. Дородницына Федерального исследовательского центра “Информатика и управление” Российской академии наук
119991 Москва, Россия

* E-mail: pass40@mail.ru

Поступила в редакцию 03.02.2021
После доработки 16.04.2021
Принята к публикации 27.04.2021

Полный текст (PDF)

Аннотация

Анализируются закономерности случайной дивергенции фамильного состава популяции ограниченного размера, приближенно рассматриваемой в дискретном времени с неперекрывающимися поколениями. Предполагается, что фамилии передаются потомкам патрилинейно. На относительно малом промежутке времени t/NE(t), где NE(t) – средний гармонический эффективный размер популяции за t поколений, систематическими давлениями можно пренебречь. Фамильный состав очередного поколения τ формально является случайной выборкой размера Ne(τ)/2 из фамилий мужской составляющей родительской популяции, размера в 4 раза меньшего, чем количество гамет 2Ne(τ), формирующих новое поколение, Ne(τ) – эффективный размер популяции в поколении τ. В результате фамильная микроэволюция приближенно рассматривается как аналог процесса случайного генного дрейфа, одновременно протекающего в той же самой популяции с вчетверо меньшей, чем для фамилий, интенсивностью. Роль концентрации гомозигот при анализе фамильной структуры играет вероятность случайной встречи индивидуума с однофамильцем, а гетерозигот – вероятность встречи индивидуумов с разными фамилиями. Результаты не предполагают монофилии фамилий и описывают умозрительную теоретическую совокупность популяций-реплик, как бы прошедших заново микроэволюционную историю рассматриваемой популяции в тех же условиях. Введено понятие фамильного аналога коэффициента инбридинга. Он практически превышает в 4 раза традиционный показатель инбридинга С. Райта. Оценивание коэффициента инбридинга реальных подразделенных популяций дает представление о статистической корреляции гомологичных генов объединяющихся гамет и не дифференцирует ситуации механической смеси субпопуляций или их общего происхождения. Лишь когда микроэволюция реальных субпопуляций с общим корнем независима, коэффициент инбридинга прямо связан с идентичностью генов по происхождению.

Ключевые слова: теоретическая популяционная генетика, популяции с неперекрывающимися поколениями, коэффициент инбридинга, дрейф фамилий, случайный генный дрейф, математические модели.

Интерес к популяционным фамильным данным у человека связан с задачами истории, географии заселения и миграций, происхождения, генеалогии населения [1, 2] и обусловлен просто вниманием людей к своим корням. Особенно важен также генетический аспект изучения фамильной структуры популяций [37]. Обширная библиография применения фамилий в популяционно-генетических исследованиях представлена в [8], критические моменты использования данных по изонимным бракам подчеркиваются в [9]. Применению моделей популяционной генетики в анализе фамильной структуры посвящены работы [10, 11] и др.

Во многом направления фамильных исследований объединяет ожидание кровнородственной связи (патрилинейная передача фамилий соответствует передаче Y-хромосомы) между людьми с одной фамилией (изонимными) и возможность получения информации о внутри- и межпопуляционном родстве [12]. С формализацией родства в терминах идентичности генов по происхождению можно познакомиться в [13, 14].

При изучении фамилий особый интерес вызывает связь коэффициента родства и инбридинга популяции с распространенностью в ней однофамильцев. Как известно, между передачей потомкам фамилии и передачей родительских генов имеются параллели. В определенной степени фамилии являются аналогами множественных аллелей аутосомного локуса. Одним из показателей родства служит коэффициент инбридинга популяции, важный, например, для понимания структуры наследственной отягощенности населения [15]. Фамильные данные вносят свой вклад в оценивание инбридинга популяции и генетической структуры [4]. Здесь сделаем замечание относительно интерпретации коэффициента инбридинга. Данный показатель был введен С. Райтом в 1921, 1922 гг. для диаллельных локусов (см., например, [14]) как статистическая корреляция между гомологичными генами объединяющихся гамет в генотипе особи. Позднее широкое распространение получило определение коэффициента инбридинга как вероятности идентичности по происхождению аллелей (т.е. точных копий аллеля общего предка) индивидуума.

Понятно, что возникновению инбредности благоприятствует подбор родительских пар, связанных родством, например, при искусственном отборе. Может показаться неожиданным, но при случайном выборе супруги в популяции ограниченного размера вероятность идентичности аллелей по происхождению будет ненулевой. Объяснением возникающей инбредности в такой популяции служит случайный генный дрейф, приводящий к ненаправленным колебаниям концентраций аллелей от поколения к поколению. При относительно малом количестве поколений процесс дрейфа фамилий отличается от генного дрейфа тем, что для первого из них время течет приближенно в 4 раза быстрее. В дальнейшем мы целиком фокусируемся на анализе возникновения инбредности популяции в результате случайного дрейфа как фактора увеличения вероятности идентичности аллелей по происхождению и дивергенции популяций.

Цель настоящей серии работ в адаптации анализа генного дрейфа применительно к распределению фамилий в популяциях, в систематическом изложении соответствующих результатов относительно фамильной структуры и коэффициента инбридинга в статике, динамике и асимптотике на относительно малом времени дивергенции (малых коэффициентах инбридинга), а также в выявлении связи между характеристиками фамильной и генетической структур. Показано, что при относительно малом времени доминирующим фактором динамики является случайный выборочный дрейф, приводящий к дивергенции популяции от начального состояния и дивергенции друг от друга популяций с общим происхождением на начальным этапе их микроэволюции.

В последующих частях данной работы планируется анализ зависимости от времени характеристик дивергенции возможных фамильных состояний, получение точных в рамках модели зависимостей характеристик от времени и их аппроксимаций при относительно малой длительности дивергенции. Использование понятия относительного времени и его связи с фамильным аналогом коэффициента инбридинга показывает, что время для фамильного дрейфа течет в 4 раза быстрее, чем для одновременно протекающего в популяции дрейфа генов.

В дальнейших публикациях для анализа фамильного дрейфа будет применяться преобразование состояний для стабилизации темпа дивергенции. При использовании углового расстояния между начальным и текущим состояниями случайные изменения расстояний будут изотропны, и приближенно у квадрата расстояния будет распределение хи-квадрат, что позволяет оценивать коэффициент фамильного инбридинга (который вчетверо больше коэффициента инбридинга С. Райта, традиционного в популяционной генетике). Кроме того, детально анализируется связь вероятности случайной встречи двух изонимных индивидуумов с вероятностью идентичности по происхождению гомологичных аллелей объединяющихся гамет в диплоидных генотипах индивидуумов.

Кратко коснемся обозначений и терминологии. Под концентрациями фамилий в популяции подразумеваются концентрации однофамильцев. Если используется информация о фамилиях мужчин и женщин, то у женщин имеются в виду девичьи фамилии. Термины “вероятность наблюдения пары однофамильцев, вероятность случайной встречи двух однофамильцев, появление изонимной пары в результате случайного выбора двух индивидуумов” являются синонимами. Векторы набраны полужирным шрифтом, к обозначениям фамильных аналогов популяционно-генетических характеристик добавлено окончание s. Характеристики индивидуумов и их пар пишутся строчными буквами, а популяционные характеристики – заглавными (например, f и F), символ ◄ обозначет конец доказательства.

О СЛУЧАЙНОМ ВЫБОРОЧНОМ ДРЕЙФЕ ФАМИЛИЙ

Чтобы проанализировать связь динамики распределения фамилий в популяции с передачей потомкам наследственной информации, желательно хорошо представлять себе особенности этих процессов изолированно. В определенной степени фамилии являются аналогами множественных аллелей одного аутосомного локуса. Публикаций по однолокусной генетической структуре популяций конечного размера гораздо больше, чем по особенностям распределения фамилий. Поэтому обратимся к анализу фамильной структуры.

Проведем ее исследование в максимально простой ситуации с выполнением предположений, используемых в популяционной генетике. Пусть поколения не перекрываются. Конечно, у человека существует перекрывание, но использование результатов, полученных для модели с неперекрывающимися поколениями (например, закона Харди–Вайнберга), обычно не приводит к противоречиям и эффективно при анализе генетической структуры популяций человека.

Положим, что фамилии передаются патрилинейно от отца к сыну без изменений, в браке супруга принимает фамилию мужа. Очевидно, после заключения браков фамильная структура у супругов как мужчин, так и женщин одинакова, и учет фамилий женщин после брака (дублей фамилий супругов) неинформативен. Все это свидетельствует о том, что можно отказаться от использования данных по фамилиям женщин и изучать только фамильную структуру мужчин – ведь даже если бы фамильный состав женщин изменялся произвольно это не оказывало бы никакого влияния на фамилии у мужчин в последующем.

Однако в некоторых отношениях использование девичьих фамилий женщин целесообразно, например при анализе изонимных браков. Добавим к этому дополнительные соображения о роли женщин в анализе фамильного состава. Рассмотрим популяцию в произвольном поколении τ. В нем фамильный состав совместно мужчин и девичьих фамилий у женщин в популяции размера N(τ) является случайной выборкой с возвращением объема N(τ) (включающей выборки фамилий по каждому полу) из совокупности фамилий у родителей-мужчин предыдущего поколения. Если наша задача состоит в оценивании фамильного состояния в предыдущем поколении τ – 1, то источником информации будут как фамилии мужчин, так и девичьи фамилии женщин общим количеством N(τ) – размером всей случайной выборки из фамилий у родителей-мужчин.

Если же задача состоит в предсказании свойств фамильного состояния в следующем поколении, то они определяются размером N(τ + 1)/2 случайной выборки (дающей фамильный состав мужчин в очередном поколении τ + 1) из фамилий мужчин в момент τ. Таким образом, оценивание предыдущего состояния точнее, чем предсказание следующего, если не принимать во внимание динамику численности.

Итак, при изучении динамики фамильной структуры можно ограничиться анализом данных только по мужчинам, численность которых при образовании семей обозначим как N/2. Именно к стадии заключения браков будем относить фамильное состояние, или фамильную структуру популяции – концентрации фамилий среди мужчин. Хотя далее будем говорить об N как общем размере популяции с учетом обоих полов, эта интерпретация условна и базовой величиной является N/2.

Динамика распределения фамилий обусловлена различиями в количестве детей, оставляемых родительскими парами, точнее различиями в числе сыновей. В этом отношении носителей фамилий полагаем равнозначными (нейтральными), а различия в размере семей чисто случайными. Каждый индивидуум следующего поколения с равной вероятностью ${1 \mathord{\left/ {\vphantom {1 {\frac{N}{2}}}} \right. \kern-0em} {\frac{N}{2}}}$ является потомком любого из N/2 родителей-отцов предыдущего поколения. Повторим, что при этом фамильный состав (фамильное состояние) мужчин следующего поколения удовлетворяет условиям случайной выборки с возвращением размера N/2 из совокупности фамилий родительского поколения. Понятно, что фамильный состав поколения потомков наследует родительский с выборочной ошибкой, накапливающейся в поколениях.

Эта схема известна в популяционной генетике как модель Райта–Фишера. В ней генетический состав нового поколения диплоидной популяции является результатом 2N случайных испытаний (N – размер популяции с учетом женщин и 2N – количество гамет, формирующих N диплоидных потомков). Вероятность при каждом из 2N испытаний получить i-ю гамету равна ее концентрации pi в пуле гамет родителей. У нас аналогично новый фамильный состав мужской части популяции размера N/2 на следующем шагу является случайной выборкой N/2 фамилий родителей с присущими выборкам отклонениями от состояния родительского поколения.

Здесь имеется полное сходство с генетической моделью гаплоидной популяции (или диплоидной со случайным скрещиванием), рассматриваемой в отношении одного (аутосомного) локуса с множественными аллелями. Роль фамилий играют аллели. Аналогом пар индивидуумов с разными фамилиями (следовательно, с разными родоначальниками) являются гетерозиготы, а аналогом пар однофамильцев будут гомозиготы. Согласно свойствам независимых биномиальных испытаний с вероятностью успеха pi дисперсия V(xi) возможных значений доли xi успехов в выборке размера K, т.е. дисперсия концентрации i-й фамилии находится как V(xi) = pi(1 – pi)/K.

Отсюда для одной и той же популяции при одинаковых фамильном и генетическом состояниях интенсивность выборочных колебаний при смене поколения (дисперсия) концентраций фамилий в 4 раза больше, чем у одновременно протекающего в популяции генного дрейфа (выборка фамилий вчетверо меньше, чем выборка гамет).

В дальнейшем мы воспользуемся следующим свойством [16] класса моделей стохастических процессов со случайными и систематическими изменениями состояния, которому принадлежит модель Райта–Фишера.

Замечание 1. Пусть состояние популяции размера N с неперекрывающимися поколениями меняется за счет независимых случайных выборочных колебаний при смене поколений с дисперсией σ2порядка 1/N и неслучайного давления систематических факторов микроэволюции, также вызывающих изменения порядка 1/N за поколение.

Тогда, при малой величине отношения t/N, где t обозначает длительность процесса динамики состояния популяции в поколениях, давлением систематических факторов (отбора, миграций, мутаций) можно пренебречь.

Доказательство. Для конкретности рассмотрим модель Райта–Фишера. У нее изменения состояния популяции за поколение (шаг) не направлены и случайны. Поэтому среднее значение выборочного отклонения состояния за шаг не характеризует темп динамики, так как оно равно нулю. Скорость можно охарактеризовать, например, средним абсолютным отклонением за поколение, которое для отдельной координаты состояния (концентрации отдельной фамилии) примерно равно 0.8 от среднего квадратического отклонения σ в случае нормального и близких к нему распределений. Скорость изменений квадрата отклонения ненаправленного случайного процесса можно измерять дисперсией σ2 состояний за шаг.

В случае некоррелирующих случайных изменений состояний при сменах поколений дисперсия суммарного отклонения через небольшое количество t поколений увеличится примерно в t раз, как и величина систематического отклонения. Значит среднее абсолютное отклонение будет порядка $\sqrt {t{{\sigma }^{2}}} $ = $\sqrt {t{1 \mathord{\left/ {\vphantom {1 N}} \right. \kern-0em} N}} ,$ а порядок систематического $t{1 \mathord{\left/ {\vphantom {1 N}} \right. \kern-0em} N}.$ Для их отношения имеем

$\begin{gathered} {{\sqrt {t \times {1 \mathord{\left/ {\vphantom {1 N}} \right. \kern-0em} N}} } \mathord{\left/ {\vphantom {{\sqrt {t \times {1 \mathord{\left/ {\vphantom {1 N}} \right. \kern-0em} N}} } {(t \times {1 \mathord{\left/ {\vphantom {1 N}} \right. \kern-0em} N})}}} \right. \kern-0em} {(t \times {1 \mathord{\left/ {\vphantom {1 N}} \right. \kern-0em} N})}} = \\ = \sqrt {{N \mathord{\left/ {\vphantom {N t}} \right. \kern-0em} t}} \gg 1\,\,{\text{при}}\,\,{N \mathord{\left/ {\vphantom {N t}} \right. \kern-0em} t} \gg 1\,\,({\text{при}}\,\,{t \mathord{\left/ {\vphantom {t N}} \right. \kern-0em} N} \ll 1). \\ \end{gathered} $

Следовательно, когда t мало по сравнению с N, систематическим отклонением можно пренебречь как много меньшим по сравнению с абсолютным. ◄

ФИНАЛЬНЫЕ ТЕОРЕТИЧЕСКИЕ ПОСЛЕДСТВИЯ ВЫБОРОЧНЫХ КОЛЕБАНИЙ ФАМИЛЬНОГО СОСТАВА ПОПУЛЯЦИИ

Рассмотрим гипотетическую исходную (родоначальную) популяцию (без предположения о монофилии фамилий, но на промежутке времени, когда мутациями и миграциями фамилий можно пренебречь). Пусть pi обозначает концентрацию i-й фамилии среди родоначальников. Фамильный состав популяции в следующем поколении моделируется как состав случайной выборки с возвращением из фамилий родителей. Очевидно, что вероятность выбрать i-ю фамилию из совокупности, где ее концентрация равна pi, совпадает с pi. Изменчивость вклада родоначальников в концентрацию i-й фамилии в следующем поколении обусловлена случайностью результатов ряда биномиальных испытаний с вероятностью успеха pi (появления потомка с i-й фамилией) и неудачи 1 – pi (появления потомка с любой другой фамилией). Обозначим через xi концентрацию i-й фамилии в следующем поколении. Напомним, что согласно свойствам биномиальных испытаний у выборки размера K будут следующие характеристики:

(1)
$\begin{gathered} E\{ {{x}_{i}}\} = E\{ \left. {{{x}_{i}}} \right|{\kern 1pt} {{p}_{i}}\} = {{p}_{i}}, \\ ~V({{x}_{i}}) \equiv E\{ {{({{x}_{i}}~--E\{ {{x}_{i}}\} )}^{2}}\} = {{{{p}_{i}}(1--{{p}_{i}})} \mathord{\left/ {\vphantom {{{{p}_{i}}(1--{{p}_{i}})} K}} \right. \kern-0em} K}, \\ \end{gathered} $
где E{xi} обозначает теоретическую среднюю величину (математическое ожидание) для случайных значений xi (E{xi|pi} – математическое ожидание xi при условии вероятности успеха pi), а V(xi) – дисперсия случайной величины xi (у нас дисперсия возможных концентраций i-й фамилии xi в выборке, т.е. новом поколении).

Ремарка 2. Термин “ожидаемая величина (математическое ожидание)” понимается следующим образом. Пусть в одних и тех же условиях из родительской популяции многократно и независимо производятся случайные выборки одного и того же размера. У каждой выборки может быть свой фамильный состав, т.е. у нас состав популяции нового поколения, отличающийся в общем случае от состава другой выборки. Такие популяции-реплики образуют умозрительную теоретическую совокупность. Ее характеризуют среднее (ожидаемое) значение xi (или каких-либо характеристик популяции, выражающихся через x ≡ {xi}), а также дисперсия значений xi. Точно так же наблюдаемые результаты случайного процесса микроэволюции популяции при его повторении в тех же условиях не совпадут друг с другом. Здесь теоретическую совокупность образует множество возможных результатов-реплик популяции, повторяющей заново микроэволюцию. Среднее значение xi в теоретической совокупности является математическим ожиданием xi. Ee характеристики обычно находятся математически.

Ожидаемую величину x, обозначаемую как E{xi}, следует отличать от выборочной средней величины $\bar {x}$ (это сумма наблюдаемых величин, деленная на число наблюдений). Значение E{xi} является константой (для биномиальных испытаний она равна вероятности успеха p), а $\bar {x}$ является случайной величиной, варьирующей от выборки к выборке (у нас $\bar {x}$ совпадает с концентрацией фамилии, равной суммарному количеству однофамильцев с данной фамилией, деленному на размер выборки, причем дисперсия $\bar {x}$ равна p(1 – p)/K).

Теоретически выборочные колебания концентраций xi приводят в конце концов к такому фамильному состоянию популяции, когда она будет целиком состоять из однофамильцев (см. далее). Разумеется, данный теоретический предел не достигается в реальности, хотя бы потому, что предпосылки модели не могут строго выполняться неограниченно долго. Промежуточные стадии процесса случайного дрейфа многократно наблюдались в малых деревнях России, где резко преобладала одна или несколько фамилий. Такая ситуация описывалась не раз в художественной литературе упоминаниями типа “у нас в деревне все Смирновы”. Меня поражала картина, когда большинство жителей деревни оказываются однофамильцами. Например, при изучении популяций европейского севера России [17] встретилась деревня с 91% однофамильцев при общем числе жителей 126 человек. Для городского человека такая ситуация парадоксальна. Так, когда я учился в школе в подмосковном городе с населением порядка 45 тыс. человек, в моем классе совсем не было однофамильцев.

Результат 3. Пусть фамильные (генетические) состояния популяции с неперекрывающимися поколениями формируются как последовательности независимых случайных выборок с возвращением (вложенных выборок) фамилий (аллелей) из фамилий (аллелей) родительского поколения. Тогда:

1) закономерности случайного процесса изменений фамильного состава популяции определяются ее мужской составляющей и соответствуют процессу генного дрейфа по одному аутосомному локусу с множественными аллелями (аналогами фамилий) в той же самой популяции;

2) хотя закономерности дрейфа фамилий такие же, как для синхронно идущего в популяции генного дрейфа, интенсивность дрейфа фамилий, фигурально говоря, вчетверо выше, чем дрейфа генов, при одинаковых фамильном и генетическом состояниях.

Доказательство. 1. Выборочная природа колебаний фамильного состава популяции воспроизводит свойства популяционно-генетической модели случайного генного дрейфа в популяции ограниченной численности при панмиксии. Это доказывает соответствие между процессами генного дрейфа и дрейфа фамилий, закономерности которых представляют собой закономерности последовательности вложенных выборок.

2. Как показано выше, в одной и той же популяции процесс генного дрейфа соответствует последовательности вложенных выборок в 4 раза большего размера (численности гамет), чем выборок в процессе дрейфа фамилий (численности мужчин). Тем самым интенсивность дрейфа фамилий, если измерять ее дисперсией возможных концентраций фамилии (аллеля) в выборке, будет вчетверо больше, чем для дрейфа генов при одинаковых фамильном и генетическом состояниях. ◄

Для вычисления математических ожиданий полезна следующая формула полного математического ожидания какой-либо числовой характеристики X:

(2)
$E(X) = E\{ E\{ \left. X \right|{\kern 1pt} A\} \} = \sum {E\{ \left. X \right|{\kern 1pt} {{A}_{i}}\} Pr({{A}_{i}})} .$

Здесь A – объединение событий {Ai}, представляющих собой полную систему несовместимых случайных событий, реализующихся с вероятностями {Pr(Ai)} и таких, что обязательно происходит одно из событий системы; E{X|Ai} обозначает условное (условие пишем после вертикальной черты) математическое ожидание для X при условии реализации соответствующего случайного события Ai. Например, в искусственной ситуации, когда полная система состоит из городских и сельских жителей, средний рост населения E {рост} равен E {рост|житель города} ⋅ Pr(житель города) + + E{рост|житель села} ⋅ Pr(житель села).

Результат 4. Пусть в популяции с неперекрывающимися поколениями при заключении браков жена получает фамилию мужа. Положим, что фамилии наследуются патрилинейно, равноценны (нейтральны) в отношении их передачи потомкам, у каждого из которых с равной вероятностью отцом может быть любой из родительского поколения, а мутациями и миграциями фамилий можно пренебречь. Тогда:

1) в любом поколении (времени) вероятность случайно встретить индивидуума с i-й фамилией в наугад выбранной популяции из теоретической совокупности равна ее концентрации pi в родоначальной популяции, i = 1, 2, …;

2) в предположении, что с течением времени в конкретной популяции останутся только однофамильцы, вероятность фиксации i-й фамилии равна ее концентрации pi среди родоначальников.

Доказательство. Разумеется, в конкретной популяции концентрация фамилии (вероятность встречи в ней индивидуума с данной фамилией) варьирует по поколениям, а постоянно лишь ее ожидаемое значение на возможных траекториях динамики. Динамика фамильного состава начинается с формирования первого поколения, состав которого соответствует результату независимых испытаний, в каждом из которых потомок с i-й фамилией появляется с вероятностью pi (вероятностью успеха), равной концентрации данной фамилии среди родоначальников. Пусть xi обозначает концентрацию i-й фамилии в новом поколении. Согласно свойствам биномиальных испытаний (1) среднее (ожидаемое) значение для доли успехов E{xi} в испытаниях равно вероятности успеха, т.е. у нас среди популяций-реплик ожидаемое значение концентрации i-й фамилии в новом поколении равно pi. Значит у концентраций и фамилий нет определенного тренда в отклонениях от своих начальных значений.

Возможные реализации биномиальных испытаний можно интерпретировать как мыслимые (теоретически возможные) фамильные составы популяций-реплик, фамильное разнообразие которых получено в результате повторных случайных выборок из той же самой родительской популяции. Тогда E{xi} имеет смысл ожидаемой для популяций-реплик концентрации i-й фамилии и является функцией начального состояния xi(0) = pi: E{xi(1)} = = E{xi(1)|xi(0) = pi} = pi.

1. Очевидно, в поколении τ значение концентрации i-й фамилии в популяции является случайной величиной. В следующем поколении τ + 1 при условии xi(τ) для распределения очередного значения концентрации xi(τ + 1) имеем E{xi(τ + + 1)|xi(τ)} = xi(τ) согласно свойствам (1) биномиальных испытаний. По формуле полного математического ожидания (2)

$\begin{gathered} E\{ {{x}_{i}}(\tau + 1)\} = E\{ E\{ {{x}_{i}}(\left. {\tau + 1} \right|{\kern 1pt} {{x}_{i}}(\tau ))\} \} = E\{ {{x}_{i}}(\tau )\} , \\ E\{ {{x}_{i}}(\tau )\} = E\{ {{x}_{i}}(\tau --1)\} = \ldots = {{x}_{i}}(0) \equiv {{p}_{i}}. \\ \end{gathered} $

2. Найдем вероятность фиксации i-й фамилии в предположении случайной утери со временем всех фамилий, кроме одной (см. далее). Поскольку E(xi(τ)) = pi в любом поколении, это равенство выполняется и когда в популяции осталась только одна из фамилий. Например, пусть i-я фамилия фиксировалась с неизвестной вероятностью Ui (тогда ее концентрация xi в популяции равна единице) и утерялась с вероятностью 1 – Ui (тогда ее концентрация равна нулю). Отсюда согласно (2)

$\begin{gathered} {{p}_{i}} = E\{ {{x}_{i}}\} = E\{ \left. {{{x}_{i}}} \right|фиксация\} {{U}_{i}} + \\ + \,\,E\{ \left. {{{x}_{i}}} \right|утеря\} (1 - {{U}_{i}}) = 1{{U}_{i}} + 0(1 - {{U}_{i}}) = {{U}_{i}}.\,\,\blacktriangleleft \\ \end{gathered} $

ОПИСАНИЕ ДИВЕРГЕНЦИИ ФАМИЛЬНОЙ СТРУКТУРЫ ПОДРАЗДЕЛЕННЫХ ПОПУЛЯЦИЙ

Напомним известные из биометрии свойства дисперсии случайных величин. Для любой случайной величины (например, для x с дисперсией V(x)) имеем

(3)
$\begin{gathered} V(x) \equiv E\{ {{(x - E\{ x\} )}^{2}}\} = E\{ {{x}^{2}}\} - {{(E\{ x\} )}^{2}}, \\ ~E\{ {{x}^{2}}\} = {{(E\{ x\} )}^{2}} + V(x). \\ \end{gathered} $

Перед анализом фамильной структуры обратимся к использованию концепции идентичности по происхождению (ИПП) гомологичных генов (т.е. точных копий гена некоторого общего предка) применительно к определению коэффициента инбридинга. Коэффициентом инбридинга индивидуума f ≥ 0 называется вероятность ИПП его гомологичных генов. Понятно, что согласно данному определению коэффициент инбридинга f является случайной величиной, принимающей (как вероятность) значения от 0 до 1 и варьирующей от индивидуума к индивидууму. Коэффициентом инбридинга популяции F ≥ 0 называется ожидаемый коэффициент инбридинга у случайно выбранного из популяции индивидуума (FE{f} ≥ 0).

В инбредной популяции с концентрациями {pi} аллелей аутосомного локуса концентрации {pii} гомозиготных генотипов имеют вид (см., например, [18]):

$\begin{gathered} {{p}_{{ii}}}\left( F \right) = F{{p}_{i}} + \left( {1 - F} \right)p_{i}^{2} = p_{i}^{2} + F{{p}_{i}}\left( {1 - {{p}_{i}}} \right) \geqslant p_{i}^{2}, \\ i = 1,\,\,2, \ldots k;\,\,\,\,1 \geqslant {{p}_{i}},\,\,\,\,F \geqslant 0. \\ \end{gathered} $

Соответственно концентрация $\sum {{{p}_{{ii}}}(F)} $ всех гомозигот находится как

$\begin{gathered} \sum {{{p}_{{ii}}}(F)} = \sum {(F{{p}_{i}} + (1 - F)p_{i}^{2})} = \\ = \sum {p_{i}^{2}} + \sum {F{{p}_{i}}(1 - {{p}_{i}})} \geqslant \sum {p_{i}^{2}} . \\ \end{gathered} $

Концентрацией H(p, F) ≡ 1 – $\sum {{{p}_{{ii}}}(F)} $ всех гетерозигот будет

$\begin{gathered} H({\mathbf{p}},F) = 1 - \sum {{{p}_{{ii}}}(F)} = \\ = 1 - \left( {\sum {p_{i}^{2}} + F\sum {{{p}_{i}}(1 - {{p}_{i}})} } \right) = \\ = 1 - \sum {p_{i}^{2}} - F\left( {\sum {{{p}_{i}}} - \sum {p_{i}^{2}} } \right) = \left( {1 - \sum {p_{i}^{2}} } \right)-- \\ - \,\,F\left( {1 - \sum {p_{i}^{2}} } \right) = \left( {1 - F} \right)\left( {1 - \sum {p_{i}^{2}} } \right) \equiv \\ \equiv (1 - F)H({\mathbf{p}},0) \leqslant H({\mathbf{p}},0). \\ \end{gathered} $

Таким образом, инбридинг проявляется в уменьшении концентрации гетерозигот и увеличении гомозиготности по сравнению со значениями, соответствующими соотношениям Харди–Вайнберга.

Коэффициент инбридинга можно выразить через дисперсии концентраций аллелей в популяциях-репликах или дисперсии по субпопуляциям в подразделенной популяции (см. далее).

Проиллюстрируем картину дивергенции фамилий в статике (в некоторый фиксированный момент) на примере умозрительного или реального множества из нескольких субпопуляций со своими фамильными составами из k фамилий. Такое множество часто называют подразделенной популяцией. Ее субпопуляции составляют теоретическую или реальную обследованную совокупность. Обозначим концентрации фамилий по всем субпопуляциям через xi$\left\{ {x_{i}^{{(j)}}} \right\}.$ Здесь верхний индекс у $x_{i}^{{(j)}}$ дает номер субпопуляции, а нижний – номер фамилии.

Положим, что у распределения концентрации i-й фамилии xi по субпопуляциям среднее значение равно pi, а дисперсия – Vs(xi). Статическую картину дивергенции фамильного состава в данном множестве субпопуляций будем описывать с помощью дисперсий {Vs(xi)} и вероятностей {Hsi(x)} встреч двух индивидуумов с i-й фамилией и с какой-либо другой, а также с использованием вероятности Hs(x) случайной встречи двух индивидуумов с разными фамилиями. Повторим, что аналогом для Hsi(x) в популяционной генетике является концентрация гетерозигот с i-м аллелем, а для Hs(x) – концентрация всех гетерозигот.

Сделаем небольшое отступление, касающееся смысла Hs и H. Hs является теоретической концепцией, относящейся к случайному событию (наблюдению разных фамилий у пары индивидуумов), которое могло произойти или нет, тогда как H относится к наблюдениям фактически реализовавшихся событий (и находится подсчетом гетерозигот). Вероятность Hs можно понимать двояко. С одной стороны, эту вероятность можно определить с учетом порядка фамилий как xi(1 – xi), где xi – концентрация i-й фамилии во всей совокупности популяций как едином целом. С другой стороны, ее можно понимать как вероятность случайно выбрать одну из (различающихся) популяций совокупности, скажем с концентрацией xi, затем вычислить в ней значение E{Hsi|x} = xi(1 – xi) согласно закону Харди–Вайнберга, а уже потом найти итоговую вероятность результата извлечений с учетом всевозможных выборов популяции по формуле (2) полного математического ожидания E{Hsi} = E{E{Hsi|x}}.

Например, если представить себе, что у всех субпопуляций одна и та же независимая микроэволюционная история после отделения от общего корня, то состояние j-й субпопуляции соответствует состоянию на j-й из возможных траекторий динамики, играющих роль популяций-реплик. В фиксированный момент времени имеем как бы срез траекторий, и E{E{Hsi|x}} дает ожидаемое значение Hsi на траекториях в данный момент. В простейшем случае M субпопуляций и равновероятного выбора любой из них значение E{E{Hsi|x}} = E{$x_{i}^{{(j)}}$(1 – – $x_{i}^{{(j)}}$)} находится как $\sum\nolimits_{j = 1}^M {x_{i}^{{(j)}}} {{\left( {1 - x_{i}^{{(j)}}} \right)} \mathord{\left/ {\vphantom {{\left( {1 - x_{i}^{{(j)}}} \right)} M}} \right. \kern-0em} M}.$ Далее вероятности Hs(x) и Hsi(x) случайных встреч двух индивидуумов с разными фамилиями, например Hsi, определим как E{E{Hsi|x}} и будем для этого использовать более прозрачное обозначение E{Hsi(x)}.

Стимулом для предлагаемой формы записи, приложимой также к широко распространенному обозначению H для концентрации гетерозигот по аутосомному локусу в генетике популяций, служит многозначность данного символа. Так, в популяционной генетике H может относиться к концентрации гетерозигот в одной свободно скрещивающейся популяции, в подразделенной популяции, состоящей из таких субъединиц, наконец и в умозрительной совокупности популяций с возможными генетическими состояниями.

Теоретически выводимые свойства статики умозрительной совокупности популяций сходны со свойствами реально существующих подразделенных популяций, состоящих из отдельных свободно скрещивающихся единиц. При первоначальном знакомстве с генетикой популяций мне потребовались усилия, чтобы разобраться можно ли теоретическую формулу H = 2pi(1 – pi)(1 – F) для концентрации гетерозигот в популяции со свободным скрещиванием при накопленной инбредности прилагать к одной реальной популяции. Ведь в последней согласно закону Харди–Вайнберга H = = 2pi(1 – pi). Суть противоречия в том, что в первом случае H фактически подразумевает E{H}, т.е. характеристику распределения H по субпопуляциям, а не свойство одной из них.

В приведенных рассуждениях вероятности Hsi(x), Hs(x) и Hi(x), H(x) рассматривались как случайные величины. Хотя в реальной подразделенной популяции состояния субпопуляций фиксированы, случайность вносит процедура выбора субпопуляций, например при вычислении математического ожидания, и можно говорить о вероятности Hsi(x) случайной встречи двух потомков разных родоначальников (с i-й фамилией и какой-либо иной). Вернемся к описанию фамильной дивергенции в заданном множестве субпопуляций с использованием вероятностного подхода. По формуле полного математического ожидания (2)

$E\{ H{{s}_{i}}\} = E\{ E\{ \left. {H{{s}_{i}}} \right|{\mathbf{x}}\} \} ,\,\,\,\,~E\{ \left. {H{{s}_{i}}} \right|{\mathbf{x}}\} = {{x}_{i}}(1 - {{x}_{i}}),$

где E{Hsi|x} – условное математическое ожидание Hsi. При условии концентрации xi у i-й фамилии в популяции с учетом порядка фамилий в паре значение вероятности Hsi(x) находится однозначно как xi(1 – xi) аналогично использованию закона Харди–Вайнберга в популяционной генетике. Отсюда согласно (3)

$\begin{gathered} E\{ H{{s}_{i}}({\mathbf{x}})\} = E\{ E\{ \left. {H{{s}_{i}}} \right|{{x}_{i}}\} \} = E\{ {{x}_{i}}(1 - {{x}_{i}})\} = \\ = E\{ {{x}_{i}}\} - E\{ x_{i}^{2}\} = {{p}_{i}} - p_{i}^{2} - Vs({{x}_{i}}) = \\ = {{p}_{i}}\left( {1 - {{p}_{i}}} \right)\left( {1 - Vs{{\left( {{{{\mathbf{x}}}_{i}}} \right)} \mathord{\left/ {\vphantom {{\left( {{{{\mathbf{x}}}_{i}}} \right)} {{{p}_{i}}\left( {1{\text{ }}--{{p}_{i}}} \right)}}} \right. \kern-0em} {{{p}_{i}}\left( {1{\text{ }}--{{p}_{i}}} \right)}}} \right) \equiv \\ \equiv {{p}_{i}}\left( {1 - {{p}_{i}}} \right)\left( {1 - Fs} \right), \\ Fs \equiv {{Vs\left( {{{x}_{i}}} \right)} \mathord{\left/ {\vphantom {{Vs\left( {{{x}_{i}}} \right)} {{{p}_{i}}\left( {1 - {{p}_{i}}} \right)}}} \right. \kern-0em} {{{p}_{i}}\left( {1 - {{p}_{i}}} \right)}}, \\ \end{gathered} $

где Fs – фамильный аналог F. Когда концентрация i-й фамилии в j-й популяции равна $x_{i}^{{(j)}},$ то для нее рассматриваемая вероятность Hsi равна $x_{i}^{{(j)}}$(1 – $ - \,x_{i}^{{(j)}}$). В то же время выбор популяции является случайным, и Hsi(x) находится с учетом выборов всевозможных популяций как E{$x_{i}^{{(j)}}$(1 – $x_{i}^{{(j)}}$)}. Чтобы подчеркнуть, что подразумевается вычисление ожидаемого значения при случайном выборе популяции (при изменчивости по верхнему индексу, номеру популяции) этот индекс припишем к символу математического ожидания E как Ej.

Замечание 5. Пусть дана совокупность субпопуляций с концентрациями фамилий $\left\{ {x_{i}^{{(j)}}} \right\},$ где i – номер фамилии, а j – номер субпопуляции. Обозначим вектор средних концентраций фамилий для распределений концентраций по субпопуляциям во всей совокупности через p = {pi}, а вектор дисперсий как {Vs(xi)}.

Тогда в наугад выбранной субпопуляции вероятность случайной встречи пары индивидуумов с i-й фамилией и с какой-либо другой Ej{Hsi(x)}, вероятность встречи двух индивидуумов с любыми разными фамилиями Ej{Hs(x)}, вероятность встречи пары однофамильцев с i-й фамилией Ej{${{\left( {x_{i}^{{(j)}}} \right)}^{2}}$} и вероятность встречи пары однофамильцев независимо от их фамилий 1 – Ej{Hs(x)} выражаются как

$\begin{gathered} {{E}_{j}}\{ H{{s}_{i}}({\mathbf{x}})\} = {{p}_{i}}(1 - {{p}_{i}}) - Vs({{x}_{i}}) \leqslant {{p}_{i}}(1 - {{p}_{i}}), \\ {{E}_{j}}\{ Hs({\mathbf{x}})\} = Hs({\mathbf{p}}) - Vs({\mathbf{x}}) \leqslant Hs({\mathbf{p}}), \\ \end{gathered} $
$\begin{gathered} {{E}_{j}}\left\{ {{{{\left( {x_{i}^{{(j)}}} \right)}}^{2}}} \right\} = p_{i}^{2} + Vs\left( {{{x}_{i}}} \right) \geqslant p_{i}^{2}, \\ 1 - {{E}_{j}}\left\{ {Hs({\mathbf{x}})} \right\} = {{E}_{j}}\left\{ {\sum\limits_{i = 1}^k {{{{(x_{i}^{{(j)}})}}^{2}}} } \right\} = \\ = \sum\limits_{i = 1}^k {p_{i}^{2}} + Vs\left( {\mathbf{x}} \right) \geqslant \sum\limits_{i = 1}^k {p_{i}^{2}} . \\ \end{gathered} $

Здесь Vs(x) ≡ $\sum\nolimits_{i = 1}^k {Vs({{x}_{i}})} ,$ индекс j у Ej означает усреднение по субпопуляциям.

Доказательство. По условию Ej{$x_{i}^{{(j)}}$} = pi. Согласно (3)

$\begin{gathered} {{E}_{j}}\left\{ {H{{s}_{i}}({\mathbf{x}})} \right\} \equiv {{E}_{j}}\left\{ {x_{i}^{{(j)}}(1 - x_{i}^{{(j)}})} \right\} = \\ = {{E}_{j}}\left\{ {x_{i}^{{(j)}}} \right\} - {{E}_{j}}\left\{ {{{{(x_{i}^{{(j)}})}}^{2}}} \right\} = \\ {{p}_{i}} - \left( {Vs({{x}_{i}}) + {{E}_{j}}\left\{ {{{{(x_{i}^{{(j)}})}}^{2}}} \right\}} \right) = \\ = {{p}_{i}} - Vs({{x}_{i}}) - p_{i}^{2} = {{p}_{i}}(1 - {{p}_{i}}) - Vs({{x}_{i}}) \leqslant {{p}_{i}}(1 - {{p}_{i}}) \\ {\text{или}}\,\,~Vs({{x}_{i}}) = {{p}_{i}}(1 - {{p}_{i}}) - {{E}_{j}}\left\{ {x_{i}^{{(j)}}(1 - x_{i}^{{(j)}})} \right\}. \\ \end{gathered} $

Отсюда видно, что ожидаемая вероятность Hsi(x) встречи двух потомков разных родоначальников (с i-й фамилией и какой-либо другой) меньше соответствующего случайным встречам значения pi(1 – pi) на величину межпопуляционной дисперсии Vs(xi) – аналог формулы Валунда для подразделенной популяции в популяционной генетике – см., например, [18, 19].

В фиксированной субпопуляции, скажем с номером j, вероятность встречи однофамильцев с i-й фамилией теоретически равна ${{\left( {x_{i}^{{(j)}}} \right)}^{2}},$ а в случайно выбранной как ожидаемое значение этой вероятности при всевозможных результатах выбора:

$\begin{gathered} {{E}_{j}}\left\{ {{{{(x_{i}^{{(j)}})}}^{2}}} \right\} = {{\left( {{{E}_{j}}\left\{ {x_{i}^{{(j)}}} \right\}} \right)}^{2}} + \\ + \,\,Vs\left( {{{x}_{i}}} \right) = p_{j}^{2} + Vs\left( {{{x}_{i}}} \right) \geqslant p_{i}^{2},\,\,\,\,i = 1,\,\,2,...\,k, \\ \end{gathered} $
$\begin{gathered} {{E}_{j}}\left\{ {\sum\limits_{i = 1}^k {{{{(x_{i}^{{(j)}})}}^{2}}} } \right\} = \sum\limits_{i = 1}^k {p_{i}^{2}} + Vs({\mathbf{x}}) \geqslant \sum\limits_{i = 1}^k {p_{i}^{2}} , \\ Vs({\mathbf{x}}) \equiv \sum\limits_{i = 1}^k {Vs({{x}_{i}})} . \\ \end{gathered} $

Вероятность встречи двух индивидуумов с разными фамилиями равна дополнению до единицы вероятности встречи однофамильцев. Пусть x обозначает вектор концентраций всех фамилий во всех популяциях. Тогда вероятностью Hs(x) случайной встречи в одной популяции двух индивидуумов с разными фамилиями с учетом формулы (3) будет

$\begin{gathered} {{E}_{j}}\left\{ {Hs({\mathbf{x}})} \right\} \equiv 1 - {{E}_{j}}\left\{ {\sum\limits_{i = 1}^k {{{{(x_{i}^{{(j)}})}}^{2}}} } \right\} = \\ = 1 - \sum\limits_{i = 1}^k {p_{i}^{2}} - \sum\limits_{i = 1}^k {Vs({{x}_{i}})} = \\ = 1 - \sum\limits_{i = 1}^k {p_{i}^{2}} - Vs\left( {\mathbf{x}} \right) = Hs\left( {\mathbf{p}} \right) - Vs\left( {\mathbf{x}} \right) \leqslant Hs\left( {\mathbf{p}} \right).\,\,\blacktriangleleft \\ \end{gathered} $

Здесь Ej{Hs(x)} и Vs(x) дают представление о картине дивергенции субпопуляций внутри всей реальной или умозрительной совокупности. В подразделенной популяции (или в умозрительной совокупности популяций-реплик) вероятность Ej{Hsi(x)} встречи индивидуумов с i-й фамилией и с какой-то другой меньше соответствующего случайным встречам значения pi(1 – pi) на величину межпопуляционной дисперсии Vs(xi). Одновременно вероятность Ej{Hs(x)} встречи потомков разных родоначальников с учетом всех фамилий меньше значения 1 – $\sum\nolimits_i {p_{i}^{2}} $ = Hs(p), соответствующего случайным встречам, на величину Vs(x). В то же время вероятность случайно встретить своего однофамильца с i-й фамилией, напротив, больше значения $p_{i}^{2},$ соответствующего случайным встречам во всем множестве как единой популяции, на величину межпопуляционной дисперсии Vs(xi).

ДИВЕРГЕНЦИЯ СУБПОПУЛЯЦИЙ И КОЭФФИЦИЕНТ ИНБРИДИНГА

Приведенные факты соответствуют эффектам инбридинга в генетике популяций. В генетическом контексте роль фамилий играют аллели, роль пар с разными фамилиями – гетерозиготы. При концентрации xi у i-го аллеля по формуле С. Райта (см., например, [14, 18]) в инбредной популяции ожидаемой долей гетерозигот E{xi(1 – xi)} будет pi(1 – pi) × × (1 – F), где F – коэффициент инбридинга. Для фамилий E{xi(1 – xi)} можно записать, как показано выше, в терминах $\left\{ {x_{i}^{{(j)}}} \right\}$ в виде

$\begin{gathered} {{E}_{j}}\left\{ {x_{i}^{{(j)}}\left( {1{\text{ }}--x_{i}^{{(j)}}} \right)} \right\} = \\ = {{p}_{i}}\left( {1 - {{p}_{i}}} \right)\left( {1 - {{Vs\left( {{{x}_{i}}} \right)} \mathord{\left/ {\vphantom {{Vs\left( {{{x}_{i}}} \right)} {({{p}_{i}}\left( {1 - {{p}_{i}}} \right)}}} \right. \kern-0em} {({{p}_{i}}\left( {1 - {{p}_{i}}} \right)}}} \right) \equiv \\ \equiv {{p}_{i}}\left( {1 - {{p}_{i}}} \right)\left( {1{\text{ }}--Fs} \right). \\ \end{gathered} $

Здесь видны параллели с дефицитом гетерозигот (нарушением закона Харди–Вайнберга) в популяционной генетике, а FsVs(xi)/pi(1 – pi) является фамильным аналогом случайного коэффициента инбридинга F. Таким образом,

$Fs \equiv {{Vs\left( {{{x}_{i}}} \right)} \mathord{\left/ {\vphantom {{Vs\left( {{{x}_{i}}} \right)} {{{p}_{i}}\left( {1 - {{p}_{i}}} \right)}}} \right. \kern-0em} {{{p}_{i}}\left( {1 - {{p}_{i}}} \right)}},\,\,\,\,~Vs\left( {{{x}_{i}}} \right) = {{p}_{i}}\left( {1 - {{p}_{i}}} \right)Fs.$

Отсюда

$\begin{gathered} Vs\left( {\mathbf{x}} \right) \equiv \sum\limits_i {Vs\left( {{{x}_{i}}} \right)} = \\ = \left( {\sum\limits_i {{{p}_{i}}} \left( {1 - {{p}_{i}}} \right)} \right)Fs = \left( {1 - \sum\limits_i {p_{i}^{2}} } \right)Fs = Hs({\mathbf{p}})Fs. \\ \end{gathered} $

Значит Fs можно представить как Fs = Vs(x)/(1 – $ - \,\sum\nolimits_i {p_{i}^{2}} $) = Vs(x)/Hs(p). В итоге для фамильной и популяционно-генетической структур имеем

(4)
$\begin{gathered} Fs = {{Vs\left( {\mathbf{x}} \right)} \mathord{\left/ {\vphantom {{Vs\left( {\mathbf{x}} \right)} {\left( {1 - \sum\limits_i {p_{i}^{2}} } \right)}}} \right. \kern-0em} {\left( {1 - \sum\limits_i {p_{i}^{2}} } \right)}} = {{Vs\left( {\mathbf{x}} \right)} \mathord{\left/ {\vphantom {{Vs\left( {\mathbf{x}} \right)} {Hs({\mathbf{p}})}}} \right. \kern-0em} {Hs({\mathbf{p}})}}, \\ F = {{V\left( {\mathbf{x}} \right)} \mathord{\left/ {\vphantom {{V\left( {\mathbf{x}} \right)} {\left( {1 - \sum\limits_i {p_{i}^{2}} } \right)}}} \right. \kern-0em} {\left( {1 - \sum\limits_i {p_{i}^{2}} } \right)}} = {{V\left( {\mathbf{x}} \right)} \mathord{\left/ {\vphantom {{V\left( {\mathbf{x}} \right)} {H({\mathbf{p}})}}} \right. \kern-0em} {H({\mathbf{p}})}}, \\ \end{gathered} $

где V(x) ≡ $\sum\nolimits_i {V({{x}_{i}})} $ – сумма дисперсий концентраций аллелей.

ОБСУЖДЕНИЕ

Итак, существует значительное сходство между фамильной и генетической структурами, обязанное соответствию фамилий множественным аллелям аутосомного локуса и общей выборочной природе процессов случайного дрейфа фамилий и генов. Закономерности случайного дрейфа проявляются как свойства популяций-реплик, составляющих умозрительную теоретическую совокупность популяций с тождественной историей дивергенции от начального состояния и между собой. В каждый момент времени состояния реплик соответствуют срезу состояний на возможных траекториях динамики популяции, иначе говоря как бы множеству состояний подразделенной популяции, состоящей из таких реплик.

Для анализа реальных подразделенных популяций можно использовать приведенные в настоящей статье формулы, которые в равной степени приложимы как к совокупности субпопуляций с общим происхождением, так и к произвольному механическому набору случайно скрещивающихся субпопуляций. Например, популяционно-генетический аспект анализа подразделенной популяции (состоящей из удовлетворяющих соотношениям Харди–Вайнберга субпопуляций) показывает нарушение этих соотношений в популяции как едином целом. В подразделенной популяции будет наблюдаться дефицит гетерозигот (эффект Валунда, хотя внутри каждой отдельной субпопуляции дефицита нет).

Ситуация аналогична дефициту встреч индивидуумов с разными фамилиями по сравнению с ожидаемым при всеобщих чисто случайных встречах в популяции как едином целом. В статике дефициту соответствует коэффициент инбридинга, т.е. дивергенция субпопуляций, а динамика генотипической структуры подразделенной популяции рассматривалась, например, в [20]. Свойства генетических процессов в подразделенных популяциях анализировались также в [21] и [22].

Обратим внимание, что интерпретация коэффициента инбридинга зависит от характера субпопуляций в подразделенной популяции. В общем случае коэффициент инбридинга F в (4) численно равен статистической корреляции между гомологичными генами объединяющихся гамет как для произвольной механической смеси случайно скрещивающихся субпопуляций, так и для совокупности субпопуляций с общим происхождением. Получение оценки F не позволяет определить с какой ситуацией имеет дело исследователь.

Лишь в случае общего происхождения коэффициент инбридинга свидетельствует об идентичных по происхождению генах у субпопуляций, а статистическая корреляция связана с вероятностью идентичности по происхождению пары аллелей, образующих генотип индивидуума по рассматриваемому локусу. В общем случае динамика родственных популяций не будет независимой, и процедура оценивания коэффициента инбридинга должна учитывать характер их происхождения и условия микроэволюции.

Подчеркнем, что в любом случае существование корреляции между гомологичными генами объединяющихся гамет влияет на концентрации генотипов и тем самым определяет, например, ответную реакцию генетической структуры на действие отбора.

Настоящая статья не содержит каких-либо исследований с использованием в качестве объекта животных.

Настоящая статья не содержит каких-либо исследований с участием в качестве объекта людей.

Список литературы

  1. Бужилова А.П. География русских фамилий // Восточные славяне. Антропология и этническая история. М.: Научный мир, 1999. С. 135–152.

  2. Балановская Е.В., Романов А.Г., Балановский О.П. Однофамильцы или родственники. Подходы к изучению связи между гаплогруппами Y-хромосомы и фамилиями // Мол. биология. 2011. Т. 45. № 3. С. 473–485.

  3. Crow J.F., Mange A.P. Measurement of inbreeding from the frequency of marriages between persons of the same surname // Soc. Biology. 1982. V. 29. № 1/2. P. 101–105.

  4. Lasker W.G. Surnames and Genetic Structure. Cambridge: Cambr. University Press, 1985. 2005. 148 p.

  5. Ревазов А.А., Парадеева Г.М., Русакова Г.И. Пригодность русских фамилий в качестве квазигенетического маркера // Генетика. 1986. Т. 22. № 4. С. 699–703.

  6. Tarskaia L., El’chinova G., Scapoli C. et al. Surnames in Siberia: A study of the population of Yakutia through isonymy // Am. J. Phys. Anthropol. 2009. V. 138. P. 190–198.

  7. Сорокина И.Н., Чурносов М.И., Балтуцкая И.В. и др. Антропогенетическое изучение населения центральной России. М.: Изд-во РАМН, 2014. 336 с.

  8. Сорокина И.Н., Рудых Н.А., Крикун Е.Н., Сокорев С.Н. Применение фамилий в популяционно-генетических исследованиях (на примере зарубежных популяций) // Научные ведомости. БелГУ. Сер. Медицина. Фармация. 2016. № 19(240). Вып. 35. С. 5–10.

  9. Rogers A.R. Doubts about isonymy // Hum. Biol. 1991. V. 63. № 5. P. 663–668.

  10. Yasuda N., Cavalli-Sforza L.L., Skolnick M., Moroni A. Evolution of surnames: An analysis of their distribution and extinction // Theor. Popul. Biol. 1974. V. 5. № 1. P. 123–142. https://doi.org/10.1016/ 0040-5809(74)90054-9

  11. Rossi P. Self-similarity in population dynamics: surname distributions and genealogical trees // Entropy. 2015. V. 17. № 1. P. 425–437. https://doi.org/10.3390/e17010425

  12. Lasker G.W. A coefficient of relationship by isonymy: A method for estimating the genetic relationship between populations // Hum. Biol. 1977. V. 49. № 3. P. 489–493.

  13. Malecot G. The Mathematics of Heredity. San Francisco; California: Freeman and Company, 1969. 88 p.

  14. Crow J.F., Kimura M. An Introduction to Population Genetics Theory. The Blackburn Press, 2009. 591 p.

  15. Гинтер Е.К., Зинченко P.A., Ельчинова Г.И. и др. Роль факторов популяционной динамики в распространении наследственной патологии в российских популяциях // Мед. генетика. 2004. Т. 3. № 12. С. 548–555.

  16. Малютов М.Б., Пасеков В.П. Об одной статистической задаче популяционной генетики // Теория вероятностей и ее применения. 1971. Т. 16. Вып. 3. С. 579–581.

  17. Пасеков В.П., Ревазов А.А. К популяционной генетике населения европейского севера СССР. I. Данные по структуре шести деревень Архангельской области // Генетика. 1975. Т. 11. № 7. С. 145–155.

  18. Ли Ч. Введение в популяционную генетику. М.: Мир, 1978. 555 с.

  19. Вейр Б. Анализ генетических данных: дискретные генетические признаки. М.: Мир, 1995. 400 с.

  20. Пасеков В.П. Влияние генного дрейфа на динамику генетической и фенотипической изменчивости в подразделенных популяциях // Матем. модели в экологии и генетике. М.: Наука, 1981. С. 148–173.

  21. Maruyama T. Stochastic Problems in Population Genetics // Lecture Notes in Biomathematics. Berlin, N.Y.: Springer, 1977. V. 17. 245 p.

  22. Свирежев Ю.М., Пасеков В.П. Основы математической генетики. М.: Наука, 1982. 511 с.

Дополнительные материалы отсутствуют.