Генетика, 2022, T. 58, № 6, стр. 713-727

Описание дивергенции субпопуляций в иерархической системе при анализе изонимии. I. Дисперсия как показатель дивергенции

В. П. Пасеков *

Вычислительный центр им. А.А. Дородницына Федерального исследовательского центра “Информатика и управление” Российской академии наук
119991 Москва, Россия

* E-mail: pass40@mail.ru

Поступила в редакцию 29.11.2021
После доработки 27.12.2021
Принята к публикации 28.12.2021

Полный текст (PDF)

Аннотация

Рассматриваются типичные для популяций человека метапопуляции с иерархической подразделенностью на части (субпопуляции), соответствующие классификации субпопуляций на основе административно-территориального деления (скажем, село, сельсовет, район, область и так далее); на основе генеалогического подхода, базирующегося на этногенезе; а также на других принципах биологической классификации. Каждый уровень иерархии представляет собой разбиение метапопуляции на непересекающиеся субпопуляции, суммарно составляющие всю ее и обладающие, в свою очередь, иерархической структурой подразделенности. Изучаются свойства изменчивости количественного признака субпопуляций при иерархической структуре на примере такого признака, как концентрация отдельной фамилии. Анализируется распределение концентрации фамилии по субпопуляциям, характеризуемое на каждом уровне своими средним значением и дисперсией, которая отражает фамильную дивергенцию субпопуляций на соответствующем уровне. Изучение фамильной дивергенции важно, так как она отражает при соответствующих предположениях генетическую дивергенцию и генетическую структуру метапопуляции. Показано, что каждому отдельному уровню иерархии соответствует неотрицательный вклад в полную (общую) дисперсию, равный среднему значению внутригрупповой дисперсии распределения концентрации фамилии по его субпопуляциям. Получено разложение общей дисперсии концентрации фамилии в метапопуляции по вкладам отдельных уровней, обобщающее правило сложения дисперсий. Найдена величина занижения общей дисперсии, когда вместо неподразделенных субпопуляций первого уровня иерархии (допустим, сел) в качестве единиц наблюдения служат субпопуляции более высокого уровня (скажем, районов). Это позволяет судить о степени занижения оценки генетической дивергенции в метапопуляции в результате игнорирования фамильной изменчивости на каком-либо из уровней иерархии. Все население разбивается на два компонента с иерархической структурой подразделенности: сельские и городские жители. Результаты данной работы в равной степени приложимы к каждому из них.

Ключевые слова: иерархическая структура популяций, метапопуляции, концентрации фамилии в субпопуляциях человека, разложение дисперсии концентрации по уровням иерархии.

Существование популяционной структуры (отличий от предположений модели элементарной идеальной популяции без каких-либо подразделений при панмиксии) накладывает свой отпечаток на фамильную структуру популяций. Группировка реальных данных с целью максимального приближения к идеальным конструкциям или из других соображений довольно условна, так как обычно не существует четких естественных границ у групп. Популяционная структура многообразна и не ограничивается случаем подразделения популяции на элементарные непересекающиеся группы. Например, в свою очередь, последние могут состоять из субпопуляций и т.д., образуя иерархическую структуру подразделенности.

Анализ межгрупповой и внутригрупповой изменчивости является интересной биологической проблемой и может пролить свет на особенности микроэволюционного процесса дивергенции популяций. Полное описание метапопуляции с иерархической структурой подразделенности включает данные по каждому уровню иерархии, скажем, средние значения признаков в субпопуляциях и дисперсии, отражая детально характер межгрупповой и внутригрупповой изменчивости с учетом всех уровней. Чтобы выделить особенности дивергенции субпопуляций необходимо хорошо представлять себе базовые черты, свойственные самой по себе подразделенности метапопуляций, отвлекаясь от воздействия на формирование популяционной структуры прочих факторов. Начать такой анализ можно с изучения свойств произвольного разбиения абстрактной совокупности на части и свойств характерных разбиений природных популяций. Для последних типична иерархическая группировка данных на основе территориального расположения, генеалогической классификации и пр. в соответствии с правилами принятой биологической или иной иерархической классификации популяций.

В случае изучения популяций человека классификация и объединение данных часто производятся на основе административно-территориального деления, имеющего иерархический характер (скажем, село, сельсовет, район, область и др.), генеалогического подхода на основе этногенеза и пр. Получаемая группировка субпопуляций приближенно будет иерархической. Иерархическая структура метапопуляции отражается на ее свойствах, в частности на распределении фамилий в популяциях человека, где типична опора на официальные данные иерархического характера, их сбор и обработку. Настоящая статья мотивирована анализом фамильных данных с ориентацией на популяционную генетику. Использование фамилий для получения выводов о генетической структуре популяций основывается на существующих параллелях в передаче потомкам фамилий и аутосомных аллелей (см., например, [1, 2]). Плодотворность такого использования продемонстрирована в ряде работ [3] (изонимные браки), [4] (фундаментальная монография), в том числе в исследованиях популяций России [5, 6] (медико-генетические аспекты), [7, 8] (антропогенетическое изучение Центральной России), [9] (обширная библиография), см. также критические замечания в [10].

Очевидно, что отдельные или даже все достаточно крупные группы состоят из элементарных популяций, динамические и генетические процессы в которых исследованы теоретически более глубоко, и на полученных для них выводах базируется стандартная обработка материалов. Под элементарной популяцией мы понимаем такую, где более всего удовлетворяются предпосылки, закладываемые в классическую популяционно-генетическую модель Райта–Фишера (см., например, на русском [11]). Среди них основными являются требования панмиксии и равноценности потенциального вклада индивидуумов в следующее поколение. Скорее всего модели элементарной популяции приближенно соответствует субпопуляция самого нижнего первого уровня – село. Выбор элементарной популяции в качестве единицы наблюдения является крайне желательным, и выяснение роли отклонений от него представляет собой важную задачу.

Обоснование выбора единицы наблюдения может основываться на соображениях относительно уровня эндогамии [8]. Такой подход не лишен дискуссионных моментов. Попытаемся обсудить эту проблему. При иерархической структуре подразделенности популяции степень эндогамии может зависеть от уровня иерархии. Чем выше этот уровень, тем более может быть эндогамна популяция при прочих равных условиях. Такая картина увеличения степени эндогамии при движении от уровня сельсовета к району и области наблюдается в Центральной России [7]. Приведем абстрактную модельную иллюстрацию, когда такой характер зависимости имеет место.

Рассмотрим гипотетическую популяцию, равномерно и непрерывно распределенную на плоскости, и некоторый ограниченный ареал внутри данной области. Известно, что вероятность брака уменьшается при увеличении расстояния между местами рождения супругов (изоляция расстоянием). Для анализа того, как влияет на эндогамию этот фактор, предположим, что вероятностью брака при превышении некоторого расстояния между местами рождения можно пренебречь. Понятно, что при таком требовании относительно ограниченности расстояния между местами рождения супругов экзогенные браки могут быть лишь у лиц, родившихся достаточно близко к границе. В результате количество таких браков пропорционально длине границы. Соответственно эндогамные браки заключаются лицами внутри оставшейся части ареала и при достаточной его величине их количество примерно пропорционально площади ареала.

Увеличение ареала при его росте вдоль каждой из осей координат в k раз приводит к такому же удлинению границы в k раз, а площадь увеличится в k2 раз. Это очевидно в случае прямоугольного и кругового ареалов, но верно и в общем случае. Тем самым отношение количества экзогамных браков к эндогамным приближенно пропорционально отношению k/k2 = 1/k и уменьшается с увеличением ареала. Таким образом уровень эндогамии при этом растет. При иерархической подразделенности популяции (например, территориальной) у субпопуляции более высокого уровня иерархии размер будет крупнее, чем у более низких по уровню, так как она включает в себя их численности и территории. Следовательно, уровень эндогамии должен повышаться с уровнем иерархии субпопуляций. Хотя предположения данного вывода далеки от реальности, повторим, что качественный характер связи эндогамности с уровнем иерархии подтверждается фактическими наблюдениями [7].

В результате увеличения ареала обитания наступает момент, когда найдутся пары, места рождения членов которых отделены таким расстоянием, что браки между ними практически невозможны. Тем самым кроме роста эндогамии происходит нарушение панмиксии с ее равноценностью образования любых родительских пар. Такая популяция не удовлетворяет предпосылкам модели элементарной популяции. Итак, повышение уровня иерархии ведет не только к увеличению уровня эндогамии, но и к нарушению панмиксии (в конце концов, все население земного шара эндогамно и панмиксия отсутствует).

Цель настоящей работы – анализ общих свойств распределения концентрации фамилии по субпопуляциям при их иерархической организации. Такие свойства являются чисто статистическими характеристиками иерархической структуры, а не особенностью конкретной популяционной системы. Анализируемые свойства относятся к любой иерархически подразделенной популяции и не выводятся из закономерностей той или иной модели микроэволюции популяций. Теоретически это может позволить выделить специфические свойства исследуемого материала.

Применительно к фамильным данным роль единицы наблюдения в иерархической структуре может играть популяция села или субпопуляции более высокого уровня иерархии. Каждая субпопуляция независимо от уровня иерархии характеризуется своими значениями признаков, одним из которых является концентрация фамилии (x). Отдельной субпопуляции соответствует единственное (среднее) значение признака, а его изменчивость (скажем, дисперсия) между субпопуляциями, отражающая их дивергенцию, изучается с разной степенью детализации в зависимости от выбора единицы наблюдения. Так, если такой единицей является индивидуум, а вместо индивидуальных данных используются села, характеризуемые средним весом жителей, то индивидуальная изменчивость остается как бы “за кадром”, и изучение изменчивости веса детализируется до дисперсии среднего веса. Когда структура подразделенности иерархическая, то чем меньше единица наблюдения и ее уровень иерархии, тем полнее охват изменчивости.

Тут возникает вопрос о том, насколько выводы теоретического анализа элементарных популяций приложимы к материалам, представленным в сгруппированном виде. Например, в данных о концентрациях фамилий в районах остается скрытой изменчивость фамильной структуры сел и малых городов, входящих в районы. Использование для анализа изонимии списков избирателей и данных телефонных справочников часто дают сведения о фамилиях в сгруппированном виде. Например, единицей наблюдения может быть район. Исследование того, в каком направлении и в какой степени скрытая изменчивость качественно и количественно сказывается на стандартных оценках коэффициента инбридинга и пр. (см., например, [1, 2]) по фамильным данным, представляет интерес.

Получаемые далее результаты относятся к свойствам иерархически подразделенных совокупностей, они не зависят от их природы и не основываются на предположениях о выборочном характере рассматриваемой иерархической совокупности с требованиями об идентичном и независимом распределении каких-либо данных или на использовании модели процесса формирования иерархической структуры.

Настоящая статья построена следующим образом. Сначала описывается система идентификации субпопуляций в метапопуляции с иерархической структурой подразделенности на субпопуляции. Затем в рамках этой системы рассматриваются соотношения между уровнями иерархии и математическими ожиданиями (средними значениями) и дисперсиями распределения концентрации фамилии как показателями дивергенции субпопуляций. Далее подробно рассматривается изменчивость субпопуляций в случае многоуровневой иерархической структуры метапопуляции и получено разложение общей (полной) дисперсии концентрации фамилий в субпопуляциях, выбранных в качестве единиц наблюдения, на соответствующие отдельным уровням компоненты. В результате получены выражения для степени занижения оценки дивергенции субпопуляций, когда не учитывается неоднородность (подразделенность) субпопуляций, служащих единицами наблюдения. В последнем разделе обсуждаются полученные результаты и указано, что в совместных данных по городскому и сельскому населению нарушается иерархическая структура подразделенности. Это вызвано тем, что город не является объединением непересекающихся сельских субпопуляций. В то же время подразделенность субпопуляций как сельского, так и городского компонентов разбиения всего населения имеет иерархический характер. Каждый из компонентов обладает найденными свойствами иерархических систем. В дальнейшей публикации предполагается проанализировать не дисперсию концентрации фамилии, а вероятность случайной встречи однофамильцев (ср. соответствующие подходы в [1, 2]) и ее связь с коэффициентом инбридинга в популяционной генетике.

Кратко коснемся обозначений и терминологии. Под концентрациями фамилий в популяции подразумеваются концентрации однофамильцев. Векторы набраны полужирным шрифтом, к обозначениям фамильных аналогов популяционно-генетических характеристик добавлено окончание s. Символ ◄ обозначет конец доказательства.

НУМЕРАЦИЯ СУБПОПУЛЯЦИЙ В ИЕРАРХИЧЕСКОЙ СИСТЕМЕ

Как уже говорилось, при исследовании популяций человека часто собирают данные, которые организуют в соответствии с соподчинением субпопуляций. У человека иерархическая структура присуща, напомним, территориальной, этнической (генеалогической) и лингвистической классификациям популяций. Чтобы легче ориентироваться в получаемой при этом картине, рассмотрим абстрактную совокупность любых объектов одной природы с иерархической группировкой по нескольким уровням. При иерархической классификации все исходное множество объектов составляет высший уровень иерархии и разбивается в зависимости от выбранного классификационного принципа на классы (группы), которые образуют предыдущий уровень; каждый класс этого уровня делится на подклассы, которые образуют более низкий уровень, у которого каждый подкласс аналогично разбивается на группы, соответствующие нижеследующему уровню и т.д. Любой уровень иерархии состоит из групп, представляющих собой разбиение всего множества объектов, т.е. группы одного уровня составляют все исходное множество. Будем называть объекты самого низкого уровня иерархии в используемом материале единицами наблюдения. Когда информация о реально существующих объектах низшего уровня отсутствует (или игнорируется), в их качестве можно выбрать объекты на одном и том же из более высоких уровней иерархии, “забывая” о существовании подразделенности таких “единиц”.

Каждой из полученных подобным образом групп объектов присвоим цифровой идентификатор, соответствующий ее положению в иерархии. Он может быть построен, например, следующим образом. Идентификатор отдельной группы начинается с ее номера внутри множества групп данного уровня и продолжается последовательностью номеров вышестоящих групп, которым “подчиняются” предыдущие. В результате любая из групп однозначно определяется мультиномером (идентификатором) в виде последовательности из номеров групп все более высокого уровня, подчиняющих все предшествующие. Логика построения этой последовательности напоминает написание почтового адреса (указывающего населенный пункт, район и область), а также принцип генеалогической систематики биологических видов и нумерацию в библиотечном систематическом каталоге. Графически иерархическая классификация отображается древовидной структурой.

У нас объектами являются субпопуляции, скажем, села, группирующиеся в сельсоветы, районы и т.д. с соответствующими уровнями иерархии 1, 2, 3 … и составляющие всю метапопуляцию. Подчинение одной субпопуляции другой означает вхождение первой в качестве составной части во вторую с более высоким уровнем иерархии. Обозначим номер конкретного села (первый уровень) как s1; номер сельсовета (второй уровень), куда входит село, как s2; номер района (третий уровень), включающего указанные сельсовет и село, как s3; и т.д. Тогда мультиномер s1.s2.s3. … однозначно определяет рассматриваемое село среди прочих сел первого уровня, s2.s3.s4. … идентификатор сельсовета, sisi.si + 1. … идентифицирует субпопуляцию i-го уровня среди прочих таких же субпопуляций внутри соответствующей группы следующего уровня i + 1. Таким образом, индекс i у si (si) дает уровень иерархии данной субпопуляции.

В результате субпопуляция s1 входит в s2, …, si входит в si + 1 и т.д., т.е. субпопуляция некоторого уровня иерархии включает в себя в качестве составной части соответствующие субпопуляции более низкого уровня. Между объектами и их идентификаторами имеется взаимно однозначное соответствие, и мы иногда будем писать идентификатор вместо названия объекта (села, сельсовета и т.д.). Кроме того, повторим, что множество субпопуляций на каждом отдельно выбранном уровне иерархии представляют собой разбиение всей метапопуляции, т.е. составляют ее целиком.

Данный способ нумерации, например, приложим к концентрации x интересующей фамилии в селе, которую будем обозначать как x(s1.s2.s3. …) ≡ x(s1), а концентрацию фамилии в группе i-го уровня как x(si.si + 1. …) ≡ x(si), где мультиномер sisi.si + 1. … содержит последовательность номеров групп объектов, каждая из которых будет на единицу более высокого уровня и содержит предыдущую. Например, x(s3) = x(s3.s4.s5. …) дает концентрацию фамилии в районе с номером s3, входящем в область (следующий уровень) с номером s4, и т.д.

При этом на практике реальную подразделенную метапопуляцию можно рассматривать как теоретическую совокупность, а случайный выбор из нее субпопуляций позволяет использовать вероятностный подход, в частности говорить о математических ожиданиях (проще говоря, о средних значениях), дисперсиях и пр. В соответствующем контексте некоторые из номеров {si} будут рассматриваться как случайные величины, а некоторые как фиксированные. Для наглядности будем писать в мультиномере фиксированные величины после вертикальной черты. Тогда s1 в x(s1|s2.s3…) является случайной величиной, значениями которой будут номера сел при условии их выбора из фиксированного сельсовета с номером s2 (который находится внутри своего района с номером s3 и т.д.); x(si – 1|si) будет случайной величиной, значениями которой являются концентрации фамилии в субпопуляциях (i – 1)-го уровня внутри фиксированной группы si.

Первый аргумент si– 1у x(si – 1|si) указывает на случайно выбираемую субпопуляцию, а второй si на содержащую ее фиксированную группу следующего уровня. Таким образом, x(si) – концентрация фамилии в фиксированной субпопуляции si, а x(si– 1|si) – случайная величина, принимающая значения концентраций фамилии в субпопуляциях уровня i – 1, входящих в si. Иногда удобней использовать запись, принятую для условных математических ожиданий, и рассматривать фиксированные номера как условие, которое будем отделять вертикальной чертой после обозначения случайной величины, т.е. x(si – 1|si) и x(si – 1)|si обозначают одну и ту же случайную величину.

СРЕДНИЕ ЗНАЧЕНИЯ КОНЦЕНТРАЦИИ ФАМИЛИИ И ДРУГИХ ХАРАКТЕРИСТИК НА ОТДЕЛЬНЫХ УРОВНЯХ ИЕРАРХИИ

Субпопуляцию каждого уровня характеризует концентрация рассматриваемой фамилии в ней. Так, x(s2) обозначает концентрацию фамилии в сельсовете s2. Она является математическим ожиданием (средним значением) концентрации фамилии в совокупности сел (со случайными номерами {s1}) при условии принадлежности каждого из них этому сельсовету с фиксированным номером s2. Термины “математическое ожидание” и “среднее значение” являются взаимозаменяемыми.

Определение 1. Математическим ожиданием E{x} распределения случайной величины x, которая может принимать конечное число значений {xi} с вероятностями {Pr(xi)}, называется константа, определяемая как среднее взвешенное значение для {xi} вида

(1)
$E\left\{ x \right\} \equiv {{x}_{1}}Pr\left( {{{x}_{1}}} \right) + {{x}_{2}}Pr\left( {{{x}_{2}}} \right) + \ldots = \sum {{{x}_{i}}Pr({{x}_{i}})} .$

Напомним следующие свойства математического ожидания

$\begin{gathered} E\{ x - E\{ x\} \} = 0, \\ E\{ c\} = c\left( {{\text{откуда}}\,\,E\left\{ {E\{ x\} } \right\} = E\{ x\} } \right), \\ E\{ cx\} = cE\{ x\} , \\ \end{gathered} $
$E\{ x + y\} = E\{ x\} + E\{ y\} ,\,\,\,\,E\{ xy\} = E\{ x\} E\{ y\} $
для любой константы c и любых случайных величин x и y (для произведения xy требуется независимость сомножителей).

Далее для вычисления математических ожиданий мы будем широко использовать следующую формулу полного математического ожидания случайной величины x:

(2)
$E\{ x\} = E\left\{ {{{E}_{x}}\{ \left. x \right|{\kern 1pt} A\} } \right\} = \sum\limits_i {{{E}_{x}}\{ \left. x \right|{\kern 1pt} {{A}_{i}}\} Pr({{A}_{i}})} .$
Здесь A обозначает событие в {Ai}, в полной системе несовместимых случайных событий, реализующихся с вероятностями {Pr(Ai)} и таких, что обязательно происходит одно из них; Ex{x|Ai} означает условное (условие пишем после вертикальной черты) математическое ожидание для случайной величины x (нижний индекс у E указывает на переменную, которая является случайной и по которой производится усреднение) при условии реализации соответствующего случайного события Ai.

Например, в искусственной ситуации, когда полная система состоит из городских и сельских жителей, средний вес жителя E{вес} равен E{вес|житель города} ⋅ Pr(житель города) + E{вес|житель села} ⋅ Pr(житель села). У нас при случайном выборе субпопуляций (групп) в качестве полной системы обычно рассматриваются (непересекающиеся) субпопуляции {si} с одним и тем же уровнем иерархии, вместе составляющие всю метапопуляцию s.

Разбиением какого-либо множества называется его представление в виде объединения произвольного количества попарно непересекающихся непустых подмножеств. Ясно, что все части разбиения совокупности s на любом уровне иерархии i образуют полную систему случайных событий, реализующихся при выборе наугад si из s. Каждую из таких систем можно использовать в формуле полного математического ожидания (2) для случайной величины.

Очевидно, что в любой совокупности, состоящей из объектов с числовой характеристикой x, среднее значение x в произвольной части совокупности выражается как среднее значение x для объектов, входящих в эту часть. В подразделенной популяции s концентрация фамилии x(si) в группе si выражается через концентрации входящих в si субпопуляций {s1}, единиц наблюдения, по формуле математического ожидания как

$x\left( {{{{\mathbf{s}}}_{i}}} \right) \equiv {{E}_{{{{{\mathbf{s}}}_{1}}}}}\left\{ {x\left. {\left( {{{{\mathbf{s}}}_{1}}} \right)} \right|{{{\mathbf{s}}}_{i}}} \right\} = \sum\limits_{{{{\mathbf{s}}}_{1}}} {x\left( {{{{\mathbf{s}}}_{1}}} \right)Pr(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{i}})} ,$
где ${{E}_{{{{{\mathbf{s}}}_{1}}}}}${x(s1)|si} обозначает математическое ожидание случайной величины x(s1|si), принимающей значения концентраций фамилии в субпопуляциях {s1} при выборе наугад s1 из si; нижний индекс у ${{E}_{{{{{\mathbf{s}}}_{1}}}}}$ служит для облегчения ориентации в уровне иерархии субпопуляций, выбор которых случаен и по которым происходит усреднение; Pr(s1|si) – вероятность случайного выбора субпопуляции s1 при условии, что выбор производится из группы si; суммирование осуществляется по всем таким субпопуляциям {s1} в группе si. Для фамильных данных x(si) – это математическое ожидание концентрации фамилии в случайно выбранном селе s1 внутри si (это среднее взвешенное значение x(s1) с весами {Pr(s1|si)} для концентраций {x(s1|si)} в селах {s1}).

Аналогично можно определить значение произвольной функции от концентрации фамилии g(x(s2)) в субпопуляции второго уровня s2 как математическое ожидание значений g в составляющих s2 субпопуляциях первого уровня {s1}. Для уровня i функция g(x(si)) также определяется значениями g в {si – 1}, составляющих si, и g(x(si)) дает среднее значение как для набора {g(x(si – 1))}, так и для соответствующего набора {g(x(s1))} из {s1}, содержащихся в si. Например, когда роль g играет x, то получим приведенную ранее формулу для x(si). Выше мы применили одно и то же обозначение s1 к разным субпопуляциям {s1} первого уровня, случайно выбираемым из si, так как x(s1|si) – случайная переменная величина, принимающая значения {x(s1)} с вероятностями {Pr(s1|si)}. Один из способов фиксировать конкретную субпопуляцию состоит в присваивании ей номера. Тогда {s1} представимо как {sk1}, где k нумерует субпопуляции данного первого уровня.

Замечание 1. Пусть рассматривается совокупность s объектов {s1}, разбитая на произвольные (непересекающиеся) части {s2}, и для каждого из объектов {s1} определена числовая характеристика x = x(s1).

Тогда математическое ожидание E{x(s1)} для значений x во всей совокупности s равно среднему значению для математических ожиданий ${{E}_{{{{{\mathbf{s}}}_{1}}}}}${x(s1)|sj2} ≡ x(sj2) значений x в отдельных ее частях:

(3)
$E\left\{ {x({{{\mathbf{s}}}_{1}})} \right\} = {{E}_{{j2}}}\left\{ {x\left. {({{{\mathbf{s}}}_{{j2}}})} \right|{\mathbf{s}}} \right\} = \sum\limits_j {x({{{\mathbf{s}}}_{j}}_{2})Pr\left( {\left. {{{{\mathbf{s}}}_{{j2}}}} \right|{\mathbf{s}}} \right)} ,$
где j нумерует части {s2} = {sj2} рассматриваемого разбиения, Pr(sj2|s) обозначает вероятность случайного выбора sj2из s.

Доказательство. Напомним, что если дана совокупность s объектов {s1} с числовым признаком x(s1), то средним значением x в ней по определению (1) будет E{x(s1)} ≡ ${{E}_{{{{{\mathbf{s}}}_{{k1}}}}}}${x(sk1)|s}. Покажем, что

$\begin{gathered} E\left\{ {x({{{\mathbf{s}}}_{1}})} \right\} \equiv {{E}_{{{{{\mathbf{s}}}_{{k1}}}}}}\left\{ {\left. {x({{{\mathbf{s}}}_{k}}_{1})} \right|{\mathbf{s}}} \right\} = {{E}_{{j2}}}\left\{ {\left. {x({{{\mathbf{s}}}_{j}}_{2})} \right|{\mathbf{s}}} \right\}, \\ {\text{\;т}}{\text{.е}}{\text{.}}~\,\,\sum\limits_{{{{\mathbf{s}}}_{1}}} {x({{{\mathbf{s}}}_{1}})Pr(\left. {{{{\mathbf{s}}}_{1}}} \right|{\mathbf{s}})} = \sum\limits_j {x({{{\mathbf{s}}}_{{j2}}})Pr(\left. {{{{\mathbf{s}}}_{j}}_{2}} \right|{\mathbf{s}})} . \\ \end{gathered} $

Например, когда объектами являются индивидуумы, характеризуемые своим весом x(s1), то эта формула для E{x} дает средний вес индивидуума. В рамках фамильных исследований объектами (единицами наблюдения) в совокупности (метапопуляции) являются субпопуляции {s1}, а числовым признаком объекта (субпопуляции) s1 служит концентрация x(s1) рассматриваемой фамилии в s1. При выборе наугад субпопуляции s1 из s значение x(s1) будет случайной величиной со значениями {x(sk1)}, наблюдаемыми в субпопуляциях первого уровня, занумерованными индексом k.

Так как математическое ожидание E{x(s1)} является взвешенной суммой значений {x(s1)}, то оно не зависит от порядка слагаемых. Поэтому можно расположить составляющие математическое ожидание E{x(s1)} слагаемые блоками, соответствующими частям разбиения совокупности s на {sj2}. Здесь sj2 обозначает j-ю часть совокупности s, состоящую из надлежащих {s1} = {sk1}, где k нумерует объекты внутри {sj2}. Другими словами, в соответствующем контексте s1 (s2) является случайной переменной со значениями {sk1} ({sj2}).

При суммировании по переменной s1 в случае упорядочивания по j расположения блоков сначала получим взвешенную сумму слагаемых, соответствующих первой части s12 разбиения, потом сумму для второй части s22 и т.д. В итоге математическое ожидание x для всей подразделенной совокупности, разбитой на части {sj2}, находится суммированием внутри очередного блока (по s1 в соответствующей части) и по самим блокам (т.е. по частям совокупности, пока они не будут исчерпаны). В результате получаем сумму по всем s1 из s, иначе говоря, по всем k:

$\begin{gathered} x({\mathbf{s}}) \equiv {{E}_{{{{{\mathbf{s}}}_{1}}}}}\left\{ {x\left. {({{{\mathbf{s}}}_{1}})} \right|{\mathbf{s}}} \right\} \equiv \sum\limits_{{{s}_{1}}} {x({{{\mathbf{s}}}_{1}})Pr(\left. {{{{\mathbf{s}}}_{1}}} \right|{\mathbf{s}})} = \\ = \sum\limits_k {x({{{\mathbf{s}}}_{{k1}}})Pr(\left. {{{{\mathbf{s}}}_{{k1}}}} \right|{\mathbf{s}})} . \\ \end{gathered} $
Здесь Pr(sk1|s) обозначает вероятность случайного выбора sk1 из s, т.е. выбора соответствующего объекта s1. Учтем, что согласно очевидному варианту формулы (2) вероятность выбора наугад sk1 из s выражается через вероятности выборов sk1 из sj2 и sj2 из s как
$Pr(\left. {{{{\mathbf{s}}}_{{k1}}}} \right|{\mathbf{s}}) = \sum\limits_j {Pr(\left. {{{{\mathbf{s}}}_{{k1}}}} \right|{{{\mathbf{s}}}_{{j2}}})Pr(\left. {{{{\mathbf{s}}}_{{j2}}}} \right|{\mathbf{s}})} .$
В результате подстановки $\sum\nolimits_j {Pr({{s}_{{k1}}}{\text{|}}{{s}_{{j2}}})Pr({{s}_{{j2}}}{\text{|}}s{\text{)}}} $ вместо Pr(sk1|s) в x(s) и изменения порядка суммирования получаем
$\begin{gathered} x({\mathbf{s}}) = \sum\limits_k {x({{{\mathbf{s}}}_{{k1}}})Pr\left( {\left. {{{{\mathbf{s}}}_{{k1}}}} \right|{\mathbf{s}}} \right)} = \\ = \sum\limits_k {x({{{\mathbf{s}}}_{{k1}}})} \sum\limits_j {Pr\left( {\left. {{{{\mathbf{s}}}_{{k1}}}} \right|{{{\mathbf{s}}}_{j}}_{2}} \right)Pr\left( {\left. {{{{\mathbf{s}}}_{{j2}}}} \right|{\mathbf{s}}} \right)} = \\ = \sum\limits_j {(\sum\limits_k {x({{{\mathbf{s}}}_{{k1}}})Pr(\left. {{{{\mathbf{s}}}_{{k1}}}} \right|{{{\mathbf{s}}}_{{j2}}})} )Pr\left( {\left. {{{{\mathbf{s}}}_{{j2}}}} \right|{\mathbf{s}}} \right)} = \\ = \sum\limits_j {x({{{\mathbf{s}}}_{{j2}}})Pr(\left. {{{{\mathbf{s}}}_{{j2}}}} \right|{\mathbf{s}})} = {{E}_{{j2}}}\left\{ {x\left. {({{{\mathbf{s}}}_{{j2}}})} \right|{\mathbf{s}}} \right\}. \\ \end{gathered} $
Здесь при каждом j суммирование по k (суммирование по sk1) идет не по всей совокупности, а внутри ее j-й части (внутри блока j). Согласно определению (1) внутреннее суммирование дает среднее значение x в субпопуляции sj2$\left( {\sum\nolimits_k {x({{s}_{{k1}}})Pr({{s}_{{k1}}}{\text{|}}{{s}_{{j2}}}{\text{)}}} } \right)$x(sj2)), а внешнее суммирование по j (по sj2) дает сумму по блокам $\left( {\sum\nolimits_j {x({{s}_{{j2}}})Pr({{s}_{{j2}}}{\text{|}}s{\text{)}}} } \right).$ Таким образом получаем сумму по всем {s1} в s. Тем самым среднее значение x(s1) во всей подразделенной совокупности выражается через средние величины {x(sj2)} в составляющих ее частях {sj2} как x(s)} ≡ E{x} = $ = \sum\nolimits_j {x({{s}_{{j2}}})Pr({{s}_{{j2}}}{\text{|}}s{\text{)}}} .$

Теперь обратимся к иерархически подразделенным совокупностям. У нас иерархическая структура разбиений означает, что любая часть sji разбиения состоит, в свою очередь, из частей следующего более низкого уровня иерархии, разбитых иерархически вплоть до неподразделенных единиц наблюдения {s1}.

Следствие 2. Пусть разбиение совокупности s на части {sji, j = 1, 2, …} является иерархическим, индекс i = 1, 2, … у sji обозначает уровень иерархии, а j – номер части разбиения на этом уровне. Положим, что каждая часть sji характеризуется соответствующим средним значением x(sji) числового признака x.

Тогда x(sji) выражается через {x(skm), k = 1, 2, … }, т.е. через средние значения x в содержащихся в sji частях {skm} одного и того же (более низкого) уровня m < i, как

$\begin{gathered} x({{{\mathbf{s}}}_{{ji}}}) \equiv {{E}_{{{{{\mathbf{s}}}_{1}}}}}\left\{ {\left. {x({{{\mathbf{s}}}_{1}})} \right|{{{\mathbf{s}}}_{{ji}}}} \right\} = \sum\limits_k {x({{{\mathbf{s}}}_{{km}}})Pr(\left. {{{{\mathbf{s}}}_{{km}}}} \right|{{{\mathbf{s}}}_{{ji}}})} = \\ = {{E}_{{km}}}\left\{ {\left. {x({{{\mathbf{s}}}_{{km}}})} \right|{{{\mathbf{s}}}_{{ji}}})} \right\},\,\,\,\,m < i, \\ \end{gathered} $
и при m = 2, 3, …
$\begin{gathered} x({{{\mathbf{s}}}_{{ji}}}) \equiv {{E}_{x}}\left\{ {\left. {x({{{\mathbf{s}}}_{1}})} \right|{{{\mathbf{s}}}_{{ji}}}} \right\} = {{E}_{{k1}}}\left\{ {x\left. {({{{\mathbf{s}}}_{{k1}}})} \right|{{{\mathbf{s}}}_{{ji}}})} \right\} = \\ = {{E}_{{k2}}}\left\{ {\left. {x({{{\mathbf{s}}}_{{k2}}})} \right|{{{\mathbf{s}}}_{{ji}}})} \right\} = \ldots = {{E}_{{k\,i - 1}}}\left\{ {x\left. {({{{\mathbf{s}}}_{{k\,i - 1}}})} \right|{{{\mathbf{s}}}_{{ji}}})} \right\}, \\ \end{gathered} $
(4)
$\begin{gathered} x({{{\mathbf{s}}}_{{ji}}}) \equiv {{E}_{{k\,i - 1}}}\left\{ {\left. {x({{{\mathbf{s}}}_{{k\,i - 1}}})} \right|{{{\mathbf{s}}}_{{ji}}}} \right\} = \\ = {{E}_{{k\,i - 1}}}\left\{ {{{E}_{{n\,i - 2}}}\left. {\left\{ {x\left. {\left( {{{{\mathbf{s}}}_{{n\,i - 2}}}} \right)} \right|{{{\mathbf{s}}}_{{k\,i - 1}}}} \right\}} \right|{{{\mathbf{s}}}_{{ji}}}} \right\}, \\ \end{gathered} $
где индекс типа km у Ekm{x(skm)|sji)} указывает на операцию усреднения {x(skm)} по k, когда уровень иерархии m фиксирован и на нем случайно выбирается субпопуляция skm, входящая в состав sji, k = 1, 2, 3, … .

Доказательство. Напомним, что в доказанном выше замечании разбиение совокупности на блоки произвольно. Например, при ее иерархической подразделенности такое разбиение sji может состоять из частей на (i – 1)-м уровне и среднее значение x для sji является средним для средних значений x (обозначаемых x(sk i– 1)) для частей {sk i –1}, входящих в sji на уровне иерархии i – 1. В частном случае, когда выбран уровень m = i – 1, имеем

$\begin{gathered} x({{{\mathbf{s}}}_{{ji}}}) \equiv {{E}_{{k\,i - 1}}}\left\{ {\left. {x({{{\mathbf{s}}}_{{k\,i - 1}}})} \right|{{{\mathbf{s}}}_{{ji}}}} \right\} = \\ = \sum\limits_k {x\left( {{{{\mathbf{s}}}_{{k\,i - 1}}}} \right)Pr(\left. {{{{\mathbf{s}}}_{{k\,i - 1}}}} \right|{{{\mathbf{s}}}_{{ji}}})} ,\,\,\,\,i = 2,\,\,3, \ldots \,\,. \\ \end{gathered} $

Точно так же можно выразить среднее значение x(sk i – 1) для x в части совокупности sk i –1 как En i – 2{x(sn i – 2)|sk i – 1}, где n нумерует части разбиения sk i –1, откуда

$\begin{gathered} x({{{\mathbf{s}}}_{{ji}}}) \equiv {{E}_{{k\,i - 1}}}\left\{ {\left. {x({{{\mathbf{s}}}_{{k\,i - 1}}})} \right|{{{\mathbf{s}}}_{{ji}}}} \right\} = \\ = {{E}_{{k\,i - 1}}}\left\{ {{{E}_{{n\,i - 2}}}\left. {\left\{ {x\left. {\left( {{{{\mathbf{s}}}_{{n\,i - 2}}}} \right)} \right|{{{\mathbf{s}}}_{{k\,i - 1}}}} \right\}} \right|{{{\mathbf{s}}}_{{ji}}}} \right\},\,\,{\text{т}}{\text{.е}}. \\ \end{gathered} $
$\begin{gathered} {{E}_{{k\,i - 1}}}\left\{ {{{E}_{{n\,i - 2}}}\left. {\left\{ {x\left. {\left( {{{{\mathbf{s}}}_{{n\,i - 2}}}} \right)} \right|{{{\mathbf{s}}}_{{k\,i - 1}}}} \right\}} \right|{{{\mathbf{s}}}_{{ji}}}} \right\} = \\ = {{E}_{{k\,i - 1}}}\left\{ {x\left. {({{{\mathbf{s}}}_{{k\,i - 1}}})} \right|{{{\mathbf{s}}}_{{ji}}}} \right\}.\,\,\blacktriangleleft \\ \end{gathered} $

Если продолжить эту процедуру, то далее получим, что

$\begin{gathered} x\left( {{{{\mathbf{s}}}_{{ji}}}} \right) \equiv {{E}_{{{{{\mathbf{s}}}_{1}}}}}\{ \left. {x({{{\mathbf{s}}}_{1}})} \right|{{{\mathbf{s}}}_{{ji}}}\} = \\ = {{E}_{{k\,i - 1}}}\{ {{E}_{{m\,\,i - 2}}}\left\{ { \ldots \left. {\left. {\{ \left. {{{E}_{{{{{\mathbf{s}}}_{1}}}}}\{ \left. {x({{{\mathbf{s}}}_{1}})} \right|{{{\mathbf{s}}}_{2}}\} \ldots } \right|{{{\mathbf{s}}}_{{m\,i - 2}}}\} } \right|{{{\mathbf{s}}}_{{k\,i - 1}}}\} } \right|{{{\mathbf{s}}}_{{ji}}}} \right\}, \\ ~i = 2,\,\,3, \ldots , \\ \end{gathered} $
т.е.

$\begin{gathered} {{E}_{{k\,i - 1}}}\left\{ {{{E}_{{m{\text{ }}i - 2}}}\left. {\left\{ { \ldots \left. {\left\{ {\left. {{{E}_{{{{{\mathbf{s}}}_{1}}}}}\left\{ {\left. {x({{{\mathbf{s}}}_{1}})} \right|{{{\mathbf{s}}}_{2}}} \right\} \ldots } \right|{{{\mathbf{s}}}_{{m{\text{ }}i - 2}}}} \right\}} \right|{{{\mathbf{s}}}_{{k\,i - 1}}}} \right\}} \right|{{{\mathbf{s}}}_{{ji}}}} \right\} = \\ = {{E}_{{{{{\mathbf{s}}}_{1}}}}}\left\{ {\left. {x({{{\mathbf{s}}}_{1}})} \right|{{{\mathbf{s}}}_{{ji}}}} \right\}. \\ \end{gathered} $

Формула полного математического ожидания (2) верна для любой случайной величины, и выше она использовалась на примере иерархически подразделенной совокупности, где фигурировала случайная величина x. В контексте изучения фамильной структуры мы интерпретируем x как концентрацию фамилии в соответствующей субпопуляции. В дальнейшем будут рассматриваться функции от x, например x2 или вероятность Hs(x(s)) случайной встречи индивидуумов с разными фамилиями, и случайной величиной может быть произвольная функция g(x(s)).

Очевидно, когда g равняется x, x2 или Hs, то в субпопуляции уровня иерархии i концентрация x(si) фамилии, ее (средний) квадрат или вероятность Hs случайной встречи двух индивидуумов с разными фамилиями согласно (4) находятся как

$\begin{gathered} x\left( {{{{\mathbf{s}}}_{i}}} \right) \equiv {{E}_{{{{{\mathbf{s}}}_{1}}}}}\left\{ {\left. {x\left( {{{{\mathbf{s}}}_{1}}} \right)} \right|{{{\mathbf{s}}}_{i}}} \right\} = \sum\limits_{{{{\mathbf{s}}}_{1}}} {x\left( {{{{\mathbf{s}}}_{1}}} \right)Pr(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{i}})} , \\ {{x}^{2}}\left( {{{{\mathbf{s}}}_{i}}} \right) \equiv {{E}_{{{{{\mathbf{s}}}_{1}}}}}\left\{ {\left. {{{x}^{2}}\left( {{{{\mathbf{s}}}_{1}}} \right)} \right|{{{\mathbf{s}}}_{i}}} \right\} = \sum\limits_{{{{\mathbf{s}}}_{1}}} {{{x}^{2}}\left( {{{{\mathbf{s}}}_{1}}} \right)Pr(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{i}})} . \\ \end{gathered} $
$\begin{gathered} Hs\left( {x\left( {{{{\mathbf{s}}}_{i}}} \right)} \right) = {{E}_{{{{{\mathbf{s}}}_{1}}}}}\left\{ {Hs\left. {\left( {x\left( {{{{\mathbf{s}}}_{1}}} \right)} \right)} \right|{{{\mathbf{s}}}_{i}}} \right\} = \\ = \sum\limits_{{{{\mathbf{s}}}_{1}}} {Hs\left( {x\left( {{{{\mathbf{s}}}_{1}}} \right)} \right)Pr(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{i}})} \\ \end{gathered} $
при g(x(si)) = Hs(x(si)). Здесь Pr(s1|si) – вероятность случайного выбора субпопуляции s1 из субпопуляции si; суммирование осуществляется по всем s1 из si.

ДИСПЕРСИЯ В ИЕРАРХИЧЕСКИ ПОДРАЗДЕЛЕННОЙ МЕТАПОПУЛЯЦИИ

В метапопуляции с иерархической структурой подразделенности на каждом из уровней существует в общем случае своя фамильная дивергенция субпопуляций. По аналогии с анализом неподразделенной популяции [1, 2] в качестве характеристик дивергенции в совокупности субпопуляций можно использовать дисперсии концентраций фамилий и вероятности случайных встреч индивидуумов с одинаковыми и с разными фамилиями.

Повторим, что когда рассматривается реальная группа субпопуляций с фиксированными состояниями, то при случайном выборе одной из них будем использовать вероятностную технику для вычисления интересующих нас (скажем, средних значений, дисперсий) характеристик. При этом средние значения используются как математические ожидания для описания status quo метапопуляции без предположения о ее состоянии как случайной выборки из некоторой теоретической совокупности.

Напомним определение дисперсии.

Определение 2. Дисперсией V(x) случайной величины x называется константа, определяемая формулой

(5)
$\begin{gathered} V(x) \equiv E\left\{ {{{{\left( {x - E\{ x\} } \right)}}^{2}}} \right\} = \\ = \sum\limits_x {{{{\left( {x - E\{ x\} } \right)}}^{2}}Pr(x)} ,\,\,{\text{или}}\,\,E\{ {{x}^{2}}\} - {{\left( {E\{ x\} } \right)}^{2}}. \\ \end{gathered} $

Таким образом, дисперсия является средним квадратом расстояния между случайным значением x и математическим ожиданием E{x} и, как хорошо известно, равна разности между средним квадратом E{x2} и квадратом среднего (E{x})2. У нас дисперсия концентрации фамилии характеризует фамильную дивергенцию субпопуляций и важна также из-за ее связи с генетической дивергенцией и с коэффициентом инбридинга (см., например, [1, 2]). Напомним, что дисперсия случайной величины x(si|si + 1) это у нас дисперсия концентрации x, наблюдаемой в субпопуляции si при выборе наугад si из si + 1.

Мультиномер в качестве идентификатора можно использовать не только вместе с концентрациями фамилий, но и с другими характеристиками состояния популяций, например с дисперсиями. В соответствии с принятыми нами обозначениями x(si|si + 1) является случайной величиной, принимающей значения {x(si)}, где x(si) – концентрация рассматриваемой фамилии в субпопуляции si внутри si + 1. Обозначим через Vs(x(si|sji + 1)) дисперсию случайной величины x (si|sji+ 1), которая является аргументом у Vs. Согласно определениям математического ожидания ${{E}_{{{{{\mathbf{s}}}_{i}}}}}${x(si)|sji + 1} и дисперсии Vs(x(si|sji + 1)) для распределения концентрации фамилии по субпопуляциям i-го уровня {si}, входящим в sji+ 1, т.е. для случайной величины x(si|sji + 1), имеем с учетом (5)

$\begin{gathered} {{E}_{{{{{\mathbf{s}}}_{i}}}}}\{ \left. {x\left( {{{{\mathbf{s}}}_{i}}} \right)} \right|{{{\mathbf{s}}}_{{ji + 1}}}\} \equiv \sum\limits_{{{{\mathbf{s}}}_{i}}} {x\left( {{{{\mathbf{s}}}_{i}}} \right)Pr(\left. {{{{\mathbf{s}}}_{i}}} \right|{{{\mathbf{s}}}_{{ji + 1}}})} = \\ = \sum\limits_k {x\left( {{{{\mathbf{s}}}_{{ki}}}} \right)Pr(\left. {{{{\mathbf{s}}}_{{ki}}}} \right|{{{\mathbf{s}}}_{{ji + 1}}})} = x\left( {{{{\mathbf{s}}}_{{ji + 1}}}} \right),~ \\ \end{gathered} $
$\begin{gathered} Vs(x(\left. {{{{\mathbf{s}}}_{i}}} \right|{{{\mathbf{s}}}_{{ji + 1}}})) \equiv {{E}_{{{{{\mathbf{s}}}_{i}}}}}\left\{ {\left. {{{{\left( {x({{{\mathbf{s}}}_{i}}) - {{E}_{{{{{\mathbf{s}}}_{i}}}}}\left\{ {x({{{\mathbf{s}}}_{i}})} \right\}} \right)}}^{2}}} \right|{{{\mathbf{s}}}_{{ji + 1}}}} \right\} = \\ = {{E}_{{{{{\mathbf{s}}}_{i}}}}}\left\{ {{{{(x({{{\mathbf{s}}}_{i}}) - x({{{\mathbf{s}}}_{{i + 1}}}))}}^{2}}{\text{|}}{{{\mathbf{s}}}_{{ji + 1}}}} \right\} = \\ = {{E}_{{{{{\mathbf{s}}}_{i}}}}}\left\{ {\left. {{{x}^{2}}\left( {{{{\mathbf{s}}}_{i}}} \right)} \right|{{{\mathbf{s}}}_{{ji + 1}}}} \right\} - {{x}^{2}}\left( {{{{\mathbf{s}}}_{{ji + 1}}}} \right), \\ \end{gathered} $
(6)
$\begin{gathered} Vs(x(\left. {{{{\mathbf{s}}}_{i}}} \right|{{{\mathbf{s}}}_{{jm}}})) \equiv {{E}_{{{{{\mathbf{s}}}_{i}}}}}\left\{ {\left. {{{{\left( {x({{{\mathbf{s}}}_{i}}) - {{E}_{{{{{\mathbf{s}}}_{i}}}}}\{ x({{{\mathbf{s}}}_{i}})\} } \right)}}^{2}}} \right|{{{\mathbf{s}}}_{{jm}}}} \right\} = \\ = {{E}_{{{{{\mathbf{s}}}_{i}}}}}\left\{ {\left. {{{x}^{2}}({{{\mathbf{s}}}_{i}})} \right|{{{\mathbf{s}}}_{{jm}}}} \right\} - {{x}^{2}}({{{\mathbf{s}}}_{{jm}}}),\,\,\,\,m > i. \\ \end{gathered} $

Здесь к символу дисперсии V (и далее к стандартным в биометрии обозначениям других статистических характеристик) добавляется буква s для напоминания, что речь идет о фамилиях, а не об аллелях в субпопуляциях.

ПОЛНАЯ, МЕЖГРУППОВАЯ И ВНУТРИГРУППОВАЯ ДИСПЕРСИИ

В подразделенной на группы популяции выделяют несколько типов дисперсии: полную (общую) во всей метапопуляции, межгрупповую (дисперсию распределения средних значений признака по группам) и внутригрупповую дисперсии числового признака. Поясним это следующим искусственным примером. Рассмотрим простейшую иерархическую систему из изучаемых в отношении веса жителей сельсовета, состоящего из сел (единицей наблюдения является отдельный житель, характеризуемый значением своего веса). Тогда имеются три типа совокупностей: полная (общая) совокупность значений веса у всех жителей сельсовета, совокупность средних значений веса жителей в отдельных селах сельсовета и совокупности значений веса у жителей внутри отдельных сел сельсовета.

Соответственно будет три типа дисперсий: полная (общая) дисперсия значений веса для всех жителей сельсовета (дисперсия веса у единиц наблюдения при отсутствии у них какой-либо группировки), межгрупповая дисперсия средних значений веса жителей его сел и внутригрупповая дисперсия веса жителей отдельного села (сельсовет в целом характеризует средняя внутригрупповая дисперсия для его сел).

В нашем случае анализа фамилий на популяционном уровне единицей наблюдения является отдельное село s1, характеризуемое теперь не весом, а концентрацией рассматриваемой фамилии x(s1) для жителей села s1 в целом; села группируются в сельсоветы {s2} с концентрациями фамилии в них {x(s2)}, а сельсоветы образуют некоторый район s3 с концентрацией фамилии (общим средним значением концентрации) в нем x(s3). Очевидно, все вместе села (субпопуляции первого уровня) дают район, точно так же как его дают и все сельсоветы (субпопуляции второго уровня), вообще все субпопуляции любого отдельного уровня образуют метапопуляцию целиком. Для наугад выбранной субпопуляции s1 из sj2 концентрация фамилии в s1 будет случайной величиной x(s1|sj2) с математическим ожиданием x(sj2), равным среднему значению концентрации фамилии в селах {x(s1)}.

Рассмотрим общее математическое ожидание концентрации рассматриваемой фамилии в распределенной по району s3 иерархически подразделенной метапопуляции. Она состоит из субпопуляций сельсоветов и сел с мультиномерами {s2}, {s1}, соответствующими уровням иерархии 1 и 2. Концентрации интересующей фамилии в них обозначены как {x(s2)} и {x(s1)}. Согласно ранее изложенному x(sj2) ≡ ${{E}_{{{{{\mathbf{s}}}_{1}}}}}${x(s1)|sj2}, а x(s3) ≡ ${{E}_{{{{{\mathbf{s}}}_{2}}}}}${x(s2)|s3}. Полная дисперсия (по несгруппированным единицам наблюдения (селам)) – это дисперсия распределения значений концентрации фамилии {x(s1)|s3} по селам всего района.

Распределение концентрации фамилии {x(s2|s3)} по субпопуляциям второго уровня (сельсоветам) характеризуется не только средней концентрацией x(s3) (математическим ожиданием), но и межгрупповой дисперсией Vsbetw(x(s2|s3)), отражающей фамильную дивергенцию субпопуляций {s2} друг от друга (по сельсоветам). Эту межгрупповую дисперсию можно представить согласно (6) как разность среднего квадрата и квадрата среднего:

$\begin{gathered} V{{s}_{{betw}}}(x(\left. {{{{\mathbf{s}}}_{2}}} \right|{{{\mathbf{s}}}_{3}})) \equiv {{E}_{{{{{\mathbf{s}}}_{2}}}}}\left\{ {\left. {{{x}^{2}}\left( {{{{\mathbf{s}}}_{2}}} \right)} \right|{{{\mathbf{s}}}_{3}}} \right\} - {{\left( {{{E}_{{{{{\mathbf{s}}}_{2}}}}}\left\{ {\left. {x\left( {{{{\mathbf{s}}}_{2}}} \right)} \right|{{{\mathbf{s}}}_{3}}} \right\}} \right)}^{2}} = \\ = {{E}_{{{{{\mathbf{s}}}_{2}}}}}\left\{ {{{x}^{2}}\left. {\left( {{{{\mathbf{s}}}_{2}}} \right)} \right|{{{\mathbf{s}}}_{3}}} \right\} - {{x}^{2}}\left( {{{{\mathbf{s}}}_{3}}} \right). \\ \end{gathered} $

Дивергенция обычно существует между субпопуляциями {s2} как на данном втором уровне, так и между входящими в отдельные группы {s2} субпопуляциями {s1} на единицу меньшего уровня (между селами {s1} внутри каждого сельсовета). Она характеризуется внутригрупповыми дисперсиями {Vsin(x(s1|sj2))}. Для отдельной субпопуляции sj2 внутригрупповая дисперсия концентрации имеет вид

$\begin{gathered} V{{s}_{{in}}}(x(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{{j2}}})) = {{E}_{{{{{\mathbf{s}}}_{1}}}}}\left\{ {\left. {{{x}^{2}}\left( {{{{\mathbf{s}}}_{1}}} \right)} \right|{{{\mathbf{s}}}_{{j2}}}} \right\} - {{x}^{2}}\left( {{{{\mathbf{s}}}_{{j2}}}} \right) = \\ = \sum\limits_{{{{\mathbf{s}}}_{1}}} {{{x}^{2}}\left. {\left( {{{{\mathbf{s}}}_{1}}} \right)} \right)Pr(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{{j2}}})} - {{x}^{2}}\left( {{{{\mathbf{s}}}_{{j2}}}} \right). \\ \end{gathered} $

Средней внутригрупповой дисперсией (средней дивергенцией концентрации фамилии по селам {s1} внутри сельсовета s2 из района s3) будет

$\begin{gathered} {{E}_{{{{{\mathbf{s}}}_{2}}}}}\left\{ {V{{s}_{{in}}}\left. {(x(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{2}}))} \right|{{{\mathbf{s}}}_{3}}} \right\} = \sum\limits_{{{{\mathbf{s}}}_{2}}} {V{{s}_{{in}}}(x(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{2}}))Pr(\left. {{{{\mathbf{s}}}_{2}}} \right|{{{\mathbf{s}}}_{3}})} = \\ = {{E}_{{{{{\mathbf{s}}}_{2}}}}}\left\{ {{{E}_{{{{{\mathbf{s}}}_{1}}}}}\left\{ {{{x}^{2}}\left. {\left( {{{{\mathbf{s}}}_{1}}} \right)} \right|{{{\mathbf{s}}}_{2}}} \right\} - {{x}^{2}}\left. {\left( {{{{\mathbf{s}}}_{2}}} \right)} \right|{{{\mathbf{s}}}_{3}}} \right\} = \\ = {{E}_{{{{{\mathbf{s}}}_{2}}}}}\left\{ {{{E}_{{{{{\mathbf{s}}}_{1}}}}}\left. {\left\{ {{{x}^{2}}\left. {\left( {{{{\mathbf{s}}}_{1}}} \right)} \right|{{{\mathbf{s}}}_{2}}} \right\}} \right|{{{\mathbf{s}}}_{3}}} \right\} - {{E}_{{{{{\mathbf{s}}}_{2}}}}}\left\{ {{{x}^{2}}\left. {\left( {{{{\mathbf{s}}}_{2}}} \right)} \right|{{{\mathbf{s}}}_{3}}} \right\} = \\ = {{E}_{{{{{\mathbf{s}}}_{1}}}}}\left\{ {{{x}^{2}}\left. {\left( {{{{\mathbf{s}}}_{1}}} \right)} \right|{{{\mathbf{s}}}_{3}}} \right\} - {{E}_{{{{{\mathbf{s}}}_{2}}}}}\left\{ {{{x}^{2}}\left. {\left( {{{{\mathbf{s}}}_{2}}} \right)} \right|{{{\mathbf{s}}}_{3}})} \right\}, \\ \end{gathered} $
так как ${{E}_{{{{{\mathbf{s}}}_{2}}}}}\{ {{E}_{{{{{\mathbf{s}}}_{1}}}}}\{ {{x}^{2}}\left( {{{{\mathbf{s}}}_{1}}} \right){\text{|}}{{{\mathbf{s}}}_{2}}\} {\text{|}}{{{\mathbf{s}}}_{3}}\} $ = ${{E}_{{{{{\mathbf{s}}}_{1}}}}}\{ {{x}^{2}}({{{\mathbf{s}}}_{1}}){\text{|}}{{{\mathbf{s}}}_{3}}\} $ согласно (4).

Данные типы дисперсий для трех уровней иерархии обобщаются на случай метапопуляции sm с m уровнями иерархии. На каждом уровне k находятся субпопуляции {sk}, вместе составляющие метапопуляцию sm и объединяемые в группы, представляющие субпопуляции {sjk + 1, j = 1, 2, …} следующего (k + 1)-го уровня иерархии, где j нумерует субпопуляции с уровнем иерархии k + 1. Распределение концентрации x(sk) рассматриваемой фамилии внутри этих групп характеризуется средним значением ${{E}_{{{{{\mathbf{s}}}_{k}}}}}\{ x\left( {{{{\mathbf{s}}}_{k}}} \right){\text{|}}{{{\mathbf{s}}}_{{jk + 1}}}\} $ = x(sjk+ 1) и дисперсией Vs(x(sk|sjk + 1)), т.е. обозначение Vsin(x(sk|sjk + 1)) относим к дисперсии распределения концентрации x(sk) фамилии по субпопуляциям уровня k < < m внутри sjk + 1. При этом можно использовать те же самые типы дисперсии, что и ранее в простейшем случае.

Под полной (общей) дисперсией распределения концентрации фамилии по всей метапопуляции sm понимается дисперсия распределения концентрации по несгруппированным субпопуляциям {s1} уровня единицы наблюдения (обычно относимым к первому уровню {s1}), т.е. для всей метапопуляции sm при отсутствии в ней группировок. Эта дисперсия обозначается как Vstot(x(s1|sm)). В качестве условно неподразделенной единицы наблюдения может быть выбрана популяция и более высокого уровня иерархии k, 1 < k < m (скажем, при отсутствии данных об уровнях ниже k, либо из научных интересов).

Дисперсия распределения концентрации фамилии по субпопуляциям (группам) {sk} из sm

$V{{s}_{{betw}}}(x(\left. {{{{\mathbf{s}}}_{k}}} \right|{{{\mathbf{s}}}_{m}})) \equiv Vs(x(\left. {{{{\mathbf{s}}}_{k}}} \right|{{{\mathbf{s}}}_{m}}))$
называется межгрупповой дисперсией на уровне k < m. Она характеризует фамильную дивергенцию на данном уровне.

При подразделенности субпопуляций {sk} j-я из них характеризуется своей внутригрупповой дисперсией Vs(x(sk – 1|sjk)) =Vsin(x(sk – 1|sjk)) распределения концентрации фамилии {x(sk – 1)} по субпопуляциям {sk – 1} внутри sjk. Уровень k в целом характеризуется средней внутригрупповой дисперсией Ws(x(sk– 1|sjk)):

(7)
$\begin{gathered} Ws(x(\left. {{{{\mathbf{s}}}_{{k - 1}}}} \right|{{{\mathbf{s}}}_{{jk}}})) \equiv {{E}_{{{{{\mathbf{s}}}_{{jk}}}}}}\left\{ {V{{s}_{{in}}}(x(\left. {{{{\mathbf{s}}}_{{k - 1}}}} \right|{{{\mathbf{s}}}_{{jk}}}))} \right\} = \\ = {{E}_{j}}\left\{ {V{{s}_{{in}}}(x(\left. {{{{\mathbf{s}}}_{{k - 1}}}} \right|{{{\mathbf{s}}}_{{jk}}}))} \right\}, \\ \end{gathered} $
т.е. средним значением для внутригрупповых дисперсий у субпопуляций уровня k. Можно также рассматривать разные уровни внутригрупповой дисперсии, соответствующие дисперсиям распределения концентраций по соответствующим субпопуляциям на уровне, меньшем k, вплоть до дисперсии концентраций по субпопуляциям первого уровня {s1}.

Отметим неоднозначность при многоуровневой иерархии таких понятий как межгрупповая и внутригрупповая изменчивость без указания уровня, с которым они соотносятся. Одна и та же дисперсия распределения концентрации фамилии, скажем, по сельсоветам является межгрупповой при анализе на уровне района и внутригрупповой на уровне области. В то же время рассматриваемая дисперсия определяется однозначно по случайному аргументу у Vs (стоящему перед вертикальной чертой). Таким образом, индексы betw, in у дисперсий условны и служат для облегчения ориентации в каком аспекте рассматривается соответствующая дисперсия в данном контексте, а аргумент у Vs универсален. Он указывает на случайную величину, дисперсией которой будет Vs. Статистический смысл дисперсии Vs не зависит от индекса betw или in и определяется аргументом Vs, (напомним, что в обозначении si|sjk символ si перед вертикальной чертой рассматривается как случайная величина со значениями {si} из sjk, i < k).

В единицах наблюдения (обычно субпопуляциях первого уровня) по определению отсутствует или игнорируется подразделенность, поэтому у них невозможно определение внутригрупповой дисперсии. Наименьший уровень иерархии субпопуляции, в которой внутригрупповая дисперсия реально существует, равен двум. Субпопуляциями наименьшего уровня иерархии, в которых возможна средняя внутригрупповая дисперсия ${{E}_{{{{{\mathbf{s}}}_{2}}}}}\{ V{{s}_{{in}}}(x({{{\mathbf{s}}}_{1}}{\text{|}}{{{\mathbf{s}}}_{2}})){\text{|}}{{{\mathbf{s}}}_{3}}\} ,$ будут трехуровневые метапопуляции {s3}. Повторим, что выражение средней внутригрупповой дисперсии ${{E}_{{{{{\mathbf{s}}}_{2}}}}}\{ V{{s}_{{in}}}(x({{{\mathbf{s}}}_{1}}{\text{|}}{{{\mathbf{s}}}_{2}})){\text{|}}{{{\mathbf{s}}}_{3}}\} $ для s3 интерпретируется следующим образом. Аргумент x(s1|s2) является случайной величиной, принимающей значения, равные концентрации фамилии в субпопуляции s1, наугад выбранной из s2. Эта субпопуляция s2 сама случайно выбирается из субпопуляции s3. Математическое ожидание дисперсии данной случайной величины x(s1|s2) для распределения x по s2 по определению является средней внутригрупповой дисперсией ${{E}_{{{{{\mathbf{s}}}_{2}}}}}\{ V{{s}_{{in}}}(x({{{\mathbf{s}}}_{1}}{\text{|}}{{{\mathbf{s}}}_{2}})){\text{|}}{{{\mathbf{s}}}_{3}}\} .$

Выражение средней внутригрупповой дисперсии ${{E}_{{{{{\mathbf{s}}}_{2}}}}}\{ V{{s}_{{in}}}(x({{{\mathbf{s}}}_{1}}{\text{|}}{{{\mathbf{s}}}_{2}})){\text{|}}{{{\mathbf{s}}}_{{jk}}}\} $ для субпопуляции более высокого уровня k > 3 интерпретируется сходно. Аргумент x(s1|s2) является случайной величиной, принимающей значения, равные концентрации фамилии в s1, наугад выбранной из s2, а субпопуляция s2 сама случайно выбирается из субпопуляции sjk. Математическое ожидание дисперсии данной случайной величины x(s1|s2) по определению называется средней внутригрупповой дисперсией субпопуляции s2 в sjk.

В более общем случае многоуровневой иерархии вместо s2 можно взять si и определить среднюю внутригрупповую дисперсию для si, на уровне i для субпопуляций внутри sjk, i < k. Средняя внутригрупповая дисперсияна уровне i определяется как ${{E}_{{{{{\mathbf{s}}}_{i}}}}}\{ V{{s}_{{in}}}(x({{{\mathbf{s}}}_{1}}{\text{|}}{{{\mathbf{s}}}_{i}})){\text{|}}{{{\mathbf{s}}}_{{jk}}}\} ,$ 1 < i < k для j-ой субпопуляции k-го уровня. Таким образом получаем среднее значение дисперсии распределения концентрации по неподразделенным и несгруппированным субпопуляциям первого уровня внутри субпопуляции si уровня i при случайном выборе si из sjk. Такую дисперсию ${{E}_{{{{{\mathbf{s}}}_{i}}}}}\{ V{{s}_{{in}}}(x({{{\mathbf{s}}}_{{\text{1}}}}{\text{|}}{{{\mathbf{s}}}_{i}})){\text{|}}{{{\mathbf{s}}}_{{jk}}}\} $Ws(x(s1|si)|sjk) можно интерпретировать как ожидаемое значение дисперсии случайной величины x(s1|si), когда si наугад выбирается из sjk.

РАЗЛОЖЕНИЕ ДИСПЕРСИИ РАСПРЕДЕЛЕНИЯ КОНЦЕНТРАЦИИ ФАМИЛИИ ПО УРОВНЯМ ИЕРАРХИИ

Как известно из дисперсионного анализа (см., например, [12]), сумма квадратов отклонений значений признака от общепопуляционного среднего значения в популяции, подразделенной на группы, равна сумме межгрупповых и внутригрупповых сумм квадратов отклонений (называемых в [12] вариациями). Соответствующие дисперсии практически удовлетворяют тому же соотношению, но при замене “сумма квадратов отклонений” на “дисперсия”, а вместо “внутригрупповая дисперсия” будет “средняя внутригрупповая дисперсия”, т.е. добавляется термин “средняя”. В биометрии это соотношение известно как правило сложения дисперсий. Мне не удалось найти распространенный учебник биометрии, где оно приведено, но по поисковому запросу в Интернете появляется множество ссылок. Согласно этому правилу

в совокупности из нескольких групп произвольных объектов с каким-либо числовым признаком x общая (полная) дисперсия x во всей совокупности равна сумме межгрупповой дисперсии (дисперсии распределения средних значений x в группах) и средней внутригрупповой дисперсии (средней дисперсии x внутри групп).

Понятно, что согласно приведенной формулировке данное статистическое правило не зависит от природы объектов и принципов их объединения в группы, которые могут быть произвольными. Правило выполняется не только для дисперсий, но и при совместном изучении нескольких признаков для их матриц ковариаций. В любом случае это правило может использоваться для проверки безошибочности вычислений.

В случае анализа фамильной структуры данное правило принимает следующий вид.

Замечание 3 (правило сложения дисперсий). Пусть подразделенная метапопуляция s3разбита на субпопуляции {s2}, каждая из которых включает непересекающиеся неподразделенные группы {s1}, являющиеся единицами наблюдения с концентрациями рассматриваемой фамилии в них {x(s1|s2)}.

Тогда полная (общая) дисперсия Vstot(x(s1|s3)) распределения концентрации фамилии по несгруппированным единицам наблюдения {s1} во всей метапопуляции s3равна сумме межгрупповой дисперсии Vsbetw(x(s2|s3)), характеризующей фамильную дивергенцию средних значений концентраций {x(s2)} у субпопуляций {s2}, и средней внутригрупповой дисперсии W(x(s1|s2)|s3) ≡ ≡ ${{E}_{{{{{\mathbf{s}}}_{2}}}}}\{ V{{s}_{{in}}}(x({{{\mathbf{s}}}_{1}}{\text{|}}{{{\mathbf{s}}}_{2}})){\text{|}}{{{\mathbf{s}}}_{3}}\} ,$ характеризующей среднюю фамильную дивергенциюx (s1) внутри субпопуляций {s2}:

(8)
$\begin{gathered} V{{s}_{{tot}}}(x(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{3}})) = V{{s}_{{betw}}}(x(\left. {{{{\mathbf{s}}}_{2}}} \right|{{{\mathbf{s}}}_{3}})) + W(\left. {x(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{2}})} \right|{{{\mathbf{s}}}_{3}}), \\ ~W(\left. {x(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{2}})} \right|{{{\mathbf{s}}}_{3}}) \equiv {{E}_{{{{{\mathbf{s}}}_{2}}}}}\left\{ {V{{s}_{{in}}}(\left. {x(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{2}}))} \right|{{{\mathbf{s}}}_{3}}} \right\}. \\ \end{gathered} $

Доказательство. Рассмотрим сумму указанных дисперсий:

$\begin{gathered} V{{s}_{{betw}}}(x(\left. {{{{\mathbf{s}}}_{2}}} \right|{{{\mathbf{s}}}_{3}})) + {{E}_{{{{{\mathbf{s}}}_{2}}}}}\left\{ {V{{s}_{{in}}}\left. {(x(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{2}}))} \right|{{{\mathbf{s}}}_{3}}} \right\} = \\ = V{{s}_{{betw}}}(x(\left. {{{{\mathbf{s}}}_{2}}} \right|{{{\mathbf{s}}}_{3}})) + {{E}_{{{{{\mathbf{s}}}_{2}}}}}\left\{ {{{E}_{{{{{\mathbf{s}}}_{1}}}}}\left\{ {{{x}^{2}}\left. {\left( {{{{\mathbf{s}}}_{1}}} \right)} \right|{{{\mathbf{s}}}_{2}}} \right\} - {{x}^{2}}\left. {\left( {{{{\mathbf{s}}}_{2}}} \right)} \right|{{{\mathbf{s}}}_{3}}} \right\} = \\ = \left( {{{E}_{{{{{\mathbf{s}}}_{2}}}}}\left\{ {{{x}^{2}}\left. {\left( {{{{\mathbf{s}}}_{2}}} \right)} \right|{{{\mathbf{s}}}_{3}}} \right\} - {{x}^{2}}\left( {{{{\mathbf{s}}}_{3}}} \right)} \right) + \\ + {{E}_{{{{{\mathbf{s}}}_{2}}}}}\left\{ {{{E}_{{{{{\mathbf{s}}}_{1}}}}}\left\{ {{{x}^{2}}\left. {\left( {{{{\mathbf{s}}}_{1}}} \right)} \right|{{{\mathbf{s}}}_{2}}} \right\} - {{x}^{2}}\left. {\left( {{{{\mathbf{s}}}_{2}}} \right)} \right|{{{\mathbf{s}}}_{3}}} \right\} = \\ = {{E}_{{{{{\mathbf{s}}}_{2}}}}}\left\{ {{{x}^{2}}\left. {\left( {{{{\mathbf{s}}}_{2}}} \right)} \right|{{{\mathbf{s}}}_{3}}} \right\} - \\ - \,\,{{x}^{2}}\left( {{{{\mathbf{s}}}_{3}}} \right) + {{E}_{{{{{\mathbf{s}}}_{1}}}}}\left\{ {{{x}^{2}}\left. {\left( {{{{\mathbf{s}}}_{1}}} \right)} \right|{{{\mathbf{s}}}_{3}}} \right\} - {{E}_{{{{{\mathbf{s}}}_{2}}}}}\left\{ {{{x}^{2}}\left. {\left( {{{{\mathbf{s}}}_{2}}} \right)} \right|{{{\mathbf{s}}}_{3}}} \right\} = \\ {{E}_{{{{{\mathbf{s}}}_{1}}}}}\left\{ {{{x}^{2}}\left. {\left( {{{{\mathbf{s}}}_{1}}} \right)} \right|{{{\mathbf{s}}}_{3}}} \right\} - {{x}^{2}}\left( {{{{\mathbf{s}}}_{3}}} \right) = Vs(x(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{3}})), \\ \end{gathered} $
так как ${{E}_{{{{{\mathbf{s}}}_{2}}}}}\{ {{E}_{{{{{\mathbf{s}}}_{1}}}}}\{ {{x}^{2}}({{{\mathbf{s}}}_{1}}){\text{|}}{{{\mathbf{s}}}_{2}}\} {\text{|}}{{{\mathbf{s}}}_{3}}\} $ = ${{E}_{{{{{\mathbf{s}}}_{1}}}}}\{ {{x}^{2}}({{{\mathbf{s}}}_{1}}){\text{|}}{{{\mathbf{s}}}_{3}}\} $ соглас-но (4), и после сокращения получаем общую дисперсию Vstot(x(s1|s3)) = Vs(x(s1|s3)). ◄

Данное правило также справедливо по отношению к соответствующим матрицам ковариаций.

Рассмотрим правило сложения дисперсий применительно к свойствам многоуровневых иерархически подразделенных метапопуляций. Пусть дана метапопуляция с m уровнями иерархии, в которой в качестве единицы наблюдения выбрана субпопуляция уровня n и выбран уровень иерархии k: m > k > n (в рассмотренном выше случае m = 3, k = 2, n = 1). Очевидно, все множество субпопуляций {sk} данного уровня (или любого другого) составляют метапопуляцию целиком. Условно считаем, что единицы наблюдения характеризуются только соответствующими концентрациями фамилии, внутригрупповая дисперсия в них либо отсутствует, либо сведений о ней не имеется, наконец, она может игнорироваться. Таким образом, мы допускаем произвольное количество уровней иерархии и не требуем, чтобы выбранные уровни k, n и m были соседними. Рассмотрим, как выглядит правило сложения дисперсий в этом случае.

Следствие 4. Пусть в иерархически подразделенной метапопуляции sm с m уровнями иерархии выбраны в качестве единицы наблюдения субпопуляции {sn} уровня n и выбран уровень иерархии k, m > k > n с непересекающимися субпопуляциями {sk}, вместе образующими sm. Тогда в sm выполняется следующий вариант правила сложения дисперсий.

Общая (полная) дисперсия Vstot(x(sn|sm)), понимаемая как дисперсия распределения по всей метапопуляции sm концентрации x интересующей фамилии в субпопуляциях {sn}, рассматриваемых (условно) как единицы наблюдения, разлагается в сумму

1) межгрупповой дисперсии Vsbetw(x(sk|sm)) распределения концентрации по составляющим sm субпопуляциям {sk} на произвольном уровне k < m и

2) среднего значения ${{E}_{{{{{\mathbf{s}}}_{k}}}}}\{ V{{s}_{{in}}}(x({{{\mathbf{s}}}_{n}}{\text{|}}{{{\mathbf{s}}}_{k}}))\} $ внутригрупповой дисперсии Vsin(x(sn|sk)) распределения концентрации фамилии {x(sn|sk)} по субпопуляциям-единицам наблюдения {sn} внутри субпопуляций {sk} уровня k (n < k):

(9)
$\begin{gathered} V{{s}_{{tot}}}(x(\left. {{{{\mathbf{s}}}_{n}}} \right|{{{\mathbf{s}}}_{m}})) = V{{s}_{{betw}}}(x(\left. {{{{\mathbf{s}}}_{k}}} \right|{{{\mathbf{s}}}_{m}})) + \\ + \,\,{{E}_{{{{{\mathbf{s}}}_{k}}}}}\left\{ {V{{s}_{{in}}}\left. {(x(\left. {{{{\mathbf{s}}}_{n}}} \right|{{{\mathbf{s}}}_{k}}))} \right|{{{\mathbf{s}}}_{m}}} \right\}. \\ \end{gathered} $

Согласно данному правилу эти дисперсии зависимы, и по значениям любой пары дисперсий определяется значение третьей.

Доказательство. Распишем межгрупповую и внутригрупповую дисперсии по формуле (6) как разности среднего квадрата и квадрата среднего. Например, для случайной величины x(sn|sk) среднее значение будет равно x(sk) для соответствующей субпопуляции sk согласно (3), а (внутригрупповой) дисперсией будет

$\begin{gathered} V{{s}_{{in}}}(x(\left. {{{{\mathbf{s}}}_{n}}} \right|{{{\mathbf{s}}}_{k}})) = {{E}_{{{{{\mathbf{s}}}_{n}}}}}\left\{ {{{x}^{2}}\left. {({{{\mathbf{s}}}_{n}})} \right|{{{\mathbf{s}}}_{k}}} \right\} - \\ - \,\,({{E}_{{{{{\mathbf{s}}}_{n}}}}}{{\left\{ {\left. {x({{{\mathbf{s}}}_{n}})} \right|{{{\mathbf{s}}}_{k}}} \right\}}^{2}} = {{E}_{{{{{\mathbf{s}}}_{n}}}}}\left\{ {{{x}^{2}}\left. {({{{\mathbf{s}}}_{n}})} \right|{{{\mathbf{s}}}_{k}}} \right\} - {{x}^{2}}({{{\mathbf{s}}}_{k}}). \\ \end{gathered} $
Здесь под sk подразумевается какая-либо конкретная субпопуляция уровня k (скажем, sjk с номером j).

Межгрупповая дисперсия имеет вид Vsbetw(x(sk|sm)) = $ = {{E}_{{{{{\mathbf{s}}}_{k}}}}}\{ {{x}^{2}}({{{\mathbf{s}}}_{k}}){\text{|}}{{{\mathbf{s}}}_{m}}\} $x2(sm).

Найдем сумму межгрупповой и средней внутригрупповой дисперсий:

$\begin{gathered} V{{s}_{{betw}}}{\text{(}}x(\left. {{{{\mathbf{s}}}_{k}}} \right|{{{\mathbf{s}}}_{m}})) + {{E}_{{{{{\mathbf{s}}}_{k}}}}}\left\{ {V{{s}_{{in}}}(\left. {x(\left. {{{{\mathbf{s}}}_{n}}} \right|{{{\mathbf{s}}}_{k}}))} \right|{{{\mathbf{s}}}_{m}}} \right\} = \\ = \left( {{{E}_{{{{{\mathbf{s}}}_{k}}}}}\left\{ {{{x}^{2}}\left. {({{{\mathbf{s}}}_{k}})} \right|{{{\mathbf{s}}}_{m}}} \right\} - {{x}^{2}}({{{\mathbf{s}}}_{m}})} \right) + \\ + \,\,{{E}_{{{{{\mathbf{s}}}_{k}}}}}\left\{ {{{E}_{{{{{\mathbf{s}}}_{n}}}}}\left\{ {{{x}^{2}}\left. {({{{\mathbf{s}}}_{n}})} \right|{{{\mathbf{s}}}_{k}}} \right\} - {{x}^{2}}\left. {({{{\mathbf{s}}}_{k}})} \right|{{{\mathbf{s}}}_{m}}} \right\} = \\ = {{E}_{{{{{\mathbf{s}}}_{k}}}}}\left\{ {{{x}^{2}}\left. {({{{\mathbf{s}}}_{k}})} \right|{{{\mathbf{s}}}_{m}}} \right\} - {{x}^{2}}({{{\mathbf{s}}}_{m}}) + \\ + \,\,{{E}_{{{{{\mathbf{s}}}_{n}}}}}\left\{ {{{x}^{2}}\left. {({{{\mathbf{s}}}_{n}})} \right|{{{\mathbf{s}}}_{m}}} \right\} - \,\,{{E}_{{{{{\mathbf{s}}}_{k}}}}}\left\{ {{{x}^{2}}\left. {({{{\mathbf{s}}}_{k}})} \right|{{{\mathbf{s}}}_{m}}} \right\} = \\ = {{E}_{{{{{\mathbf{s}}}_{n}}}}}\left\{ {{{x}^{2}}\left. {({{{\mathbf{s}}}_{n}})} \right|{{{\mathbf{s}}}_{m}}} \right\} - {{x}^{2}}({{{\mathbf{s}}}_{m}}) = Vs(x(\left. {{{{\mathbf{s}}}_{n}}} \right|{{{\mathbf{s}}}_{m}})), \\ \end{gathered} $
поскольку ${{E}_{{{{{\mathbf{s}}}_{k}}}}}\{ {{E}_{{{{{\mathbf{s}}}_{n}}}}}{{x}^{2}}({{{\mathbf{s}}}_{n}}){\text{|}}{{{\mathbf{s}}}_{k}}\} {\text{|}}{{{\mathbf{s}}}_{m}}\} $ = ${{E}_{{{{{\mathbf{s}}}_{n}}}}}\{ {{x}^{2}}({{{\mathbf{s}}}_{n}}){\text{|}}{{{\mathbf{s}}}_{m}}\} $ в соответствии с (4), а после сокращения получаем ${{E}_{{{{{\mathbf{s}}}_{n}}}}}\{ {{x}^{2}}({{{\mathbf{s}}}_{n}}){\text{|}}{{{\mathbf{s}}}_{m}}\} $x2(sm), т.е. полную дисперсию  Vstot(x(sn|sm)). ◄

Понятно, что значение полной дисперсии зависит от выбора единицы наблюдения, и дисперсия будет наибольшей при неподразделенной единице (не содержащей субпопуляций). Например, когда единицей наблюдения является сельсовет и соответственно имеется информация только по концентрации фамилии в сельсоветах {s2}, то общая дисперсия концентрации фамилии в s3 совпадает с межгрупповой дисперсией распределения концентрации по сельсоветам. При этом выпадает неотрицательный вклад фамильной дивергенции сел внутри сельсоветов, т.е. средний внутригрупповой компонент ${{E}_{{{{{\mathbf{s}}}_{2}}}}}\{ V{{s}_{{in}}}(x({{{\mathbf{s}}}_{1}}{\text{|}}{{{\mathbf{s}}}_{2}}))\} $. Это может привести к существенному уменьшению полной дисперсии, следовательно к занижению показателя дивергенции субпопуляций внутри района и вытекающему отсюда уменьшению оценки (см., например, [1, 2]) коэффициента инбридинга популяции по фамильным данным, максимальной при единице наблюдения минимального уровня. Когда субпопуляции {sm– 1} являются единицами наблюдения, то межгрупповая дисперсия совпадает с полной.

Теперь обобщим рассмотренное правило. Покажем, что в случае иерархической подразделенности метапопуляции с произвольным количеством уровней иерархии полная дисперсия распределения концентрации фамилии разлагается не только на межгрупповую и внутригрупповую дисперсии, но последняя еще разлагается на компоненты, соответствующие отдельным уровням.

Результат 5 (разложение полной дисперсии). В иерархически подразделенной метапопуляции sm с уровнями иерархии i = 1, 2, …, m полная (общая) дисперсия Vstot(x(s1|sm)), т.е. дисперсия распределения во всей подразделенной метапопуляции sm концентрации рассматриваемой фамилии (по несгруппированным и неподразделенным субпопуляциям {s1} уровня единицы наблюдения), разлагается в сумму

1) межгрупповой дисперсии Vsbetw(x(sm– 1|sm)) распределения концентрации по субпопуляциям {sm– 1} в smи

2) средней внутригрупповой дисперсии ${{E}_{{{{{\mathbf{s}}}_{{m--1}}}}}}\{ V{{s}_{{in}}}(x({{{\mathbf{s}}}_{1}})){\text{|}}{{{\mathbf{s}}}_{{m--1}}}\} $ распределения концентрации по единицам наблюдения {s1} внутри отдельных субпопуляций sm– 1;

3) эта средняя внутригрупповая дисперсия ${{E}_{{{{{\mathbf{s}}}_{{m--1}}}}}}\{ V{{s}_{{in}}}(x({{{\mathbf{s}}}_{1}})){\text{|}}{{{\mathbf{s}}}_{{m--1}}}\} ,$ в свою очередь, разлагается на сумму средних внутригрупповых дисперсий ${{E}_{{{{{\mathbf{s}}}_{{i + 1}}}}}}\{ V{{s}_{{in}}}(x({{s}_{i}}){\text{|}}{{{\mathbf{s}}}_{{i + 1}}}){\text{|}}{{{\mathbf{s}}}_{m}}\} ,$ соответствующих отдельным уровням иерархии {i}, т.е.

(10)
$\begin{gathered} V{{s}_{{tot}}}(x(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{m}})) = V{{s}_{{betw}}}(x(\left. {{{{\mathbf{s}}}_{{m - 1}}}} \right|{{{\mathbf{s}}}_{m}})) + \\ + \,\,{{E}_{{{{{\mathbf{s}}}_{{m - 1}}}}}}\left\{ {V{{s}_{{in}}}\left. {(x(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{{m - 1}}}))} \right|{{{\mathbf{s}}}_{m}}} \right\} = \\ = V{{s}_{{betw}}}(x(\left. {{{{\mathbf{s}}}_{{m - 1}}}} \right|{{{\mathbf{s}}}_{m}})) + {{E}_{{{{{\mathbf{s}}}_{2}}}}}\left\{ {V{{s}_{{in}}}\left. {(x(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{2}}))} \right|{{{\mathbf{s}}}_{m}}} \right\} + \\ + \,\,{{E}_{{{{{\mathbf{s}}}_{3}}}}}\left\{ {V{{s}_{{in}}}\left. {(x(\left. {{{{\mathbf{s}}}_{2}}} \right|{{{\mathbf{s}}}_{3}}))} \right|{{{\mathbf{s}}}_{m}}} \right\} + \\ + ... + {{E}_{{{{{\mathbf{s}}}_{{m - 1}}}}}}\left\{ {V{{s}_{{in}}}\left. {(x(\left. {{{{\mathbf{s}}}_{{m - 2}}}} \right|{{{\mathbf{s}}}_{{m - 1}}}))} \right|{{{\mathbf{s}}}_{m}}} \right\} = \\ = V{{s}_{{betw}}}(x(\left. {{{{\mathbf{s}}}_{{m - 1}}}} \right|{{{\mathbf{s}}}_{m}})) + \sum\limits_{i = 1}^{m - 2} {{{E}_{{{{{\mathbf{s}}}_{{i + 1}}}}}}\left\{ {V{{s}_{{in}}}\left. {(x(\left. {{{{\mathbf{s}}}_{i}}} \right|{{{\mathbf{s}}}_{{i + 1}}}))} \right|{{{\mathbf{s}}}_{m}}} \right\}} . \\ \end{gathered} $

Доказательство. Рассмотрим иерархически подразделенную метапопуляцию sm с m уровнями иерархии. Непересекающиеся субпопуляции каждого отдельного уровня i образуют всю метапопуляцию sm (дают ее разбиение на группы). Положим, что в качестве единицы наблюдения выбраны субпопуляции первого уровня {s1}, а затем второго {s2}, и рассмотрим субпопуляции {sm –1} уровня m – 1 > 2. Полные (общие) дисперсии Vstot(x(s1|sm)) и Vstot(x(s2|sm)) концентрации фамилии в sm, когда единицей наблюдения выбраны субпопуляции s1 и s2 соответственно, выражаются согласно правилу сложения дисперсий в виде (9) при n = 1, i = m – 1 как

$\begin{gathered} V{{s}_{{tot}}}(x(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{m}})) = V{{s}_{{betw}}}(x(\left. {{{{\mathbf{s}}}_{{m - 1}}}} \right|{{{\mathbf{s}}}_{m}})) + \\ + \,\,{{E}_{{{{{\mathbf{s}}}_{{m - 1}}}}}}\left\{ {V{{s}_{{in}}}\left. {(x(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{{m - 1}}}))} \right|{{{\mathbf{s}}}_{m}}} \right\}, \\ \end{gathered} $
$\begin{gathered} V{{s}_{{tot}}}(x(\left. {{{{\mathbf{s}}}_{2}}} \right|{{{\mathbf{s}}}_{m}})) = V{{s}_{{betw}}}(x(\left. {{{{\mathbf{s}}}_{{m - 1}}}} \right|{{{\mathbf{s}}}_{m}})) + \\ + \,\,{{E}_{{{{{\mathbf{s}}}_{{m - 1}}}}}}\left\{ {V{{s}_{{in}}}\left. {(x(\left. {{{{\mathbf{s}}}_{2}}} \right|{{{\mathbf{s}}}_{{m - 1}}}))} \right|{{{\mathbf{s}}}_{m}}} \right\}. \\ \end{gathered} $

Проанализируем как изменилась полная дисперсия концентрации в sm в результате изменения единицы наблюдения. Для этого найдем разность ∆12 приведенных дисперсий, где сократим члены Vsbetw(x(sm –1|sm)), распишем Vsin(x(s1|sm –1)) согласно (9) при n = 1, i = 2 и произведем дальнейшие сокращения:

$\begin{gathered} {{\Delta }_{{12}}} \equiv V{{s}_{{tot}}}(x(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{m}})) - V{{s}_{{tot}}}(x(\left. {{{{\mathbf{s}}}_{2}}} \right|{{{\mathbf{s}}}_{m}})) = \\ = V{{s}_{{betw}}}(x(\left. {{{{\mathbf{s}}}_{{m - 1}}}} \right|{{{\mathbf{s}}}_{m}})) + {{E}_{{{{{\mathbf{s}}}_{{m - 1}}}}}}\left\{ {V{{s}_{{in}}}\left. {(x(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{m}}_{{--1}}))} \right|{{{\mathbf{s}}}_{m}}} \right\} - \\ - \,\,\left( {V{{s}_{{betw}}}(x(\left. {{{{\mathbf{s}}}_{{m - 1}}}} \right|{{{\mathbf{s}}}_{m}})) + {{E}_{{{{{\mathbf{s}}}_{{m - 1}}}}}}\left\{ {V{{s}_{{in}}}\left. {(x(\left. {{{{\mathbf{s}}}_{2}}} \right|{{{\mathbf{s}}}_{{m - 1}}}))} \right|{{{\mathbf{s}}}_{m}}} \right\}} \right) = \\ = {{E}_{{{{{\mathbf{s}}}_{{m - 1}}}}}}\left\{ {V{{s}_{{in}}}\left. {(x(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{{m - 1}}}))} \right|{{{\mathbf{s}}}_{m}}} \right\} - \\ - \,\,{{E}_{{{{{\mathbf{s}}}_{{m - 1}}}}}}\left\{ {V{{s}_{{in}}}\left. {(x(\left. {{{{\mathbf{s}}}_{2}}} \right|{{{\mathbf{s}}}_{m}}_{{--1}}))} \right|{{{\mathbf{s}}}_{m}}} \right\}. \\ \end{gathered} $
Подставим сюда Vsin(x(s1|sm –1)) = Vs(x(s2|sm –1) + $ + \,\,{{E}_{{{{{\mathbf{s}}}_{2}}}}}\{ V{{s}_{{in}}}(x({{{\mathbf{s}}}_{1}}{\text{|}}{{{\mathbf{s}}}_{2}})){\text{|}}{{{\mathbf{s}}}_{m}}\} $ согласно (9) при n = 1, i = 2 и учтем, что по (4) ${{E}_{{{{{\mathbf{s}}}_{{m--1}}}}}}\{ {{E}_{{{{{\mathbf{s}}}_{2}}}}}\{ V{{s}_{{in}}}(x({{{\mathbf{s}}}_{1}}{\text{|}}{{{\mathbf{s}}}_{2}}))\} {\text{|}}{{{\mathbf{s}}}_{m}}\} $ = $ = {{E}_{{{{{\mathbf{s}}}_{2}}}}}\{ V{{s}_{{in}}}(x({{{\mathbf{s}}}_{1}}{\text{|}}{{{\mathbf{s}}}_{2}}){\text{)|}}{{{\mathbf{s}}}_{m}}\} {\text{:}}$
$\begin{gathered} {{\Delta }_{{12}}} = {{E}_{{{{{\mathbf{s}}}_{{m - 1}}}}}}\left\{ {Vs\left. {(x(\left. {{{{\mathbf{s}}}_{2}}} \right|{{{\mathbf{s}}}_{{m - 1}}}))} \right|{{{\mathbf{s}}}_{m}}} \right\} + \\ + \,\,{{E}_{{{{{\mathbf{s}}}_{2}}}}}\left\{ {V{{s}_{{in}}}\left. {(x(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{2}}))} \right|{{{\mathbf{s}}}_{m}}} \right\} - \\ - \,\,{{E}_{{{{{\mathbf{s}}}_{{m - 1}}}}}}\left\{ {V{{s}_{{in}}}\left. {(x(\left. {{{{\mathbf{s}}}_{2}}} \right|{{{\mathbf{s}}}_{{m - 1}}}))} \right|{{{\mathbf{s}}}_{m}}} \right\} = \\ = {{E}_{{{{{\mathbf{s}}}_{2}}}}}\left\{ {V{{s}_{{in}}}\left. {(x(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{2}}))} \right|{{{\mathbf{s}}}_{m}}} \right\} \geqslant 0. \\ \end{gathered} $
Точно так же находим, что изменением дисперсии концентрации фамилии в sm при переходе от уровня единицы наблюдения s2 к s3 будет
$\begin{gathered} {{\Delta }_{{23}}} \equiv V{{s}_{{tot}}}(x(\left. {{{{\mathbf{s}}}_{2}}} \right|{{{\mathbf{s}}}_{m}})) - \\ - \,\,V{{s}_{{tot}}}(x(\left. {{{{\mathbf{s}}}_{3}}} \right|{{{\mathbf{s}}}_{m}})) = {{E}_{{{{{\mathbf{s}}}_{3}}}}}\{ Vs(x(\left. {{{{\mathbf{s}}}_{2}}} \right|{{{\mathbf{s}}}_{3}})) \geqslant 0. \\ \end{gathered} $
Отсюда
$\begin{gathered} {{\Delta }_{{12}}} + {{\Delta }_{{23}}} = (V{{s}_{{tot}}}(x(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{m}})) - V{{s}_{{tot}}}(x(\left. {{{{\mathbf{s}}}_{2}}} \right|{{{\mathbf{s}}}_{m}}))) + \\ + \,\,(V{{s}_{{tot}}}(x(\left. {{{{\mathbf{s}}}_{2}}} \right|{{{\mathbf{s}}}_{m}})) - V{{s}_{{tot}}}(x(\left. {{{{\mathbf{s}}}_{3}}} \right|{{{\mathbf{s}}}_{m}}))) = \\ = V{{s}_{{tot}}}(x(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{m}})) - V{{s}_{{tot}}}(x({{{\mathbf{s}}}_{3}}|{{{\mathbf{s}}}_{m}})). \\ \end{gathered} $
Следовательно,
$\begin{gathered} V{{s}_{{tot}}}(x(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{m}})) = V{{s}_{{tot}}}(x(\left. {{{{\mathbf{s}}}_{3}}} \right|{{{\mathbf{s}}}_{m}})) + {{\Delta }_{{12}}} + {{\Delta }_{{23}}} = \\ = V{{s}_{{tot}}}(x(\left. {{{{\mathbf{s}}}_{3}}} \right|{{{\mathbf{s}}}_{m}})) + {{E}_{{{{{\mathbf{s}}}_{2}}}}}\left\{ {Vs\left. {(x(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{2}}))} \right|{{{\mathbf{s}}}_{m}}} \right\} + \\ + \,\,{{E}_{{{{{\mathbf{s}}}_{3}}}}}\{ Vs(x(\left. {{{{\mathbf{s}}}_{2}}} \right|{{{\mathbf{s}}}_{3}})). \\ \end{gathered} $
Аналогично при переходе от единицы наблюдения уровня si к уровню i + 1 изменение дисперсии будет равно ${{E}_{{{{{\mathbf{s}}}_{{i + 1}}}}}}\{ Vs(x({{{\mathbf{s}}}_{i}}{\text{|}}{{{\mathbf{s}}}_{{i + 1}}})){\text{|}}{{{\mathbf{s}}}_{m}}\} .$ В результате последовательности j – 1 таких шагов общая дисперсия при единице наблюдения s1 выражается через общую дисперсию при единице наблюдения sj как
$\begin{gathered} V{{s}_{{tot}}}(x(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{m}})) = V{{s}_{{tot}}}(x(\left. {{{{\mathbf{s}}}_{j}}} \right|{{{\mathbf{s}}}_{m}})) + \\ + \,\,\sum\limits_{i = 1}^{j - 1} {{{E}_{{{{{\mathbf{s}}}_{{i + 1}}}}}}\left\{ {Vs(x(\left. {{{{\mathbf{s}}}_{i}}} \right|{{{\mathbf{s}}}_{{i + 1}}})){{{\mathbf{s}}}_{m}}} \right\}} . \\ \end{gathered} $
Когда на последнем шагу j равно m – 1, получаем полную дисперсию в виде следующего разложения:
$\begin{gathered} V{{s}_{{tot}}}(x(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{m}})) = V{{s}_{{betw}}}(x(\left. {{{{\mathbf{s}}}_{{m - 1}}}} \right|{{{\mathbf{s}}}_{m}})) + \\ + \,\,\sum\limits_{i = 1}^{m - 2} {{{E}_{{{{{\mathbf{s}}}_{{i + 1}}}}}}\left\{ {V{{s}_{{in}}}(x(\left. {{{{\mathbf{s}}}_{i}}} \right|{{{\mathbf{s}}}_{i}}_{{ + 1}}))} \right\}} , \\ \end{gathered} $
где Vsbetw(x(sm –1|sm)) = Vstot(x(sm –1|sm)) = Vs(x(sm –1|sm)), так как значение дисперсии не зависит от индексов betw или tot. ◄

Таким образом, разложение полной дисперсии концентрации фамилии в случае иерархически подразделенной трехуровневой метапопуляции равно сумме межгрупповой и внутригрупповой дисперсий и совпадает с правилом сложения дисперсий (8). В случае метапопуляции с четырьмя уровнями иерархии разложение полной дисперсии имеет вид

$\begin{gathered} V{{s}_{{tot}}}(x(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{4}})) = V{{s}_{{betw}}}(x(\left. {{{{\mathbf{s}}}_{3}}} \right|{{{\mathbf{s}}}_{4}})) + \\ + \,\,{{E}_{{{{{\mathbf{s}}}_{2}}}}}\left\{ {V{{s}_{{in}}}\left. {(x(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{2}}))} \right|{{{\mathbf{s}}}_{4}}} \right\} + \\ + \,\,{{E}_{{{{{\mathbf{s}}}_{3}}}}}\left\{ {V{{s}_{{in}}}\left. {(x(\left. {{{{\mathbf{s}}}_{2}}} \right|{{{\mathbf{s}}}_{3}}))} \right|{{{\mathbf{s}}}_{4}}} \right\}, \\ \end{gathered} $
а при пяти уровнях
$\begin{gathered} V{{s}_{{tot}}}(x(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{5}})) = V{{s}_{{betw}}}(x(\left. {{{{\mathbf{s}}}_{4}}} \right|{{{\mathbf{s}}}_{5}})) + \\ + \,\,{{E}_{{{{{\mathbf{s}}}_{2}}}}}\left\{ {V{{s}_{{in}}}\left. {(x(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{2}}))} \right|{{{\mathbf{s}}}_{5}}} \right\} + {{E}_{{{{{\mathbf{s}}}_{3}}}}}\left\{ {V{{s}_{{in}}}\left. {(x(\left. {{{{\mathbf{s}}}_{2}}} \right|{{{\mathbf{s}}}_{3}}))} \right|{{{\mathbf{s}}}_{5}}} \right\} + \\ + \,\,{{E}_{{{{{\mathbf{s}}}_{4}}}}}\left\{ {V{{s}_{{in}}}\left. {(x(\left. {{{{\mathbf{s}}}_{3}}} \right|{{{\mathbf{s}}}_{4}}))} \right|{{{\mathbf{s}}}_{5}}} \right\}. \\ \end{gathered} $
Здесь видно, что каждому уровню иерархии i соответствует вклад в общую дисперсию, равный ${{E}_{{{{{\mathbf{s}}}_{{i + 1}}}}}}\{ V{{s}_{{in}}}(x({{{\mathbf{s}}}_{i}}{\text{|}}{{{\mathbf{s}}}_{{i + 1}}}))\} .$

Напомним об условности термина межгрупповая дисперсия. Так, например, межгрупповая дисперсия V(x(sm –1|sm) является внутригрупповой для всей метапопуляции sm. Поэтому можно сформулировать доказанный результат следующим образом. Дисперсия распределения во всей подразделенной метапопуляции sm концентрации рассматриваемого аллеля по несгруппированным и неподразделенным субпопуляциям {s1} уровня единицы наблюдения, разлагается в сумму средних внутригрупповых дисперсий ${{E}_{{{{{\mathbf{s}}}_{{i + 1}}}}}}\{ {{V}_{{in}}}(x({{s}_{i}})){\text{|}}{{{\mathbf{s}}}_{{i + 1}}}\} ,$ соответствующих отдельным уровням иерархии.

Ремарка 6. Доказанный результат остается верным, если заменить m – 1 на любой другой уровень иерархии i (1 < i < m – 1).

Следствие 7. Если в иерархически подразделенной метапопуляции sm с m уровнями иерархии в качестве единицы наблюдения выбраны субпопуляции уровня 1 < n < m – 1, то

1) из полной (общей) дисперсии Vstot(x(s1|sm)) распределения концентрации фамилии (10) по неподразделенным субпопуляциям уровня единицы наблюдения {s1} выпадают неотрицательные вклады в дивергенцию субпопуляций, соответствующие уровням ниже n (внутригрупповые дисперсии ${{E}_{{{{{\mathbf{s}}}_{{i + 1}}}}}}\{ V{{s}_{{in}}}(x({{{\mathbf{s}}}_{i}}{\text{|}}{{{\mathbf{s}}}_{{i + 1}}})){\text{|}}{{{\mathbf{s}}}_{m}}\} $), суммарно равные $\sum\nolimits_{i = 1}^{n - 1} {{{E}_{{{{s}_{{i + 1}}}}}}} \{ V{{s}_{{in}}}(x({{s}_{i}}{\text{|}}{{s}_{{i + 1}}}))\} .$ В итоге роль общей дисперсии при единице наблюдения {sn} играет

$\begin{gathered} V{{s}_{{tot}}}(x(\left. {{{{\mathbf{s}}}_{n}}} \right|{{{\mathbf{s}}}_{m}})) = V{{s}_{{betw}}}(x(\left. {{{{\mathbf{s}}}_{{m - 1}}}} \right|{{{\mathbf{s}}}_{m}})) + \\ + \,\,\sum\limits_{i = n}^{m - 2} {{{E}_{{{{{\mathbf{s}}}_{{i + 1}}}}}}\left. {\left\{ {V{{s}_{{in}}}\left. {(x(\left. {{{{\mathbf{s}}}_{i}}} \right|{{{\mathbf{s}}}_{{i + 1}}}))} \right|{{{\mathbf{s}}}_{m}}} \right\}} \right)} \,. \\ \end{gathered} $
При увеличении уровня иерархии у единицы измерения от n до n + 1 < i полная дисперсия уменьшается на ${{E}_{{{{{\mathbf{s}}}_{{n + 1}}}}}}\{ V{{s}_{{in}}}(x({{{\mathbf{s}}}_{n}}{\text{|}}{{{\mathbf{s}}}_{{n + 1}}})){\text{|}}{{{\mathbf{s}}}_{m}}\} ;$

2) полная дисперсия Vstot(x(sn|sm)), межгрупповая Vs(x(si|si+ 1)) и внутригрупповая ${{E}_{{{{{\mathbf{s}}}_{i}}}}}\{ V{{s}_{{in}}}(x({{{\mathbf{s}}}_{1}}{\text{|}}{{{\mathbf{s}}}_{i}})){\text{|}}{{{\mathbf{s}}}_{m}}\} $ дисперсии концентрации рассматриваемой фамилии, соответствующие уровню i < m, связаны соотношением

$\begin{gathered} Vs(x(\left. {{{{\mathbf{s}}}_{i}}} \right|{{{\mathbf{s}}}_{{i + 1}}})) = V{{s}_{{tot}}}(x(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{m}})) - \\ - \,\,{{E}_{{{{{\mathbf{s}}}_{i}}}}}\left\{ {V{{s}_{{in}}}\left. {(x(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{i}}))} \right|{{{\mathbf{s}}}_{m}}} \right\}, \\ \end{gathered} $
откуда по значениям любых двух дисперсий можно найти величину третьей;

3) при случайном формировании субпопуляций следующего уровня i + 1 из групп на предыдущем i межгрупповая дисперсия не возрастает (уменьшается):

$Vs(x(\left. {{{{\mathbf{s}}}_{{i - 1}}}} \right|{{{\mathbf{s}}}_{i}})) \geqslant Vs(x(\left. {{{{\mathbf{s}}}_{i}}} \right|{{{\mathbf{s}}}_{{i + 1}}})).$

Доказательство опирается на полученные ранее результаты.

1. Обоснование п. 1 совпадает с приведенным выше, просто уровнем единицы наблюдения будет не первый, а n-й. Изменение полной дисперсии при увеличении уровня иерархии у единицы измерения следует из формулы (10) разложения Vstot.

2. Напомним, что множество субпопуляций на каждом отдельном уровне i дает всю иерархически подразделенную метапопуляцию sm, и каждая из этих субпопуляций состоит из единиц наблюдения {s1}. Полная дисперсия согласно (9) представима при n = 1, k = i как

$Vs(x(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{m}})) = Vs(x(\left. {{{{\mathbf{s}}}_{i}}} \right|{{{\mathbf{s}}}_{m}})) + {{E}_{{{{{\mathbf{s}}}_{i}}}}}\left\{ {V{{s}_{{in}}}(x(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{i}}))} \right\},$
т.е. равна сумме межгрупповой и средней внутригрупповой дисперсий. Отсюда по величине любых двух дисперсий можно найти значение третьей.

При заданной полной дисперсии увеличение (уменьшение) межгрупповой Vs(x(si|sm)) или внутригрупповой ${{E}_{{{{{\mathbf{s}}}_{i}}}}}\{ V{{s}_{{in}}}(x({{{\mathbf{s}}}_{1}}{\text{|}}{{{\mathbf{s}}}_{i}})){\text{|}}{{{\mathbf{s}}}_{m}}\} $ дисперсий концентрации рассматриваемой фамилии, соответствующие уровню i < m, связаны соотношением

$\begin{gathered} Vs(x(\left. {{{{\mathbf{s}}}_{i}}} \right|{{{\mathbf{s}}}_{m}})) = V{{s}_{{tot}}}(x(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{m}})) - \\ - \,\,{{E}_{{{{{\mathbf{s}}}_{i}}}}}\left\{ {V{{s}_{{in}}}\left. {(x(\left. {{{{\mathbf{s}}}_{1}}} \right|{{{\mathbf{s}}}_{i}}))} \right|{{{\mathbf{s}}}_{m}}} \right\}, \\ \end{gathered} $
где Vstot(x(s1|sm)) – полная дисперсия распределения концентрации фамилии по неподразделенным субпопуляциям уровня единицы наблюдения {s1}. Поэтому увеличение одной из них связано с уменьшением в той же степени величины другой.

3. При переходе к более высокому уровню иерархии межгрупповая дисперсия не возрастает (уменьшается) при случайном формировании групп. Чтобы избежать доказательства с громоздкими выкладками при гипергеометрическом распределении в выборках без возвращения, просто укажем на интуитивное ожидание данного свойства. Оно опирается на очевидное уменьшение размаха изменчивости при усреднении в группе, что приводит к устранению крайних вариантов. ◄

Правило сложения дисперсий верно не только для совокупности субпопуляций, но и для совокупности s произвольных объектов (единиц наблюдения) при ее разбиении на любые непересекающиеся группы {sji}. Пусть каждый объект характеризуется значением x некоторого числового признака. В частности, объектом может быть индивидуум, а признаком его вес, разные группы, скажем, состоят из индивидуумов с разными типами питания. Напомним, что когда единицей наблюдения является индивидуум, а вместо индивидуальных данных используются села, характеризуемые средним весом жителей, то изучение изменчивости веса детализируется до дисперсии среднего веса, а индивидуальная изменчивость остается как бы “за кадром”. Чем мельче единица наблюдения и ее уровень иерархии, тем полнее охват изменчивости. При фамильных исследованиях выбор в качестве единицы наблюдения административного района означает уменьшение общей фамильной дивергенции на дивергенцию на уровнях сел и сельсоветов.

ОБСУЖДЕНИЕ

Для (мета)популяций человека типична иерархическая подразделенность на части (субпопуляции), соответствующие классификации на базе административно-территориального деления, скажем, село, сельсовет, район, область и т.д.; на основе генеалогического подхода, базирующегося на этногенезе; или на использовании других принципов биологической классификации. Каждый уровень иерархии представляет собой разбиение метапопуляции на непересекающиеся субпопуляции, суммарно составляющие всю ее и обладающие, в свою очередь, иерархической структурой подразделенности. Данной структуре как таковой присущи специфические свойства изменчивости количественных признаков ее частей, независимые от природы иерархической системы (например, эти свойства будут и у системы из неживых объектов) и от факторов ее формирования (скажем, от миграций).

Здесь важно исследование роли единицы наблюдения на дивергенцию количественных признаков частей произвольной иерархической системы не обязательно биологической природы. Сама единица допускается любой, лишь бы была на одном из уровней иерархии рассматриваемой системы. В частности, системой может быть метапопуляция из субпопуляций село, сельсовет и так далее, а полученные результаты приложимы к такому признаку, как концентрация фамилии в популяциях человека, когда предметом изучения служит распределение концентрации фамилии по субпопуляциям системы.

Особый интерес представляет собой дисперсия распределения концентрации фамилии внутри и между субпопуляциями как характеристика фамильной дивергенции в метапопуляции. При иерархической подразделенности на каждом уровне иерархии будут в общем случае свои среднее значение и дисперсия концентрации, которая отражает фамильную дивергенцию субпопуляций на соответствующем уровне. Изучение фамильной дивергенции важно, так как при соответствующих предположениях она отражает генетическую дивергенцию и генетическую структуру метапопуляции.

Проведенное исследование показывает, что каждому отдельному уровню иерархии соответствует неотрицательный вклад в полную (общую) дисперсию концентрации в системе, равный среднему значению внутригрупповой дисперсии распределения концентрации фамилии по его субпопуляциям. Получено разложение общей дисперсии концентрации фамилии в метапопуляции по вкладам отдельных уровней, обобщающее правило сложения дисперсий. Отсюда находится величина занижения общей дисперсии, когда вместо неподразделенных субпопуляций первого уровня иерархии (допустим, сел) в качестве единиц наблюдения служат субпопуляции более высокого уровня (скажем, районов). Это позволяет судить о степени занижения оценки генетической дивергенции в метапопуляции в результате игнорирования фамильной изменчивости на низких уровнях иерархии.

Приложение найденных результатов к реальным данным наталкивается на определенные трудности. Опишем одну из них и соответствующее направление дальнейших исследований. Например, рассмотрим проблемы, связанные с нарушением иерархической структуры. Так, город не является объединением непересекающихся сельских субпопуляций, скажем, уровня сел или сельсоветов, т.е. использование объединенных данных по городам и сельским субпопуляциям нарушает иерархический характер подразделенности метапопуляции. Однако при отдельном изучении фамильной структуры городов (сел) наблюдается их иерархическая группировка согласно административным образованиям. В настоящее время городское население России составляет порядка 74.56%, а сельское только 25.44%. Требуются дополнительные исследования в отношении способов объединения получаемых таким образом фамильных данных с учетом разного вклада указанных компонентов. Соответственно необходим обоснованный метод использования получаемых в итоге результатов для выводов относительно генетической структуры метапопуляции.

Настоящая статья не содержит каких-либо исследований с использованием в качестве объекта животных.

Настоящая статья не содержит каких-либо исследований с участием в качестве объекта людей.

Список литературы

  1. Пасеков В.П. К анализу случайных процессов изонимии. I. Структура изонимии // Генетика. 2021. Т. 57. № 10. С. 1194–1204. https://doi.org/10.31857/S001667582110009X

  2. Пасеков В.П. К анализу случайных процессов изонимии. II. Динамика дивергенции популяций // Генетика. 2021. Т 57. № 11. С. 1318–1329. https://doi.org/10.31857/S0016675821110114

  3. Crow J.F., Mange A.P. Measurement of inbreeding from the frequency of marriages between persons of the same surname // Social Biology. 1982. V. 29. № 1/2. P. 101–105.

  4. Lasker W.G. Surnames and Genetic Structure. Cambridge: Cambr. Univ. Press, 1985. 2005. 148 p.

  5. Ревазов А.А., Парадеева Г.М., Русакова Г.И. Пригодность русских фамилий в качестве квазигенетического маркера // Генетика. 1986. Т. 22. № 4. С. 699–703.

  6. Гинтер Е.К., Зинченко P.A., Ельчинова Г.И. и др. Роль факторов популяционной динамики в распространении наследственной патологии в российских популяциях // Мед. генетика. 2004. Т. 3. № 12. С. 548–555.

  7. Балановская Е.В., Сорокина И.Н., Чурносов М.И. Описание “генетического ландшафта” районных популяций Центральной России // Вестник новых медицинских технологий. 2007. Т. 10. № 1.

  8. Сорокина И.Н., Чурносов М.И., Балтуцкая И.В. и др. Антропогенетическое изучение населения Центральной России. М.: Изд-во РАМН, 2014. 336 с.

  9. Сорокина И.Н., Рудых Н.А., Крикун Е.Н., Сокорев С.Н. Применение фамилий в популяционно-генетических исследованиях (на примере зарубежных популяций) // Науч. ведомости БелГУ. Сер. Медицина. Фармация. 2016. № 19(240). Вып. 35. С. 5–10.

  10. Rogers A.R. Doubts about isonymy // Human Biology. 1991. V. 63. № 5. P. 663–668.

  11. Свирежев Ю.М., Пасеков В.П. Основы математической генетики. М.: Наука, 1982. 511 с.

  12. Гланц С. Медико-биологическая статистика. М.: Практика, 1998. 459 с.

Дополнительные материалы отсутствуют.