Журнал вычислительной математики и математической физики, 2021, T. 61, № 7, стр. 1149-1161

Анализ выбора априорного распределения для смеси экспертов

А. В. Грабовой 1*, В. В. Стрижов 12**

1 Московский физико-технический институт
141701 М.о., Долгопрудный, Институтский пер., 9, Россия

2 ВЦ РАН им. А.А. Дородницына ФИЦ ИУ РАН
119333 Москва, ул. Вавилова, 40, Россия

* E-mail: grabovoy.av@phystech.edu
** E-mail: strijov@phystech.edu

Поступила в редакцию 26.11.2020
После доработки 26.11.2020
Принята к публикации 11.03.2021

Полный текст (PDF)

Аннотация

Исследуются свойства смеси экспертов. Смесь экспертов – это ансамбль локальных аппроксимирующих моделей, которые являются экспертами и шлюзовой функцией, которая взвешивает данные экспертов. В качестве экспертов рассматриваются линейные модели, а в качестве шлюзовой функции – нейронная сеть с функцией ${\text{softmax}}$ на последнем слое. Анализируются разные априорные распределения для каждого эксперта. Предложен метод, который учитывает связь между априорными распределениями разных экспертов. Для поиска оптимальных параметров локальных моделей и шлюзовой функции используется ЕМ-алгоритм. Рассматривается задача распознавания окружностей на изображении. Каждый эксперт аппроксимирует одну окружность на изображении: находит координаты центра окружности и радиус окружности. Для анализа предложенного метода проводится вычислительный эксперимент на синтетических и реальных данных. В качестве реальных данных используются изображения радужки глаза, которые применяются в задачах распознавания радужки глаза. Библ. 23. Фиг. 13. Табл. 1.

Ключевые слова: смесь экспертов, байесовский выбор модели, априорное распределение.

1. ВВЕДЕНИЕ

В работе исследуется проблема построения смеси экспертов. Смесь экспертов – это мультимодель, которая состоит из множества локальных моделей, называемых экспертами и шлюзовой функцией. Смесь экспертов использует шлюзовую функцию для взвешивания прогнозов каждого эксперта. Весовые коэффициенты шлюзовой функции зависят от объекта, для которого проводится прогноз. Примерами мультимоделей являются бэггинг, градиентный бустинг (см. [1]) и случайный лес (см. [2]). В [3] предполагается, что вклад каждого эксперта в ответ зависит от объекта из набора данных.

Основной проблемой построения мультимоделей является то, что ансамбль зависит от начальной инициализации параметров. Для улучшения устойчивости мультимодели предлагается использовать вероятностную постановку задачи для поиска оптимальных параметров шлюзовой функции и параметров локальной модели. В данной работе задается априорное распределение на параметры локальных моделей, а также предлагается учесть зависимость априорных распределений для разных моделей.

В настоящей работе решается задача поиска окружностей на бинаризованном изображении. Предполагается, что радиусы окружностей различаются значимо, а также, что центры почти совпадают. Пример изображений показан на фиг. 1. В качестве экспертов рассматриваются линейные модели – каждая модель аппроксимирует одну окружность. В качестве шлюзовой функции рассматривается двухслойная нейронная сеть.

Фиг. 1.

Пример окружностей с разным уровнем шума: (a) – окружности без шума, (б) – окружности с зашумленным радиусом, (в) – окружности с зашумленным радиусом, а также с равномерным шумом по всему изображению.

Большое количество работ в области построения смеси экспертов посвящены выбору шлюзовой функции: используется softmax, процесс Дирихле (см. [4]), нейронная сеть (см. [5]) с функцией softmax на последнем слое. Ряд работ посвящен выбору моделей в качестве отдельных экспертов. В качестве модели эксперта в [6], [7] рассматривается линейная модель, в [8], [9] – модель SVM. В [3] представлен обзор методов и моделей в задачах смеси экспертов.

Смесь экспертов имеет множество приложений в прикладных задачах. Работы [10]–[12] посвящены применению смеси экспертов в задачах прогнозирования временных рядов. В [13] предложен метод распознавания рукописных цифр. Метод распознавания текстов с помощью смеси экспертов иследуется в [14], распознавание речи – в [15]–[17]. В [18] исследуется смесь экспертов для задачи распознавания трехмерных движений человека. В [19] описаны работы по исследованию обнаружения радужки глаза на изображении. В [20], [21], в частности, описаны методы выделения границ радужки и зрачка.

2. ПОСТАНОВКА ЗАДАЧИ АППРОКСИМАЦИИ ПАРАМЕТРОВ ОКРУЖНОСТИ

Задано бинарное изображение

${\mathbf{M}} \in {{{\text{\{ }}0,\;1{\text{\} }}}^{{{{m}_{1}} \times {{m}_{2}}}}},$
где $1$ – это черный пиксель, который принадлежит рассматриваемой фигуре на изображении, а $0$ – белый пиксель, который является фоном изображения. Пример изображения показан на фиг. 1. Изображение ${\mathbf{M}}$ отображается в множество координат ${\mathbf{C}} = \{ {{x}_{i}},{{y}_{i}}\} _{{i = 1}}^{N}$. Координата $({{x}_{i}},{{y}_{i}})$ является координатой $i$-го черного пикселя на изображении ${\mathbf{M}}$:
${\mathbf{C}} \in {{\mathbb{R}}^{{N \times 2}}},$
где $N$ – число черных пикселей.

Обозначим через $({{x}_{0}},{{y}_{0}})$ центр окружности, а $r$ – радиус окружности. Координаты $({{x}_{i}},{{y}_{i}}) \in {\mathbf{C}}$ – это геометрическое место точек, которое удовлетворяет системе уравнений

${{({{x}_{i}} - {{x}_{0}})}^{2}} + {{({{y}_{i}} - {{y}_{0}})}^{2}} = {{r}^{2}} + {{\varepsilon }_{i}},\quad i \in {\text{\{ }}1,\;2,\; \ldots ,\;N{\text{\} }},$
где ${{\varepsilon }_{i}} \in \mathcal{N}(0,{{\beta }^{{ - 1}}})$ – невязка $i$-го уравнения, которая является следствием шума на изображении. Раскрыв скобки, получим
(2.1)
$(2{{x}_{0}}) \cdot {{x}_{i}} + (2{{y}_{0}}) \cdot {{y}_{i}} + ({{r}^{2}} - x_{0}^{2} - y_{0}^{2}) \cdot 1 = x_{i}^{2} + y_{i}^{2} - {{\varepsilon }_{i}}.$
Выражение (2.1) переписывается в задачу линейной регрессии следующим образом:
(2.2)
${\mathbf{\hat {w}}} = arg\mathop {min}\limits_{{\mathbf{w}} \in {{{\mathbf{R}}}^{n}}} \left\| {{\mathbf{Xw}} - {\mathbf{y}}} \right\|_{2}^{2},\quad {\mathbf{X}} = \left[ {{\mathbf{C}},1} \right],\quad {\mathbf{y}} = {{[x_{1}^{2} + y_{1}^{2},\; \ldots ,\;x_{N}^{2} + y_{N}^{2}]}^{{\text{т}}}}.$
Используя вектор параметров ${\mathbf{w}} = {{[{{w}_{1}},{{w}_{2}},{{w}_{3}}]}^{{\text{т}}}}$, получаем параметры окружности ${{x}_{0}}$, ${{y}_{0}}$, $r$:
${{x}_{0}} = \frac{{{{w}_{1}}}}{2},\quad {{y}_{0}} = \frac{{{{w}_{2}}}}{2},\quad r = \sqrt {{{w}_{3}} + x_{0}^{2} + y_{0}^{2}} .$
Решая уравнения (2.2), находим параметры единственной окружности на изображении. В случае, когда на изображении несколько окружностей, предлагается использовать смесь экспертов, которая состоит из линейных моделей – экспертов. Каждый эксперт описывает одну окружность на изображении.

3. ПОСТАНОВКА ЗАДАЧИ ПОСТРОЕНИЯ СМЕСИ ЭКСПЕРТОВ

Обобщим подход аппроксимации одной окружности на изображении на случай, когда на изображении несколько окружностей. Пусть изображение состоит из $K$ окружностей, тогда множество черных пикселей ${\mathbf{C}}$ представляется в виде

${\mathbf{C}} = \coprod\limits_{k = 1}^K {{\mathbf{C}}_{k}^{'}} ,$
где ${\mathbf{C}}_{k}^{'}$ – множество точек, принадлежащих $k$-й окружности. Множеству точек ${\mathbf{C}}_{k}^{'} \subset {\mathbf{C}}$ соответсвует задача линейной регрессии для выборки ${\mathbf{X}}_{k}^{'} \subset {\mathbf{X}}$, ${\mathbf{y}}_{k}^{'} \subset {\mathbf{y}}$. Модель ${{{\mathbf{g}}}_{k}}$, аппроксимирующая $k$-ю подвыборку ${\mathbf{X}}_{k}^{'},\;{\mathbf{y}}_{k}^{'}$, является локальной моделью для выборки ${\mathbf{X}},\;{\mathbf{y}}$.

Определение 1. Модель ${\mathbf{g}}$ называется локальной моделью для выборки ${\mathbf{X}},\;{\mathbf{y}},$ если ${\mathbf{g}}$ аппроксимирует некоторое непустое подмножество ${\mathbf{X}}{\text{'}},\;{\mathbf{y}}{\text{'}}$ этой выборки.

Определение 2. Мультимодель ${\mathbf{f}}$ называется смесью экспертов, если

(3.1)
${\mathbf{f}} = \sum\limits_{k = 1}^K {{{\pi }_{k}}} {{{\mathbf{g}}}_{k}}({{{\mathbf{w}}}_{k}}),\quad {{\pi }_{k}}({\mathbf{x}},{\mathbf{V}}):{{\mathbb{R}}^{{n \times \left| {\mathbf{V}} \right|}}} \to [0,\;1],\quad \sum\limits_{k = 1}^K {{{\pi }_{k}}} ({\mathbf{x}},{\mathbf{V}}) = 1,$
где ${{{\mathbf{g}}}_{k}}$ является $k$-й локальной моделью, ${{\pi }_{k}}$ – шлюзовая функция, вектор ${{{\mathbf{w}}}_{k}}$ – параметр $k$-й локальной модели, а ${\mathbf{V}}$ – параметры шлюзовой функции.

В данной работе в качестве локальных моделей рассматриваются линейные модели. В качестве шлюзовой функции рассматривается двухслойный перцептрон:

(3.2)
${{{\mathbf{g}}}_{k}}({\mathbf{x}}) = {\mathbf{w}}_{k}^{{\text{т}}}{\mathbf{x}},\quad \pi ({\mathbf{x}},{\mathbf{V}}) = {\mathbf{softmax}}({\mathbf{V}}_{1}^{{\text{т}}}\sigma ({\mathbf{V}}_{2}^{{\text{т}}}{\mathbf{x}})),$
где ${\mathbf{V}} = {\text{\{ }}{{{\mathbf{V}}}_{1}},{{{\mathbf{V}}}_{2}}{\text{\} }}$ – множество параметров шлюзовой функции.

Предлагается использовать вероятностный подход для описания смеси экспертов. Вводится предположение, что ${\mathbf{y}}$ является случайным вектором, который задается плотностью распределения $p({\mathbf{y}}\,|\,{\mathbf{X}})$. Предполагается, что плотность распределения $p({\mathbf{y}}\,|\,{\mathbf{X}},{\mathbf{f}})$ аппроксимирует истинную плотность распределения $p({\mathbf{y}}\,|\,{\mathbf{X}})$:

(3.3)
$p({\mathbf{y}}\,|\,{\mathbf{X}},{\mathbf{f}}) = \prod\limits_{i = 1}^N {\left( {\sum\limits_{k = 1}^K {{{\pi }_{k}}} {{p}_{k}}({{y}_{i}}\,|\,{{{\mathbf{g}}}_{k}}({{{\mathbf{x}}}_{i}}))} \right)} ,$
где ${\mathbf{f}}$ – смесь экспертов, а ${{{\mathbf{g}}}_{k}},\pi $ определяются выражением (3.2).

Пусть ${{{\mathbf{w}}}_{k}}$ является случайным вектором, который задается плотностью распределения ${{p}^{k}}({{{\mathbf{w}}}_{k}})$. Получим совместное распределение параметров локальных моделей и вектора ответов:

(3.4)
$p({\mathbf{y}},{\mathbf{W}}\,|\,{\mathbf{X}},{\mathbf{V}}) = \prod\limits_{k = 1}^K {{{p}^{k}}} ({{{\mathbf{w}}}_{k}})\prod\limits_{i = 1}^N {\left( {\sum\limits_{k = 1}^K {{{\pi }_{k}}} {{p}_{k}}({{y}_{i}}\,|\,{{{\mathbf{w}}}_{k}},{{{\mathbf{x}}}_{i}})} \right)} ,$
где ${\mathbf{W}} = {\text{\{ }}{{{\mathbf{w}}}_{1}},\; \ldots ,\;{{{\mathbf{w}}}_{K}}{\text{\} }}$. Оптимальные параметры находятся с помощью максимизации правдоподобия:

${\mathbf{\hat {V}}},{\mathbf{\hat {W}}} = arg\mathop {max}\limits_{{\mathbf{V}},{\mathbf{W}}} p({\mathbf{y}},{\mathbf{W}}\,|\,{\mathbf{X}},{\mathbf{V}}).$

4. ВЕРОЯТНОСТНАЯ ПОСТАНОВКА СМЕСИ ЭКСПЕРТОВ

Для построения смеси экспертов (3.1), (3.4) введем следующие вероятностные предположения о данных (2.2):

(i) правдоподобие ${{p}_{k}}({{y}_{i}}\,|\,{{{\mathbf{w}}}_{k}},{{{\mathbf{x}}}_{i}}) = \mathcal{N}({{y}_{i}}\,|\,{\mathbf{w}}_{k}^{{\text{т}}}{{{\mathbf{x}}}_{i}},{{\beta }^{{ - 1}}}),$ где параметр $\beta $ является уровнем шума,

(ii) априорное распределение параметров ${{p}^{k}}({{{\mathbf{w}}}_{k}}) = \mathcal{N}({{{\mathbf{w}}}_{k}}\,|\,{\mathbf{w}}_{k}^{0},{{{\mathbf{A}}}_{k}}),$ где ${\mathbf{w}}_{k}^{0}$ – вектор размерности $n \times 1$, а ${{{\mathbf{A}}}_{k}}$ – ковариационная матрица размерности $n \times n$,

(iii) регуляризация априорного распределения $p({{\varepsilon }_{{k,k'}}}\,|\,\Xi ) = \mathcal{N}({{\varepsilon }_{{k,k'}}}\,|\,0,\Xi ),$ где $\Xi $ – ковариационная матрица, а ${{\varepsilon }_{{k,k'}}} = {\mathbf{w}}_{k}^{0} - {\mathbf{w}}_{{k'}}^{0}$.

Предположение (i) задает априорное предположение о распределениии вектора параметров локальной модели ${{{\mathbf{w}}}_{k}}$. Априорное распределение задает ограничения на локальную модель. Например, если ${\mathbf{w}}_{k}^{0} = [0,\;0,\;1]$, то $k$-я локальная модель аппроксимирует окружность с параметрами ${{x}_{0}} = 0$, ${{y}_{0}} = 0$, $r = 1$ с большей вероятностью.

Предположение (iii) задает регуляризацию априорных распределений. Она учитывает связь  между априорными ограничениями разных локальных моделей. Например, если ${\text{diag}}(\Xi ) = [0.001,\;0.001,\;1]$, то центры разных окружностей совпадают.

Используя предположения (i)–(iii) и выражение (3.4), получаем полное правдоподобие:

(4.1)
$p({\mathbf{y}},{\mathbf{W}}\,|\,{\mathbf{X}},{\mathbf{V}},{\mathbf{A}},{{{\mathbf{W}}}^{0}},\Xi ,\beta ) = \prod\limits_{i = 1}^N {\left( {\sum\limits_{k = 1}^K {{{\pi }_{k}}} N({{y}_{i}}\,|\,{\mathbf{w}}_{k}^{{\text{т}}}{{{\mathbf{x}}}_{i}},{{\beta }^{{ - 1}}})} \right)} \prod\limits_{k = 1}^K \mathcal{N} ({{{\mathbf{w}}}_{k}}\,|\,{\mathbf{w}}_{k}^{0},{{{\mathbf{A}}}_{k}})\prod\limits_{k,{{k}^{\prime }} = 1}^K \mathcal{N} ({{\varepsilon }_{{k,k'}}}\,|\,0,\Xi ),$
где ${\mathbf{A}} = \{ {{{\mathbf{A}}}_{1}},\; \cdots ,\;{{{\mathbf{A}}}_{K}}\} $.

Введем бинарную матрицу ${\mathbf{Z}}$. Элемент матрицы ${{z}_{{ik}}} = 1$ тогда и только тогда, когда $i$-й объект аппроксимируется $k$-й локальной моделью. Подставляя бинарную матрицу ${\mathbf{Z}}$ в выражении (4.1), а также взяв логарифм, получаем

(4.2)
$\begin{gathered} logp({\mathbf{y}},{\mathbf{Z}},{\mathbf{W}}\,|\,{\mathbf{X}},{\mathbf{V}},{\mathbf{A}},{{{\mathbf{W}}}^{0}},\Xi ,\beta ) = \sum\limits_{i = 1}^N {\sum\limits_{k = 1}^K {{{z}_{{ik}}}} } \left[ {log{{\pi }_{k}}({{{\mathbf{x}}}_{i}},{\mathbf{V}}) - \frac{\beta }{2}{{{({{y}_{i}} - {\mathbf{w}}_{k}^{{\text{т}}}{{{\mathbf{x}}}_{i}})}}^{2}} + \frac{1}{2}log\frac{\beta }{{2\pi }}} \right] + \\ + \;\sum\limits_{k = 1}^K {\left[ { - \frac{1}{2}{{{({{{\mathbf{w}}}_{k}} - {\mathbf{w}}_{k}^{0})}}^{{\text{т}}}}{\mathbf{A}}_{k}^{{ - 1}}({{{\mathbf{w}}}_{k}} - {\mathbf{w}}_{k}^{0}) + \frac{1}{2}\log \det {\mathbf{A}}_{k}^{{ - 1}} - \frac{n}{2}\log 2\pi } \right]} + \\ + \;\sum\limits_{k = 1}^K {\sum\limits_{k' = 1}^K {\left[ { - \frac{1}{2}{{{({\mathbf{w}}_{k}^{0} - {\mathbf{w}}_{{k'}}^{0})}}^{{\text{т}}}}{{\Xi }^{{ - 1}}}({\mathbf{w}}_{k}^{0} - {\mathbf{w}}_{{k'}}^{0}) + \frac{1}{2}\log \det \Xi - \frac{n}{2}\log 2\pi } \right]} } {\kern 1pt} . \\ \end{gathered} $
Получаем новую задачу оптимизации обоснованности. Функция обоснованности получается при интегрировании выражения (4.2) по параметрам ${\mathbf{W}}$, ${\mathbf{Z}}$:

(4.3)
${\mathbf{V}},{{{\mathbf{W}}}^{0}},{\mathbf{A}},\beta = arg\mathop {max}\limits_{{\mathbf{V}},{{{\mathbf{W}}}^{0}},{\mathbf{A}},\beta } \int\limits_{{\mathbf{W}},{\mathbf{Z}}} {logp({\mathbf{y}},{\mathbf{Z}},{\mathbf{W}}\,|\,{\mathbf{X}},{\mathbf{V}},{\mathbf{A}},{{{\mathbf{W}}}^{0}},\Xi ,\beta )dWd{\mathbf{Z}}} .$

5. EM-АЛГОРИТМ ДЛЯ РЕШЕНИЯ ЗАДАЧИ ОПИМИЗАЦИИ

Рассмотрим вариационную плотность $q({\mathbf{W}},{\mathbf{Z}})$ для параметров ${\mathbf{W}}$, ${\mathbf{Z}}$. Тогда функция обоснованности принимает следующий вид:

$\begin{gathered} logp({\mathbf{y}}\,|\,{\mathbf{X}},{\mathbf{V}},{\mathbf{A}},{{{\mathbf{W}}}^{0}},\Xi ,\beta ) = \int\limits_{{\mathbf{W}},{\mathbf{Z}}} q ({\mathbf{W}},{\mathbf{Z}})logp({\mathbf{y}}\,|\,{\mathbf{X}},{\mathbf{V}},{\mathbf{A}},{{{\mathbf{W}}}^{0}},\Xi ,\beta )d{\mathbf{W}}d{\mathbf{Z}} = \\ = \;\int\limits_{{\mathbf{W}},{\mathbf{Z}}} q ({\mathbf{W}},{\mathbf{Z}})log\frac{{p({\mathbf{y}},{\mathbf{W}},{\mathbf{Z}}\,|\,{\mathbf{X}},{\mathbf{V}},{\mathbf{A}},{{{\mathbf{W}}}^{0}},\Xi ,\beta )}}{{p({\mathbf{W}},{\mathbf{Z}}\,|\,{\mathbf{y}},{\mathbf{X}},{\text{V}},{\mathbf{A}},{{{\mathbf{W}}}^{0}},\Xi ,\beta )}}d{\mathbf{W}}d{\mathbf{Z}} = \\ \end{gathered} $
(5.1)
$\begin{gathered} = \;\int\limits_{{\mathbf{W}},{\mathbf{Z}}} q ({\mathbf{W}},{\mathbf{Z}})log\frac{{p({\mathbf{y}},{\mathbf{W}},{\mathbf{Z}}\,|\,{\mathbf{X}},{\mathbf{V}},{\mathbf{A}},{{{\mathbf{W}}}^{0}},\Xi ,\beta )q({\mathbf{W}},{\mathbf{Z}})}}{{p({\mathbf{W}},{\text{Z}}\,|\,{\mathbf{y}},{\mathbf{X}},{\mathbf{V}},{\mathbf{A}},{{{\mathbf{W}}}^{0}},\Xi ,\beta )q({\mathbf{W}},{\mathbf{Z}})}}d{\mathbf{W}}d{\mathbf{Z}} = \\ = \;\int\limits_{{\mathbf{W}},{\mathbf{Z}}} q ({\mathbf{W}},{\mathbf{Z}})\frac{{p({\mathbf{y}},{\mathbf{W}},{\mathbf{Z}}\,|\,{\mathbf{X}},{\mathbf{V}},{\mathbf{A}},{{{\mathbf{W}}}^{0}},\Xi ,\beta )}}{{q({\mathbf{W}},{\mathbf{Z}})}}d{\mathbf{W}}d{\mathbf{Z}} + \\ \end{gathered} $
$\begin{gathered} + \;\int\limits_{{\mathbf{W}},{\mathbf{Z}}} q ({\mathbf{W}},{\mathbf{Z}})\frac{{q({\mathbf{W}},{\mathbf{Z}})}}{{p({\mathbf{W}},{\mathbf{Z}}\,|\,{\mathbf{y}},{\mathbf{X}},{\mathbf{V}},{\mathbf{A}},{{{\mathbf{W}}}^{0}},\Xi ,\beta )}}d{\mathbf{W}}d{\mathbf{Z}} = \\ = \;\mathcal{L}(q,{\mathbf{V}},{{{\mathbf{W}}}^{0}},{\mathbf{A}},\beta ) + {{D}_{{KL}}}(q({\mathbf{W}},{\mathbf{Z}})\,||\,p({\mathbf{W}},{\mathbf{Z}}\,|\,{\mathbf{y}},{\mathbf{X}},{\mathbf{V}},{\mathbf{A}},{{{\mathbf{W}}}^{0}},\Xi ,\beta )). \\ \end{gathered} $
Используя (5.1), получаем нижнюю оценку обоснованности:
$logp({\mathbf{y}}\,|\,{\mathbf{X}},{\mathbf{V}},{\mathbf{A}},{{{\mathbf{W}}}^{0}},\Xi ,\beta ) \geqslant \mathcal{L}(q,{\mathbf{V}},{{{\mathbf{W}}}^{0}},{\mathbf{A}},\beta ),$
где $\mathcal{L}(q,{\mathbf{V}},{{{\mathbf{W}}}^{0}},{\mathbf{A}},\beta )$ называется нижней оценкой обоснованности.

Используем EM-алгоритм (см. [22], [23]) для решения оптимизационной задачи (4.3). Заметим, что EM-алгоритм вместо оптимизации $logp({\mathbf{y}}\,|\,{\mathbf{X}},{\mathbf{V}},{\mathbf{A}},{{{\mathbf{W}}}^{0}},\Xi ,\beta )$ оптимизирует нижнюю оценку $\mathcal{L}(q,{\mathbf{V}},{{{\mathbf{W}}}^{0}},{\mathbf{A}},\beta )$.

E-шаг. E-шаг решает следующую оптимизационую задачу:

$\mathcal{L}(q,{\mathbf{V}},{{{\mathbf{W}}}^{0}},{\mathbf{A}},\beta ) \to \mathop {max}\limits_{q({\mathbf{W}},{\mathbf{Z}})} ,$
где параметры ${\mathbf{V}}$, ${{{\mathbf{W}}}^{0}}$, ${\mathbf{A}}$, $\beta $ являются зафиксированными.

Пусть совместное распределение $q({\mathbf{Z}},{\mathbf{W}})$ удовлетворяет условию независимости $q({\mathbf{Z}},{\mathbf{W}}) = q({\mathbf{Z}})q({\mathbf{W}})$ (см. [23]). Далее символом $ \propto $ обозначим то, что обе стороны выражения равны с точностью до аддитивной константы. Сначала найдем распределение $q({\mathbf{Z}})$:

(5.2)
$\begin{gathered} logq({\mathbf{Z}}) = {{{\rm E}}_{{q/{\mathbf{Z}}}}}logp({\mathbf{y}},{\mathbf{Z}},{\mathbf{W}}\,|\,{\mathbf{X}},{\mathbf{V}},{\mathbf{A}},{{{\mathbf{W}}}^{0}},\Xi ,\beta ) \propto \\ \propto \;\sum\limits_{i + 1}^N {\sum\limits_{k = 1}^K {{{z}_{{ik}}}} } \left[ {log{{\pi }_{k}}({{{\mathbf{x}}}_{i}},{\mathbf{V}}) - \frac{\beta }{2}(y_{i}^{2} - {\mathbf{x}}_{i}^{{\text{т}}}{\rm E}{{{\mathbf{w}}}_{k}} + {\mathbf{x}}_{i}^{{\text{т}}}{\rm E}{{{\mathbf{w}}}_{k}}{\mathbf{w}}_{k}^{{\text{т}}}{{{\mathbf{x}}}_{i}}) + \frac{1}{2}log\frac{\beta }{{2\pi }}} \right], \\ p({{z}_{{ik}}} = 1) = \frac{{exp\left[ {log{{\pi }_{k}}({{{\mathbf{x}}}_{i}},{\mathbf{V}}) - \tfrac{\beta }{2}({\mathbf{x}}_{i}^{{\text{т}}}{\rm E}{{{\mathbf{w}}}_{k}}{\mathbf{w}}_{k}^{{\text{т}}}{{{\mathbf{x}}}_{i}} - {\mathbf{x}}_{i}^{{\text{т}}}{\rm E}{{{\mathbf{w}}}_{k}})} \right]}}{{\sum\limits_{k' = 1}^K {exp} \left[ {log{{\pi }_{{k'}}}({{{\mathbf{x}}}_{i}},{\mathbf{V}}) - \tfrac{\beta }{2}({\mathbf{x}}_{i}^{{\text{т}}}{\rm E}{{{\mathbf{w}}}_{{k'}}}{\mathbf{w}}_{{k'}}^{{\text{т}}}{{{\mathbf{x}}}_{i}} - {\mathbf{x}}_{i}^{{\text{т}}}E{{{\mathbf{w}}}_{{k'}}})} \right]}}. \\ \end{gathered} $
Используя выражения (5.2), получаем, что распределение $q({{z}_{{ik}}})$ является бернулевским распределением с параметром ${{z}_{{ik}}},$ которое задается выражением (5.2). Далее найдем распределение $q({\mathbf{W}})$:
(5.3)
$\begin{gathered} logq({\mathbf{W}}) = {{{\rm E}}_{{q/{\mathbf{W}}}}}logp({\mathbf{y}},{\mathbf{Z}},{\mathbf{W}}\,|\,{\mathbf{X}},{\mathbf{V}},{\mathbf{A}},{{{\mathbf{W}}}^{0}},\Xi ,\beta ) \propto \\ \propto \;\sum\limits_{i = 1}^N {\sum\limits_{k = 1}^K {{\rm E}{{z}_{{ik}}}\left[ {log{{\pi }_{k}}({{{\mathbf{x}}}_{{i,{\mathbf{V}}}}}) - \frac{\beta }{2}{{{({{y}_{i}} - {\mathbf{w}}_{k}^{{\text{т}}}{{{\mathbf{x}}}_{i}})}}^{2}} + \frac{1}{2}\log \frac{\beta }{{2\pi }}} \right]} } + \\ + \;\sum\limits_{k = 1}^K {\left[ { - \frac{1}{2}{{{({{{\mathbf{w}}}_{k}} - {\mathbf{w}}_{k}^{0})}}^{{\text{т}}}}{\mathbf{A}}_{k}^{{ - 1}}({{{\mathbf{w}}}_{k}} - {\mathbf{w}}_{k}^{0}) + \frac{1}{2}\log \det {\mathbf{A}}_{k}^{{ - 1}} - \frac{n}{2}log2\pi } \right]} \propto \\ \propto \;\sum\limits_{k = 1}^K {\left[ {{\mathbf{w}}_{k}^{{\text{т}}}\left( {{\mathbf{A}}_{k}^{{ - 1}}{\mathbf{w}}_{k}^{0} + \beta \sum\limits_{i = 1}^N {{{{\mathbf{x}}}_{i}}} {{y}_{i}}{\rm E}{{z}_{{ik}}}} \right) - \frac{1}{2}{\mathbf{w}}_{k}^{{\text{т}}}\left( {{\mathbf{A}}_{k}^{{ - 1}} + \beta \sum\limits_{i = 1}^N {{{{\mathbf{x}}}_{i}}} {\mathbf{x}}_{i}^{{\text{т}}}} \right){{{\mathbf{w}}}_{k}}} \right]} {\kern 1pt} . \\ \end{gathered} $
Используя выражение (5.3), получаем, что распределение $q({{{\mathbf{w}}}_{k}})$ является нормальным распределением со средним ${{{\mathbf{m}}}_{k}}$ и ковариационной матрицей ${{{\mathbf{B}}}_{k}}$:

${{{\mathbf{m}}}_{k}} = {{{\mathbf{B}}}_{k}}\left( {{\mathbf{A}}_{k}^{{ - 1}}{\mathbf{w}}_{k}^{0} + \beta \sum\limits_{i = 1}^N {{{{\mathbf{x}}}_{i}}} {{y}_{i}}{\rm E}{{z}_{{ik}}}} \right),\quad {{{\mathbf{B}}}_{k}} = \mathop {\left( {{\mathbf{A}}_{k}^{{ - 1}} + \beta \sum\limits_{i = 1}^N {{{{\mathbf{x}}}_{i}}} {\mathbf{x}}_{i}^{{\text{т}}}{\rm E}{{z}_{{ik}}}} \right)}\nolimits^{ - 1} .$

M-шаг. M-шаг решает следующую оптимизационную задачу:

$\mathcal{L}(q,{\mathbf{V}},{{{\mathbf{W}}}^{0}},{\mathbf{A}},\beta ) \to \mathop {max}\limits_{{\mathbf{V}},{{{\mathbf{W}}}^{0}},{\mathbf{A}},\beta } ,$
где $q({\mathbf{W}},{\mathbf{Z}})$ является известной плотностью распределения. Распределение $q({\mathbf{Z}},{\mathbf{W}})$ является фиксированным, в то время как вариацонная нижняя оценка $\mathcal{L}({\mathbf{V}},{{{\mathbf{W}}}^{0}},{\mathbf{A}},\beta )$ максимизируется по параметрам ${\mathbf{V}}$, ${{{\mathbf{W}}}^{0}}$, ${\mathbf{A}}$, $\beta $:
(5.4)
$\begin{gathered} \mathcal{L}({\mathbf{V}},{{{\mathbf{W}}}^{0}},{\mathbf{A}},\beta ) = {{{\rm E}}_{q}}logp({\mathbf{y}},{\mathbf{Z}},{\mathbf{W}}\,|\,{\mathbf{X}},{\mathbf{V}},{\mathbf{A}},{{{\mathbf{W}}}^{0}},\Xi ,\beta ) = \\ = \;\sum\limits_{i = 1}^N {\sum\limits_{k = 1}^K {{\rm E}{{z}_{{ik}}}\left[ {log{{\pi }_{k}}({{{\mathbf{x}}}_{i}},{\mathbf{V}}) - \frac{\beta }{2}{\rm E}{{{({{y}_{i}} - {\mathbf{w}}_{k}^{{\text{т}}}{{{\mathbf{x}}}_{i}})}}^{2}} + \frac{1}{2}log\frac{\beta }{{2\pi }}} \right]} } + \\ + \;\sum\limits_{k = 1}^K {\left[ { - \frac{1}{2}{\rm E}{{{({{{\mathbf{w}}}_{k}} - {\mathbf{w}}_{k}^{0})}}^{{\text{т}}}}{\mathbf{A}}_{k}^{{ - 1}}({{{\mathbf{w}}}_{k}} - {\mathbf{w}}_{k}^{0}) + \frac{1}{2}\log \det {\mathbf{A}}_{k}^{{ - 1}} - \frac{n}{2}log2\pi } \right]} + \\ + \;\sum\limits_{k = 1}^K {\sum\limits_{{{k}^{\prime }} = 1}^K {\left[ { - \frac{1}{2}{{{({\mathbf{w}}_{k}^{0} - {\mathbf{w}}_{{k'}}^{0})}}^{{\text{т}}}}{{\Xi }^{{ - 1}}}({\mathbf{w}}_{k}^{0} - {\mathbf{w}}_{{k'}}^{0}) + \frac{1}{2}\log \det \Xi - \frac{n}{2}log2\pi } \right]} } . \\ \end{gathered} $
Для нахождения оптимального параметра ${\mathbf{V}}$ используется градиентный метод оптимизации, который сходится к некоторому локальному экстремуму. Используя выражения (5.4), получаем оптимальное значениe параметра ${{{\mathbf{A}}}_{k}}$:
$\begin{gathered} \frac{{\partial{ \mathcal{L}}({\mathbf{V}},{{{\mathbf{W}}}^{0}},{\mathbf{A}},\beta )}}{{\partial {\mathbf{A}}_{k}^{{ - 1}}}} = \frac{1}{2}{{{\mathbf{A}}}_{k}} - \frac{1}{2}{\rm E}({{{\mathbf{w}}}_{k}} - {\mathbf{w}}_{k}^{0}){{({{{\mathbf{w}}}_{k}} - {\mathbf{w}}_{k}^{0})}^{{\text{т}}}} = 0, \\ {{{\mathbf{A}}}_{k}} = {\rm E}{{{\mathbf{w}}}_{k}}{\mathbf{w}}_{k}^{{\text{т}}} - {\mathbf{w}}_{k}^{0}{\rm E}{\mathbf{w}}_{k}^{{\text{т}}} - E{{{\mathbf{w}}}_{k}}{\mathbf{w}}_{k}^{{0{\text{т}}}} + {\mathbf{w}}_{k}^{0}{\mathbf{w}}_{k}^{{0{\text{т}}}}. \\ \end{gathered} $
Аналогично получаем оптимальные значения для параметра $\beta $ и для параметров ${\mathbf{w}}_{k}^{0}$:
$\frac{{\partial{ \mathcal{L}}({\mathbf{V}},{{{\mathbf{W}}}^{0}},{\mathbf{A}},\beta )}}{{\partial \beta }} = \sum\limits_{k = 1}^K {\sum\limits_{i = 1}^N {\left( {\frac{1}{\beta }{\rm E}{{z}_{{ik}}} - \frac{1}{2}{\rm E}{{z}_{{ik}}}[y_{i}^{2} - 2{{y}_{i}}{\mathbf{x}}_{i}^{{\text{т}}}{\rm E}{{{\mathbf{w}}}_{k}} + {\mathbf{x}}_{i}^{{\text{т}}}{{{\mathbf{w}}}_{k}}{\mathbf{w}}_{k}^{{\text{т}}}{{{\mathbf{x}}}_{i}}]} \right)} } = 0,$
(5.5)
$\begin{gathered} \frac{1}{\beta } = \frac{1}{N}\sum\limits_{i = 1}^N {\sum\limits_{k = 1}^K {[y_{i}^{2} - 2{{y}_{i}}{\mathbf{x}}_{i}^{{\text{т}}}{\rm E}{{{\mathbf{w}}}_{k}} + {\mathbf{x}}_{i}^{{\text{т}}}{\rm E}{{{\mathbf{w}}}_{k}}{\mathbf{w}}_{k}^{{\text{т}}}{{{\mathbf{x}}}_{i}}]{\rm E}{{z}_{{ik}}}} } , \\ \frac{{\partial{ \mathcal{L}}({\mathbf{V}},{{{\mathbf{W}}}^{0}},{\mathbf{A}},\beta )}}{{\partial {\mathbf{w}}_{k}^{0}}} = {\mathbf{A}}_{k}^{{ - 1}}({\rm E}{{{\mathbf{w}}}_{k}} - {\mathbf{w}}_{k}^{0}) + \Xi \sum\limits_{k' = 1}^K \,[{\mathbf{w}}_{{k'}}^{0} - {\mathbf{w}}_{k}^{0}] = 0, \\ \end{gathered} $
${\mathbf{w}}_{k}^{0} = {{[{\mathbf{A}}_{k}^{{ - 1}} + (K - 1)\Xi ]}^{{ - 1}}}\left( {{\mathbf{A}}_{k}^{{ - 1}}{\rm E}{{{\mathbf{w}}}_{k}} + \Xi \sum\limits_{k' = 1,k' \ne k}^K \,{\mathbf{w}}_{{k'}}^{0}} \right).$
Выражения (5.2)–(5.5) задают итеративную процедуру, которая сходится к некоторому локальному максимуму оптимизационной задачи (4.3).

6. ВЫЧИСЛИТЕЛЬНЫЙ ЭКСПЕРИМЕНТ

Для анализа качества различных мультимоделей для аппроксимации окружности проводится вычислительный эксперимент. В эксперименте рассматриваются следующие мультимодели: мультимодель ${{{\mathbf{f}}}_{1}}$ без использования априорных распределений, мультимодель ${{{\mathbf{f}}}_{2}},$ которая использует априорные распределения (6.2) для параметров, и мультимодель ${{{\mathbf{f}}}_{3}},$ которая использует регуляризацию априорных распределений. Точность аппроксимации мультимодели ${{{\mathbf{f}}}_{i}}$ задается следующим образом:

(6.1)
${{\mathcal{S}}_{{{{{\mathbf{f}}}_{i}}}}} = \sum\limits_{k = 1}^K {{{{(x_{0}^{k} - x_{{{\text{pr}}}}^{k})}}^{2}}} + {{(y_{0}^{k} - y_{{{\text{pr}}}}^{k})}^{2}} + {{({{r}^{k}} - r_{{{\text{pr}}}}^{k})}^{2}},$
где $x_{0}^{k}$, $y_{0}^{k}$, ${{r}^{k}}$ – истинный центр и радиус для $k$-й окружности соответственно, $x_{{{\text{pr}}}}^{k}$, $y_{{{\text{pr}}}}^{k}$, $r_{{{\text{pr}}}}^{k}$ – предсказанные центр и радиус для $k$-й окружности соответственно.

Для сравнения моделей с разными вероятностными предположениями используется правдоподобие (3.3). В вычислительном эксперименте используется следующее априорное распределение:

(6.2)
${{p}^{1}}({{{\mathbf{w}}}_{1}}) \sim \mathcal{N}({\mathbf{w}}_{1}^{0},{\mathbf{I}}),\quad {{p}^{2}}({{{\mathbf{w}}}_{2}}) \sim \mathcal{N}({\mathbf{w}}_{2}^{0},{\mathbf{I}}),$
где ${\mathbf{w}}_{1}^{0} = [0,\;0,\;0.1]$, ${\mathbf{w}}_{2}^{0} = [0,\;0,\;2]$.

Синтетические данные с разным типом шума в изображении. В вычислительном эксперименте сравнивается качество следующих мультимоделей ${{{\mathbf{f}}}_{1}}$, ${{{\mathbf{f}}}_{2}}$, ${{{\mathbf{f}}}_{3}}$ на синтетических данных. Синтетические данные являются двумя концентрическими окружностями с разным уровнем шума. Выборка Synthetic 1 является изображением без шума, выборка Synthetic 2 – изображением с зашумленным радиусом окружности, а выборка Synthetic 3 – изображением с равномерным шумом. На фиг. 2 показаны результаты для мельтимоделей ${{{\mathbf{f}}}_{1}}$, ${{{\mathbf{f}}}_{2}}$, ${{{\mathbf{f}}}_{3}}$. Все модели оптимизировались с помощью 50 итераций EM-алгоритма. Мультимодели ${{{\mathbf{f}}}_{2}}$, ${{{\mathbf{f}}}_{3}}$ аппроксимируют окружности лучше, чем мультимодель ${{{\mathbf{f}}}_{1}}$. В табл. 1 показано качество аппрроксимации (6.1) для всех мультимоделей.

Фиг. 2.

Мультимодель в зависимости от разных априорных предположений и в зависимости от разного уровня шума: (a)–(в) – модель с регуляризацией априорных распределений, (г)–(е) – модель с заданными априорными распределениями на параметрах локальных моделей, (ж)–(и) – модель без заданных априорных предположений.

Таблица 1.  

Качество аппроксимации (6.1) для всех мультимоделей

Выборка ${{\mathcal{S}}_{{{{{\mathbf{f}}}_{1}}}}}$ ${{\mathcal{S}}_{{{{{\mathbf{f}}}_{2}}}}}$ ${{\mathcal{S}}_{{{{{\mathbf{f}}}_{3}}}}}$
Synthetic 1 10–5 10–5 10–5
Synthetic 2 0.6 10–3 10–3
Synthetic 3 0.6 10–3 10–3

Анализ сходимости на синтетической выборке. Данная часть эксперимента анализирует качество сходимости ЕМ-алгоритма для разных мультимоделей ${{{\mathbf{f}}}_{1}}$, ${{{\mathbf{f}}}_{2}}$, ${{{\mathbf{f}}}_{3}}$. Анализ всех мультимоделей проводится на выборке Synthetic 3.

На фиг. 3 показана зависимость предсказанных центра и радуса в зависимости от номера итерации ЕМ-алгоритма. Мультимодель ${{{\mathbf{f}}}_{2}},$ которая использует априорное распределение, аппроксимирует окружность лучше мультимодели ${{{\mathbf{f}}}_{1}},$ которая не использует никакого априорного распределения. Мультимодель ${{{\mathbf{f}}}_{3}},$ которая использует регуляризатор априорных распределений, является более стабильной, чем мультимодель ${{{\mathbf{f}}}_{2}}$.

Фиг. 3.

Зависимости центра и радиуса окружностей от номера итерации: (a), (б) – модель с регуляризацией априорных распределений; (в), (г) – модель с заданными априорными распределениями на параметры моделей; (д), (е) – модель без задания априорных распределений.

На фиг. 4 показана зависимость логарифма правдоподобия (3.3) от номера итерации EM-алгоритма. Логарифм правдоподобия мультимоделей ${{{\mathbf{f}}}_{2}}$, ${{{\mathbf{f}}}_{3}}$${{{\mathbf{f}}}_{2}},{{{\mathbf{f}}}_{3}}$ растет быстрее, чем логарифм правдоподобия мультимодели ${{{\mathbf{f}}}_{1}}$. После $20$-й итерации все мультимодели имеют одинаковое правдоподобие.

Фиг. 4.

Зависимости логарифма правдоподобия (3.3) от номера итерации.

На фиг. 5–7 показан процесс сходимости для разных мультимоделей ${{{\mathbf{f}}}_{1}}$, ${{{\mathbf{f}}}_{2}}$, ${{{\mathbf{f}}}_{3}}$. На фиг. 7 показана мультимодель ${{{\mathbf{f}}}_{1}}$, которая аппроксимирует окружности не верно. На фиг. 5, 6 показаны мультимодели ${{{\mathbf{f}}}_{2}}$, ${{{\mathbf{f}}}_{3}}$, которые аппроксимируют окружности верно.

Фиг. 5.

Визуализации процесса сходимости мультимодели с использованием априорной регуляризации.

Фиг. 6.

Визуализации процесса сходимости мультимодели с использованием априорного распределения.

Фиг. 7.

Визуализации процесса сходимости мультимодели без использования априорного распределения.

Вычислительный эксперимент показывает, что мультимодели ${{{\mathbf{f}}}_{2}}$, ${{{\mathbf{f}}}_{3}}$ которые используют априорные распределения на параметры экспертов, аппроксимируют окружности лучше, чем мультимодель ${{{\mathbf{f}}}_{1}},$ которая работает без априорных распределений.

Анализ мультимоделей в зависимости от уровня шума. Данная часть эксперимента анализирует зависимость разных мультимоделей ${{{\mathbf{f}}}_{1}}$, ${{{\mathbf{f}}}_{2}}$, ${{{\mathbf{f}}}_{3}}$ от уровня шума. Анализ всех мультимоделей проводится на выборке Synthetic 1 с добавлением разного уровня шума. Минимальный уровень шума равен $0$, когда числo шумовых точек равно $0$. Максимальный уровень шума равен $1$, когда число шумовых точек равно числу точек на изображении. На фиг. 8 показаны график зависимости центра окружности и ее радиус в зависимости от уровня шума. Из графика следует, что радиус окружности увеличивается при увеличении уровня шума. Мультимодели ${{{\mathbf{f}}}_{2}}$, ${{{\mathbf{f}}}_{3}}$ аппроксимируют центр окружности верно, но мультимодель ${{{\mathbf{f}}}_{3}}$ более устойчива к шуму. На фиг. 9 показана зависимость логарифма правдоподобия (3.3) от уровня шума. Из графика следует, что логарифм правдоподобия (3.3) эквивалентный для всех мультимоделей, но на фиг. 8 видно, что качество аппроксимации (6.1) зависит от мультимодели. Данная часть вычислительного эксперимента показывает, что мультимодель ${{{\mathbf{f}}}_{3}}$ с регуляризацией априорного распределения является более устойчивой к шуму, чем остальные.

Фиг. 8.

Зависимости центра и радиуса окружностей от номера итерации: (a), (б) – модель с регуляризацией априорных распределений; (в), (г) – модель с заданными априорными распределениями на параметры моделей; (д), (е) – модель без задания априорных распределений.

Фиг. 9.

Зависимости логарифма правдоподобия (3.3) от уровня шума.

Реальные данные. Настоящая часть эксперимента анализирует разные мультимодели ${{{\mathbf{f}}}_{1}}$, ${{{\mathbf{f}}}_{2}}$, ${{{\mathbf{f}}}_{3}}$ на реальной выборке. На фиг. 10 показан результат работы разных мультимоделей. Мультимодель ${{{\mathbf{f}}}_{1}}$ не верно аппроксимирует меньшую окружность. Мультимодели ${{{\mathbf{f}}}_{2}}$, ${{{\mathbf{f}}}_{3}}$ аппроксимируют обе окружности верно.

Фиг. 10.

Мультимодель в зависимости от разных априорных предположений на реальном изображении: (a) – исходное изображение, (б) – бинаризованное изображение, (в) – мультимодель без априорных предположений, (г) – мультимодель с априорными распределениями на параметрах локальных моделей, (д) – мультимодель с регуляризацией на априорных распределениях параметров локальных моделей.

На фиг. 11–13 показан процесс аппроксимации для разных мультимоделей ${{{\mathbf{f}}}_{1}}$, ${{{\mathbf{f}}}_{2}}$, ${{{\mathbf{f}}}_{3}}$.

Фиг. 11.

Визуализации процесса сходимости мультимодели без использования априорного распределения.

Фиг. 12.

Визуализации процесса сходимости мультимодели с использованием априорного распределения.

Фиг. 13.

Визуализации процесса сходимости мультимодели с использованием априорной регуляризации.

Данная часть эксперимента показывает, что мультимодели ${{{\mathbf{f}}}_{2}}$, ${{{\mathbf{f}}}_{3}}$ аппроксимируют окружности на реальных изображениях лучше, чем мультимодель ${{{\mathbf{f}}}_{1}}$.

7. ЗАКЛЮЧЕНИЕ

В настоящей работе сравниваются мультимодели, которые используют различные априорные предположения. Для анализа проводился вычислительный эксперимент на концентрических окружностях с разным уровнем шума. Для аппроксимации окружности на изображении использовалась линейная модель. Для взвешивания ответов разных линейных моделей использовалась шлюзовая функция, которая является двухслойным перцептроном с функцией softmax на последнем слое. В вычислительном эксперименте сравниваются мультимодели, которые используют априорное распределение и которые его не используют. Мультимодели, которые используют априорные распределения, имеют большую точность аппроксимации, чем мультимодель, которая не использует априорные распределения.

Также был проведен эксперимент по исследованию различных способов регуляризации априорных распределений параметров локальных моделей. В эксперименте показано, что в случае, когда регуляризация задана, мультимодель находит окружности более устойчиво. В эксперименте было показано, что все мультимодели являются чувствительными к выбросам. Для решения данной задачи предлагается использовать еще одну локальную модель, которая будет аппроксимировать шум.

В дальнейшем планируется улучшить мультимодель с помощью задания априорного распределения на шлюзовую функцию. Планируется рассмотреть в качестве моделей не только модели, которые описывают данные, но и модель, которая аппроксимирует шум в данных. Предполагается, что число шумовых точек мало, поэтому требуется задать априорное распределение, которое учитывает данную информацию.

Список литературы

  1. Tianqi C., Carlos G. XGBoost: A Scalable Tree Boosting System // Proceed. 22nd ACM SIGKDD Internat. Conf. Knowledge Discovery and Data Mining. 2016.

  2. Xi C., Hemant I. Random Forests for Genomic Data Analysis // Genomics. 2012. Iss. 99. № 6. P. 323–329.

  3. Esen Y.S., Wilson J., Gader P.D. Twenty Years of Mixture of Experts // IEEE Transact. Neural Networks and Learn. Syst. 2012. Iss. 23. № 8. P. 1177–1193.

  4. Rasmussen C.E., Ghahramani Z. Infinite Mixtures of Gaussian Process Experts // Adv. Neural Informat. Proc. Syst. 14. 2002. P. 881–888.

  5. Shazeer N., Mirhoseini A., Maziarz K. Outrageously large neural networks: the sparsely-gated mixture-of-experts layer // Internat. Conf. Learn. Representat. 2017.

  6. Jordan M.I. Hierarchical mixtures of experts and the EM algorithm // Neural Comput. 1994. V. 6. № 2. P. 181–214.

  7. Jordan M.I., Jacobs R.A. Hierarchies of adaptive experts // Adv. Neural Informat. Proc. Syst. 1991. P. 985–992.

  8. Lima C., Coelho A., Zuben F.J. Hybridizing mixtures of experts with support vector machines: Investigation into nonlinear dynamic systems identification // Inf. Sci. 2007. V. 177. № 10. P. 2049–2074.

  9. Cao L. Support vector machines experts for time series forecasting // Neurocomputing. 2003. V. 51. P. 321–339.

  10. Yumlu M.S., Gurgen F.S., Okay N. Financial time series prediction using mixture of experts // Proc. 18th Int. Symp. Comput. Inf. Sci. 2003. P. 553–560.

  11. Cheung Y.M., Leung W.M., Xu L. Application of mixture of experts model to financial time series forecasting // Proc. Int. Conf. Neural Netw. Signal Process. 1995. P. 1–4.

  12. Weigend A.S., Shi S. Predicting daily probability distributions of S&P500 returns // J. Forecast. 2000. V. 19. № 4. P. 375–392.

  13. Ebrahimpour R., Moradian M.R., Esmkhani A., Jafarlou F.M. Recognition of Persian handwritten digits using characterization loci and mixture of experts // J. Digital Content Technol. Appl. 2009. V. 3. № 3. P. 42–46.

  14. Estabrooks A., Japkowicz N. A mixture-of-experts framework for text classification // Proc. Workshop Comput. Natural Lang. Learn., Assoc. Comput. Linguist. 2001. P. 1–8.

  15. Mossavat S., Amft O., Petkov Vries B., Kleijn W. A Bayesian hierarchical mixture of experts approach to estimate speech quality // Proc. 2nd Int. Workshop Qual. Multimedia Exper. 2010. P. 200–205.

  16. Peng F., Jacobs R.A., Tanner M.A. Bayesian inference in mixtures-of-experts and hierarchical mixtures-of-experts models with an application to speech recognition // J. Amer. Stat. Assoc. 1996. V. 91. № 435. P. 953–960.

  17. Tuerk A. The state based mixture of experts HMM with applications to the recognition of spontaneous speech. Ph.D. thesis. Cambridge: Univ. Cambridge, 2001.

  18. Sminchisescu C., Kanaujia A., Metaxas D. Discriminative density propagation for visual tracking // IEEE Trans. Pattern Anal. Mach. Intell. 2007. V. 29. № 11. P. 2030–2044.

  19. Bowyer K., Hollingsworth K., Flynn P. A Survey of Iris Biometrics Research: 2008–2010.

  20. Matveev I. Detection of iris in image by interrelated maxima of brightness gradient projections // Appl. Comput. Math. 2010. V. 9. № 2. P. 252–257.

  21. Matveev I., Simonenko I. Detecting precise iris boundaries by circular shortest path method // Pattern Recognit. and Image Anal. 2014. V. 24. P. 304–309.

  22. Dempster A.P., Laird N.M., Rubin D.B. Maximum Likelihood from Incomplete Data via the EM Algorithm // J. the Royal Statist. Soc. Ser. B (Methodological). 1977. V. 39. № 1 P. 1–38.

  23. Bishop C. Pattern Recognition and Machine Learning. Berlin: Springer, 2006. P. 758.

Дополнительные материалы отсутствуют.