Доклады Российской академии наук. Математика, информатика, процессы управления, 2020, T. 493, № 1, стр. 104-107

АСИМПТОТИЧЕСКАЯ ЭФФЕКТИВНОСТЬ ОЦЕНОК МАКСИМАЛЬНОЙ ЭНТРОПИИ

Академик РАН Ю. С. Попков 12*

1 Федеральный исследовательский центр “Информатика и управление” Российской академии наук
Москва, Россия

2 Институт проблем управления им. В.А. Трапезникова Российской академии наук
Москва, Россия

* E-mail: popkov.yuri@gmail.com

Поступила в редакцию 06.04.2020
После доработки 11.05.2020
Принята к публикации 23.05.2020

Полный текст (PDF)

Аннотация

Сформулирована задача энтропийного оценивания функций плотности распределения вероятностей с учетом реальных данных (MEE). Получены глобальные условия существования неявной зависимости множителей Лагранжа от коллекции данных. Доказана асимптотическая эффективность MEE.

Ключевые слова: энтропийное оценивание, функции плотности, множители Лагранжа, вращение векторного поля, асимптотическая эффективность

Оценивание характеристик моделей с использаванием данных является важной научной проблемой. В прикладных задачах, в которых она возникала, использовались модели с неизвестными параметрами, значения которых требовалось оценивать [14].

Решение этих задач осуществляется традиционными методами математической статистики – методом максимального правдоподобия и его производными, методом моментов, байесовыми методами и многочисленными их модификациями [57].

Задача оценивания характеристик моделей по реальным данным получила свое новое развитие в связи с появлением новых методов машинного обучения – рандомизированного машинного обучения (РМО) [8]. Они основаны на моделях со случайными параметрами, и оценивать необходимо функции плотности распределения вероятностей (ПРВ) этих параметров. Алгоритм оценивания (алгоритм РМО) формулируется в терминах функционального энтропийно-линейного программирования [9].

Появившись как задача оценивания функций ПРВ в процедурах РМО, она приобрела более общий контекст: метод максимизации энтропийных функционалов для построения оценок непрерывных функций с использованием реальных данных (Maximum Entropy Estimation – MEE).

Настоящее сообщение посвящено постановке общей MEE-задачи, исследованию ее решений и асимптотических свойств.

ПОСТАНОВКА MEE-ЗАДАЧИ

Рассмотрим скалярную непрерывную ограниченную функцию $\varphi \left( {x,\theta } \right) = \hat {y}$, которая характеризует модель с входом x и выходом y. Здесь x, $\hat {y}$ – скалярные переменные и $\theta \in {\Theta } \subset {{R}^{n}}$ – параметры. В результате r измерений имеем x(r) = $\{ x[1], \ldots ,x[r]\} $ и ${{{\mathbf{y}}}^{{\left( r \right)}}} = \left\{ {y\left[ 1 \right], \ldots ,y\left[ r \right]} \right\}$. Последние содержат случайные ошибки, различные для моментов измерений:

${{\xi }^{{\left( r \right)}}} = \left\{ {\xi \left[ 1 \right], \ldots ,\xi \left[ r \right]} \right\}.$

Таким образом, после r измерений получаем следующие уравнения модели и наблюдений:

(1)
$\begin{gathered} {{{\mathbf{y}}}^{{(r)}}} = {\Gamma }({{{\mathbf{x}}}^{{(r)}}},\theta ), \\ {\Gamma }({{{\mathbf{x}}}^{{(r)}}},\theta ) = \left\{ {\varphi \left( {x[1],\theta } \right), \ldots ,\varphi \left( {x[r],\theta } \right)} \right\} \\ \end{gathered} $
${{{\mathbf{v}}}^{{\left( r \right)}}} = {{{\mathbf{\hat {y}}}}^{{\left( r \right)}}} + {{\xi }^{{\left( r \right)}}}.$

Предположения:

1) множество ${\Theta } = [{{\theta }^{ - }},{{\theta }^{ + }}]$;

2) функция ПРВ P(θ) – непрерывно-дифференцируема на носителе Θ;

3) значения функции φ ограничены:

(2)
${{\varphi }^{ - }} \leqslant \varphi (x[t],\theta ) \leqslant {{\varphi }^{ + }},\quad t = 1,2,...,r,$
для всех $\theta \in {\Theta }$ и $x\left[ t \right] \in {{R}^{1}}$;

4) cлучайный шум ${{\xi }^{{\left( r \right)}}} \in {\Xi } \subset {{R}^{r}}$ и множество

(3)
${\Xi } = \mathop {\mathop \otimes \limits_{t = 1} }\limits^r {{{\Xi }}_{t}},\quad {{{\Xi }}_{t}} = [{{\xi }^{ - }}[t],{{\xi }^{ + }}[t]];$

5) функция ПРВ Q(ξ) – непрерывно-дифференцируема на носителе Ξ и имеет мультипликативную структуру:

(4)
$Q\left( \xi \right) = \mathop \prod \limits_{t = 1}^r {{Q}_{t}}\left( {\xi \left[ t \right]} \right).$

Задача оценивания формулируется следующим образом: MEE функций ПРВ $P{\text{*}}\left( {\theta } \right),Q{\text{*}}\left( \xi \right)$ максимизируют функционал обобщенной информационной энтропии

(5)
$\begin{gathered} \mathcal{H}\left[ {P\left( \theta \right),Q\left( \xi \right)} \right] = - \mathop \smallint \limits_{\Theta }^{} P\left( \theta \right){\text{ln}}P\left( \theta \right)d\theta - \\ - \,\mathop \sum \limits_{t = 1}^r \mathop \smallint \limits_{{{{\Xi }}_{t}}} {{Q}_{t}}\left( {\xi \left[ t \right]} \right){\text{ln}}{{Q}_{t}}\left( {\xi \left[ t \right]} \right) \Rightarrow {\text{max}} \\ \end{gathered} $
при ограничениях:

1) нормировка функций ПРВ:

(6)
$\mathop \smallint \limits_{\Theta } P\left( \theta \right)d\theta = 1;\quad \mathop \smallint \limits_{{{{\Xi }}_{t}}} {{Q}_{t}}(\xi [t])d\xi [t] = 1,\quad t = 1,2,...,r;$

2) эмпирические балансы

${\Phi }\left[ {P\left( \theta \right),Q\left( \xi \right)} \right] = {{{\mathbf{y}}}^{{\left( r \right)}}},$
$\begin{gathered} {\Phi }\left[ {P\left( \theta \right),Q\left( \xi \right)} \right] = \\ = \left\{ {{{{\Phi }}_{1}}\left[ {P\left( \theta \right),Q\left( \xi \right)} \right], \ldots ,{{{\Phi }}_{r}}\left[ {P\left( \theta \right),Q\left( \xi \right)} \right]} \right\}, \\ \end{gathered} $
(7)
$\begin{gathered} {{{\Phi }}_{t}}\left[ {P\left( \theta \right),Q\left( \xi \right)} \right] = \\ = \mathop \smallint \limits_{\Theta } \varphi \left( {x\left[ t \right],\theta } \right)P\left( \theta \right)d\theta + \mathop \smallint \limits_{{{{\Xi }}_{t}}} {{Q}_{t}}\left( {\xi \left[ t \right]} \right)\xi \left[ t \right]d\xi \left[ t \right], \\ t = 1,2,....,r. \\ \end{gathered} $

Задача (5)–(7) относится к классу ляпуновских [10], которые характеризуются тем, что функционал и ограничения интегрального типа.

ЭНТРОПИЙНО-ОПТИМАЛЬНЫЕ ОЦЕНКИ ФУНКЦИЙ ПЛОТНОСТИ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

Условия оптимальности в задачах оптимизации ляпуновского типа формулируются в терминах множителей Лагранжа. При этом используются производные Гато [10] входящих в задачу функционалов. Применяя указанную технику, получим энтропийно-оптимальные оценки функций ПРВ:

$P{\text{*(}}\theta {\text{|}}{{{\mathbf{y}}}^{{\left( r \right)}}},{\text{\;}}{{{\mathbf{x}}}^{{\left( r \right)}}}) = \frac{{{\text{exp}}\left( { - \sum\limits_{j = 1}^r {{{\lambda }_{j}}({{{\mathbf{y}}}^{{\left( r \right)}}},{{{\mathbf{x}}}^{{\left( r \right)}}})\varphi \left( {x\left[ j \right],\theta } \right)} } \right)}}{{\mathcal{P}(\lambda ({{{\mathbf{y}}}^{{\left( r \right)}}},{{{\mathbf{x}}}^{{\left( r \right)}}})}},$
(8)
$\begin{gathered} Q_{t}^{{\text{*}}}{\text{(}}\xi \left[ t \right]{\text{|}}{{{\mathbf{y}}}^{{\left( r \right)}}},{{{\mathbf{x}}}^{{\left( r \right)}}}) = \frac{{{\text{exp}}( - {{\lambda }_{t}}({{{\mathbf{y}}}^{{\left( r \right)}}},{{{\mathbf{x}}}^{{\left( r \right)}}})\xi \left[ t \right])}}{{{{\mathcal{Q}}_{t}}({{\lambda }_{t}}({{{\mathbf{y}}}^{{\left( r \right)}}},{{{\mathbf{x}}}^{{\left( r \right)}}})}}, \\ t = 1,2,...,r. \\ \end{gathered} $

В этих равенствах

$\begin{gathered} \mathcal{P}(\lambda ({{{\mathbf{y}}}^{{\left( r \right)}}},{{{\mathbf{x}}}^{{\left( r \right)}}}) = \\ = \mathop \smallint \limits_{\Theta } \exp \left( { - \mathop \sum \limits_{j = 1}^r {{\lambda }_{j}}({{{\mathbf{y}}}^{{\left( r \right)}}},{{{\mathbf{x}}}^{{\left( r \right)}}})\varphi \left( {x\left[ j \right],\theta } \right)} \right)d\theta , \\ \end{gathered} $
(9)
$\begin{gathered} {{\mathcal{Q}}_{t}}({{\lambda }_{t}}({{{\mathbf{y}}}^{{\left( r \right)}}},{{{\mathbf{x}}}^{{\left( r \right)}}}) = \mathop \smallint \limits_{{{{\Xi }}_{t}}} {\text{exp}}\,( - {{\lambda }_{t}}({{{\mathbf{y}}}^{{\left( r \right)}}},{{{\mathbf{x}}}^{{\left( r \right)}}})\xi \left[ t \right])d\xi \left[ t \right], \\ t = 1,2,...,r. \\ \end{gathered} $

Из равенств (8), (9) видно, что энтропийно-оптимальные ПРВ параметризованы множителями Лагранжа ${{\lambda }_{1}}, \ldots ,{{\lambda }_{r}}$, которые определяются решением уравнений эмпирических балансов:

(10)
$\begin{gathered} \frac{{\mathcal{G}(\lambda ({{{\mathbf{y}}}^{{\left( r \right)}}},{{{\mathbf{x}}}^{{\left( r \right)}}}))}}{{\mathcal{P}(\lambda ({{{\mathbf{y}}}^{{\left( r \right)}}},{{{\mathbf{x}}}^{{\left( r \right)}}}))}} + \frac{{{{\mathcal{E}}_{t}}({{\lambda }_{t}}({{{\mathbf{y}}}^{{\left( r \right)}}},{{{\mathbf{x}}}^{{\left( r \right)}}}))}}{{{{\mathcal{Q}}_{t}}({{\lambda }_{t}}({{{\mathbf{y}}}^{{\left( r \right)}}},{{{\mathbf{x}}}^{{\left( r \right)}}}))}} = y\left[ t \right], \\ t = 1,2,...,r, \\ \end{gathered} $
где

$\begin{gathered} \mathcal{G}(\lambda ({{{\mathbf{y}}}^{{\left( r \right)}}},{{{\mathbf{x}}}^{{\left( r \right)}}})) = \mathop \smallint \limits_{\Theta } \varphi \left( {x\left[ t \right],\theta } \right) \times \\ \times \,{\text{exp}}\left( { - \mathop \sum \limits_{j = 1}^r {{\lambda }_{j}}({{{\mathbf{y}}}^{{\left( r \right)}}},{{{\mathbf{x}}}^{{\left( r \right)}}})\varphi \left( {x\left[ j \right],\theta } \right)} \right)d\theta , \\ \end{gathered} $
(11)
$\begin{gathered} {{\mathcal{E}}_{t}}({{\lambda }_{t}}({{{\mathbf{y}}}^{{\left( r \right)}}},{{{\mathbf{x}}}^{{\left( r \right)}}})) = \\ = \mathop \smallint \limits_{{{{\Xi }}_{t}}} {\text{exp}}\,( - {{\lambda }_{t}}({{{\mathbf{y}}}^{{\left( r \right)}}},{{{\mathbf{x}}}^{{\left( r \right)}}})\xi \left[ t \right])d\xi \left[ t \right], \\ t = 1,2,...,r. \\ \end{gathered} $

Решение этих уравнений – функция $\lambda {\text{*}}({{{\mathbf{y}}}^{{\left( r \right)}}},{{{\mathbf{x}}}^{{\left( r \right)}}})$, она зависит от выборки $({{{\mathbf{y}}}^{{\left( r \right)}}},{{{\mathbf{x}}}^{{\left( r \right)}}})$, по которой строятся MEE функций ПРВ.

СУЩЕСТВОВАНИЕ НЕЯВНОЙ ФУНКЦИИ ${\mathbf{\lambda }}({{{\mathbf{\tilde {y}}}}^{{{\text{(}}r{\text{)}}}}},{{{\mathbf{x}}}^{{{\text{(}}r{\text{)}}}}})$

Преобразуем уравнения эмпирических балансов к виду

(12)
${\mathbf{W}}(\lambda {\text{\;}}|{\text{\;}}{{{\mathbf{\tilde {y}}}}^{{\left( r \right)}}},{{{\mathbf{x}}}^{{\left( r \right)}}}) = {\mathbf{0}},$
где компоненты
(13)
$\begin{gathered} {{W}_{t}}(\lambda {\text{\;}}|{\text{\;}}\tilde {y}\left[ t \right],{{{\mathbf{x}}}^{{(r)}}}) = \mathop \smallint \limits_{\Theta } (\varphi (x[t],\theta ) - \tilde {y}[t]) \times \\ \times \,{\text{exp}}\left( { - \mathop \sum \limits_{j = 1}^r {{\lambda }_{j}}({{{\mathbf{y}}}^{{(r)}}},{{{\mathbf{x}}}^{{(r)}}})\varphi ({{x}^{{(r)}}},\theta )} \right)d\theta = 0, \\ t = 1,2,...,r, \\ \end{gathered} $
и

(14)
$\tilde {y}\left[ t \right] = y\left[ t \right] - \bar {\xi }\left[ t \right],\quad y = 1,2,...,r.$

Обозначим якобиан системы (12)

(15)
${{J}_{\lambda }}(\lambda {\text{\;}}|{{{\mathbf{\tilde {y}}}}^{{\left( r \right)}}},{{{\mathbf{x}}}^{{\left( r \right)}}}) = \left[ {\frac{{\partial {{W}_{t}}}}{{\partial {{\lambda }_{i}}}},{\text{\;}}\left( {t,i} \right) = 1,2,...,r.} \right]$

Теорема 1. Пусть:

a) функция $\varphi ({{{\mathbf{x}}}^{{\left( r \right)}}},\theta )$ непрерывна по совокупности переменных;

б) для любых $({{{\mathbf{x}}}^{{\left( r \right)}}},{{{\mathbf{\tilde {y}}}}^{{\left( r \right)}}}) \in {{R}^{r}} \times {{R}^{r}}$ выполняются следующие условия:

(16)
${\text{det}}{{J}_{\lambda }}(\lambda {\text{\;}}|{{{\mathbf{\tilde {y}}}}^{{\left( r \right)}}},{{{\mathbf{x}}}^{{\left( r \right)}}})) \ne 0,$
(17)
$\mathop {{\text{lim}}}\limits_{\parallel \lambda \parallel \to \infty } {\mathbf{W}}(\lambda {\text{\;}}|{{{\mathbf{\tilde {y}}}}^{{\left( r \right)}}},{{{\mathbf{x}}}^{{\left( r \right)}}}) = \pm \infty .$

Тогда существует единственная неявная функция $\lambda ({{{\mathbf{\tilde {y}}}}^{{\left( r \right)}}},{{{\mathbf{x}}}^{{\left( r \right)}}})$, определенная на ${{R}^{r}} \times {{R}^{r}}$.

Теорема 2. Пусть выполнены условия теоремы 1. Тогда функция $\lambda ({{{\mathbf{\tilde {y}}}}^{{\left( r \right)}}},{{{\mathbf{x}}}^{{\left( r \right)}}})$ – аналитическая по совокупности переменных.

АСИМПТОТИЧЕСКАЯ ЭФФЕКТИВНОСТЬ MEE

MEE функций ПРВ представим через экспоненциальные множителями Лагранжа z = exp(–λ). Тогда равенства (8) примут следующий вид:

$\begin{gathered} P{\text{*}}(\theta ,{\mathbf{z}}({{{\mathbf{y}}}^{{\left( r \right)}}},{{{\mathbf{x}}}^{{\left( r \right)}}})) = \\ = \frac{{\prod\limits_{j = 1}^r {{{{[{{z}_{j}}({{{\mathbf{y}}}^{{(r)}}},{{{\mathbf{x}}}^{r}})]}}^{{\varphi (x[j],\theta )}}}} }}{{\int\limits_\Theta ^{} {\prod\limits_{j = 1}^r {{{{[{{z}_{j}}({{{\mathbf{y}}}^{{(r)}}},{{{\mathbf{x}}}^{r}})]}}^{{\varphi (x[j],\theta )}}}} d\theta } }}, \\ \end{gathered} $
(18)
$\begin{gathered} Q_{t}^{{\text{*}}}(\xi \left[ t \right],{{z}_{t}}({{{\mathbf{y}}}^{{(r)}}},{{{\mathbf{x}}}^{{(r)}}})) = \frac{{{{{[{{z}_{t}}({{{\mathbf{y}}}^{{(r)}}},{{{\mathbf{x}}}^{{(r)}}})]}}^{{\xi [t]}}}}}{{\int\limits_{{{{\Xi }}_{t}}}^{} {{{{[{{z}_{t}}({{{\mathbf{y}}}^{{(r)}}},{{{\mathbf{x}}}^{{(r)}}})]}}^{{\xi [t]}}}d\xi [t]} }}, \\ t = 1,2,...,r. \\ \end{gathered} $

Определение 1. Будем называть оценки $P{\text{*}}\left( {\theta ,{\mathbf{z}}{\text{*}}} \right)$ и $Q_{t}^{*}((\xi \left[ t \right],~z_{t}^{*})$ асимптотически эффективными, если

$\mathop {{\text{lim}}}\limits_{r \to \infty } P{\text{*}}(\theta ,{\mathbf{z}}({{{\mathbf{y}}}^{{\left( r \right)}}},{{{\mathbf{x}}}^{{\left( r \right)}}})) = P{\text{*}}\left( {\theta ,{\mathbf{z}}{\text{*}}} \right),$
(19)
$\begin{gathered} \mathop {{\text{lim}}}\limits_{r \to \infty } Q_{t}^{{\text{*}}}(\xi \left[ t \right],{{z}_{t}}({{{\mathbf{y}}}^{{\left( r \right)}}},{{{\mathbf{x}}}^{{\left( r \right)}}})) = Q_{t}^{{\text{*}}}(\xi \left[ t \right],z_{t}^{{\text{*}}}), \\ t = 1,2,...,r, \\ \end{gathered} $
где

(20)
${\mathbf{z}}{\text{*}} = \mathop {{\text{lim}}}\limits_{r \to \infty } {\mathbf{z}}({{{\mathbf{y}}}^{{\left( r \right)}}},{{{\mathbf{x}}}^{{\left( r \right)}}}).$

Рассмотрим уравнения эмпирических балансов (12), перейдя в них к экспоненциальным множителям Лагранжа:

$\begin{gathered} {{{\Phi }}_{t}}({\mathbf{z}},{{{{\mathbf{\tilde {y}}}}}^{{\left( r \right)}}},{{{\mathbf{x}}}^{r}})) = \mathop \smallint \limits_{\Theta } \mathop \prod \limits_{j = 1}^r {{[{{z}_{j}}({{{{\mathbf{\tilde {y}}}}}^{{\left( r \right)}}},{{{\mathbf{x}}}^{r}})]}^{{\varphi \left( {x\left[ j \right],\theta } \right)}}} \times \\ \times \,\left( {\varphi \left( {x\left[ t \right],\theta } \right) - \tilde {y}\left[ t \right]} \right)d\theta = 0,{\text{\;\;}} \\ \end{gathered} $
(21)
$t = 1,2,...,r.$

Теорема 3. Пусть выполнены условия теорем 1 и 2. Тогда существует константа α > 1, такая, что

(22)
$0 \leqslant \left\| {\frac{{\partial {\mathbf{z}}}}{{\partial {{{{\mathbf{\tilde {y}}}}}^{{\left( r \right)}}}}}} \right\| \leqslant \alpha {{\left[ {r~\mathop {{\text{max}}}\limits_{t,i} |\frac{{\partial {{{\Phi }}_{t}}}}{{\partial {{z}_{i}}}}} \right]}^{{ - 1}}}\left\| {\frac{{\partial {\Phi }}}{{\partial {{{{\mathbf{\tilde {y}}}}}^{{\left( r \right)}}}}}} \right\|,$
$0 \leqslant \left\| {\frac{{\partial {\mathbf{z}}}}{{\partial {{{\mathbf{x}}}^{{\left( r \right)}}}}}} \right\| \leqslant \alpha {{\left[ {r~\mathop {{\text{max}}}\limits_{t,i} |\frac{{\partial {{{\Phi }}_{t}}}}{{\partial {{z}_{i}}}}} \right]}^{{ - 1}}}\left\| {\frac{{\partial {\Phi }}}{{\partial {{{\mathbf{x}}}^{{\left( r \right)}}}}}} \right\|.$

Лемма 1. Пусть

(23)
$\left\| {\frac{{\partial {\Phi }}}{{\partial {{{\mathbf{y}}}^{{\left( r \right)}}}}}} \right\| \leqslant \rho < \infty ,\quad \left\| {\frac{{\partial {\Phi }}}{{\partial {{{\mathbf{x}}}^{{\left( r \right)}}}}}} \right\| \leqslant \omega < \infty .$
Тогда
(24)
$\mathop {{\text{lim}}}\limits_{r \to \infty } \left\| {\frac{{\partial z}}{{\partial {{{\mathbf{y}}}^{{\left( r \right)}}}}}} \right\| = \mathop {{\text{lim}}}\limits_{r \to \infty } \left\| {\frac{{\partial z}}{{\partial {{{\mathbf{x}}}^{{\left( r \right)}}}}}} \right\| = 0,$
и MEE функций ПРВ (19) асимптотически эффективна.

Список литературы

  1. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Исследование зависимостей. М.: Финансы и статистика, 1985.

  2. Goldberger A.S. A Course in Econometrics. Harvard University Press, 1991. 437 p.

  3. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. Springer, 2001.

  4. Воронцов К.В. Математические методы обучения по прецендентам. Курс лекций МФТИ, 2006.

  5. Боровков А.А. Математическая статистика. М.: Наука, 1984.

  6. Лагутин М.Б. Наглядная математическая статистика. М.: БИНОМ, Лаборатория знаний, 2013.

  7. Rousses G. A Course of the Mathematical Statistics. Academic Press Inc. 2015. 600 p.

  8. Popkov Yu.S., Dubnov Yu.A., Popkov A.Yu. Randomized Machine Learning: Statement, Solution, Applications // 2016 IEEE 8th International Conference on Intelligent Systems (IS). 2016. https://doi.org/10.1109/IS.2016.7737456.

  9. Popkov A.Yu., Popkov Yu.S. New Methods of Entropy-Robust Estimation for Randomized Models under Limited Data // Entropy. 2014. №16. P. 675–698. https://doi.org/10.3390/e16020675

  10. Иоффе А.Д., Тихомиров В.М. Теория экстремальных задач. М.: Наука, 1974. 481 с.

Дополнительные материалы отсутствуют.

Инструменты

Доклады Российской академии наук. Математика, информатика, процессы управления