Журнал вычислительной математики и математической физики, 2019, T. 59, № 5, стр. 822-828
Улучшение многомерных рандомизированных алгоритмов метода монте-карло с “расщеплением”
1 Институт вычислительной математики
и математической геофизики Сибирского отделения Российской академии наук СО РАН
630090 Новосибирск-90, пр-т акад. Лаврентьева, 6, Россия
2 Новосибирский государственный университет
630090 Новосибирск-90, ул. Пирогова, 1, Россия
* E-mail: gam@sscc.ru
Поступила в редакцию 19.11.2018
После доработки 11.01.2019
Принята к публикации 11.01.2019
Аннотация
Рандомизированные алгоритмы метода Монте-Карло строятся путем совместной реализации базовой вероятностной модели задачи и ее случайных параметров (случайной среды) с целью исследования параметрического распределения линейных функционалов. В настоящей работе используются статистическая ядерная оценка многомерной плотности распределения с “равномерным” ядром и метод расщепления, состоящий в том, что для каждой реализации среды моделируется некоторое число $n$ базовых траекторий. Строится оценка оптимального значения $n$ по критерию трудоемкости вычислений, сформулированному в настоящей работе. С помощью довольно сложных выкладок получены аналитические оценки соответствующей вычислительной эффективности. Библ. 17.
ВВЕДЕНИЕ
Численные методы Монте-Карло строятся на основе естественных или искусственно сформулированных вероятностных моделей, которые численно статистически реализуются с помощью известных алгоритмов (см., например, [1]–[3]). Они могут быть сравнительно эффективными, когда базовые модели содержат случайные параметры и для оценки искомых величин используется совместное статистическое моделирование базовых и параметрических распределений, то есть фактически реализуется произведение соответствующих вероятностных пространств (возможно, многократное). Соответствующие алгоритмы метода Монте-Карло в настоящей работе называются рандомизированными. Формулируемый таким образом метод ”двойной рандомизации” можно пояснить, рассматривая интеграл
со случайным, возможно функциональным, параметром $\sigma $. Здесь $P(dw;\sigma )$ – вероятностная мера в $W$ с параметром $\sigma $. Пусть необходимо оценить математическое ожидание $J = EJ(\sigma )$. Если определена достаточно точная оценка $J(\sigma ) \approx \hat {J}(\sigma )$, то численное построение выборки $\left\{ {{{\sigma }_{i}}} \right\}$ дает статистические оценки требуемых величин. Однако для реальных задач такой алгоритм может быть слишком трудоемким. При этом целесообразно использовать двойную рандомизацию, моделируя для выбранного $\sigma $ лишь сравнительно небольшое число $n$ точек $\omega $ соответственно распределению $P(dw;\sigma )$ с вычислением и осреднением полученных значений $g(\omega ;\sigma )$. Оптимальное по критерию трудоемкости вычислений значение $n$ здесь оценивается по формулам стохастического метода “расщепления” [4] (см. далее п. 1).В настоящей работе решается более сложная задача оптимизации рандомизированного алгоритма для случая, когда $J(\sigma ): = J(x,\sigma )$ и необходимо оценить функцию $f(x) = EJ(x,\sigma )$.
1. ЧИСЛЕННО-СТАТИСТИЧЕСКАЯ ФУНКЦИОНАЛЬНАЯ ОЦЕНКА, ЕЕ ТРУДОЕМКОСТЬ
1. Для построения функциональной оценки рассматриваются линейные функционалы вида
Здесь $x = ({{x}_{1}},\; \ldots ,\;{{x}_{m}}) \in {{R}^{m}}$; $\sigma $ – случайный, возможно функциональный, параметр задачи (“случайная среда”); $f(x;\sigma ) \in {{L}_{1}}({{R}^{m}})$ – решение задачи с параметром $\sigma $, определяемое компьютерно реализуемой вероятностной моделью, т.е. базовым ансамблем траекторий $\left\{ \Omega \right\}$ в фазовом пространстве ${{R}^{m}}$; ${{h}_{k}}(x;\sigma ) \in {{L}_{\infty }}({{R}^{m}})$.Методом Монте-Карло строятся несмещенные оценки ${{\xi }_{k}}(\Omega ;\sigma )$ функционалов ${{J}_{k}}(\sigma )$, то есть при фиксированном $\sigma $ имеем: ${{E}_{\Omega }}{{\xi }_{k}}(\Omega ;\sigma ) = {{J}_{k}}(\sigma )$. Для иллюстрации такой схемы можно рассматривать задачу переноса частиц – квантов излучения – с рассеянием и поглощением через среду со случайной плотностью $\sigma (r)$, $r \in {{R}^{3}}$ (см., например, [5], [6]); здесь $\left\{ \Omega \right\}$ – ансамбль траекторий квантов, который можно определить однородной цепью Маркова столкновений квантов с элементами вещества [7]. Отметим, что методом Монте-Карло при этом осуществляется осреднение функционалов от решения интегро-дифференциального уравнения переноса излучения через случайную среду. Формулировки рандомизированных алгоритмов далее будут связываться с такой задачей переноса частиц, хотя они применимы также для любых численно реализуемых ансамблей $\left\{ \Omega \right\}$ и параметров $\sigma $.
Метод двойной рандомизации определяется легко проверяемым соотношением (см. [8])
Здесь $\Omega $ – траектория кванта излучения, построенная для реализации среды с плотностью $\sigma $.Согласно правилу повторного осреднения (то есть фактически по теореме Фубини) соотношение (1) реализуется следующим образом: строится реализация случайной среды (то есть, вообще говоря, поля $\sigma $) и затем в этой фиксированной среде строится траектория $\Omega $, которая дает вклад в статистическую оценку величины (1).
Практически весьма важно, что при построении несмещенной оценки момента (1) для данной реализации $\sigma $ достаточно строить лишь одну элементарную оценку функционала. Отметим, что при попадании траектории $\Omega $ в подобласть среды с уже выбранными значениями $\sigma $ их нельзя выбирать заново, иначе возникает “ошибка перевыбора” [6]. Согласно теореме Фубини, правая часть соотношения (1) должна оставаться конечной после замены $\xi (\Omega ;\sigma )$ на $\left| {\xi (\Omega ;\sigma )} \right|$. При $\xi (\Omega ;\sigma ) \geqslant 0$ соотношение (1) выполняется в любом случае.
2. Трудоемкость алгоритма двойной рандомизации для оценки величины $EJ(\sigma ) = {{E}_{{(\Omega ;\sigma )}}}\xi (\Omega ;\sigma )$ можно уменьшить, используя серию условно-независимых траекторий ${{\left\{ {{{\Omega }_{k}}} \right\}}_{{k = 1, \ldots ,n}}}$, которые строятся для фиксированного $\sigma $, то есть используя оценку метода “расщепления” (см. [4])
При этом(2)
${{n}_{{{\text{opt}}}}} = \sqrt {\frac{{{{t}_{0}}}}{{{{t}_{1}}}}\frac{{{{d}_{1}}}}{{{{d}_{0}}}}} ,$(3)
${{S}_{{{{n}_{{{\text{opt}}}}}}}} = \mathop {(\sqrt {{{t}_{0}}{{d}_{0}}} + \sqrt {{{t}_{1}}{{d}_{1}}} )}\nolimits^2 \leqslant {{S}_{1}}.$В реальных задачах аналитические оценки коэффициентов в формуле (2) затруднительны, поэтому их целесообразно оценивать, как указано в [5], на основе предварительной статистический оценки величин $D{{\zeta }_{n}}$, ${{T}_{n}}$для двух значений $n = {{n}_{1}},{{n}_{2}}$ (по возможности близких к ${{n}_{{{\text{opt}}}}}$), то есть путем решения уравнений
(4)
${{d}_{0}} + \frac{{{{d}_{1}}}}{{{{n}_{i}}}} = \hat {D}{{\zeta }_{{{{n}_{i}}}}},\quad {{t}_{0}} + {{n}_{i}}{{t}_{1}} = {{\hat {T}}_{{{{n}_{i}}}}},\quad i = 1,2.$3. Рассмотрим теперь оценку плотности распределения $f(x)$ с помощью численного моделирования параметра $\sigma $ и соответствующих траекторий $\Omega $. Практически эффективной для этой цели может быть универсальная статистическая ядерная оценка Парзена–Розенблатта [10] с прямоугольным (“равномерным”) ядром (см. также [11]). Она строится на основе статистической оценки функционалов вида
где ${{I}_{\Delta }}(x)$ – индикатор гиперинтервала $\Delta = \left\{ {\left( {{{x}_{i}} - \tfrac{\delta }{2},{{x}_{i}} + \tfrac{\delta }{2}} \right)} \right\}$, $i = 1,\; \ldots ,\;m$. Предполагается, что постановка задачи допускает построение бернуллиевской оценки функционала ${{J}_{\Delta }}$ путем подсчета числа траекторий $\Omega $, невозвратно “посетивших” интервал $\Delta $. В задачах теории переноса частиц $f(x)$ – это, в частности, стохастическая плотность распределения числа частиц в точках их “гибели”, например, вследствие невозвратного вылета из среды. Имеет место статистическая оценка где ${{n}_{\Delta }}$ – число траекторий частиц, “посетивших” интервал $\Delta $ в выборке $\left\{ {({{\sigma }_{i}},{{\Omega }_{i}})} \right\}$ $(i = 1,\; \ldots ,\;N)$, так как $E{{n}_{\Delta }} = N{{J}_{\Delta }}$.Средний квадрат погрешности оценки $f(x) \approx {{n}_{\Delta }}{\text{/}}(N{{\delta }^{m}})$ равен (см., например, [11])
(5)
$\begin{gathered} {{\varepsilon }^{2}}(x;N,\delta ) = E\mathop {\left[ {f(x) - \frac{{{{n}_{\Delta }}}}{{N{{\delta }^{m}}}}} \right]}\nolimits^2 = D\left( {\frac{{{{n}_{\Delta }}}}{{N{{\delta }^{m}}}}} \right) + \mathop {\left( {f(x) - \frac{{{{J}_{\Delta }}}}{{{{\delta }^{m}}}}} \right)}\nolimits^2 \approx \frac{{f(x)}}{{N{{\delta }^{m}}}} + F(x){{\delta }^{4}}, \\ F(x) = {{\mathop {\left( {\sum\limits_{i = 1}^m \,{{f}_{i}}(x)} \right)}\nolimits^2 } \mathord{\left/ {\vphantom {{\mathop {\left( {\sum\limits_{i = 1}^m \,{{f}_{i}}(x)} \right)}\nolimits^2 } {576}}} \right. \kern-0em} {576}} \\ \end{gathered} $4. Пусть $\xi $ – несмещенная оценка величины $J$, соответствующая определенной численно-статистической процедуре, среднее число операций для которой равно $t$. В теории методов Монте-Карло трудоемкость $S$ такой оценки определяется величиной $tD\xi $ [1]–[4], так как для достижения среднеквадратической погрешности $\varepsilon $ необходимо $N = D\xi {\text{/}}{{\varepsilon }^{2}}$ реализаций указанной процедуры.
В настоящей работе аналогичным образом определяется трудоемкость статистической функциональной оценки следующим утверждением.
Лемма 1. Если средний квадрат погрешности статистической функциональной оценки равен $D{{N}^{{ - \alpha }}}$, где $N$ – объем выборки, а среднее число операций для вычисления выборочного значения оценки равно $t$, то трудоемкость $S$ оценки определяется выражением
Доказательство. По определению (см. [14]), трудоемкость вычислений – это среднее число $S$ вычислительных операций, необходимых для достижения заданной погрешности $\varepsilon $. В условиях леммы ${{\varepsilon }^{2}} = D{{N}^{{ - \alpha }}}$, откуда $N = {{D}^{{1/\alpha }}}{{\varepsilon }^{{ - 2/\alpha }}}$ и
Лемма 1 доказана.
Следующее утверждение определяет соответствующий критерий оптимальности статистической функциональной оценки.
Лемма 2. Если средний квадрат погрешности статистической функциональной оценки с параметром $\beta $ равен $D(\beta ){{N}^{{ - \alpha }}}$, а среднее число операций для вычисления выборочного значения оценки равно $t(\beta )$, где $N$ – объем выборки, то оптимальное (по критерию трудоемкости вычислений) значение $\beta $ равно
2. ОПТИМИЗАЦИЯ РАНДОМИЗИРОВАННОЙ ОЦЕНКИ С РАСЩЕПЛЕНИЕМ
В случае дополнительного осреднения методом двойной рандомизации в выражении (5) можно полагать $f(x) = Ef(x;\sigma )$. Целью настоящего раздела работы является минимизация трудоемкости оценки соответственно этому выражению рассмотренным в разд. 1 методом расщепления с параметром $n$. Здесь целесообразно осреднить соотношение (5) по $x$, то есть по аналогии с [15] рассматривать величину
Теорема 1. Минимальное значение величины
Доказательство. Поскольку предполагается независимость ${{t}_{0}}$, ${{t}_{1}}$ от $\delta $, то согласно (3) величина $\delta {\text{*}}$ после несложных выкладок получается из уравнения
Напомним, что в случае аналоговой бернуллиевской оценки функционала ${{J}_{\Delta }}$ используется значение $d = \int {f(x)dx} $. Для несмещенной весовой модификации моделирования здесь, соответственно [12], $f(x)$ заменяется на плотность распределения квадрата веса${{f}_{{{{w}^{2}}}}}(x)$, если вспомогательный вес частицы $w$ ограничен, то есть $w \leqslant C < + \infty $. Заметим, что в задаче о переносе частиц можно не “разыгрывать” поглощение; при этом вспомогательный вес равен $exp( - {{\tau }_{c}})$, где ${{\tau }_{c}}$ – “оптическая” длина траектории относительно коэффициента поглощения (см., например, [6], [7]).
Перейдем теперь к точной формулировке задачи оптимизации рассматриваемой рандомизированной ядерной оценки. Вследствие леммы 2 справедлива
Теорема 2. Трудоемкость рандомизированной ядерной оценки функции $f(x)$ асимптотически по $N$ определяется параметрами $n_{0}^{ * }$, $\delta _{0}^{ * }$, минимизирующими величину
(7)
$S(n,{{\delta }_{0}}) = {{\varepsilon }^{2}}{{(Nn,{{\delta }_{0}})}^{{(4 + m)/4}}}({{t}_{0}} + n{{t}_{1}}).$Представленную в теореме 2 задачу минимизации можно решать численно. В первом приближении $n_{0}^{ * } \approx n*$, $\delta _{0}^{ * } \approx \delta {\text{*}}$, так как ${{({{t}_{0}} + n{{t}_{1}})}^{{m/(4 + m)}}}$ – сравнительно слабо меняющаяся функция аргумента $n$ при $m = 1,2$.
Отметим, что в случае указанной в п. 1 нелинейной зависимости величины ${{T}_{n}} = {{t}_{0}} + n{{t}_{1}}$ от $n$ значение $n{\text{*}}$ и, тем самым, отношение ${{t}_{0}}{\text{/}}{{t}_{1}}$ можно уточнить с помощью численной оптимизации алгоритма расщепления для функционала $J = \int {f(x)dx} $ на основе соотношений (4).
Полученные результаты соответствуют случаю “равномасштабных” координат вектора $x = ({{x}^{{(1)}}},\; \ldots ,\;.{{x}^{{(m)}}})$. В противном случае следует, как обычно, использовать масштабирование: ${{\delta }^{{(i)}}} = {{c}_{i}}\delta $ $(i = 1,\; \ldots ,\;m)$. При этом в полученных соотношениях $f(x)$ заменяется на ${{f(x)} \mathord{\left/ {\vphantom {{f(x)} {\prod\nolimits_{i = 1}^m {{{c}_{i}}} }}} \right. \kern-0em} {\prod\nolimits_{i = 1}^m {{{c}_{i}}} }}$, а $f_{i}^{{''}}(x)$ – на $c_{i}^{2}f{\kern 1pt} {\text{''}}(x)$.
Заметим, что предложенный Н.Н. Ченцовым для использования в рамках численного статистического моделирования рандомизированный проекционный метод [16] соответственно (1) переносится на оценку осредненных распределений. Однако, как показывают расчеты, этот метод может быть практически эффективным лишь в случае достаточной гладкости оцениваемой одномерной функции или ее отношения к некоторой вспомогательной плотности вероятностей (см., например, [17]). Многомерное обобщение при этом весьма затруднительно.
3. ИССЛЕДОВАНИЕ ЭФФЕКТИВНОСТИ ИСПОЛЬЗОВАНИЯ РАСЩЕПЛЕНИЯ С n = n*
Для исследования эффективности расщепления с параметром $n{\text{*}}$ следует вычислить относительное значение трудоемкости соответствующей оценки, которое в обозначениях из (7) определяется отношением $S(1,{{\delta }_{0}}){\text{/}}S(n*,\delta *)$.
Теорема 3. Выполняется равенство
Доказательство. Согласно сказанному выше, имеем
Удивительным является тот факт, что сложные выкладки здесь привели к столь простому выражению для сравнительной трудоемкости. Для более точной численной оптимизации расщепления может быть полезной следующая теорема, устанавливающая соотношение величин $n_{0}^{ * }$ и $n{\text{*}}$.
Теорема 4. Выполняется соотношение $n_{0}^{ * } > n{\text{*}}$.
Доказательство. Можно полагать, что $\delta = {{\delta }_{0}}(n)$ и заменить $S(n,\delta )$ на $S(n)$, причем, согласно теореме 1, имеем
(8)
$S{\text{*'}}(n*) = \mathop {\left. {\frac{{dS{\text{*}}(n)}}{{dn}}} \right|}\nolimits_{n = n*} = 0.$Отсюда с учетом равенства (8) получаем неравенство $S{\text{'}}(n*) < 0$, что завершает доказательство теоремы 4.
В заключение заметим, что полученные результаты непосредственно распространяются на случай оценки осредненной по $\sigma $ плотности распределения вектора ${{\eta }_{1}}(\Omega ;\sigma ),\; \ldots {{\eta }_{k}}(\Omega ;\sigma )$, $k \leqslant m$, с помощью использования соответствующего индикатора ${{J}_{\Delta }}(x)$. Пусть, например, необходимо оценить функцию $f(x) = Ef(x;\sigma )$, причем $f(x;\sigma )$ – условная плотность распределения случайной величины $\mu = (\omega ,{\mathbf{n}})$, где $\omega $ – направление частицы, вылетающей из среды со случайной плотностью $\sigma $, а ${\mathbf{n}}$ – граничная нормаль. Здесь в качестве ${{J}_{\Delta }}(x)$ следует использовать индикатор интервала $\Delta = (\mu - \delta {\text{/}}2 < \mu (x) < \mu + \delta {\text{/}}2)$, где $x$ – фазовые координаты точки вылета.
Список литературы
Ермаков С.М., Михайлов Г.А. Статистическое моделирование. М.: Наука, 1982. 296 с.
Соболь И.М. Численные методы Монте-Карло. М.: Наука, 1973.
Kalos M.H., Whitlock P.A. Monte Carlo methods. N.Y.: John Wiley and Sons, 1986.
Kahn H. Use of different Monte Carlo sampling techniques. In: Symposium on Monte Carlo methods (Ed. H.A. Meyer), N.Y.: Wiley, 1956. P. 146–190.
Михайлов Г.А. Оптимизация весовых методов Монте-Карло. М.: Наука, 1987. 283 с. [Engl. transl.: Springer-Verlag, 1980].
Амбос А.Ю., Михайлов Г.А. Эффективное осреднение стохастических радиационных моделей на основе статистического моделирования // Ж. вычисл. матем. и матем. физ. 2016. Т. 56. № 5. С. 896–908.
Марчук Г.И., Михайлов Г.А., Назаралиев М.А. и др. Методы Монте-Карло в атмосферной оптике. Под ред. Г.И. Марчука. Новосибирск: Наука, 1976. 239 с. [Engl. transl.: Springer-Verlag, 1992].
Михайлов Г.А. Эффективные алгоритмы метода Монте-Карло для вычисления корреляционных характеристик условных математических ожиданий // Ж. вычисл. матем. и матем. физ. 1977. Т. 17. 1. С. 246–249.
Амбос А.Ю. Вычислительные модели мозаичных однородных изотропных случайных полей и задачи переноса излучения // Сиб. журн. вычисл. матем. 2016. Т. 19. № 1. С. 19–32.
Parsen E. On estimation of a probability density function and mode // Ann. Math. Statist. 1962. № 35. P. 1065–1076.
Епаничников В.А. Непараметрическая оценка многомерной плотности вероятности // Теор. вероятности и ее применения. 1969. Т. 14. Вып. 1. С. 156–161.
Mikhailov G.A., Prigarin S.M. Rozhenko S.A. Comparative analysis of vector algorithms for statistical modelling of radiative transfer process // Rus. J. Num. Anal. Math. Model. 2018. V. 33. № 4. P. 220–229.
Lotova G.Z. Monte Carlo algorithms for calculation of diffusive characteristics of an electron avalanche in gases // Rus. J. Num. Anal. Math. Model. 2011. V. 31. № 6. P. 369–377.
Михайлов Г.А., Войтишек А.В. Численное статистическое моделирование. Методы Монте-Карло: Учеб. пособие. М.: Изд. центр “Академия”, 2006. 367 с.
Боровков А.А. Математическая статистика. Новосибирск: Изд-во ИМ СО РАН, 1997. 772 с.
Ченцов Н.Н. Статистические решающие правила и оптимальные выводы. М.: Наука, 1972. 520 с.
Михайлов Г.А., Трачева Н.В., Ухинов С.А. Рандомизированный проекционный метод для оценки угловых распределений поляризованного излучения на основе численного статистического моделирования // Ж. вычисл. матем. и матем. физ. 2016. Т. 56. № 9. С. 1560–1570.
Дополнительные материалы отсутствуют.
Инструменты
Журнал вычислительной математики и математической физики