Доклады Российской академии наук. Математика, информатика, процессы управления, 2022, T. 507, № 1, стр. 36-39

О КРИТЕРИЯХ ПРОВЕРКИ ГИПОТЕЗЫ ОБ ЭКВИВАЛЕНТНОСТИ ХВОСТОВ РАСПРЕДЕЛЕНИЙ

Е. О. Кантонистова 1*, И. В. Родионов 2**

1 Национальный исследовательский университет “Высшая школа экономики”
Москва, Россия

2 Институт проблем передачи информации им. А.А. Харкевича Российской академии наук
Москва, Россия

* E-mail: ekantonistova@hse.ru
** E-mail: vecsell@gmail.com

Поступила в редакцию 15.09.2022
После доработки 23.10.2022
Принята к публикации 30.10.2022

Полный текст (PDF)

Аннотация

Предложен метод проверки гипотезы об эквивалентности хвоста распределения данных с выбранным хвостом распределения – аналога гипотезы согласия для статистики экстремумов. Метод основан на новом преобразовании данных, переводящем k максимальных порядковых статистик выборки из стандартного равномерного закона $U[0,1]$ в случайные величины, похожие в своем асимптотическом поведении на выборку из $U[0,1]$ размера k. Доказано, что критерии, построенные по предложенному методу, являются состоятельными на максимально широкой альтернативе – отрицании основной гипотезы.

Ключевые слова: хвост распределения, критерий согласия, статистика экстремумов, эквивалентность

1. ВВЕДЕНИЕ

При построении вероятностных моделей данных в различных областях знаний возникают ситуации, когда вероятности редких событий не могут быть качественно описаны в рамках популярных моделей и требуют отдельного анализа. Такие ситуации возникают, в частности, в финансовых и страховых задачах, в задачах надежности и демографических исследованиях, когда “тело” распределения описывается, например, нормальным или логнормальным законом, а хвост – правильно меняющимся распределением. Более того, редкие (экстремальные) события могут быть сами по себе центральным объектом анализа, как, например, при изучении природных катаклизмов и катастроф, в задачах безопасности ядерной энергетики и других. Анализ таких событий является основным предметом изучения стохастической теории экстремумов, см. монографии [1, 2]. В настоящей работе нас будет интересовать статистическая часть этой теории.

По сравнению с оцениванием параметров, методам проверки гипотез в статистике экстремумов посвящено не так много работ, см. обзор [3]. Это во многом связано с тем, что наиболее популярной (и, по сути, безальтернативной для практиков) моделью для хвостов распределений до сих пор является модель обобщенного распределения Парето [1, 2], которая не требует применения аппарата проверки гипотез. Однако в связи с тенденцией к увеличению объемов доступных данных становится возможным рассмотрение более узких (семипараметрических) моделей хвостов распределений, например, таких как модели хвостов распределений вейбулловского и лог-вейбулловского типов. Тем самым, возникает необходимость в разработке статистических критериев для выбора подходящей модели хвоста распределения данных, частным случаем которых являются критерии о принадлежности хвоста распределения какому-то определенному классу.

Для этой цели, по аналогии с классической статистикой, могут быть использованы критерии согласия, в статистики которых вместо неизвестных параметров распределений подставлены их оценки. Тем не менее эта задача в литературе практически не рассматривалась – единственным на текущий момент исследованием, посвященным задаче построения критериев согласия с хвостом распределения, является работа [4]. Однако фактически в этой работе были предложены критерии проверки не гипотезы согласия с хвостом распределения, а гипотезы о том, что хвост распределения пропорционален выбранному, что может привести к принципиально неверным выводам о хвосте распределения на практике при его использовании. Дополнительной мотивацией к изучению критериев согласия с хвостом распределения служит тот факт, что статистики критериев согласия часто используются для определения оптимального значения высокого уровня при оценивании параметров в рамках статистики экстремумов [5].

Для построения критериев согласия с хвостом распределения предлагается воспользоваться идеями, которые были применены при построении критериев согласия для цензурированных данных. При разработке последних в литературе преимущественно использовались 2 подхода: усечение статистики стандартного критерия согласия и специальные преобразования данных, см. обзор литературы в работе [6]. Преимущества и недостатки каждого из подходов рассмотрены в работе [4]. Достаточно полное описание критериев, полученных с помощью первого подхода, можно найти в монографии [7]. Однако в случае стандартной постановки статистики экстремумов, а именно, если для статистического анализа используются лишь $k$ максимальных (или минимальных) порядковых статистик выборки размера $n,$ где последовательность $k = k(n)$ удовлетворяет условиям

(1)
$k \to \infty \quad {\text{и}}\quad k{\text{/}}n \to 0\quad {\text{при}}\quad n \to \infty ,$
статистики критериев согласия, построенных в рамках первого подхода, будут стремиться к нулю по вероятности, что делает этот подход бесполезным для нашей задачи. Далее будем полагать, что последовательности $k(n)$ и $k(n){\text{/}}n$ являются монотонными с некоторого момента.

Ключевой для второго подхода является работа [8], в которой преобразование k максимальных порядковых статистик выборки из стандартного равномерного закона $U[0,1],$ переводящее их в выборку размера k из $U[0,1],$ было впервые использовано для построения критериев согласия по цензурированной выборке. Пусть ${{U}_{1}}, \ldots ,{{U}_{n}}$ – независимые одинаково распределенные (н.о.р.) случайные величины из распределения $U[0,1],$ а ${{U}_{{(1)}}} \leqslant \ldots \leqslant {{U}_{{(n)}}}$ – вариационный ряд этой выборки. Тогда, как показано в [8],

(2)
${{Z}_{{(i)}}} = {{U}_{{(i)}}}{\text{/}}{{U}_{{(k)}}} \cdot {{({{B}_{{k,n}}}({{U}_{{(k)}}}))}^{{1/k}}},\quad i = 1, \ldots ,k,$
являются порядковыми статистиками выборки $\{ {{Z}_{i}}\} _{{i = 1}}^{k}$ из $U[0,1],$ где

(3)
${{B}_{{k,n}}}(x) = \sum\limits_{j = k}^n C_{n}^{j}{{x}^{j}}{{(1 - x)}^{{n - j}}}.$

Далее, в рамках второго подхода для проверки гипотезы согласия ${{H}_{0}}:F = {{F}_{0}}$ по порядковым статистикам $\{ {{X}_{{(i)}}}\} _{{i = 1}}^{k}$ выборки $\{ {{X}_{i}}\} _{{i = 1}}^{n}$ предлагается подставлять в статистики стандартных критериев согласия величины $\{ {{Z}_{{(i)}}}\} _{{i = 1}}^{k}$ вместо $\{ {{U}_{{(i)}}}\} _{{i = 1}}^{k},$ где ${{U}_{{(i)}}} = {{F}_{0}}({{X}_{{(i)}}})$ и $\{ {{Z}_{{(i)}}}\} _{{i = 1}}^{k}$ получены из $\{ {{U}_{{(i)}}}\} _{{i = 1}}^{k}$ согласно формуле (2). Тем самым, при верности нулевой гипотезы распределения статистик критериев согласия, полученных в рамках второго подхода, будут совпадать с распределениями статистик их стандартных аналогов, что, однако, не будет выполняться в случае верности альтернативной гипотезы. Другие подобные преобразования можно найти в работах [9, 10]. Однако, как выяснилось, критерии согласия с хвостом распределения, которые могут быть получены на основе преобразования (2), фактически проверяют гипотезу об асимптотической пропорциональности хвоста распределения наблюдений с хвостом выбранного распределения и, тем самым, обладают схожими недостатками с критериями, предложенными в работе [4].

В этой работе мы предложим новое преобразование данных, похожее на преобразование (2), результатом которого будут случайные величины, не являющиеся, однако, независимыми и распределенными по закону $U[0,1].$ Тем не менее “эмпирическая функция распределения”, построенная по этим величинам, в случае верности основной гипотезы будет сходиться к функции распределения стандартного равномерного закона. Это свойство данного преобразования позволит нам на его основе предложить метод построения критериев для проверки гипотезы согласия с хвостом распределения, т.е. о том, что хвост распределения асимптотически эквивалентен выбранному. Также мы показываем состоятельность предложенных критериев на максимально широкой альтернативной гипотезе – отрицании основной гипотезы.

2. ОСНОВНЫЕ РЕЗУЛЬТАТЫ

Пусть F – функция распределения. Определим ее правую граничную точку как $x_{F}^{*} = \inf \{ x:F(x)$ = 1} и хвостовую функцию распределения как $\overline F (x) = 1$ – ‒ F(x). Будем говорить, что хвостовые функции распределения $\overline {{{F}_{0}}} $ и $\overline {{{F}_{1}}} $ эквивалентны (пишем ${{F}_{0}}\;\mathop \sim \limits^r \;{{F}_{1}}$), если их правые граничные точки совпадают, т.е. $x{\kern 1pt} *: = x_{{{{F}_{0}}}}^{*} = x_{{{{F}_{1}}}}^{*},$ и выполнено соотношение

$\mathop {\lim }\limits_{x \uparrow x{\kern 1pt} *} \frac{{\overline {{{F}_{0}}} (x)}}{{\overline {{{F}_{1}}} (x)}} = 1.$

Правым хвостом функции распределения F назовем класс эквивалентности $T(\overline F )$ хвостовых функций распределения по отношению $\mathop \sim \limits^r $, т.е. для функции распределения G свойство $G\;\mathop \sim \limits^r \;F$ эквивалентно выполнению $\overline G \in T(\overline F ).$ Далее мы продолжим говорить о правых хвостах распределений, хотя все приведенные ниже рассуждения можно повторить и для левых хвостов. Определим гипотезу согласия с (правым) хвостом распределения ${{F}_{0}}$ как ${{H}_{0}}:{{F}_{1}}\;\mathop \sim \limits^r \;{{F}_{0}}.$ Отметим, что в работе [4] гипотеза согласия с хвостом распределения определялась как $H_{0}^{T}:{{F}_{1}}(x) = {{F}_{0}}(x)$ для всех достаточно больших $x,$ однако стохастическая теория экстремумов является асимптотической наукой, и проверить на практике выполнение соотношения ${{F}_{1}}(x) = {{F}_{0}}(x)$ для всех $x > {{x}_{0}},$ в отличие от более слабого условия ${{F}_{1}}\;\mathop \sim \limits^r \;{{F}_{0}},$ может оказаться достаточно проблематичным.

Пусть $({{X}_{1}}, \ldots ,{{X}_{n}})$ – н.о.р. случайные величины с непрерывной функцией распределения ${{F}_{1}},$ а функция распределения ${{F}_{0}}$ тоже непрерывна. Предположим, что мы хотим проверить гипотезу ${{H}_{0}}$ по этой выборке. Для удобства перейдем к рассмотрению н.о.р. случайных величин $\{ {{U}_{i}}\} _{{i = 1}}^{n},$ где ${{U}_{i}} = {{F}_{0}}({{X}_{i}}),$ и, тем самым, гипотезе $H_{0}^{'}\,:\,F\,\mathop \sim \limits^r \,{{F}_{{U[0,1]}}},$ где $F = {{F}_{1}}(F_{0}^{ \leftarrow })$ – функция распределения случайной величины ${{U}_{1}},$ $F_{0}^{ \leftarrow }(t) = \inf \{ x:{{F}_{0}}(x) = t\} $ и ${{F}_{{U[0,1]}}}$ – функция распределения стандартного равномерного закона. Заметим, что выводы о правом хвосте распределения возможно делать только по максимальным членам вариационного ряда выборки, поэтому будем рассматривать только $k$ максимальных членов вариационного ряда выборки $\{ {{U}_{i}}\} _{{i = 1}}^{n},$ где $k < n$.

Введем следующее преобразование k максимальных порядковых статистик выборки $\{ {{U}_{i}}\} _{{i = 1}}^{n},$

${{V}_{{(i)}}} = \frac{{1 - {{U}_{{(n - i + 1)}}}}}{{1 - {{U}_{{(n - k + 1)}}}}}{{f}_{{k,n}}}(1 - {{U}_{{(n - k + 1)}}}),\quad i = 1, \ldots ,k,$
где семейство функций $\{ {{f}_{{k,n}}}(x),x \in [0,1]\} $ таково, что ${{f}_{{k,n}}}(k{\text{/}}n) \to 1$ и ${{\limsup }_{n}}{{f}_{{k,n}}}(x) \in [0,1)$ для x = $x(n)$ c ${{\lim }_{n}}xn{\text{/}}k \ne 1$, если $k = k(n)$ удовлетворяет (1) при $n \to \infty $. Сохраняя связь с преобразованием (2), положим
(4)
${{f}_{{k,n}}}(x) = \frac{1}{2}({{({{B}_{{k,n}}}(x))}^{{1/k}}} + {{(1 - {{B}_{{k + 1,n}}}(x))}^{{1/k}}}),$
где функция ${{B}_{{k,n}}}(x)$ определена в (3). Действительно, функция (4) удовлетворяет условиям, наложенным выше, поскольку, как несложно проверить, ${{({{B}_{{k,n}}}(x))}^{{1/k}}} \to 1$ для x = x(n) таких, что ${{\liminf}_{n}}xn{\text{/}}k \geqslant 1$, и ${{\limsup }_{n}}{{({{B}_{{k,n}}}(x))}^{{1/k}}} < 1$ для x = = x(n) таких, что ${{\limsup }_{n}}xn{\text{/}}k < 1$, если k = k(n) удовлетворяет (1) при $n \to \infty $.

Назовем $F_{{k,n}}^{*}(x) = {{k}^{{ - 1}}}\sum\nolimits_{i = 1}^k I({{V}_{{(i)}}} \leqslant x)$ эмпирической функцией распределения набора случайных величин $\{ {{V}_{{(i)}}}\} _{{i = 1}}^{k}.$ Далее будем предполагать, что $F$ дважды дифференцируема. Для формулировки результатов этой работы введем следующее условие, являющееся классическим для стохастической теории экстремумов: скажем, что функция распределения $F$ удовлетворяет условию фон Мизеса [2], если

(5)
$\mathop {\lim }\limits_{x \uparrow x{\kern 1pt} *} \frac{{(1 - F(x))F{\kern 1pt} '{\kern 1pt} '(x)}}{{{{{(F{\kern 1pt} '(x))}}^{2}}}} = - \gamma - 1,$
где $\gamma $ – индекс экстремального значения. В частности, в случае верности гипотезы $H_{0}^{'}$ $\gamma = - 1$ и $x{\kern 1pt} * = 1$.

Далее, обозначим через D пространство Скорохода, т.е. пространство непрерывных справа функций, имеющих предел слева, на $[0,1].$ Следующая теорема является развитием классического результата Донскера, Колмогорова и Скорохода о сходимости нормированной разности эмпирической и теоретической функций распределения к броуновскому мосту (гауссовскому процессу $B(t)$ на отрезке $[0,1]$ с нулевой функцией среднего и ковариационной функцией $r(s,t) = \min (s,t) - st$).

Теорема 1. Пусть $\{ {{U}_{i}}\} _{{i = 1}}^{n}$ – н.о.р. случайные величины с функцией распределения $F,$ удовлетворяющей условию (5). Предположим, что выполнена гипотеза $H_{0}^{'}$. Пусть последовательность $k = k(n)$ удовлетворяет условиям (1) и

(6)
$\sqrt k \left| {\frac{{1 - F(k{\text{/}}n)}}{{k{\text{/}}n}} - 1} \right| \to 0\quad при\quad n \to \infty .$

Тогда процесс $y(t) = \sqrt k {\text{|}}F_{{k,n}}^{*}(t) - t{\text{|}}$ слабо сходится в D к броуновскому мосту $B(t)$ при $n \to \infty $.

Данная теорема позволяет строить критерии проверки гипотезы согласия $H_{0}^{'}$ на основе статистик классических критериев согласия. В качестве примера рассмотрим критерии Колмогорова и Андерсона-Дарлинга; разумеется, приведенные ниже рассуждения могут быть адаптированы и для других критериев согласия. Обозначим через

$D_{{k,n}}^{*} = \mathop {\sup }\limits_{t \in [0,1]} {\text{|}}F_{{k,n}}^{*}(t) - t{\text{|}},\quad W_{{k,n}}^{*} = \int\limits_0^1 {\frac{{{{{(F_{{k,n}}^{*}(t) - t)}}^{2}}}}{{t(1 - t)}}dt} $
модификации статистик критериев согласия Колмогорова и Андерсона-Дарлинга проверки гипотезы $H_{0}^{*}:F = {{F}_{{U[0,1]}}}$ соответственно. Пусть $\alpha \in [0,1].$ Тогда, как следует из Tеоремы 1, в случае выполнения условий (1) и (6) правила
(7)
${\text{если}}\quad \sqrt k D_{{k,n}}^{*} > {{K}_{{1 - \alpha }}},\quad {\text{то}}\;{\text{отвергнуть}}\;H_{0}^{'},$
(8)
${\text{если}}\quad kW_{{k,n}}^{*} > {{W}_{{1 - \alpha }}},\quad {\text{то}}\;{\text{отвергнуть}}\;H_{0}^{'}$
являются критериями проверки гипотезы $H_{0}^{'}$, асимптотически имеющими уровень значимости α, где ${{K}_{{1 - \alpha }}}$ и ${{W}_{{1 - \alpha }}}$ – квантили уровня 1 – α распределений Колмогорова и Андерсона-Дарлинга соответственно. Следующая теорема позволяет утверждать, что критерии (7) и (8) являются состоятельными на альтернативе $H_{1}^{'}:H_{0}^{'}$ неверна.

Теорема 2. Пусть $\{ {{U}_{i}}\} _{{i = 1}}^{n}$ – н.о.р. случайные величины с функцией распределения $F,$ удовлетворяющей условию (5). Предположим, что верна гипотеза $H_{1}^{'}$, а последовательность $k = k(n)$ удовлетворяет (1). Тогда для всех $t \in (0,1),$ кроме, может быть, одной точки

$\sqrt k {\text{|}}F_{{k,n}}^{*}(t) - t{\text{|}} \to \infty ,\quad n \to \infty .$

В данной работе предложен метод построения критериев проверки гипотезы согласия с хвостом распределения $H_{0}^{'}$. Метод основан на новом преобразовании данных, который переводит k максимальных членов вариационного ряда выборки из стандартного равномерного закона в случайные величины, близкие по своему поведению к вариационному ряду выборки из стандартного равномерного закона размера k. В отличие от первой работы [4], посвященной данной задаче, в статье предложены критерии в точности для проверки гипотезы согласия с хвостом распределения и доказывается их состоятельность на максимально широкой альтернативе – отрицании основной гипотезы.

Список литературы

  1. Beirlant J., Goegebeur Y., Teugels J., Segers J. Statistics of Extremes: Theory and Applications. N.Y.: Wiley. 2004. 498 p. https://doi.org/10.1002/0470012382

  2. de Haan L., Ferreira A. Extreme Value Theory: An Introduction. N.Y.: Springer Verlag. 2006. 417 p.

  3. Hüsler J., Peng L. Review of testing issues in extremes: in honor of Professor Laurens de Haan // Extremes. 2008. V. 11. № 1. P. 99–111. https://doi.org/10.1007/s10687-007-0052-0

  4. Kantonistova E.O., Rodionov I.V. Analogues of classical goodness-of-fit tests for distribution tails // Doklady Mathematics. 2021. V. 103. I. 1. P. 35–38. https://doi.org/10.1134/S1064562421010063

  5. Danielsson J., Ergun L.M., de Haan L., De Vries C. Tail Index Estimation: Quantile Driven Threshold Selection. Available at SSRN: https://ssrn.com/abstract’17478. 2016. https://doi.org/10.2139/ssrn.2717478

  6. Goldmann C., Klar B., Meintanis S. G. Data transformations and goodness-of-fit tests for type-II right censored samples // Metrika. 2015. V. 78. P. 59–83. https://doi.org/10.1007/s00184-014-0490-z

  7. D’Agostino R.B., Stephens M.A. Goodness-of-Fit Techniques. New York: Marcel Dekker. 1986. 576 p. https://doi.org/10.1201/9780203753064

  8. Michael J.R., Schucany W.R. A new approach to testing goodness of fit for censored samples // Technometrics. 1979. V. 21. P. 435–441. https://doi.org/10.1080/00401706.1979.10489813

  9. Lin C.-T., Huang Y.-L., Balakrishnan N. A New Method for Goodness-of-Fit Testing Based on Type-II Right Censored Samples // IEEE Transactions in Reliability. 2008. V. 57. № 4. P. 633–642. https://doi.org/10.1109/TR.2008.2005860

  10. Fischer T., Kamps U. On the existence of transformations preserving the structure of order statistics in lower dimensions // Journal of Statistical Planning and Inference. 2011. V. 141. P. 536–548. https://doi.org/10.1016/j.jspi.2010.06.028

Дополнительные материалы отсутствуют.

Инструменты

Доклады Российской академии наук. Математика, информатика, процессы управления