Доклады Российской академии наук. Математика, информатика, процессы управления, 2021, T. 496, № 1, стр. 44-47

ОБ АНАЛОГАХ КЛАССИЧЕСКИХ КРИТЕРИЕВ СОГЛАСИЯ ДЛЯ ХВОСТОВ РАСПРЕДЕЛЕНИЙ

Е. О. Кантонистова 1*, И. В. Родионов 2**

1 Национальный исследовательский университет “Высшая школа экономики”
Москва, Россия

2 Институт проблем управления им. В.А. Трапезникова Российской академии наук
Москва, Россия

* E-mail: ekantonistova@hse.ru
** E-mail: vecsell@gmail.com

Поступила в редакцию 24.10.2020
После доработки 24.10.2020
Принята к публикации 28.10.2020

Полный текст (PDF)

Аннотация

Предложены аналоги классических критериев согласия Колмогорова и омега-квадрат для проверки гипотезы согласия с хвостом распределения. Доказана состоятельность предложенных критериев на широких альтернативах как в постановке статистики цензурированных данных, так и в постановке статистики экстремумов.

Ключевые слова: хвост распределения, критерий согласия, цензурирование, статистика экстремумов, критерий Колмогорова, критерий омега-квадрат

На практике, при статистической обработке результатов эксперимента, нередки ситуации, когда данные, имеющие значения ниже (или выше) какого-то определенного порога, представляются неопределенными (так называемые цензурированные данные) либо вовсе не имеют значения для исследователя. Такие ситуации возникают, в частности, в задачах надежности, финансовых и страховых задачах, в гидрологии, телекоммуникациях, подробнее см. монографию [1]. Для решения статистических задач в такой постановке не подходят классические методы статистики, основанные на использовании всех значений выборки, поскольку только по максимальным (или минимальным) числовым значениям экспериментальных данных можно сделать значимые выводы о хвосте распределения этих данных. Однако модификация классических методов статистики является одним из распространенных приемов при решении задач в описанной постановке. Так, общепринятыми методами оценивания индекса экстремального значения, ключевого параметра для статистики экстремумов, управляющего поведением максимально-устойчивых законов, являются метод максимального правдоподобия, см. [2] и метод (взвешенных) моментов [3]. В этой работе мы предложим аналоги классических критериев согласия типа омега-квадрат и Колмогорова для проверки гипотезы согласия с хвостом распределения, статистики которых имеют то же предельное распределение при верности нулевой гипотезы, что и статистики их классических аналогов, и докажем их состоятельность на широких альтернативах. Предложенные критерии можно использовать как для проверки гипотезы согласия по цензурированным данным, так и для проверки этой гипотезы в постановке статистики экстремумов.

Аналоги классических критериев согласия для цензурированных данных, предложенные в литературе, как правило, получены одним из двух следующих методов: либо с помощью усечения статистики критерия, либо с помощью специального преобразования данных. Первый метод был, в частности, использован в работах [4] (для критерия Колмогорова) и [5] (для критериев Крамера–фон Мизеса–Смирнова и Андерсона–Дарлинга), достаточно полное описание этого направления можно найти в монографии [6]. Например, в работе [5] среди прочих была рассмотрена статистика

$_{{p,r}}W_{n}^{2} = \int\limits_p^r \,{{({{F}_{n}}(t) - t)}^{2}}dt,$
где $0 \leqslant p < r \leqslant 1$ и ${{F}_{n}}(t)$ – эмпирическая функция распределения выборки из распределения на [0, 1], которая является обобщением статистики Крамера–фон Мизеса–Смирнова

$\omega _{n}^{2} = \int\limits_0^1 \,{{({{F}_{n}}(t) - t)}^{2}}dt.$

В рамках второго направления выделим работы [7, 8]. Метод построения критериев согласия в рамках этого подхода основан на специальных преобразованиях k максимальных (или минимальных) членов вариационного ряда выборки из стандартного равномерного закона $U[0,1],$ при которых преобразованные данные совпадают по распределению с выборкой из $U[0,1]$ размера k. Предельные распределения статистик критериев, полученных в данном подходе, при верности нулевой гипотезы совпадают с предельными распределениями статистик их классических аналогов.

Однако упомянутые подходы имеют свои недостатки. Предельные распределения статистик критериев, полученных в рамках первого подхода, в случае верности гипотезы согласия зависят от порога (или порогов, как статистика $_{{p,r}}W_{n}^{2}$), наблюдения выше (или ниже) которого представляются недостоверными. Такое свойство критериев делает их применение достаточно неудобным, поскольку для каждого фиксированного значения порога необходимо отдельно вычислять квантили предельного распределения для корректного применения теста. Более того, в случае если порог случаен и, например, равен выборочной квантили высокого уровня, подход вовсе перестает работать. Работы в рамках второго подхода не отвечают на вопрос, на каких альтернативах предложенные критерии являются состоятельными; кроме того, численное сравнение эффективности критериев, полученных в рамках первого и второго подходов, показывает преимущество первых, см. [8]. Отметим также, что работы, затрагивающие задачу проверки гипотезы согласия в постановке статистики экстремумов – когда доля используемых (или известных) максимальных порядковых статистик выборки существенно мала, – начали появляться лишь в недавнее время, см. [9, 10].

Пусть ${{{\mathbf{X}}}^{n}} = ({{X}_{1}}, \ldots ,{{X}_{n}})$ – независимые одинаково распределенные случайные величины с непрерывной функцией распределения F. По аналогии со стандартной гипотезой согласия, определим $H_{0}^{T}{\kern 1pt} $: F(x) = F0(x) для всех достаточно больших x и назовем ее гипотезой согласия с (правым) хвостом распределения, аналогично можно определить гипотезу согласия с левым хвостом ${{F}_{0}}$ (буква T в обозначении $H_{0}^{T}$ означает связь гипотезы с хвостом распределения). Заметим, что гипотеза $H_{0}^{T}$ отличается от гипотезы $H_{0}^{q}{\kern 1pt} :\;F(x) = {{F}_{0}}(x),$ x > q статистики цензурированных (II типа) данных, поскольку порог q в данном случае неизвестен. Гипотезу согласия с хвостом распределения можно корректно проверить в рамках постановки теории экстремумов: для проверки гипотезы используются только $k = k(n)$ максимальных порядковых статистик выборки Xn, где $k \to \infty $ и $\frac{k}{n} \to 0$ при $n \to \infty ,$ см. обзор [11] критериев такого рода. Первый критерий, проверяющий гипотезу $H_{0}^{T}$ для функций распределения с непрерывным хвостом, был предложен в работе [9], там же была доказана его состоятельность; возможность применения этого критерия в дискретном случае рассмотрена в работе [12]. Аналог критерия согласия типа Крамера–фон Мизеса–Смирнова для хвоста распределения, являющийся частным случаем предлагаемого в работе критерия типа омега-квадрат, был предложен в [10].

Критерии согласия для хвостов распределений, предлагаемые в настоящей работе, проверяют более широкую гипотезу, чем $H_{0}^{T}.$ Определим функцию распределения хвоста $F$ как

$F(x\,{\text{|}}\,q): = P({{X}_{1}} \leqslant x\,{\text{|}}\,{{X}_{1}} > q) = \frac{{F(x) - F(q)}}{{1 - F(q)}},\quad x > q.$

Рассмотрим гипотезу $\hat {H}_{0}^{T}{\kern 1pt} :\;F(x\,{\text{|}}\,q) = {{F}_{0}}(x\,{\text{|}}\,q),$ $x > q$ для некоторого (неизвестного) q и обсудим ее связь с гипотезами $H_{0}^{T}$ и $H_{0}^{q}.$ Как легко видеть, если гипотеза $\hat {H}_{0}^{T}$ выполнена для некоторого q, то найдется такая константа $C > 0,$ что при всех x > q верно соотношение $1 - F(x) = C(1 - {{F}_{0}}(x)).$ Тем самым, гипотеза $H_{0}^{T}$ есть сужение гипотезы $\hat {H}_{0}^{T}$ на случай C = 1, а $H_{0}^{q}$ – на случай C = 1 и фиксированного q. Если при исследовании случай $C \ne 1$ является нежелательным, то его можно выявить с помощью применения QQ-plot для хвостов распределений. Отметим, что в работе [13] были построены аналоги классических критериев согласия проверки гипотезы $\hat {H}_{0}^{T}$ для фиксированного q, однако отличия ее от гипотезы $H_{0}^{T}$ и состоятельность предложенных критериев авторами исследованы не были.

Напомним, что статистика критерия Колмогорова для проверки гипотезы согласия ${{H}_{0}}{\kern 1pt} :\;F = {{F}_{0}}$ записывается в виде

${{D}_{n}} = \mathop {sup}\limits_{x \in \mathbb{R}} {\text{|}}{{\hat {F}}_{n}}(x) - {{F}_{0}}(x){\text{|}},$
где ${{\hat {F}}_{n}}$ – эмпирическая функция распределения выборки ${{{\mathbf{X}}}^{n}}.$ Предложим на ее основе статистику, зависящую только от максимальных членов вариационного ряда выборки Xn:
$D_{{k,n}}^{T} = \mathop {sup}\limits_{x > {{X}_{{(n - k)}}}} {\text{|}}{{\hat {F}}_{n}}(x\,{\text{|}}\,{{X}_{{(n - k)}}}) - {{F}_{0}}(x\,{\text{|}}\,{{X}_{{(n - k)}}}){\text{|}},$
и покажем, что предельное распределение статистики $\sqrt k D_{{k,n}}^{T}$ в случае верности гипотезы $\hat {H}_{0}^{T}$ совпадает с распределением Колмогорова.

Теорема 1. Пусть случайная величина $K$ имеет функцию распределения Колмогорова. Предположим, что гипотеза $\hat {H}_{0}^{T}$ верна для непрерывной функции распределения ${{F}_{0}}$. Тогда существует такое q, что

$\sqrt k D_{{k,n}}^{T}\xrightarrow{d}K,\quad n \to \infty ,$
для всех последовательностей $k = k(n)$ таких, что $k \to \infty $ и $\frac{k}{n} < 1 - {{F}_{0}}(q) - \varepsilon $ для некоторого $\varepsilon > 0$ при $n \to \infty .$

Заметим, что, в отличие от классической постановки задачи статистики экстремумов, мы не требуем выполнения условия $\frac{k}{n} \to 0,$ однако проверку гипотезы $\hat {H}_{0}^{T}$ стоит проводить при выполнении этого условия, поскольку $q$ заранее неизвестно. Также заметим, что требование непрерывности ${{F}_{0}}$ в этом случае также необязательно – достаточно потребовать, чтобы ${{F}_{0}}$ была непрерывна в окрестности крайней правой точки своего носителя $x_{{{{F}_{0}}}}^{*} = sup\{ x{\kern 1pt} :\;{{F}_{0}}(x) < 1\} .$

Теорема 1 показывает, что критерий

(1)
${\text{если}}\;\;\sqrt k D_{{k,n}}^{T} > {{K}_{{1 - \alpha }}},\;\;{\text{то}}\;{\text{отвергнуть}}\;\;\hat {H}_{0}^{T},$
где ${{K}_{{1 - \alpha }}}$$(1 - \alpha )$-квантиль распределения Колмогорова, асимптотически имеет уровень значимости α; в следующей теореме обсуждается его состоятельность.

Теорема 2. (i) Если для некоторого $c \in (0,1)$ выполнено $\frac{k}{n} > c$ при $n \to \infty ,$ то критерий (1) состоятелен на альтернативе $\hat {H}_{1}^{T}:\hat {H}_{0}^{T}$ неверна.

(ii) Если $k \to \infty $ и $k{\text{/}}n \to 0$ при $n \to \infty ,$ то критерий (1) состоятелен на более узкой альтернативе $\hat {H}_{2}^{T}{\kern 1pt} :\;\forall q < x_{{{{F}_{1}}}}^{*}$ $\exists {{x}_{0}} > q{\kern 1pt} :\;{\text{|}}F({{x}_{0}}\,{\text{|}}\,q) - {{F}_{0}}({{x}_{0}}\,{\text{|}}\,q){\text{|}} > d$ для некоторого d > 0.

Используя ту же идею замены функций распределения в статистике критерия согласия на функции распределения хвоста, введем аналог статистики омега-квадрат $\omega _{n}^{2}(\psi )$ = $\int\limits_\mathbb{R}^{} {\psi ({{F}_{0}}(x))({{{\hat {F}}}_{n}}(x)} $ – ‒ ${{F}_{0}}(x){{)}^{2}}d{{F}_{0}}(x)$, зависящую только от максимальных порядковых статистик выборки,

$\begin{gathered} \omega _{{k,n}}^{T}(\psi ) = \int\limits_{{{X}_{{(n - k)}}}}^\infty {\psi ({{F}_{0}}(x\,{\text{|}}\,{{X}_{{(n - k)}}}))} ({{{\hat {F}}}_{n}}(x\,{\text{|}}\,{{X}_{{(n - k)}}}) - \\ \, - {{F}_{0}}(x\,{\text{|}}\,{{X}_{{(n - k)}}}){{)}^{2}}d{{F}_{0}}(x\,{\text{|}}\,{{X}_{{(n - k)}}}) \\ \end{gathered} $
и предложим на ее основе критерий проверки гипотезы о пропорциональности хвостов $\hat {H}_{0}^{T}$:
(2)
${\text{если}}\;\;k\omega _{{k,n}}^{T}(\psi ) > {{u}_{{1 - \alpha }}}(\psi ),\;\;{\text{то}}\;{\text{отвергнуть}}\;\;\hat {H}_{0}^{T},$
где ${{u}_{{1 - \alpha }}}(\psi )$$(1 - \alpha )$-квантиль предельного распределения A(ψ) статистики $\omega _{n}^{2}(\psi )$ при верности гипотезы согласия, см. [15]. Напомним, что частными случаями критериев типа омега-квадрат являются критерии согласия Крамера–фон Мизеса–Смирнова (для $\psi (x) = 1$) и Андерсона–Дарлинга (для $\psi (x) = {{(x(1 - x))}^{{ - 1}}}$). Следующие теоремы, аналогичные теоремам 1 и 2 соответственно, утверждают, что приведенный критерий асимптотически имеет уровень значимости $\alpha $ и является состоятельным на широкой альтернативе.

Теорема 3. Пусть гипотеза $\hat {H}_{0}^{T}$ верна для непрерывной функции распределения ${{F}_{0}}.$ Тогда существует такое q, что

$k\omega _{{k,n}}^{T}(\psi )\xrightarrow{d}\xi \sim A(\psi ),\quad n \to \infty ,$
для всех последовательностей k таких, что $k \to \infty $ и $\frac{k}{n} < 1 - {{F}_{0}}(q) - \varepsilon $ для некоторого $\varepsilon > 0$ при $n \to \infty .$

Теорема 4. (i) Если для некоторого $c \in (0,1)$ выполнено $\frac{k}{n} > c$ при $n \to \infty ,$ то критерий (2) состоятелен на альтернативе $\hat {H}_{1}^{T}$.

(ii) Если $k \to \infty $ и $\frac{k}{n} \to 0$ при $n \to \infty ,$ то критерий (2) состоятелен на альтернативе $\hat {H}_{2}^{T}{\kern 1pt} :\;\forall q < x_{{{{F}_{1}}}}^{*}$

$\int\limits_q^\infty \,\psi ({{F}_{0}}(x\,{\text{|}}\,q){{({{F}_{1}}(x\,{\text{|}}\,q) - {{F}_{0}}(x\,{\text{|}}\,q))}^{2}}d{{F}_{0}}(x\,{\text{|}}\,q) > d$
для некоторого d > 0.

Введенные в данной работе критерии согласия для хвостов распределений проверяют гипотезу $\hat {H}_{0}^{T}$ и являются состоятельными на альтернативе $\hat {H}_{1}^{T}:\hat {H}_{0}^{T}$ неверна (в постановке теории экстремумов – на чуть более узкой альтернативе). Перечислим преимущества предлагаемых критериев по сравнению с критериями в рамках первого и второго подходов, рассмотренными во введении. Во-первых, предельные распределения статистик критериев при верности нулевой гипотезы известны и совпадают с предельными распределениями статистик их классических аналогов (в отличие от критериев, полученных с помощью усечения статистики критерия). Во-вторых, доказана состоятельность критериев на отрицании нулевой гипотезы (в отличие от критериев, полученных с помощью преобразования данных). В-третьих, универсальность предложенных критериев позволяет использовать их также и в постановке теории экстремумов. Перечисленные преимущества позволяют надеяться, что введенные критерии будут интересны широкому кругу исследователей как теоретической, так и практической направленности.

Список литературы

  1. Cox D.R., Oakes D. Analysis of survival data. L., N.Y.: Chapman & Hall, 1984. 198 p.

  2. Bücher A., Segers J. On the maximum likelihood estimator for the generalized extreme-value distribution // Extremes. 2017. V. 20. P. 839–872.

  3. Hosking J.R.M., Wallis J.R., Wood E.F. Estimation of the generalized extreme-value distribution by the method of probability-weighted moments // Technometrics. 1985. V. 27. P. 251–261.

  4. Barr D.M., Davidson T. A Kolmogorov-Smirnov test for censored samples // Technometrics. 1973. V. 15. P. 739–757.

  5. Pettitt A.N., Stephens M.A. Modified Cramer von Mises statistics for censored data // Biometrika. 1976. V. 63. P. 291–298.

  6. D’Agostino R.B., Stephens M.A. Goodness of Fit Techniques. N.Y.: Marcel Dekker, 1986. 576 p.

  7. Michael J.R., Schucany W.R. A new approach to testing goodness of fit for censored samples // Technometrics. 1979. V. 21. P. 435–441.

  8. Lin C.-T., Huang Y.-L., Balakrishnan N. A New Method for Goodness-of-Fit Testing Based on Type-II Right Censored Samples // IEEE Transactions in Reliability. 2008. V. 57. N. 4. P. 633–642.

  9. Rodionov I.V. On discrimination between classes of distribution tails // Problems of Information Transmission. 2018. V. 54. P. 124–138.

  10. Rodionov I.V. On threshold selection problem for estimation of extremal index // Springer Proceedings in Mathematics and Statistics. Proceedings of ICSM-5, Moscow, Russia. 2021, to appear.

  11. Hüsler J., Peng L. Review of testing issues in extremes: in honor of Professor Laurens de Haan // Extremes. 2008. V. 11. P. 99–111.

  12. Когут Н.С., Родионов И.В. О критериях различения хвостов распределений // Теория вероятностей и ее применения. 2021, в печати.

  13. Chernobai A., Rachev S., Fabozzi F. Composite goodness-of-fit tests for left-truncated loss samples // Handbook of Financial Econometrics and Statistics. 2005. P. 575–596.

  14. de Haan L., Ferreira A. Extreme Value Theory: An Introduction. N.Y.: Springer Verlag, 2006. 417 p.

  15. Мартынов Г.В. Критерии омега-квадрат. М.: Наука, 1978. 80 с.

Дополнительные материалы отсутствуют.

Инструменты

Доклады Российской академии наук. Математика, информатика, процессы управления