ПРОБЛЕМЫ ПЕРЕДАЧИ ИНФОРМАЦИИ
Том 56
2020
Вып. 2
УДК 621.391.1 : 519.2
© 2020 г.
Г.К. Голубев
ОБ АДАПТИВНОМ ОЦЕНИВАНИИ ЛИНЕЙНЫХ ФУНКЦИОНАЛОВ
ПО НАБЛЮДЕНИЯМ В БЕЛОМ ШУМЕ
Рассматривается задача оценивания линейного функционала от неизвестного
многомерного вектора по его наблюдениям в гауссовском белом шуме. В каче-
стве семейства оценок функционала используются оценки, порождаемые про-
екционными оценками неизвестного вектора, и основная задача состоит в том,
чтобы выбрать наилучшую оценку в этом семействе. Цель статьи объяснить
и обосновать математически простую статистическую идею, которая исполь-
зуется при адаптивном, т.е. основанном на наблюдениях, выборе наилучшей
оценки линейного функционала из заданного семейства оценок. Обсуждаются
также обобщения рассматриваемой статистической модели и предлагаемого ме-
тода оценивания, которые позволяют охватить широкий класс статистических
задач.
Ключевые слова: линейный функционал, белый гауссовский шум, винеровский
процесс, проекционная оценка, огибающая риска, адаптивная оценка, метод
Акаике, мягкое пороговое ограничение, метод главных компонент, спектраль-
ная регуляризация.
DOI: 10.31857/S0555292320020047
§ 1. Введение
В этой статье рассматривается задача оценивания линейного функционала
L(θ) =
θk
k=1
от неизвестного вектора θ = (θ1, θ2, . . .) по наблюдениям
Yk = θk + σξk, k = 1, 2, . . .,
(1)
где ξk - случайные шумы, точнее, независимые стандартные гауссовские случай-
ные величины, а σ > 0 - уровень шума, который далее для простоты считается
известным. При этом естественно предполагается, что θ ∈ ℓ2(Z+).
В качестве оценок L(θ) будут использоваться оценки
L(ω; Y ) =
Yk, ω ∈ Z+,
(2)
k=1
где величина ω, называемая далее частотой среза, может выбираться на основе на-
блюдений Y = {Y1, Y2, . . .}. За идеей использовать это семейство оценок лежит эв-
ристическая гипотеза, что θk становятся малыми, начиная с некоторого k, и они не
вносят ощутимый вклад в значение L(θ), но при этом значение k неизвестно.
95
Скажем сразу же несколько слов об используемых в статье обозначениях. В (2) и
всюду далее аргументы функций разделяются символом “;” на два класса. До этого
символа находятся фактические аргументы, т.е. те, которые меняются, а после него
аргументы, которые рассматриваются как “замороженные”, т.е. параметры.
Основная задача в этой статье - выбрать ω так, чтобы минимизировать ошибку
оценивания
;
R(ω; θ) = EL(θ) -
L(ω; Y )
здесь и далее E - усреднение по мере, порожденной наблюдениями (1) при фикси-
рованном θ.
Ответ на вопрос, почему рассматривается именно эта статистическая модель,
прост. Цель этой статьи - объяснить на элементарном уровне очень простую идею,
которая лежит в основе адаптивного выбора ω, сведя при этом к минимуму тех-
нические математические детали. Возможные обобщения рассматриваемой модели
обсуждаются в § 4.
Очевидно, что принципиальная проблема при выборе хорошей оценки из семей-
ства
L(ω; Y ), ω ∈ Z+, заключается в том, что θk неизвестны. Ранние подходы к
ее решению (см., например, [1]) основывались на предположении, что эти величи-
ны принадлежат некоторому известному множеству Θ и частота среза выбирается
так, чтобы минимизировать sup R(ω; θ). Очевидно, что с практической точки зрения
θ∈Θ
такой метод является излишне пессимистичным, так как ориентируется на самые
“плохие” векторы в Θ. Кроме того, гипотеза о том, что множество Θ известно точно,
является мало правдоподобной с практической точки зрения. Однако с математи-
ческой точки зрения значение минимаксного подхода невозможно переоценить, по-
скольку только он позволяет определить достаточно узкий класс оценок, в котором
имеет смысл искать наилучшую. В качестве такого класса оценок можно использо-
вать, например, проекционные оценки из (2). Конечно, это справедливо отнюдь не
для всех множеств Θ, но их достаточно много, например, такими являются
{
}
Θ = θk : akk| 1
,
(3)
k=1
где ak - некоторая возрастающая по k последовательность.
Очевидно, что если у нас нет никакой априорной информации о векторе θ, един-
ственное, что остается, это выбирать оценку
L(ω; Y ) или, что эквивалентно, ω на
основе наблюдений. Сама по себе эта идея в статистике, конечно, не нова, но ее
первая простая и эффективная реализация появилась относительно недавно в [2].
Причем она касалась не оценивания линейных функционалов, а восстановления все-
го вектора θ при квадратичном критерии качества. В данном случае речь идет о
проекционных оценках θ
θk(ω; Y ) = Yk1{k ω},
и задача состоит в том, чтобы выбрать ω на основе наблюдений так, чтобы средне-
квадратичный риск
r(ω; θ) = E
[θkk(ω; Y )]2
k=1
был минимален. Ее решение основано на следующих простых соображениях:
96
При фиксированной частоте среза ω
r(ω; θ) =
θ2k + σ2ω,
k=ω+1
и если бы мы знали θk, то выбрали бы
{
}
ω(θ) = arg min
θ2k + σ2ω
(4)
k=ω+1
Очевидно, что
θ2k = ∥θ∥2 -
θ2k,
k=ω+1
k=1
и поэтому
}
ω(θ) = arg min
- θ2k +σ2ω .
(5)
k=1
Для величины
θ2k можно использовать ее несмещенную оценку (Y2k - σ2).
k=1
k=1
Эти аргументы приводят к методу Акаике
}
ωA(Y ) = arg min
- Y 2k + 2σ2ω .
(6)
ω
k=1
Несмотря на простоту этой мотивации, ее строгое математическое обоснование и
практически важные обобщения появились лишь спустя 20 лет в работе [3]. Общая
форма этого метода часто называется принципом несмещенного оценивания риска.
Ключевым элементом в методе Акаике и его понимании является эквивалент-
ность формул (4) и (5). Это свойство присуще исключительно задачам, в которых
риск оценивания измеряется аддитивными квадратичными потерями. Рассматрива-
емая в этой статье задача таковой, очевидно, не является, и поэтому для ее решения
нужны принципиально другие методы.
По-видимому, работа [4] была первой, в которой предлагался математически обос-
нованный подход к адаптивному выбору сглаживающих параметров (в нашем слу-
чае это частота среза ω) в задачах, в которых не применим принцип несмещенного
оценивания риска. Эта работа была безусловно революционной в математической
статистике. За ней, естественно, последовало много работ, в которых предложенный
метод применялся в различных статистических моделях, и ссылки на которые мы
приводить не будем ввиду их многочисленности. К сожалению, ни из оригиналь-
ной работы, ни из последующих совсем не просто извлечь простые для понимания
статистические аргументы, поясняющие, почему надо делать так, а не иначе. Оп-
тимальность предложенного метода доказывалась с помощью довольно непростых
вычислений, как правило, нагруженных многочисленными техническими условия-
ми и деталями. Поэтому совсем не удивительно, что позднее оказалось, что можно
адаптивно выбирать ω несколько проще [5, 6]. Но опять же, вычленить из этих ста-
тей простые для понимания аргументы, объясняющие статистическую суть мето-
да, довольно сложно, поскольку она скрывается в доказательствах, переполненных
важными, но по сути второстепенными математическими деталями.
Цель этой статьи - объяснить на элементарном уровне без несущественных ма-
тематических деталей несколько простых идей, которые позволяют адаптивно вы-
97
бирать частоту среза. Как мы увидим, эти идеи и их математическое обоснование
оказываются не сложнее тех, которые лежат в методе несмещенного оценивания
риска.
§ 2. Основные результаты
Заметим, что для риска R(ω; θ) справедлива следующая тривиальная граница
сверху:
∑
R(ω; θ) E
θk
+σE
ξk
k=ω+1
k=1
Поэтому мы хотели бы выбрать ω с помощью наблюдений Y так, чтобы правая часть
в этом неравенстве была как можно меньше. При этом понятно, что желательно
решить две следующие задачи:
1. Поскольку случайные величины ξk ненаблюдаемы, а выбираемое ω от них зави-
сит, то нужно ограничить сверху E |W (ω)|, где
W (ω) = ξk,
k=1
при любых ω, зависящих от ξk. (Для кумулятивной суммы мы использовали обо-
значение W (·), чтобы подчеркнуть, что это винеровский процесс.)
2. Так как θk неизвестны, то ясно, что необходимо оценить по наблюдениям абсо-
лютную величину смещения |B(ω; θ)|, где
B(ω; θ) =
θk.
k=ω+1
Хотя на первый взгляд эти две задачи кажутся разными, в действительности
для их решения используется одна и та же идея. Она состоит в замене случайных
процессов некоторыми детерминированными функциями, которые их ограничивают
либо сверху, либо снизу.
Проще всего пояснить этот подход на примере вычисления верхней границы для
E |W (ω)|.
Чтобы максимально упростить технические детали, будем далее считать, что ω
лежит на геометрической решетке
Ωh = {1, ω2, ω3, . . .},
где
{
}
ωk+1 = min
k ∈ Z+ : k (1 + h)ωk
,
а величина h > 0 является фиксированной.
Отметим, что в принципе, вместо геометрической решетки можно использовать
множество положительных целых чисел. Для этого нужно немного модифициро-
вать леммы 1 и 3, в доказательстве которых эта решетка реально применяется. Сде-
лать это несложно, если воспользоваться стандартным методом, который применя-
ется при доказательстве закона повторного логарифма для винеровского процесса.
С другой стороны, геометрическая решетка может быть реально полезной, посколь-
ку она позволяет существенно снизить вычислительную сложность предлагаемого
далее метода.
98
Предположим, что найдена некоторая детерминированная функция Vh(ω) > 0,
такая что
[
]
E sup
|W (ω)| - Vh(ω)+ Kh,
(7)
x∈Ωh
где Kh - некоторая постоянная. Тогда очевидно, что для любой частоты среза ω,
зависящей от ξk, k = 1, . . ., выполнено неравенство
E |W (ω)| E Vh(ω) + Kh.
При этом ясно также, что чем меньше будет функция Vh(·), тем лучше будет эта
граница.
Хотя на первый взгляд кажется, что задача вычисления минимальной функ-
ции Vh(·), удовлетворяющей (7) при заданной постоянной Kh, является простой, ее
точное решение, по-видимому, не известно. Близкую к минимальной функции дает
следующая лемма. В ней и далее для краткости будем обозначать
log[1 + log(x)] = log(x).
Лемма 1. Если
Vh(t) =
tvh(t),
(8)
где
2 log(t + 1)
vh(t) = log(t + 1) +
,
log(1 + 1/h)
то неравенство (7) выполняется с
(
K
1)
Kh =
log 1+
,
(9)
h
h
а K - универсальная постоянная.
Доказательство этой леммы и нижеследующих лемм 2, 3 приведены в § 5.
Таким образом, мы приходим к следующей верхней границе для риска:
[
]
R(ω; θ) = EL(θ) - L(ω; Y )≤E
|B(ω; θ)| + σVh(ω)
+ σKh.
(10)
В данной статье мы будем использовать правую часть этого неравенства для
выбора частоты среза, т.е. пытаться приблизиться к выбору, который сделал бы
оракул, знающий все θk, а именно
{
}
ω(θ) = argmin
|B(ω; θ)| + σVh(ω)
(11)
ω∈Ωh
Тогда ясно, что нам потребуется оценка для абсолютной величины смещения
|B(ω; θ)|, построенная на основе наблюдений Y . Если такая оценка
B(ω; Y ) найдена,
то заменив в (11) неизвестное смещение на его оценку, придем к следующему методу
выбора частоты среза:
}
ω(Y ) = arg min
B(ω; Y ) + σVh(ω)
ω∈Ωh
Задача оценивания |B(ω; θ)| является ключевой в данной статье. Ее сложность
связана прежде всего с тем, что построить хорошую оценку для этой величины
99
невозможно. Достаточно надежно можно оценивать только лишь модули конечных
сумм
∑
θk
= |L(w; θ) - L(w; θ)|,
k=w
да и то лишь в случае, когда они существенно превосходят уровень шума σ
w - w.
Чтобы пояснить, как можно трансформировать этот простой факт в оценку для
|B(ω; θ)|, рассмотрим следующую вспомогательную прокси-задачу. Предположим,
что мы хотим минимизировать по ω функцию
r(ω) = |b(ω)| + p(ω),
где p(ω) 0 - известная неубывающая функция. При этом функцию b(ω) мы не
знаем полностью, а знаем только лишь величины
{
}
Δ(ω, ω) = |b(ω) - b(ω)|1
|b(ω) - b(ω)| u(ω - ω)
;
(12)
здесь u(ω) 0 - известная неубывающая функция. Ясно, что без ограничения общ-
ности можно считать, что u(0) = 0. Чтобы избежать излишних математических
формальностей, будем считать для простоты, что ω принадлежит некоторому ко-
нечному множеству.
Обозначим через WN (ω, ω) подмножество векторов w = (w1, w2, . . . , wN ) ΩNh ,
у которых первый и последний элементы фиксированы и равны, соответственно,
ω и ω, а остальные упорядочены:
ω=w1w2...wN =ω.
Подмножество WN (ω) определяется аналогично, за исключением того, что послед-
ний элемент в нем не фиксирован.
Кроме того, нам потребуется любая монотонная огибающая функции |b(ω)|, т.е.
невозрастающая функция
b(ω), такая что
b(ω) |b(ω)|.
Оценим сверху |b(ω)| с помощью следующего тривиального неравенства:
|b(ω)|
|b(wk+1) - b(wk)| + |b(ω + 1)|,
k=1
которое справедливо для любого вектора w ∈ WN (ω, ω). Поэтому ясно, что
|b(ω)|
min
|b(wk+1) - b(wk)| +b(ω + 1),
(13)
w∈WN(ω,ω)
k=1
и наш следующий шаг - ограничить сверху правую часть этого неравенства с помо-
щью функций Δ(· , ·) из (12).
Обозначим [x]+ = max{0, x}, и воспользовавшись элементарным неравенством
min[f(x) + g(x)] max
f (x) + min g(x),
x
x
x
100
продолжим (13) следующим образом:
{
∑[
]
|b(ω)|
min
|b(wk+1) - b(wk)| - u(wk+1 - wk)+ +
w∈WN(ω,ω)
k=1
}
+b(ω + 1) +
u(wk+1 - wk)
k=1
{
}
∑[
]
max
|b(wk+1) - b(wk)| - u(wk+1 - wk)+
+
w∈WN(ω,ω)
k=1
{
}
+ min
b(ω + 1) +
u(wk+1 - wk)
w∈WN(ω,ω)
k=1
{
}
∑[
]
max
max
|b(wk+1) - b(wk)| - u(wk+1 - wk)+
+
ωω
w∈WN(ω,ω)
k=1
+ min
{b(ω + ω) + u(ω)}.
(14)
ω1
Заметим, что первое слагаемое в правой части этого неравенства можно выра-
зить через величины Δ(ωk+1, ωk), а второе - нет. Поэтому единственное, что можно
сделать в такой ситуации, это минимизировать по ω функцию
max{bN (ω) + p(ω)},
ω
где
∑[
]
= max
|b(wk+1) - b(wk)| - u(wk+1 - wk)+
w∈WN(ω)
k=1
Таким образом, приходим к следующему методу минимизации |b(ω)| + p(ω):
ω = argmin{bN (ω) + p(ω)}.
ω
Для этого алгоритма в силу (14) справедливо
Предложение. Для ω справедливо неравенство
|b(ω)| + p(ω)
{
}
N-1
min max
|b(wk+1) - b(wk)| + p(ω)
+ min{b(ω + 1) + u(ω)}.
ω w∈WN(ω)
ω
k=1
Доказательство. При ω = ω для первого слагаемого в правой части (14)
справедлива тривиальная граница сверху
∑[
]
max
|b(wk+1) - b(wk)| - u(wk+1 - wk)+
w∈WN(ω)
k=1
∑[
max
|b(wk+1) - b(wk)|,
w∈WN(ω)
k=1
101
а последнее слагаемое в (14) в силу монотонности
b(ω) оценивается сверху как
min{b(ω + ω) + u(ω)} ≤ min{b(ω + 1) + u(ω)}.
ω1
ω
Чтобы использовать этот подход для минимизации |B(ω; θ)| + σVh(ω) по наблю-
дениям Y , возьмем
b(ω) = B(ω; θ), p(ω) = σVh(ω),
и пусть
B(ω; θ) - любая невозрастающая огибающая |B(ω; θ)|.
Тогда в силу сказанного выше справедлива следующая граница сверху:
[
]
|B(ω; θ)| max
ϕ
ΔL(ws; θ); uws)
+ min{ B(ω; θ) + u(ω)};
(15)
w∈WN(ω)
ω
s=1
здесь
ΔL(ws; θ) = L(ws+1; θ) - L(ws; θ),
Δws = ws+1 - ws,
u(x): Z+ R+ - любая неубывающая функция, такая что u(0) = 0.
Функцию
ϕ(x, t) = [|x| - t]+, x ∈ R,
часто называют мягким пороговым ограничением (soft thresholding), а параметр
t > 0 - порогом. В статистике она обычно возникает и используется при оценивании
разреженных векторов. Эта функция обладает простыми, но полезными свойствами.
Например,
min ϕ(x + ξ; t) = ϕ(x; 2t),
|ξ|t
max ϕ(x + ξ; t) = ϕ(x; 0) = |x|.
|ξ|t
Далее потребуется несколько более общий факт, обобщающий эти тождества,
а именно следующая
Лемма 2. Справедливы неравенства
ϕ(x; 2t) - ϕ(ξ; t) ϕ(x + ξ; t) ϕ(x; 0) + ϕ(ξ; t).
Из вероятностных свойств мягкого порогового ограничения будет нужен только
один простой результат.
Лемма 3. Пусть W(·) - стандартный винеровский процесс. Тогда
[
]
E sup
ϕ
W (ω2) - W (ω1); Vh(ω2 - ω1)
CK2h,
ω21Ωh
ω2ω1
где величина Kh определена в (9), а C - некоторая константа.
Основная идея в этой статье - использовать первое слагаемое в правой части
неравенства (15) для выбора частоты среза на основе наблюдений. Взяв u(ω) =
= σVh(ω) и заменив величины ΔL(ws; θ) их несмещенными оценками
ΔL(ws; θ) =
L(ws+1; Y ) -
L(ws; Y ) = ΔL[ws; θ] + σ[W (ws+1) - W (ws)],
102
придем к
{
}
N-1
[
]
ωN (Y ) = argmin max
ϕ
ΔL(ws; Y ); σVhws)
+ σVh(ω)
(16)
ω∈Ωh w∈WN(ω)
s=1
Оценка линейного функционала L(θ) вычисляется, естественно, как
LN (Y ) =
L[ωN (Y ); Y ].
(17)
Задача контроля риска этого метода имеет довольно простое решение. Дело
в том, что с помощью лемм 2 и 3 она сводится к детерминированному случаю.
Точнее, из этих результатов сразу же вытекают следующие неравенства:
{
}
N-1
[
]
E max
ϕ
ΔL(ws; θ); σVhws)
+ σVh(ωN )
w∈WN(ωN)
s=1
{
}
N-1
[
]
E max
ϕ
ΔL(ws; θ); 2σVhws)
+ σVh(ωN )
- C(N - 1)σK2h
w∈WN(ωN)
s=1
и в силу (16) для любого ω ∈ Ωh
{
}
N-1
[
]
E max
ϕ
ΔL(ws; θ); σVhws)
+ σVh(ωN )
w∈WN(ωN)
s=1
∑
max
ΔL(ws; θ)+ σVh(ω) + C(N - 1)σK2h.
w∈WN(ω)
s=1
Поэтому очевидно, что для любого ω ∈ Ωh
{
}
N-1
[
]
E max
ϕ
ΔL(ws; θ); 2σVhws)
+ σVh(ωN )
w∈WN(ωN)
s=1
∑
max
ΔL(ws; θ)+ σVh(ω) + CNσK2h.
w∈WN(ω)
s=1
Отсюда и из (10) и (15) c u(ω) = 2σVh(ω) получаем
≤
EL(θ) -
LN (Y )
{
}
N-1
[
]
E max
ϕ
ΔL(ws; θ); 2σVhws)
+ σVh(ωN )
+
w∈WN(ωN)
s=1
+ min
{ B(ω; θ) + 2σVh(ω)} + σKh
ω∈Ωh
{
}
∑
min
max
ΔL(ws; θ)+ σVh(ω)
+
ω∈Ωh
w∈WN(ω)
s=1
+ min
{ B(ω; θ) + 2σVh(ω)} + CNσK2h.
(18)
ω∈Ωh
103
Более компактная, но несколько более грубая версия этого неравенства представ-
лена в следующей теореме. Определим огибающую
BN(ω; θ) следующим образом:
{
}
∑
= max
max
ΔL(ws; θ)
+ |B(w′′; θ)|
ω′′>ω w∈WN (ω′′)
s=1
Теорема 1. Для риска оценки
LN (Y ), определенной в (16), (17), справедливо
неравенство
EL(θ) -
LN (Y )≤ 3 min
{ BN(ω; θ) + σVh(ω)} + CNσK2h.
(19)
ω∈Ωh
Доказательство вытекает практически непосредственно из (18).
Замечание 1. По-видимому, константу 3 в (19) можно уменьшить (сделать близ-
кой к 1), но для этого потребуются более сложные вероятностные методы, чем ис-
пользуемые в этой статье.
Замечание 2. Если формально интерпретировать неравенство (19), то оно кажет-
ся в некоторой степени абсурдным, потому что чем больше N, тем хуже граница
сверху, и самая лучшая граница получается при N = 2. На самом деле ситуация
не столь очевидна. Дело в том, что эта граница является заведомо завышенной,
и если бы мы попытались ее улучшить (уменьшить постоянную 3 в (19)), то уви-
дели бы “правильную” зависимость от N. Результаты моделирования в следующем
параграфе подтверждают эту гипотезу.
Замечание 3. Для огибающей
BN(ω; θ) справедлива простая граница сверху
BN(ω; θ)
k|.
k=ω+1
Ее достаточно для доказательства многих классических минимаксных теорем, на-
пример, для множеств Θ, определенных в (3). Но если рассматривать байесовскую
постановку задачи, т.е. считать θk случайными величинами с нулевым средним, то
она может привести к плохой верхней границе для риска.
§ 3. Моделирование
Практическое сравнение непараметрических методов оценивания является без-
условно сложной задачей, не имеющей однозначно хорошего решения. Ее трудность
связана прежде всего с тем, что рассматриваемая статистическая модель описыва-
ется многомерным параметром.
Грубо говоря, подход, который наиболее часто встречается в литературе по мате-
матической статистике, состоит в том, что выбирается от двух до двенадцати много-
мерных параметров θ, и для них методом Монте-Карло (как правило, с небольшим
объемом выборки) вычисляются риски сравниваемых методов оценок. При таком
подходе очевидно, что сказать что-либо определенное о том, как поведут себя срав-
ниваемые методы при других параметрах, довольно затруднительно.
Чтобы охватить как можно более широкий класс неизвестных параметров, в этой
статье для сравнения оценок будем использовать байесовский подход. Как хорошо
известно, только он позволяет сравнивать статистические методы математически.
Наряду с этим неоспоримым преимуществом существенный недостаток байесовского
подхода заключается в том, что он зависит от априорного распределения многомер-
ного параметра. Поскольку очевидно, что никаких сколько-нибудь существенных
104
Гауссовское распределение θk
Равномерное распределение θk
1,3
1,4
ω2
ω2
ГЛ
1,3
ГЛ
1,2
Акаике
Акаике
оракул
1,2
оракул
1,1
1,1
1
1
0,9
0,9
0,8
0,8
0,7
0,7
0,6
0,6
0,5
0
50
100
150
200
250
300
0
50
100
150
200
250
300
A
A
Рис. 1. Нормированные риски адаптивных частот среза при β = 2. Левый график -
гауссовское распределение θk, правый - равномерное
аргументов в пользу выбора того или иного априорного распределения не суще-
ствует, мы будем рассматривать классы априорных распределений.
Конкретно, в этой статье для сравнения статистических методов используется
следующая стохастическая модель для θk: эти величины предполагаются независи-
мыми и представимыми в виде
A
θk =
ζk,
kβ
где ζk - случайные величины, имеющие либо стандартное гауссовское, либо равно-
мерное распределение. Параметр β характеризует скорость убывания θk, а A - их
амплитуду. Таким образом, мы описываем бесконечномерный параметр θ с помощью
пары положительных чисел A 0 и β > 1. Для простоты будем считать, что σ = 1,
но при этом изменять величину A, которая в этом случае играет роль отношения
сигнал/шум, будем в достаточно широком диапазоне.
Далее сравним с помощью байесовского подхода три следующих метода адаптив-
ного, т.е. основанного на наблюдениях, выбора частоты среза:
1. Метод Акаике ωA(Y ) из (6).
2. Метод, предложенный Гольденшлюгером и Лепским (ГЛ) в [5].
3. Оценки
L2(Y ) и
L3(Y ) из (16), (17).
То, что метод Акаике можно применять не только для оценивания векторов, но
также и линейных функционалов, было показано в [7]. При этом принципиально
важно, чтобы θk были случайными величинами с нулевым средним.
В методе ГЛ частота среза вычисляется как
{
}
[
]
ωGL(Y ) = arg min
max
|L(w; Y ) - L(w; Y )| - σVh(w)+ + σVh(w)
w
w>w
Отметим, что мы немного упростили и оптимизировали оригинальный метод из [5].
При этом была использована работа [8].
На рис. 1 показаны нормированные риски трех описанных выше методов выбора
частоты среза, а именно ωA(Y ), ωGL(Y ) и ω2(Y ) как функции от амплитуды A при
β = 2. В качестве нормировки был использован риск частоты среза ω(θ) из (11),
выбираемой оракулом. Другими словами, для каждого из описанных выше методов
105
Гауссовское распределение θk
Равномерное распределение θk
1,3
2,2
ω2
ω2
ГЛ
2
ГЛ
1,2
Акаике
Акаике
оракул
оракул
1,8
1,1
1,6
1
1,4
1,2
0,9
1
0,8
0,8
0,7
0,6
0
50
100
150
200
250
300
0
50
100
150
200
250
300
A
A
Рис. 2. Нормированные риски адаптивных частот среза при β = 1,1. Левый график -
гауссовское распределение θk, правый - равномерное
на этом рисунке показаны графики функций
EL(θ)- L[ω(Y ); Y ]
ρ(A) =
;
EL(θ) -
L[ω(θ); Y ]
здесь математическое ожидание вычисляется по совместному распределению слу-
чайных величин Yk, θk, k = 1, 2, . . . , с помощью метода Монте-Карло с объемом
выборки 3 · 104. Из этого рисунка, в частности, видно, что все три метода практи-
чески эквивалентны. Они в некотором смысле являются суперэффективными, так
как выбирают частоту среза лучше, чем это делает оракул. К сожалению, этот эф-
фект невозможно объяснить на основе результатов статьи. Он связан с тем, что θk
случайны.
На рис. 2 показаны те же самые нормированные риски, но при β = 1,1. Мы
видим, что при гауссовских θk метод Акаике является лучшим, что в силу результа-
тов [7] неудивительно. В случае же равномерного распределения его оптимальность
естественно теряется, так как в этом случае θk уже не имеют нулевого среднего.
Завершим этот параграф кратким сравнением оценок
L2(Y ) и L3(Y ). Из правого
графика на рис. 2 видно, что оценка
L2(Y ) проигрывает методу Акаике при гаус-
совских ζk и β = 1,1. Естественный вопрос - что будет происходить, если вместо
этой оценки использовать
L3(Y )? Как видно из левого графика на рис. 3, оценка
L3(Y ) оказывается лучше, чем
L2(Y ). При этом надо отметить, что, во-первых, ре-
альное улучшение не очень велико, а во-вторых, вычислительная сложность
L3(Y )
существенно выше. Поэтому оценки
LN(Y ) при N > 3 представляют скорее тео-
ретический интерес. Для большинства практических задач
L2(Y ) и
L3(Y ) являют-
ся разумными компромиссами между статистическим качеством и вычислительной
сложностью.
§ 4. Некоторые возможные обобщения
В этом параграфе кратко обсудим некоторые практически очевидные обобщения
рассмотренной задачи, которые не влекут кардинального изменения предлагаемого
метода оценивания.
1. Статистическая модель. Сама по себе статистическая модель (1) практически
никогда не возникает в реальных статистических задачах. По существу, она пред-
106
Гауссовское распределение θk
Равномерное распределение θk
1,3
2,2
ω2
ω2
ω3
2
ω3
1,2
Акаике
Акаике
оракул
оракул
1,8
1,1
1,6
1
1,4
1,2
0,9
1
0,8
0,8
0,7
0,6
0
50
100
150
200
250
300
0
50
100
150
200
250
300
A
A
Рис. 3. Сравнение рисков оценок
L2(Y ), L3(Y ) и метода Акаике при β = 1,1. Левый
график - гауссовское распределение θk, правый - равномерное
ставляет собой так называемое спектральное представление линейных моделей боль-
шой размерности, имеющих очень широкие практические применения. Речь идет о
моделях, в которых наблюдаемые данные Z ∈ Rn описываются следующей вероят-
ностной моделью:
Z =+σξ,
(20)
где X - известная (n×m)-матрица, β ∈ Rm - неизвестный вектор, а ξ - стандартный
дискретный белый гауссовский шум. При этом размерности n и m, как правило,
велики и таковы, что n m. В частности, они могут быть равны.
Эта модель приводится к (1) с помощью метода главных компонент. А именно,
пусть ek Rm и λk R+ - соответственно, собственные векторы и собственные
числа матрицы XX:
XXek = λkek, k = 1, . . ., m.
Для определенности будем считать, что
λ1 λ2 . . . λm.
Тогда
XX = λkeke⊤k
k=1
и
XZ = λkek〈ek, β〉 + σξ;
k=1
здесь 〈· , ·〉 - скалярное произведение в Rm.
Поэтому для Yk = 〈ek, XZ〉 получаем следующее представление:
Yk = λk〈ek, β〉 + σξk, k = 1, . . ., m,
и положив
θk = λk〈ek, β〉,
(21)
107
приходим к (1).
2. Линейные функционалы. Прежде всего заметим, что в доказательстве тео-
ремы 1 практически ничего не изменится, если вместо линейного функционала
L(θ) =
θk оценивать линейный функционал
k=1
L(θ) =
lkθk,
(22)
k=1
где lk таковы, что для всех ω
l2k;
(23)
k=1
здесь и далее c, C - некоторые строго положительные постоянные. При этом надо,
естественно, сделать замену (см. (8))
( t
)
Vh(t) → Vh
l2k
k=1
Для линейной модели (20) семейство линейных функционалов из (22), (23) до-
пускает следующее представление (см. (21)):
LX(β) = lkλk〈ek, β〉 =
lk〈ek, XXβ〉 = 〈l, XXβ〉,
k=1
k=1
где вектор l ∈ R+ таков, что
cs
〈l, ek2 Cs.
k=1
3. Семейства оценок. Чтобы использовать проекционные оценки для оценивания
линейных функционалов в модели (20), необходимо вычислять собственные векто-
ры большой матрицы XX. Эта и так достаточно непростая в вычислительном
отношении задача станет очень сложной, если матрица XX окажется плохо обу-
словленной.
Один из возможных подходов к решению этой проблемы состоит в замене проек-
ционных оценок на упорядоченные [3]. Это несколько более общий класс статисти-
ческих методов, и в нем уже содержатся оценки, которые по своим статистическим
свойствам так же хороши, как и проекционные, но не требуют применения метода
главных компонент.
Очень кратко, упорядоченная оценка вектора β имеет вид
β(α; Y ) = H(XX, α)(XX)-1+XY ;
здесь
(XX)-1+ - псевдообратная матрица к (XX);
H(XX,α) - некоторая специальная матрица, которая зависит от сглаживаю-
щего параметра α ∈ R+ и допускает следующее представление:
Hα(XX, α) = H(λk, α)eke⊤k.
k=1
108
При этом функция H(· , α): R+ [0, 1] такова, что при любых фиксированных
α1, α2 R+ и всех λ ∈ R+
либо H(λ, α1) H(λ, α2), либо H(λ, α1) H(λ, α2).
Кроме того, как правило,
lim H(λ, α) = 0, α > 0,
λ→0
lim H(λ, α) = 1, λ > 0.
α→0
Оценки
β(α; Y ) порождают, естественно, следующее семейство оценок линейного
функционала LX(β):
4
LX(α; Y ) =
β(Y ; α), XXl
,
α∈R+.
Метод выбора наилучшей оценки в этом семействе совершенно аналогичен рас-
смотренному ранее. Для его статистического анализа требуются некоторые допол-
нительные свойства упорядоченных оценок, которые можно найти, например, в [3]
или [9].
4. Функция потерь. В этой статье качество оценивания линейного функциона-
ла измерялось величиной E |L(Y ) - L(θ)|. Переход к другим потерям, например,
[
]1/p
к
E|L(Y ) - L(θ)|p
, p 1, не влечет принципиальных и больших изменений.
Единственное, что меняется, - это функция Vh(t). Новая функция Vh,p(t) будет те-
перь определяться из условия (см. лемму 3)
{
[
E sup
ϕ
W (ω2) - W (ω1); Vh,p(ω2 - ω1)]}p (CK2h)p.
ω21Ωh
ω2ω1
Ее вычисление очень просто, и мы его опустим.
§ 5. Доказательства
Доказательство леммы 1. Воспользуемся тривиальным неравенством
[
]
[
]
E sup
|W (t)| - Vh(t)+
E
|W (t)| - Vh(t)+
t∈Ω
h
t∈Ωh
]
√ωk E[|ξ| -vh(ωk)+;
(24)
k=1
здесь ξ - стандартная гауссовская случайная величина.
Далее применим известное неравенство
(
2
x2 )
E[|ξ| - x]+
exp -
,
x2
2π
2
которое нетрудно проверить с помощью интегрирования по частям.
109
t = 1, x = 3,5
t = 1, x = 0,5
12
8
10
6
8
4
6
2
4
F (ξ)
F (ξ)
g(ξ)
0
g(ξ)
2
G(ξ)
G(ξ)
-2
0
-4
-2
-4
-6
-6
-8
-8
-6
-4
-2
0
2
4
6
8
-8
-6
-4
-2
0
2
4
6
8
ξ
ξ
Рис. 4. Графики функций F (ξ), g(ξ) и G(ξ) при t = 1, x = 3,5 и при t = 1, x = 0,5
Обозначив для краткости ε = 1/ log(1 + 1/h), с помощью этого неравенства про-
должим (24) следующим образом:
[
]
[
]
√ωk
vh(ωk)
E sup
|W (t)| - Vh(t)+ K
exp -
t∈Ωh
vh(ωk)
2
k=1
1
1
K
K log(1 + 1/h)
K
K
(25)
[log(ωk)]1+ε
(hk)1+ε
ε(h)1+ε
h
k=1
k=1
Доказательство леммы 2. Рассмотрим следующие функции:
F (ξ) = ϕ(x + ξ; t),
g(ξ) = ϕ(x; 2t) - ϕ(ξ; t),
G(ξ) = ϕ(x; 0) + ϕ(ξ; t).
Проще всего проверить, что g(ξ) F(ξ) G(ξ), посмотрев на графики этих функ-
ций на рис. 4.
Доказательство леммы 3 практически аналогично доказательству лем-
мы 1 и приводится здесь только для полноты изложения. Пусть, как и ранее, ε =
= log-1(1 + h-1). Тогда аналогично (25) получим
[
]
E sup supϕ
W (t) - W (ω);
(t - ω)vh(t - ω)
ω∈Ωh t>ω
∑∑
]
[
E
ϕ
W (ωk) - W (ωs);
(ωk - ωs)vh(ωk - ωs)
=
+
s=1 k>s
[
]
√ωk - ωs
vh(ωk - ωs)
=C
exp -
vh(ωk - ωs)
2
s=1 k=s+1
1
1
C
C
1+ε
[log(ωk - ωs)]
log1+ε[(1 + h)k - (1 + h)s)]
s=1 k=s+1
s=1 k=s+1
]2
[
1
C
C
=CK2h.
(hs)1+ε
ε2h2+2ε
s=1
110
В заключение автор хотел бы поблагодарить рецензента за сделанные замечания,
способствовавшие улучшению статьи.
СПИСОК ЛИТЕРАТУРЫ
1. Ибрагимов И.А., Хасьминский Р.З. О непараметрическом оценивании значения линей-
ного функционала в гауссовском белом шуме // Теория вероятн. и ее примен. 1984. Т. 29.
№ 1. С. 19-32.
2. Akaike H. Information Theory and an Extension of the Maximum Likelihood Principle //
Proc. 2nd Int. Symp. on Information Theory. Tsaghkadsor, Armenia, USSR. Sept. 2-8, 1971.
Budapest: Akad. Kiadó, 1973. P. 267-281.
3. Kneip A. Ordered Linear Smoothers // Ann. Statist. 1994. V. 22. № 2. P. 835-866.
4. Лепский О.В. Об одной задаче адаптивного оценивания в гауссовском белом шуме //
Теория вероятн. и ее примен. 1990. Т. 35. № 3. С. 459-470.
5. Goldenshluger A., Lepski O. Universal Pointwise Selection Rule in Multivariate Function
Estimation // Bernoulli. 2008. V. 14. № 4. P. 1150-1190.
6. Laurent B., Ludeña C., Prieur C. Adaptive Estimation of Linear Functionals by Model
Selection // Electron. J. Stat. 2008. V. 2. P. 993-1020.
7. Golubev Yu., Levit B. An Oracle Approach to Adaptive Estimation of Linear Functionals
in a Gaussian Model // Math. Methods Statist. 2004. V. 13. № 4. P. 392-408.
8. Lacour C., Massart P. Minimal Penalty for Goldenshluger-Lepski Method // Stochastic
Process. Appl. 2016. V. 126. № 12. P. 3774-3789.
9. Голубев Г.К. Концентрации рисков выпуклых комбинаций линейных оценок // Пробл.
передачи информ. 2016. Т. 52. № 4. С. 31-48.
Голубев Георгий Ксенофонтович
Поступила в редакцию
Институт проблем передачи информации
14.02.2020
им. А.А. Харкевича РАН
После доработки
golubev.yuri@gmail.com
25.02.2020
Принята к публикации
28.02.2020
111