ПРОБЛЕМЫ ПЕРЕДАЧИ ИНФОРМАЦИИ
Том 56
2020
Вып. 2
УДК 621.391.1 : 519.2
© 2020 г.
М.В. Бурнашев
НОВЫЕ ГРАНИЦЫ В ЗАДАЧЕ ПРОВЕРКИ ГИПОТЕЗ
С ИНФОРМАЦИОННЫМИ ОГРАНИЧЕНИЯМИ1
Рассматривается задача проверки гипотез, в которой мы не можем наблю-
дать часть данных. Наш помощник наблюдает пропущенные данные и может
передать нам некоторую ограниченную информацию о них. Какая ограничен-
ная информация позволит нам сделать наилучшие статистические выводы?
В частности, какая минимальная информация достаточна для получения тех
же результатов, как если бы мы непосредственно наблюдали все данные? По-
лучены оценки для величины этой минимальной информации и некоторые по-
добные результаты.
Ключевые слова: проверка гипотез, информационные ограничения, вероятности
ошибки.
DOI: 10.31857/S0555292320020023
§ 1. Введение и основные результаты
1. Постановка задачи. Как и в [1,2], на длине n рассматривается двоичный сим-
метричный канал ДСК(p) с входным и выходным алфавитами E = {0, 1} и неизвест-
ной переходной вероятностью p. Для различения входного и выходного множеств
блоков En = {0, 1}n канала будем обозначать их через Enin и Enout соответственно.
Относительно величины p имеются две гипотезы (одна из которых верна): H0 : p = p0
и H1: p = p1, где 0 < p0,p11/2.
Обозначим через P(y |x) и Q(y |x) вероятности получить на выходе канала блок
y = (y1,...,yn) при условии, что входным был блок x = (x1,...,xn) для гипотез H0
и H1 соответственно. Тогда
P(y | x) = (1 - p0)n-d(x,y)pd(x,y)0, Q(y | x) = (1 - p1)n-d(x,y)pd(x,y)1,
где d(x, y) - расстояние Хэмминга между блоками x и y (т.е. число несовпадающих
компонент этих векторов на всей длине n).
Рассматривается следующая задача минимаксного различения гипотез H0 и H1.
Мы (т.е. “статистик”) наблюдаем только блок y ∈ Enout на выходе канала, а наш по-
мощник (“helper”) наблюдает только блок x ∈ Enin на входе канала. Предполагается,
что у нас нет никакой априорной информации о входном блоке x. Ясно, что основы-
ваясь только на выходном блоке y, мы не можем сделать никаких содержательных
заключений относительно неизвестной величины p.
Предположим далее, что для заданной величины R > 0 нашему помощнику раз-
решается заранее разбить все входное пространство Enin = {0, 1}n на N 2Rn произ-
вольных частей {X1, . . ., XN } и сообщить нам (каким-то дополнительным образом)
1 Работа выполнена при частичной финансовой поддержке Российского фонда фундаментальных
исследований (номер проекта 19-01-00364).
64
только то, какой части Xi принадлежит входной блок x. Ясно, что только случай
N < 2n, т.е. R < 1, является интересным (иначе помощник может просто сообщить
нам блок x).
Например, помощник может сообщить статистику точные значения первых Rn
величин x1, . . . , xRn (но тогда ничего не сообщить о последующих величинах xi).
Однако такой простой способ разбиения входного пространства Enin (на цилиндри-
ческие множества {Xi}) не является, вообще говоря, оптимальным. С точки зрения
статистика входные данные (x1, . . . , xn) представляют собой очень сильный мешаю-
щий вектор.
Есть много практических ситуаций, где встречается подобная задача. Например,
в некоторых приложениях входной блок x ∈ Enin представляет собой “мешающий
шум”, который “загрязнил” выходной блок y ∈ Enout, и поэтому нам хотелось бы
“уменьшить” (по возможности) это “загрязнение”, для того чтобы улучшить стати-
стические выводы. Конечно, при этом очень важно качество канала связи от помощ-
ника к статистику. Для упрощения задачи мы рассматриваем здесь только идеали-
зированный случай бесшумного канала с ограниченной пропускной способностью.
Можно также сказать, что оптимальная ограниченная информация о блоке
x ∈ Enin означает оптимальное “сжатие” полной информации о блоке x. Конечно,
это оптимальное “сжатие” зависит от имеющейся априорной информации о переход-
ной вероятности p и используемого критерия качества.
Замечание 1. Ясно, что задача не изменится, если, наоборот, статистик наблю-
дает вход, а помощник - выход канала.
Основываясь на наблюдении y ∈ Enout и номере (индексе) i части Xi, статистик
принимает решение в пользу одной из гипотез H0 или H1. Для того чтобы избежать
излишних усложнений, рассмотрим только нерандомизованные методы принятия
решения (при этом существо задачи и результаты сохраняются).
Нас интересуют разбиения {X1, . . ., XN } и методы принятия решения, которые
являются асимптотически (при n → ∞) оптимальными. Аналогичные, но значи-
тельно более общие постановки такой задачи рассматривались, например, в [3-8].
Замечание 2. Забегая вперед, отметим, что насколько нам известно, все резуль-
таты в этой области (см., например, [1-8]) имеют вид “можно получить следующие
характеристики проверки гипотез: . . . ”. Нашей целью являются противоположные
результаты, т.е. показать, что “нельзя получить характеристики лучше, чем . . . ”.
Всюду далее log x = log2 x. Введем шары и сферы в En:
Bx(p) = {u : d(x, u) pn},
x, u ∈ En.
(1)
Sx(p) = {u : d(x, u) = pn},
2. Экспоненты вероятностей ошибки и дуальная задача. Пусть выбрано разби-
ение {X1, . . . , XN } входного пространства Enin = {0, 1}n. Тогда общее правило при-
нятия решения можно описать следующим образом. Для каждого элемента разби-
ения Xi выбирается некоторое множество A(Xi) ⊂ Enout, и далее, основываясь на
наблюдении y и известном Xi, принимается решение (Ac = Enout \ A):
y ∈ A(Xi) =⇒ H0, y ∈ Ac(Xi) =⇒ H1.
Определим вероятности ошибки 1-го рода αn и 2-го рода βn:
αn = Pr(H1 |H0) = max
max P (Ac(Xi) | x) ,
i=1,...,N
x∈Xi
βn = Pr(H0 |H1) = max
max Q (A(Xi) | x) .
i=1,...,N
x∈Xi
65
Пусть далее γ 0 - заданная величина. Будем требовать, чтобы для вероятности
ошибки 1-го рода αn выполнялось условие
αn = Pr(H1 |H0) 2-γn.
(2)
Нас интересует минимально возможная (по всем разбиениям {Xi} входного про-
странства Enin и всем решениям) вероятность ошибки 2-го рода min βn. Мы иссле-
дуем асимптотический случай, когда n → ∞ и N = 2Rn, где 0 < R < 1 - заданная
постоянная2. Тогда для наилучших разбиения {Xi} и решения обозначим
1
1
e(γ, R) = lim
log2
> 0,
(3)
n→∞ n
min βn
где минимум берется по всем разбиениям {Xi} и решениям, удовлетворяющим усло-
вию (2).
Основной нашей целью являются оценки сверху для функции e(γ, R) (оценки
снизу см. в [1]). В данной статье мы ограничиваемся случаем γ → 0, исследуя функ-
цию e(0, R) = e(R) и связанную с ней функцию rcrit(p0, p1) (иногда этот случай
называют задачей Неймана - Пирсона). В отдельной работе мы рассмотрим случай
γ > 0.
Для нас будет удобно рассмотреть также эквивалентную дуальную задачу (без
помощника). Пусть задана величина r, 0 < r < 1, и нам разрешается заранее вы-
брать любое множество X ⊂ Enin, состоящее из X = 2rn входных блоков. Известно
также, что входной блок x принадлежит выбранному множеству X . Мы наблюдаем
выход канала y и, зная множество X , рассматриваем задачу проверки гипотез H0
и H1. Далее мы выбираем множество A и в зависимости от наблюдения y принимаем
решение:
y ∈ A =⇒ H0, y ∈ Ac =⇒ H1.
Вероятности ошибок 1-го рода αn и 2-го рода βn определяются как
αn = maxP (Ac | x) , βn = max Q (A | x) .
x∈X
x∈X
Пусть для вероятности ошибки 1-го рода αn выполняется условие (2), и мы хотим
выбрать множество X ⊂ Enin мощности X = 2rn и правило принятия решения та-
ким образом, чтобы достичь минимально возможной вероятности ошибки 2-го рода
min βn. Для этой дуальной задачи аналогично (3) определим функцию
1
1
ed(γ, r) = lim
log2
> 0,
(4)
n→∞ n
min βn
где минимум берется по всем множествам X ⊂ Enin мощности X = 2rn и всем реше-
ниям.
Следующий результат устанавливает простую связь между функциями e(γ, R) и
ed(γ, r).
Предложение 1 [1, предложение 1]. Справедливо соотношение
e(γ, 1 - R) = ed(γ, R),
0 R 1, γ0.
(5)
В силу предложения 1 и формулы (5) достаточно исследовать функцию ed(γ, r).
В данной статье мы ограничимся случаем γ → 0, исследуя функцию ed(0, r).
2 Для упрощения формул здесь и далее не будем использовать знак целой части.
66
Замечание 3. По существу в статье рассматривается случай, когда распределе-
ния P (x, y) и Q(x, y) имеют вид P (x, y) = p(x)P (y | x) и Q(x, y) = p(x)Q(y | x), где
распределение p(x) одно и то же для P (x, y) и Q(x, y). В более общей постановке
задачи это может быть не так.
3. Известный входной блок. Предположим, что мы знаем входной блок x ∈ Enin
(тогда можно считать, что x = 0) и наблюдаем выходной блок y ∈ Enout. Если тре-
буется только αn 0, n → ∞ (т.е. γ = 0), и нас интересует только экспонента (по n)
вероятности ошибки 2-го рода βn, то при n → ∞ в силу центральной предельной
теоремы (или в силу леммы Неймана - Пирсона) оптимальным множеством реше-
ния в пользу H0 (т.е. p0) является сферический слой B0(p0 + δ) \ B0(p0 - δ) в Enout
(см. (1)), где δ > 0 мало. Тогда для экспоненты (по n) вероятности ошибки 2-го
рода βn имеем
[(
)
]
1
1
n
log βn =
log
(1 - p1)(1-p0)npp0n
1
+ o(1), n → ∞,
n
n
p0n
и поэтому при n → ∞ получаем
1
1
log
= -(1 - p0)log(1 - p1) - p0 log p1 - h(p0) + o(1) = D(p0 ∥p1) + o(1),
(6)
n
βn
где h(p) = -p log p - (1 - p) log(1 - p) и
a
1-a
D(a ∥ b) = a log
+ (1 - a) log
(7)
b
1-b
Замечание 4. Величина D(a∥b) из (7) представляет собой расхождение (diver-
gence) для двух бернуллиевских случайных величин с параметрами a и b соответ-
ственно. В русскоязычной литературе D(a ∥ b) чаще называется расстоянием Куль-
бака - Лейблера. Величина D(a∥b) дает наилучшую экспоненту для вероятности
ошибки 2-го рода при заданной вероятности ошибки 1-го рода (т.е. когда ее экс-
понента равна нулю) при проверке простой гипотезы H0 : p = a против простой
альтернативы H1 : p = b.
При γ = r = 0 для величины ed(0, 0) (см. (4)) из (6) получаем
ed(0, 0) = D(p1 ∥p0).
(8)
4. Неизвестный входной блок и критическая скорость. Если мы знаем входной
блок x ∈ Enin и αn 0, то наилучшая экспонента ed(0, 0) вероятности ошибки 2-го
рода βn дается формулой (8).
Если же мы знаем только, что входной блок x принадлежит множеству X ⊆ Enin
мощности X ∼ 2rn, то для наилучшего такого множества X экспонента ed(0, r)
вероятности ошибки 2-го рода βn определяется формулой (4). Ясно, что
ed(γ, r) ed(γ, 0), γ 0,
0 r 1.
(9)
Функция ed(γ, r) не возрастает по r. Поэтому возникает естественный вопрос:
существует ли r(γ) > 0, для которого в (9) выполняется равенство, и если да, то
какова максимальная такая скорость rcrit(γ)? Ограничиваясь случаем γ = 0, опре-
делим rcrit(p0, p1) = rcrit(p0, p1, 0) как (см. (8))
rcrit = rcrit(p0, p1) = sup{r : ed(0, r) = ed(0, 0) = D(p0 ∥ p1)}.
(10)
Иными словами, какова наибольшая мощность 2rn “наилучшего” множества X ,
для которого можно достичь такой же асимптотической эффективности, как и при
известном входном блоке x (хотя мы и не знаем входной блок x)?
67
Аналогично введем критическую скорость Rcrit для исходной задачи (см. (3))
Rcrit(p0, p1) = inf{R : e(0, R) = e(0, 1) = D(p0 ∥p1)}.
(11)
В силу предложения 1 и (11) имеем
Rcrit(p0, p1) = 1 - rcrit(p0, p1).
(12)
Основной результат статьи составляет
Теорема 1. Если p1 < p0 1/2, то существует p1(p0) p0, такое что для
любого p1 p1(p0) справедлива формула
rcrit(p0, p1) = 1 - Rcrit(p0, p1) = 1 - h(p0),
0 < p1p1 < p01/2.
(13)
Замечание 5. Хотя величина rcrit(p0, p1) в (13) совпадает с пропускной способ-
ностью канала ДСК(p0), ее происхождение (10) связано с функцией ed(0, r), ана-
логичной функции надежности E(r, p) в теории информации [9, 10]. При этом точ-
ный вид функции E(r, p) до сих пор известен только частично [11]. Поэтому, как и
в [11-13], в доказательстве теоремы 1 используются достаточно недавние результа-
ты о спектре двоичных кодов. Полное описание функции ed(γ, r) выглядит трудной
задачей.
В §2 приводится граница снизу для rcrit (предложение 2). В §3 выводится общая
формула для вероятности ошибки 2-го рода βn (лемма 1). В § 4, используя метод
“двух гипотез”, доказывается теорема 1. Но граница сверху (13) для rcrit, вообще
говоря, слабее соответствующей границы снизу из § 2. В § 5 с помощью дополни-
тельных комбинаторных соображений выводится еще одна граница сверху для rcrit
(предложение 3). В § 6 показывается точность границы снизу для rcrit из предложе-
ния 2 при условии, что выполняется некоторое дополнительное условие. В Прило-
жении приводятся некоторые необходимые аналитические результаты.
В статье f ∼ g означает, что n-1 lnf = n-1 lng + o(1), n → ∞, а f g означает
n-1 lnf n-1 lng + o(1), n → ∞.
§ 2. Граница снизу для rcrit
Следующий результат следует из [1, предложение 2].
Предложение 2. Для rcrit(p0,p1) справедливы оценки снизу
rcrit(p0, p1) 1 - h(p0), если
0 < p1 < p01/2,
(14)
и
rcrit(p0, p1) 1 - h(p0) - D(p0 ∥ p1), если
0 < p0 < p11/2.
(15)
Доказательство. Для заданного r, 0 < r < 1, выберем случайно и равно-
вероятно множество X из X = 2rn входных блоков x. В [1, предложение 2] было
показано, что если p0 < p1 1/2, то для любого τ, p0 τ p1, существует множе-
ство X и метод принятия решения, для которого выполняются неравенства
1
1
1
1
log
D(τ ∥p0),
log
min{D(τ ∥ p1), 1 - h(τ) - r}.
(16)
n
αn
n
βn
Если достаточно иметь αn 0, n → ∞, то полагая в (16) τ = p0, из (10) получа-
ем (15).
68
Аналогично, если p1 < p0 1/2, то меняя в (16) местами p0 с p1 и αn с βn, для
любого τ имеем
1
1
1
1
log
min{D(τ ∥ p0), 1 - h(τ) - r},
log
D(τ ∥p1).
(17)
n
αn
n
βn
Если αn 0, n → ∞, то полагая в (17) τ = p0, из (10) получаем (14).
§3. Общая формула для вероятности ошибки 2-го рода βn
Пусть Cn(r) = {x1, . . . , xM } - множество (код) из M = 2rn различных входных
(кодовых) блоков. Для кода Cn(r) и вероятности ошибки 1-го рода αn обозначим
через D0 = D0(Cn, αn) ⊆ Enout оптимальное множество решения в пользу H0, мини-
мизирующее вероятность ошибки 2-го рода βn. Хотя множество D0 имеет довольно
сложный вид, можно установить некоторые его свойства, достаточные для доказа-
тельства теоремы 1.
Выберем малое δ > 0, и для каждого xk, k = 1, . . . , M, введем сферический слой
вEnout
SLxk(p0) = Bxk(p0 + δ) \ Bxk(p0 - δ) = {u : |d(xk,u) - p0n| δn},
(18)
где Bx(p) определено в (1). Для каждого xk введем также множество
Dxk(δ) = D0 ∩ SLx
k
(p0, δ).
(19)
Так как необходимо иметь αn 0, n → ∞, то оптимальное множество D0 содержит
“существенную” часть каждого множества SLxk(p0, δ), k = 1, . . ., M. Для того чтобы
оценить это, заметим, что для любых xk и u, z ∈ SLx
k
(p0, δ) имеем
)d(z,xk)-d(u,xk)
P(u | p0, xk)
(q0
=
(q0)2δn, q0 =1-p0.
(20)
P(z | p0, xk)
p0
p0
По экспоненциальному неравенству Чебышева (граница Чернова) для любого xk и
малых δ > 0 получаем
2
log P{u ∈ SLxk (p0, δ) | xk, p0} -
(21)
2p0q0
Тогда в силу (18), (19) и (21) для любого xk имеем
P{Dxk(δ)|p0, xk} 1 - P{u ∈ D0 |p0, xk} - P{u ∈ SLx
k
(p0, δ) | p0, xk}
1n -e-n2δ2/(2p0q0),
(22)
а в силу (20) также имеем
δ1|SLx
k
(p0, δ)| |Dxk (δ)| |SLxk (p0, δ)|,
(
)2δn
(
)
p0
(23)
δ1 =
1n -e-n2δ2/(2p0q0)
q0
69
Так как Dx
k
(δ) ⊆ D0 для любого xk, то в силу (19), (22) и (23) для вероятности
P(e | p1, xi) имеем
{
}
P(e | p1, xi) = P{D0 | p1, xi} ∼ P
Dx
(δ) | p1, xk
k
k=1
{
}
∼δ1P
SLx
(p0, δ) | p1, xi
(24)
k
k=1
Для t > 0 и каждого xi введем множество
Dxi(t, p) =
= {u : существует xk = xi, такое что d(xi, u) = tn, d(xk, u) = pn} .
(25)
Лемма 1. Для вероятности ошибки 2-го рода βn кода Cn = {x1,...,xM} и оп-
тимального решения D0 в пользу H0 при n → ∞ справедлива формула
{
[
]
}
log βn
1
1
max
log
|Dx
i
(t, p0)|
+ tlogp1 + (1 - t)log(1 - p1)
(26)
n
t>0
n
M
i=1
Критическая скорость rcrit(p0, p1) определяется формулой (M = 2rn)
rcrit(p0, p1) = sup {r : F (p0, p1, r) 0} = inf {r : F (p0, p1, r) > 0} ,
(27)
где
F (p0, p1, r) = lim
min
maxF (p0, p1, r, Cn, t),
n→∞
|Cn|M
t
[
]
(28)
1
1-p1
F (p0, p1, r, Cn, t) =
log
|Dxi (t, p0)|
+ (p0 - t) log
- r - h(p0).
n
p1
i=1
Доказательство. Используя (24) при δ = o(1) и δ1 = eo(n) при n → ∞, имеем
1
βn = max
P(e | p1, xi)
P(e | p1, xi)
i
M
i=1
{
}
δ1
P
SLxk(p0)p1, xi
(29)
M
i=1
k=1
Из (25) и (26) для каждого xi
{
}
}
{⋃
P
SLxk(p0)p1, xi
P
Dxi(t, p0)p1, xi
k=1
t>0
{
}
max
ptn1(1 - p1)(1-t)n|Dx
(t, p0|
(30)
i
t>0
Поэтому из (29) и (30) следует формула (26).
Так как
P{SLxi(p0, δ)|p1, xi} ∼ P{d(xi, u) p0n|p1, xi} ∼ 2-D(p0 ∥p1)n,
то правая часть (26) возрастает по r (т.е. по M = 2rn), начиная с -D(p1 ∥p0). По-
этому из (6) и (26) следует, что критическая скорость rcrit равна максимальной
70
скорости r, такой что
{
[
]
}
M
1
minmax
log
|Dxi (t, p0)|
+ tlogp1 + (1 - t)log(1 - p1)
-r
{xi}
t>0
n
i=1
-D(p0 ∥p1).
(31)
Заметим, что
1-p1
D(p0 ∥ p1) + t log p1 + (1 - t) log(1 - p1) = -h(p0) + (p0 - t) log
(32)
p1
Из (31) и (32) следуют формулы (27), (28).
Отметим, в частности, что из (53) при t = p0 имеем
F (p0, p1, r, Cn, p0) = o(1), n → ∞.
В анализе соотношений (27), (28) основную трудность составляет оценка мощно-
стей |Dx
i
(t, p0)| в (28), которые зависят от геометрии кода Cn. Аналогичная проблема
возникала в [11-13] при исследовании функции надежности E(R, p) канала ДСК(p).
Прямая оценка этих мощностей ведет к весьма громоздким формулам.
§ 4. Граница сверху для rcrit: две гипотезы
Получим простую (но не очень точную) оценку сверху для rcrit(p0, p1), используя
популярный в математической статистике (чаще в теории оценивания) метод “двух
гипотез”. Используя для этого формулу (26), выберем из кода Cn(r) = {x1, . . . , xM },
M = 2rn, какие-либо два кодовых слова, скажем, x1 и x2 с d(x1,x2) = ωn. Можно
считать, что для скорости r > 0 величина ω удовлетворяет ограничениям
0 < ω ωmin(r),
где величина ωmin(r) будет определена далее. Заменим код Cn(r) кодом C из двух
выбранных кодовых слов C = {x1, x2}. Тогда βn(C) βn(C). Аналогично (29), (30)
имеем
{
}
βn(C) 2-D(p0 ∥p1)n + P
SLx2(p0)p1, x1
Нас интересует, когда для x1, x2 справедливо неравенство
1
{
}
log P
SLx2(p0)p1, x1
> -D(p0 ∥p1).
(33)
n
Оценим вероятность в левой части (33). Для d(xi, xk) = ωn обозначим
Sxi,xk (t, p, ω) = {u : d(xi, u) = tn, d(xk, u) = pn, d(xi, xk) = ωn}.
(34)
Тогда (см. Приложение)
1
log |Sxi,xk (t, p, ω)| = g(t, p, ω) + o(1), n → ∞,
n
(35)
1
{
}
1-p1
log P
Sxi,xk (t, p, ω)p1, xi
= g(t, p, ω) - t log
+ log(1 - p1) + o(1),
n
p1
71
где g(t, p, ω) определено в (78). Поэтому при n → ∞ (см. (76), (77))
1
{
}
log P
SLx
2
(p0, δ)p1, x1
=
n
1
{
}
=
maxlog P
Sx
1,x2 (t,p0)
p1, x1
+ o(1) = f(p0, p1, ω) + o(1),
(36)
n
t
где
f (p0, p1, ω) = maxf (p0, p1, ω, t),
t
1-p1
(37)
f (p0, p1, ω, t) = g(t, p0, ω) - t log
+ log(1 - p1).
p1
Имеем
ω-t
p0 + t - ω
1-p1
f′t(p0, p1, ω, t) = log
- log
-2
,
f′′tt(p0, p1, ω, t) < 0.
(38)
t
1-p0 -t
p1
В силу (32) и (35)-(37) неравенство (33) принимает вид
maxF (p0, p1, ω, t) > 0,
(39)
t
где
F (p0, p1, ω, t) = f(p0, p1, ω, t) + D(p0 ∥ p1) =
1-p1
= g(t, p0, ω) + (p0 - t)log
- h(p0).
(40)
p1
Если для каких-либо p0, p1 и ω выполняется неравенство (39), то справедлива
соответствующая граница сверху (14), (15). Обозначим через t01 = t01(p0, p1, ω) мак-
симизирующую величину t в (37) (она же остается максимизирующей в (39)). Тогда
f (p0, p1, ω) = f(p0, p1, ω, t01(p0, p1, ω)).
(41)
Из уравнения f′t(p0, p1, ω, t) = 0 для t01 из (38) получаем
1 + (v0 - 1)[(ω - p0)2v0 - (1 - ω - p0)2 + 1] - 1
t01 = t01(p0, p1, ω) =
,
v0 - 1
(
)2
(42)
1-p1
v0(p1) =
1.
p1
Тогда из (40) и (42) имеем
1-p1
F (p0, p1, ω, t01) = g(t01, p0, ω) + (p0 - t01) log
- h(p0).
(43)
p1
Можно проверить, что для функции F (p0, p1, ω, t01) из (43) вытекают свойства
F (p0, p1, 0, t01) = 0 и F′′ωω < 0, ω > 0. Поэтому достаточно проверить неравенство (39)
c t = t01 только для минимальной для кода Cn(r) величины ω (т.е. для его кодового
расстояния d(C)).
Пусть ωmin(r)n - максимально возможное минимальное расстояние кода Cn(r).
Для величины ωmin(r) известна граница [14, формула (1.5)]
]
[1
rh
-
ωmin(1 - ωmin) ,
ωmin = ωmin(r).
(44)
2
Рассмотрим два возможных случая: 1) p1 < p0 1/2 и 2) p0 < p1 1/2.
72
1) Случай p1 < p0 1/2. Полагая r = 1 - h(p0), обозначим через ω0 = ω0(p0)
корень уравнения (см. (44))
]
[1
1 - h(p0) = h
-
ω(1 - ω) .
2
Тогда неравенство (39) принимает вид (ω0 = ω0(p0))
1-p1
F (p0, p1, ω0, t01) = g(t01, p0, ω0) + (p0 - t01) log
- h(p0) > 0.
(45)
p1
Можно проверить (с помощью Maple), что (45) выполняется, если p1 p1(p0),
где
p0
0,1
0,12
0,15
0,2
0,3
0,4
0,45
0,49
p1(p0)
0,0003
0,003
0,016
0,056
0,17
0,317
0,4
0,48
Если p0 0,20707 (т.е. ω < 0,273), то в [14, формула (1.4)] имеется оценка чуть
более точная (но более громоздкая), чем (44).
2) Случай p0 < p1 1/2. Можно проверить, что неравенство (39) не выполня-
ется ни при каких p0 < p1!
§5. Граница сверху для rcrit: комбинаторика
Приведем еще одну границу сверху для rcrit, по-прежнему основанную на фор-
муле (26), но использующую дополнительные комбинаторные соображения.
1. Комбинаторная лемма. В коде Cn = {xi} будем называть (xi, xj) ω-парой, если
d(xi, xj ) = ωn. Будем говорить, что точка y ∈ En является (ω, p, t)-покрытой, если
существует ω-пара (xi, xj), такая что d(xi, y) = pn, d(xj, y) = tn. Обозначим через
K(y, ω, p, t) число (ω, p, t)-покрытий точки y (учитывая кратность покрытий), т.е.
K(y, ω, p, t) =
= |{(xi,xj) : d(xi,xj) = ωn, d(xi,y) = pn, d(xj,y) = tn}|, ω > 0.
(46)
Введем множества (ср. (25))
Dxi(t, p, ω) = Sxi,xk (t, p, ω) = {u : существует xk,
xk
такое что d(xi, xk) = ωn, d(xi, u) = tn, d(xk, u) = pn}.
(47)
Тогда
Dxi(t, p) =
Dxi(t, p, ω).
ω>0
Для t > 0 введем величину
mt(y) = |{xi : xi Sy(t)}|.
(48)
Тогда для любых y, p, t > 0
K(y, t, p) = mt(y)mp(y).
(49)
73
Лемма 2. Для кода {xi} и ω,p,t > 0 справедлива формула (cм. (46) и (47))
|Dxi (t, p, ω)|
K(y, ω, t, p).
(50)
i=1
y∈En
Также, если (cм. (48))
maxmp(y) = 2o(n), n → ∞,
(51)
y
то для любых ω, t > 0
|Dxi(t, p, ω)| = 2o(n)
K(y, ω, t, p), n → ∞.
(52)
i=1
y∈En
Доказательство. Пусть y ∈ En и имеется m упорядоченных пар (xi,xj)
с d(xi, xj ) = ωn и d(xi, y) = tn, d(xj , y) = pn. Эти m пар (xi, xj ) имеют m1 m
различных первых аргументов {xi}. Тогда y присутствует m раз в правой части (50)
и m1 раз в левой части, что доказывает формулу (50). Если выполнено условие (51),
то m1 = meo(n), откуда следует равенство (52). Отметим также, что в силу (49)
имеем
K(y, t, p)
|Dxi (t, p)| =
=
mt(y)
mp(y)
i=1
y: mp(y)1
y: mp(y)1
∼M2h(t)n -
mt(y).
(53)
y: mp(y)=0
Из первого равенства в (53) также следуют формулы (50) и (52).
Формула (53) выглядит простой и привлекательной, однако ее правая часть имеет
вид “большое минус большое”, что неудобно. Отметим, что в (53) нельзя пренебре-
гать последней суммой, так как тогда получим только rcrit 1, что неинтересно.
2. Еще одна граница сверху для rcrit. Оценим сверху последнюю сумму в (53)
следующим образом. Имеем
mt(y) 2h(t)n|{y : mp0 (y) = 0}|.
(54)
y: mp0(y)=0
Максимум мощности |{y : mp0(y) = 0}| достигается, когда код C является шаром
B0(τ) радиуса τn, где r = h(τ). Поэтому
max|{y : mp0 (y) = 0}| = 2n - |B0(τ + p0)| ∼ 2h(τ+p0)n, τ + p0 1/2,
C
(55)
max|{y : mp0 (y) = 0}| ∼ 2n, τ + p0 1/2.
C
Если τ + p0 1/2, т.е. если r h(1/2 - p0), то из (53)-(55) получаем
[
]
[
]
|Dxi (t, p0)| 2h(t)n
M -2h(τ+p0)n
=2h(t)n
2h(τ)n - 2h(1-τ-p0)n
∼M2h(t)n,
i=1
если τ > 1 - τ - p0, т.е. τ > (1 - p0)/2, или, эквивалентно, если r > h[(1 - p0)/2].
74
Поэтому если r max{h(1/2 - p0), h[(1 - p0)/2]} = h[(1 - p0)/2], то при любом
p0 = p1 равенство (28) принимает вид
{
}
1-p1
F (p0, p1, r) = max
h(t) + (p0 - t) log
- h(p0) =
t>0
p1
1-p1
= h(p1) + (p0 - p1)log
- h(p0) > 0, p0 = p1,
p1
так как максимум по t достигается при t = p1. Поэтому это дает следующую границу
сверху для rcrit (более слабую, чем (13)):
rcrit(p0, p1) h[(1 - p0)/2], p0 = p1.
(56)
Замечание 6. Отметим, что 1 - h(p0) < h(1/2 - p0) < h[(1 - p0)/2], 0 < p0 < 1/2.
Усилим оценку (56). Наряду с (54) также имеем
mt(y) M|{y : mp0(y) = 0}|.
y: mp0(y)=0
Поэтому если τ + p0 1/2 и t 1 - τ - p0, то
[
]
|Dxi (t, p0)| M
2h(t)n - 2h(1-τ-p0)n
∼M2h(t)n.
i=1
В силу (39), (40) необходимо иметь
max f(t, p0, p1) > 0,
t1-τ -p0
1-p1
(57)
f (t, p0, p1) = h(t) + (p0 - t) log
- h(p0).
p1
Максимум по t 1-τ -p0 функции f(t, p0, p1) достигается при t = max{p1, 1-τ -p0},
так как
maxf (t, p0, p1) = f(p1, p0, p1) > 0, p0 = p1, f(p0, p0, p1) = 0,
t
1-t
1-p1
f′t(t, p0, p1) = log
- log
,
f′′tt(t, p0, p1) < 0,
(58)
t
p1
signf′t(t, p0, p1) = sign(p1 - t).
Поэтому если p1 1 - τ - p0, то из (57), (58) для p0 = p1 получаем
1-p1
max
f (t, p0, p1) = h(p1) + (p0 - p1) log
- h(p0) > 0.
(59)
t1-τ -p0
p1
Тогда если τ max{1/2 - p0, 1 - p0 - p1} = 1 - p0 - p1, то для p0 = p1 выполняется
неравенство (59), откуда следует оценка
τcrit 1 - p0 - p1, rcrit = h(τcrit).
(60)
Если же p1 < 1 - τ - p0, то максимум в (57) достигается при t = 1 - τ - p0, и
тогда
max f(t, p0, p1) = f(1 - τ - p0, p0, p1).
t1-τ -p0
75
Заметим, что
f (p0, p0, p1) = 0, f′t=p
(t, p0, p1) = 0, p0 = p1,
0
f′′tt(t, p0, p1) < 0, signf′t(t, p0, p1) = sign(p1 - t).
Пусть также p0 > 1 - τ - p0 (т.е. τ > 1 - 2p0). Тогда max
f (t, p0, p1) > 0 (доста-
t1-τ -p0
точно выбрать t близким к p0). Тогда
τcrit 1 - 2p0, rcrit = h(τcrit).
(61)
В результате из (60) и (61) получаем
Предложение 3. При любых p0,p1
[0, 1/2] для rcrit справедлива оценка
сверху
τcrit(p0, p1) min{1 - p0 - p1, 1 - 2p0}, rcrit = h(τcrit).
(62)
Следствие. Если p0 = 1/2, то из (62) следует τcrit(1/2,p1) = rcrit(1/2,p1) = 0.
Ранее этот частный результат был получен другим способом в [1, предложение 3].
Там же найдена наилучшая экспонента ed(γ, r) из (4) для γ 0, 0 r 1.
§ 6. “Потенциальная” аддитивная граница сверху для rcrit
Теорема 1 была доказана, заменяя в формуле (26) экспоненциальное число M
кодовых слов {xi} двумя ближайшими кодовыми словами (xi, xj ). Такой способ
исследования дает оптимальный результат, только если можно выбрать пару (xi, xj )
с d(xi, xj ) = ωn и малым ω > 0. В рассматриваемой постановке задачи этого сделать
нельзя.
Для того чтобы усилить теорему 1, необходимо рассмотреть в (26) экспоненци-
альное число M кодовых слов {xi}, что значительно труднее (см. [11-13]). Усилим
теорему 1 при условии, что в формуле (26) можно применить аддитивную аппрок-
симацию.
Предположим, что при n → ∞ для всех {xi} в формуле (26) справедливо адди-
тивное приближение
}
{⋃
{
}
P SLx
(p0, δ)p1, xi
=2o(n)
P
SLxk(p0)p1, xi
(63)
k
k=i
k=i
Тогда (см. (36)) при d(xi, xk) = ωikn
}
{⋃
P SLx
k
(p0, δ)p1, xi
=2o(n)
2f(p0,p1ik)n
k=i
k=i
и
}
{⋃
∑∑
P SLxk(p0)p1, xi
=2o(n)
2f(p0,p1ik)n.
(64)
i=1
k=i
i=1 k=i
Для того чтобы далее развить соотношение (64), введем некоторые дополнительные
понятия. Спектром (распределением расстояний) B(C) = (B0, B1, . . . , Bn) кода C
длины n называется (n + 1)-вектор с компонентами
Bi = |C|-1 |{(x, y) : x, y ∈ C, d(x, y) = i}| , i = 0, 1, . . ., n.
(65)
76
Иными словами, Bi равно среднему числу кодовых слов y на расстоянии i от ко-
дового слова x. Общее число упорядоченных кодовых пар (x, y) ∈ C с d(x, y) = i
равно |C|Bi. Обозначим также Bωn = 2b(ω,r)n.
Тогда формулу (64) можно продолжить следующим образом:
}
{⋃
P SLx
k
(p0, δ)p1, xi
=2o(n)M
2[b(ω,r)+f(p0,p1)]n.
i=1
k=i
ω>0
Поэтому (см. (36), (37))
[
}]
{⋃
1
log
P SLx
k
(p0, δ)p1, xi
=
n
i=1
k=i
= r + max{b(ω, r) + f(p0, p1, ω, t)} + o(1),
(66)
ω,t
где f(p0, p1, ω, t) определено в (37). Тогда для функции F (p0, p1, r) из (28) и (66)
имеем
{
}
1-p1
F (p0, p1, r) = max
b(ω, r) + g(p0, t, ω) + (p0 - t) log
- h(p0)
(67)
ω,t
p1
В качестве оценки для b(ω, r) в (67) используем какую-либо функцию blow(ω, r)
со следующим свойством: существует величина ωmax = ωmax(r) > 0, такая что
max
[b(ω, r) - blow(ω, r)] 0, r > 0.
(68)
0ωmax
Тогда для того чтобы выполнялось неравенство F (p0, p1, r) > 0 (см. (27)), доста-
точно, чтобы было справедливо условие (см. (37) и (67))
{
}
1-p1
min
max
blow(ω, r) + g(p0, t, ω) + (p0 - t)log
- h(p0)
> 0.
(69)
0ωmax
t>0
p1
Используем в (69) в качестве blow(ω, r) наилучшую из известных таких функций
μ(r, α, ω), h2(τ) = h2(α) - 1 + r, с произвольным α ∈ [δGV (r), 1/2] (см. (81), (82)
и теорему 2 в Приложении). Для функции μ(r, α, ω) выполняется условие (68), она
монотонно возрастает по r, и ωmax = G(α, τ), где G(α, τ) определено в (79). Тогда
для того чтобы выполнялось неравенство (69), достаточно, чтобы было справедливо
условие
min
maxK(p0, p1, r, ω, t) > 0,
(70)
0ωmax
t>0
где
1-p1
K(p0, p1, r, ω, t) = μ(r, p0, ω) + g(p0, t, ω) + (p0 - t) log
- h(p0).
(71)
p1
Заметим, что K(p0, p1, r, 0, p0) = 0. Чтобы избежать громоздких вычислений, поло-
жим t = p0. Функция K(p0, p1, r, ω, p0) = 0 вогнута по ω, т.е. K′′(p0, p1, r, ω, p0)ωω < 0
(проще всего это проверить с помощью Maple). Поэтому минимум по ω достигает-
ся при ω = ωmax = G(α, τ), и условие (70) достаточно проверить для ω = G(α, τ).
Известна полезная формула [11, лемма 4]
μ(r, α, G(α, τ)) = h2(G(α, τ)) + r - 1, h2(α) - h2(τ) = 1 - r.
(72)
77
Далее рассмотрим только более простой
Случай p1 < p0 1/2. Положим r = r0 = 1 - h(p0) и α = p0 (заметим, что
тогда δGV (r0) = p0, τ = 0). Тогда G(α, τ) = 2p0(1 - p0), и условие (70) достаточно
проверить для ω = 2p0(1 - p0). Из (71), (72) при α = p0, τ = 0, r = r0 = 1 - h(p0),
t = p0 и ωmax = G(α,τ) = 2p0(1 - p0) имеем
K(p0, p1, 1 - h(p0), ωmax, p0) = h2(ωmax) + g(p0, p0, ωmax) - 2h(p0),
где
[
]
2
p
g(p, p, 2p(1 - p)) = 2p(1 - p) + [1 - 2p(1 - p)]h
1 - 2p(1 - p)
Можно проверить, что при ω0 = 2p0(1 - p0) справедливо равенство
(
)
p20
K(p0, p1, 1 - h(p0), ω0, p0) = h2(ω0) + ω0 + (1 - ω0)h
- 2h(p0) = 0.
(73)
10
Также имеем
2
1
(1 - t)2 - (1 - ω0 - p0)
1-p1
[K(p0, p1, 1 - h(p0), ω0, t)]′t =
log
- log
,
2
t2 - (ω0 - p0)2
p1
(74)
[K(p0, p1, 1 - h(p0), ω0, t)]′′tt < 0.
Поэтому при t = p0 имеем
1-p0
1-p1
[K(p0, p1, 1 - h(p0), ω0, t)]′t=p
= log
- log
< 0, p1 < p0,
(75)
0
p0
p1
Из (73)-(75) следует, что
K(p0, p1, 1 - h(p0), ω0, t) > 0, t < p0.
Поэтому неравенство (70) выполняется для любых r > r0 = 1-h(p0) и p1 < p0 1/2.
В результате получаем следующий условный результат.
Предложение 4. Если справедливо аддитивное приближение (63), то тогда
rcrit(p0, p1) = 1 - h(p0), 0 < p1 < p0 1/2.
Замечание 7. Можно показать, что теорема 1 и формула (13) справедливы при
любых p1 < p0 1/2. Для этого можно действовать аналогично [11], используя лем-
му 2 и рассматривая по отдельности случаи равенства в формуле (50) (по существу,
это эквивалентно рассмотренному в § 6 случаю) и неравенства в ней. Доказательство
во втором случае оказывается неоправданно громоздким (и ориентированным толь-
ко на двоичный канал ДСК(p)). По этой причине мы его не приводим. Определенно,
есть более простой способ доказательства.
ПРИЛОЖЕНИЕ
1. Функция g(t, p, ω) и формула (35). Рассмотрим кодовые слова x = 0 и x1
с d(x, x1) = w(x1) = ωn, а также множество Sx,x1 (t, p, ω) из (34). Можно считать,
что x1 = (1, . . . , 1, 0, . . . , 0), причем x1 имеет сначала ωn “единиц”, а затем (1 - ω)n
“нулей”. Пусть также u ∈ Sx,x1(t, p, ω) имеет u1n “единиц” на первых ωn позициях
и u2n “единиц” на следующих (1)n позициях. Так как u1+u2 = t, ω-u1+u2 = p, то
t-p+ω
t+p-ω
u1 =
,
u2 =
,
(76)
2
2
78
и при n → ∞ получаем
1
1
[( ωn)((1 - ω)n)]
log |Sx,x1 (t, p, ω)| =
log
=
n
n
u1n
u2n
(
)
)
(u1
u2
= ωh
+ (1 - ω)h
+ o(1) = g(t, p, ω) + o(1),
(77)
ω
1
где
)
(t+ω-p
(t+p-ω)
g(t, p, ω) = ωh
+ (1 - ω)h
(78)
2ω
2(1 - ω)
Также имеем
2
1
(1 - ω)2 - (1 - t - p)
2g′ω(p, t, ω) = -2 log
+ log
,
ω
ω2 - (t - p)2
2
(1 - t)2 - (1 - ω - p)
2g′t(p, t, ω) = log
,
g′′tt(p, t, ω) < 0, g′′ωω(p, t, ω) 0.
t2 - (ω - p)2
Для корня ω0 уравнения g′ω(t, p, ω) = 0 имеем
p-t
ω0 =
,
g(t, p, ω0) = h(t).
1 - 2t
2. Функция μ(R, α, ω). Введем функцию [14] (0 τ α 1/2)
α(1 - α) - τ(1 - τ)
G(α, τ) = 2
0.
(79)
1+2
τ (1 - τ)
Для α, τ, таких что 0 τ α 1/2 и h2(α) - h2(τ) = 1 - R, введем функцию [16]
P +
P2 - 4Qy2
(α - ω/2)
μ(R, α, ω) = h2(α) - 2 log
dy - (1 - ω)h2
,
Q
1
(80)
0
P = α(1 - α) - τ(1 - τ) - y(1 - 2y), Q = (α - y)(1 - α - y).
Определим функцию δGV (R) 1/2 (граница Варшамова - Гилберта) как
1 - R = h2(δGV (R)),
0 R 1.
(81)
Важность функции μ(R, α, ω) и ее связь со спектром кода {Bi} определяет сле-
дующий вариант теоремы 3 из [15].
Теорема 2
[15, теорема 3]. Для любого (R, n)-кода и любого α ∈ [δGV (R), 1/2]
существуют r1(R, α) > 0 и ω, 0 < r1(R, α) ω G(α, τ), где h2(τ) = h2(α) - 1 + R,
а G(α, τ) определено в (79), такие что
n-1 log Bωn μ(R, α, ω) + o(1), n → ∞.
(82)
Для μ(R, α, ω) из (80) справедливо также неинтегральное представление (83)-(85).
Замечание 8. Теорема 2 уточняет теорему 5 из [16] (см. также [12, теорема 2]).
При r1 = 0 теорема 2 переходит в теорему 5 из [16]. В [15, теорема 3] имеются оценки
для r1(R, α) > 0.
79
Предложение
5
[11, предложение 3]. Для функции μ(R, α, ω) справедливо
представление
(α - ω/2)
2ω
μ(R, α, ω) = (1 - ω)h2
- h2(α) + 2h2(ω) + ω log
- T(A,B,ω),
(83)
1
e
где
2
v2 - A
T (A, B, ω) = ω log(v - 1) - (1 - ω) log
+
v2 - B2
v+B
v+A
(v - 1)(B2 - A2)
+ B log
- Alog
-
,
(84)
v-B
v-A
(v2 - B2) ln 2
2
B2ω2 - 2a1ω + a21 + a1
B2
−A
v=
,
a1 =
,
ω
2
и
h2(α) - h2(τ) = 1 - R, A = 1 - 2α, B = 1 - 2τ,
0 τα 1/2.
(85)
Для любых α0(R) α < 1/2 и ω > 0 имеем
(R, α, ω)
> 0, α0(R) = h-12(1 - R).
Также для любых α > 0 и R > 0 имеем μ(R, α, 0) = 0 и μ′ω(R, α, ω)|ω=0 > 0. Кроме
того, для любых 0 τ α 1/2 и 0 < ω < G(α, τ)
μ′′ω2 (R, α, ω) > 0.
Для любого ω > 0 имеем μ(0, 1/2, ω) = 0.
Автор благодарит Ш. Ватанабе (Shun Watanabe) и рецензента за полезные об-
суждения и конструктивные критические замечания, улучшившие статью.
СПИСОК ЛИТЕРАТУРЫ
1. Бурнашев М.В., Амари Ш., Хан Т.С. О некоторых задачах проверки гипотез с ин-
формационными ограничениями // Теория вероятн. и ее примен. 2000. Т. 45. № 4.
С. 625-638.
2. Бурнашев М.В., Хан Т.С., Амари Ш. О некоторых задачах оценивания с информаци-
онными ограничениями // Теория вероятн. и ее примен. 2001. Т. 46. № 2. С. 233-246.
3. Ahlswede R., Csiszár I. Hypothesis Testing with Communication Constraints // IEEE
Trans. Inform. Theory. 1986. V. 32. № 4. P. 533-542.
4. Han T.S., Kobayashi K. Exponential-type Error Probabilities for Multiterminal Hypothesis
Testing // IEEE Trans. Inform. Theory. 1989. V. 35. № 1. P. 2-14.
5. Ahlswede R., Burnashev M.V. On Minimax Estimation in the Presence of Side Information
about Remote Data // Ann. Statist. 1990. V. 18. № 1. P. 141-171.
6. Han T.S., Amari S. Statistical Inference under Multiterminal Data Compression // IEEE
Trans. Inform. Theory. 1998. V. 44. № 6. P. 2300-2324.
7. Shimokawa H., Han T.S., Amari S. Error Bounds of Hypothesis Testing with Data Com-
pression // Proc. 1994 IEEE Int. Sympos. on Information Theory (ISIT’94). Trondheim,
Norway. June 27 - July 1, 1994. P. 114.
8. Watanabe S. Neyman-Pearson Test for Zero-Rate Multiterminal Hypothesis Testing //
Proc. 2017 IEEE Int. Sympos. on Information Theory (ISIT’2017). Aachen, Germany. June
25-30, 2017. P. 116-120.
80
9. Elias P. Coding for Noisy Channels // IRE Conv. Rec. 1955. V. 4. P. 37-46. Reprinted in:
Key Papers in the Development of Information Theory. New York: IEEE Press, 1974.
P. 102-111.
10. Gallager R.G. Information Theory and Reliable Communication. New York: John Wiley &
Sons, 1968.
11. Бурнашев M.В. О функции надежности ДСК: расширение области, где она известна
в точности // Пробл. передачи информ. 2015. Т. 51. № 4. С. 3-22.
12. Бурнашев М.В. Спектр кода и функция надежности: двоичный симметричный канал //
Пробл. передачи информ. 2006. Т. 42. № 4. С. 3-22.
13. Бурнашев M.В. Усиление оценки сверху для функции надежности двоичного симмет-
ричного канала // Пробл. передачи информ. 2005. Т. 41. № 4. С. 3-22.
14. McEliece R.J., Rodemich E.R., Rumsey H., Jr., Welch L.R. New Upper Bounds on the
Rate of a Code via the Delsarte-MacWilliams Inequalities // IEEE Trans. Inform. Theory.
1977. V. 23. № 2. P. 157-166.
15. Бурнашев M.В. О границах снизу для спектра двоичного кода // Пробл. передачи
информ. 2019. Т. 55. № 4. С. 76-85.
16. Litsyn S. New Bounds on Error Exponents // IEEE Trans. Inform. Theory. 1999. V. 45.
№ 2. P. 385-398.
Бурнашев Марат Валиевич
Поступила в редакцию
Институт проблем передачи информации
10.04.2020
им. А.А. Харкевича РАН
После доработки
burn@iitp.ru
15.05.2020
Принята к публикации
19.05.2020
81