Радиотехника и электроника, 2019, T. 64, № 6, стр. 585-592

Дивергенция Итакуры–Саито как элемент информационной теории восприятия речи

В. В. Савченко *

Нижегородский государственный лингвистический университет
603155 Нижний Новгород, ул. Минина, 31а, Российская Федерация

* E-mail: vvsavchenko@yandex.ru

Поступила в редакцию 22.01.2018
После доработки 24.10.2018
Принята к публикации 01.11.2018

Полный текст (PDF)

Аннотация

На основе информационной теории восприятия речи дано обоснование симметричной формы дивергенции Итакуры–Саито в роли минимальной решающей статистики асимптотически оптимального алгоритма распознавания речевых сигналов на базовом, фонетическом уровне их обработки. Выводы теоретического исследования подтверждены результатами проведенного эксперимента. Показано, что благодаря применению синтезированного алгоритма удается существенно повысить точность и надежность автоматического распознавания наиболее проблемных фонетических единиц.

ВВЕДЕНИЕ

На протяжении многих лет дивергенция Итакуры–Саито (ДИС) широко используется в роли решающей статистики в системах автоматической обработки и распознавания речи (АОРР) [13]. Интерес к ней особенно возрос в последние годы в связи с тем, что такие признанные мировые лидеры в области АОРР, как Google и Apple Inc., осуществили свои прорывные речевые разработки по технологии “клиент–сервер” [4]. Сказанное объясняется целым рядом замечательных свойств ДИС, а именно: ее высокой чувствительностью к искажениям в спектрах сигналов, избирательностью по частоте, помехоустойчивостью, быстродействием и другими [5]. Однако ключевым является [68] свойство ДИС сочетаться наилучшим образом со средней экспертной (аудиторской) оценкой MOS (mean opinion score) акустического качества речи диктора, которая зарегистрирована в Международном союзе электросвязи МСЭ-Т в роли стандарта P.112011.

Между тем до настоящего времени распространение ДИС на практике не имеет строгого теоретического обоснования, если не считать ее изначальную связь [8, 9] с критерием максимума правдоподобия в задачах проверки статистических гипотез. Поэтому представляет интерес предлагаемое далее исследование, в рамках которого ДИС впервые теоретически обосновывается условиями априорной неопределенности в задаче распознавания образов. При этом используется математический аппарат информационной теории восприятия речи (ИТВР) [1012], в которой, отталкиваясь от гауссовской аппроксимации речевых сигналов и принципа минимума их информационного рассогласования (МИР) по Кульбаку–Лейблеру [13], была впервые эффективно решена проблема априорной неопределенности. В развитие ряда идей и общих положений ИТВР в данной статье на основе принципа МИР дается вывод и обоснование симметричной формы ДИС как элемента асимптотически оптимального алгоритма АОРР. Выводы теоретического исследования подтверждены и проиллюстрированы результатами проведенного эксперимента.

1. ПОСТАНОВКА ЗАДАЧИ

Работа современных систем речевой обработки сводится, как правило [15], к поэлементному (на фонетическом уровне) сопоставлению произнесенного диктором слова или фразы ${\mathbf{x}}$ (n-вектор отсчетов речевого сигнала) с заранее подготовленным набором $\left\{ {{{{\mathbf{x}}}_{r}}} \right\}_{1}^{R}$ эталонов сигналов фонем из числа их наблюдаемых реализаций (аллофонов). Здесь R > 1 – объем фонетической базы данных диктора. Решение принимается в пользу той фонемы, которая представляется гипотетическому слушателю ближе других к произнесенному слову ${\mathbf{x}}$ в некоторой метрике $\rho \left( {{{\mathbf{x}} \mathord{\left/ {\vphantom {{\mathbf{x}} {{{{\mathbf{x}}}_{r}}}}} \right. \kern-0em} {{{{\mathbf{x}}}_{r}}}}} \right).$ При этом традиционно [58] используются метрики вероятностного типа. Задача в общем случае формулируется в терминах проверки R статистических гипотез в отношении закона распределения ${{{\mathbf{P}}}_{х }}$ наблюдаемого сигнала x. Решение в пользу гипотезы ${{H}_{\nu }}\,:{{{\mathbf{P}}}_{х }} = {{{\mathbf{P}}}_{\nu }},$ $\nu \leqslant R,$ в ней принимается по признаку минимума решающей статистики общего вида

(1)
$\rho \left( {{{\mathbf{x}} \mathord{\left/ {\vphantom {{\mathbf{x}} {{{{\mathbf{x}}}_{\nu }}}}} \right. \kern-0em} {{{{\mathbf{x}}}_{\nu }}}}} \right) = \mathop {\min }\limits_{r \leqslant R} \rho \left( {{{\mathbf{x}} \mathord{\left/ {\vphantom {{\mathbf{x}} {{{{\mathbf{x}}}_{r}}}}} \right. \kern-0em} {{{{\mathbf{x}}}_{r}}}}} \right),$

определенной на R-множестве фонетических образцов $\left\{ {{{{\mathbf{x}}}_{r}}} \right\}.$ Так, при условии центрированности (нулевое среднее значение) и гауссовской аппроксимации речевого сигнала на интервалах его квазистационарности конечной длительности $\tau = {\text{const}}$ [6, 7] закон распределения ${{{\mathbf{P}}}_{r}} = {\text{Norm}}\left( {{{{\mathbf{K}}}_{r}}} \right)$ однозначно определяется набором неособенных автокорреляционных матриц (АКМ) ${{{\mathbf{K}}}_{r}},r = \overline {1,R,} $ конечной размерности $n \times n.$ В расчете на использование при обработке речевого сигнала моментов, как правило, не выше второго порядка в работах [1012] гауссовский закон был строго обусловлен общесистемным принципом максимума энтропии. В таком случае набор оптимальных решающих статистик в правой части критерия (1) определяется неотрицательной величиной информационного рассогласования (ВИР) Кульбака–Лейблера [13]

(2)
$\begin{gathered} \rho \left( {{{\mathbf{x}} \mathord{\left/ {\vphantom {{\mathbf{x}} {{{{\mathbf{x}}}_{r}}}}} \right. \kern-0em} {{{{\mathbf{x}}}_{r}}}}} \right) = \\ = \frac{1}{{2n}}\left[ {{\text{tr}}\left( {{{{\mathbf{S}}}_{x}} \cdot {\mathbf{K}}_{r}^{{ - 1}}} \right) - \ln \left| {{{{\mathbf{S}}}_{x}} \cdot {\mathbf{K}}_{r}^{{ - 1}}} \right| - n} \right] \triangleq {{\rho }_{{x,r}}} \geqslant 0, \\ \end{gathered} $

которая равна нулю лишь при условии ${{{\mathbf{S}}}_{x}} = {{{\mathbf{K}}}_{r}},$ где ${{{\mathbf{S}}}_{x}}$ – выборочная оценка АКМ наблюдаемого сигнала (символом “дельта” над знаком равенства здесь обозначено равенство по определению). При заданном априори наборе образцов $\left\{ {{{G}_{r}}(f)} \right\}$ спектральной плотности мощности (СПМ) путем предельного перехода (при $n \to \infty $) из выражения (2) в частотной области получим [14]

(3)
$\begin{gathered} {{\rho }_{{x,r}}} = {{F}^{{ - 1}}} \times \\ \times \,\,\int\limits_{{{ - F} \mathord{\left/ {\vphantom {{ - F} 2}} \right. \kern-0em} 2}}^{{F \mathord{\left/ {\vphantom {F 2}} \right. \kern-0em} 2}} {\left( {{{{{G}_{x}}(f)} \mathord{\left/ {\vphantom {{{{G}_{x}}(f)} {{{G}_{r}}(f)}}} \right. \kern-0em} {{{G}_{r}}(f)}} - \ln \left( {{{{{G}_{x}}(f)} \mathord{\left/ {\vphantom {{{{G}_{x}}(f)} {{{G}_{r}}(f)}}} \right. \kern-0em} {{{G}_{r}}(f)}}} \right) - 1} \right)df} , \\ r = \overline {1,R} , \\ \end{gathered} $

где F – частота дискретизации сигнала во времени, а ${{G}_{x}}(f)$ – его оценка СПМ по выборке с использованием известного [15] математического аппарата. Это стандартная [2, 3] формулировка критерия МИР в терминах ИТВР. Одновременно выражение (3) определяет ДИС для СПМ двух сигналов [16].

Проблема состоит [10, 11] в вариативности устной речи диктора, причем, в пределах даже одного речевого потока. Применительно к гауссовской модели речевого сигнала Norm(Kr) указанная вариативность порождает острейшую [15, 16] в задачах АОРР проблему априорной неопределенности в отношении спектрально-корреляционных свойств речевого сигнала. Задача (1)–(3) в таком случае сводится к распознаванию речевых образов [1719].

2. СИНТЕЗ ОПТИМАЛЬНОГО АЛГОРИТМА

Следуя классическому критерию отношения правдоподобия [17], рассмотрим R классифицированных (на множестве эталонов фонем $\left\{ {{{{\mathbf{x}}}_{r}}} \right\}$) многомерных (размера n) повторных (объема $M$) независимых выборок ${{{\mathbf{x}}}_{{r,j}}} = {{\left( {{{x}_{{r,j}}}(1),{{x}_{{r,j}}}(2),...,{{x}_{{r,j}}}(n)} \right)}^{Т }}$ из R гауссовских популяций ${{{\mathbf{P}}}_{r}} = {\text{Norm}}\left( {{{{\mathbf{K}}}_{r}}} \right)$ с нулевыми математическими ожиданиями и неизвестными в общем случае АКМ ${{{\mathbf{{\rm K}}}}_{r}},$ $r = \overline {1,R} .$ Обозначим их в совокупности через $(n \times M)$-матрицу наблюдений ${{{\mathbf{X}}}_{r}} = \left( {{{{\mathbf{x}}}_{{r,1}}},...,{{{\mathbf{x}}}_{{r,j}}},...,{{{\mathbf{x}}}_{{r,M}}}} \right).$ Здесь $j \leqslant M$ – номер цикла наблюдения над r-й популяцией. И пусть ${\mathbf{X}} = \left( {{{{\mathbf{x}}}_{1}},{{{\mathbf{x}}}_{2}},...,{{{\mathbf{x}}}_{M}}} \right)$ – аналогичная по структуре выборка объема ${{M}_{x}}$ из речевого сигнала x с неизвестным распределением ${{{\mathbf{P}}}_{x}} \subset \{ {{{\mathbf{P}}}_{r}}\} $ в пределах заданного множества альтернатив. Задача распознавания такого сигнала на множестве фонем $\left\{ {{{{\mathbf{x}}}_{r}}} \right\}$ сводится к проверке на максимум функции правдоподобия объединенной выборки наблюдений $\left( {{\mathbf{X}},{\text{ }}{{{\mathbf{X}}}_{\nu }},{\text{ }}{{{\mathbf{X}}}_{r}}} \right)$ для всех $\nu ,r = \overline {1,R} .$ При общих условиях [17, с. 497] решение в пользу гипотезы ${{H}_{\nu }},\nu \leqslant R,$ принимается по признаку выполнения R соотношений

(4)
$\frac{{\mathop {\sup }\limits_{{{{\mathbf{K}}}_{\nu }}} \left[ {p({{\mathbf{X}} \mathord{\left/ {\vphantom {{\mathbf{X}} {{{H}_{\nu }}}}} \right. \kern-0em} {{{H}_{\nu }}}})p({{{\mathbf{X}}}_{\nu }})} \right]\mathop {\sup }\limits_{{{{\mathbf{K}}}_{r}}} \left[ {p({{{\mathbf{X}}}_{r}})} \right]}}{{\mathop {\sup }\limits_{{{{\mathbf{K}}}_{r}}} \left[ {p({{\mathbf{X}} \mathord{\left/ {\vphantom {{\mathbf{X}} {{{H}_{r}}}}} \right. \kern-0em} {{{H}_{r}}}})p({{{\mathbf{X}}}_{r}})} \right]\mathop {\sup }\limits_{{{{\mathbf{K}}}_{\nu }}} \left[ {p({{{\mathbf{X}}}_{\nu }})} \right]}} > 1,\,\,\,\,\nu \ne r \leqslant R.$

Здесь $p\left( {{{\mathbf{X}} \mathord{\left/ {\vphantom {{\mathbf{X}} {{{H}_{r}}}}} \right. \kern-0em} {{{H}_{r}}}}} \right)$ – функция правдоподобия выборки X при справедливости гипотезы ${{H}_{r}};$ $p({{{\mathbf{X}}}_{r}})$ – функция правдоподобия r-й классифицированной выборки; символ $\sup $ обозначает верхнюю границу функции на множестве допустимых для каждой фонемы вариантов АКМ. При учете независимости наблюдений $\{ {{{\mathbf{x}}}_{{r,j}}}\} _{1}^{M}$ в совокупности и в соответствии с известной методикой вычислений [12] запишем систему следующих равенств:

(5)
$\begin{gathered} \ln p\left( {{{\mathbf{X}} \mathord{\left/ {\vphantom {{\mathbf{X}} {{{H}_{r}}}}} \right. \kern-0em} {{{H}_{r}}}}} \right) = \\ = - \frac{{{{M}_{x}}}}{2}\left[ {\ln \left| {{{{\mathbf{K}}}_{r}}} \right| + {\text{tr}}\left( {{{{\mathbf{S}}}_{x}}{\mathbf{K}}_{r}^{{ - 1}}} \right) + n\ln \left( {2\pi } \right)} \right], \\ \end{gathered} $
(6)
$\begin{gathered} \ln p\left( {{{{\mathbf{X}}}_{r}}} \right) = \\ = - \frac{M}{2}\left[ {\ln \left| {{{{\mathbf{K}}}_{r}}} \right| + {\text{tr}}\left( {{{{\mathbf{S}}}_{r}}{\mathbf{K}}_{r}^{{ - 1}}} \right) + n\ln \left( {2\pi } \right)} \right],\,\,\,\,r = \overline {1,R} , \\ \end{gathered} $

где ${{{\mathbf{S}}}_{r}} \triangleq {{M}^{{ - 1}}}\sum\nolimits_{j = 1}^M {{{{\mathbf{x}}}_{{r,j}}}{\mathbf{x}}_{{r,j}}^{{\text{T}}}} $ – оценка максимального правдоподобия для АКМ ${{{\mathbf{K}}}_{r}}$ по выборке ${{{\mathbf{X}}}_{r}}$ объема M; $\left| {{{{\mathbf{K}}}_{r}}} \right|$ – определитель матрицы. Без нарушения общности формулировки задачи далее будем полагать [17], что объемы наблюдений в рабочем режиме и в режиме настройки (обучения) системы АОРР равны друг другу, т.е. ${{M}_{x}} = M.$ Путем ряда вычислений имеем

(7)
$\mathop {\sup }\limits_{{{{\mathbf{K}}}_{r}}} \ln p\left( {{{{\mathbf{X}}}_{r}}} \right) = - \frac{M}{2}\left[ {\ln \left| {{{{\mathbf{S}}}_{r}}} \right| + nc} \right],\,\,\,\,r = \overline {1,R} ,$

где $c = \ln \left( {2\pi } \right) + 1 = {\text{const}}.$ Здесь учтено [12], что верхняя граница функций (5) и (6) достигается при равенстве АКМ ${{{\mathbf{K}}}_{r}} = {{{\mathbf{S}}}_{r}}$ – строго в соответствии с принципом максимума правдоподобия [17]. Аналогично, для всех других величин из выражения (4) получаем

(8)
$\begin{gathered} \mathop {\sup }\limits_{{{{\mathbf{K}}}_{r}}} \left[ {\ln p\left( {\left. {\mathbf{X}} \right|{{H}_{r}}} \right)p\left( {{{{\mathbf{X}}}_{r}}} \right)} \right] = - \frac{М }{2} \times \\ \times \,\,\left[ {2(\ln \left| {{{{\mathbf{S}}}_{{xr}}}} \right| + n\ln \left( {2\pi } \right)) + {\text{tr}}({{{\mathbf{S}}}_{x}}{\mathbf{S}}_{{xr}}^{{ - 1}}) + {\text{tr}}({{{\mathbf{S}}}_{r}}{\mathbf{S}}_{{xr}}^{{ - 1}})} \right] = \\ = - М \left[ {\ln \left| {{{{\mathbf{S}}}_{{xr}}}} \right| + nc} \right],\,\,\,\,r = \overline {1,R} , \\ \end{gathered} $

где ${{{\mathbf{S}}}_{{xr}}} = 0.5({{{\mathbf{S}}}_{x}} + {{{\mathbf{S}}}_{r}})$ – оценка максимального правдоподобия для АКМ речевого сигнала по объединенной выборке наблюдений $\left\{ {{\mathbf{X}},{{{\mathbf{X}}}_{r}}} \right\}$ суммарного объема 2M. Подставляя выражения (7) и (8) в (4), после несложных преобразований получим искомый алгоритм распознавания сигнала x как ν-й фонемы при выполнении условия

$M\left[ {\ln \left| {{{{\mathbf{S}}}_{{x{\nu }}}}} \right| - \ln \left| {{{{\mathbf{S}}}_{{xr}}}} \right| - 0.5\ln \left| {{{{\mathbf{S}}}_{\nu }}} \right| + 0.5\ln \left| {{{{\mathbf{S}}}_{r}}} \right|} \right] < 0.$

Или, в эквивалентном виде, можно записать

(9)
${{\rho }_{{x,x\nu }}} + {{\rho }_{{\nu ,x\nu }}} < {{\rho }_{{x,xr}}} + {{\rho }_{{r,xr}}}.$

Здесь

(10)
$\left. {\begin{array}{*{20}{c}} {{{\rho }_{{x,xr}}} \triangleq 0.5\left[ {{\text{tr}}\left( {{{{\mathbf{S}}}_{x}}{\mathbf{S}}_{{xr}}^{{ - 1}}} \right) - \ln \left| {{{{\mathbf{S}}}_{x}}} \right| + \ln \left| {{{{\mathbf{S}}}_{{xr}}}} \right| - n} \right]} \\ {{{\rho }_{{r,xr}}} \triangleq 0.5\left[ {{\text{tr}}\left( {{{{\mathbf{S}}}_{r}}{\mathbf{S}}_{{xr}}^{{ - 1}}} \right) - \ln \left| {{{{\mathbf{S}}}_{r}}} \right| + \ln \left| {{{{\mathbf{S}}}_{{xr}}}} \right| - n} \right]} \end{array}} \right\},$

– ВИР двух гауссовских распределений вероятностей с АКМ ${{{\mathbf{S}}}_{x}}$ и ${{{\mathbf{S}}}_{r}}$ соответственно относительно гипотетического гауссовского распределения с АКМ, равной ${{{\mathbf{S}}}_{{xr}}}.$ Следуя критерию отношения правдоподобия, из (9) по индукции получим оптимальный алгоритм принятия решений

(11)
${{\left. {{{H}_{\nu }}\,:{{\rho }_{{x,xr}}} + {{\rho }_{{r,xr}}}} \right|}_{{r = \nu }}} = \min $

в задаче АОРР (4). Набор оптимальных решающих статистик имеет в данном случае значительно более сложный вид по сравнению с его первоначальным вариантом (2), (3). Понятно, что это “плата” за априорную неопределенность в отношении статистических свойств фонетической базы данных диктора $\left\{ {{{{\mathbf{x}}}_{r}}} \right\}.$ В таком случае возникает закономерный вопрос о достигаемом выигрыше по эффективности оптимального алгоритма АОРР (11) по сравнению с алгоритмами на основе ДИС (3) адаптивного типа [16]. Ответом на него служат результаты дальнейшего исследования.

3. АСИМПТОТИЧЕСКИ ОПТИМАЛЬНЫЙ АЛГОРИТМ

При учете состоятельности оценок максимального правдоподобия [17] в асимптотике, когда объем выборки наблюдений ${{M}_{x}} \to \infty ,$ и в предположении о справедливости гипотезы ${{H}_{\nu }}$ можно записать ${{{\mathbf{S}}}_{\nu }} \to {{{\mathbf{K}}}_{\nu }},$ ${{{\mathbf{S}}}_{x}} \to {{{\mathbf{K}}}_{\nu }}$ и, следовательно, ${{{\mathbf{S}}}_{{x{\nu }}}} \to {{{\mathbf{K}}}_{\nu }},$ где символ $ \to $ означает сходимость “почти наверное” (п.н.) или с вероятностью 1. На основании сказанного и равенств (10) приходим к двум очевидным импликациям для каждого слагаемого из левой части оптимального алгоритма (11):

${{\left. {{{\rho }_{{x,x\nu }}}} \right|}_{{{{H}_{\nu }}}}}\xrightarrow{{{\text{п }}{\text{.н }}{\text{.}}}}0 \Rightarrow {{\left. {{{\rho }_{{x,\nu }}}} \right|}_{{{{H}_{\nu }}}}}\xrightarrow{{{\text{п }}{\text{.н }}{\text{.}}}}0,$
${{\left. {{{\rho }_{{\nu ,x\nu }}}} \right|}_{{{{H}_{\nu }}}}}\xrightarrow{{{\text{п }}{\text{.н }}{\text{.}}}}0 \Rightarrow {{\left. {{{\rho }_{{\nu ,x}}}} \right|}_{{{{H}_{\nu }}}}}\xrightarrow{{{\text{п }}{\text{.н }}{\text{.}}}}0.$

Тем самым доказано следующее теоретическое положение.

Утверждение. Асимптотически оптимальное правило принятия решений в задаче АОРР общего вида (4) определяется выражением

(12)
${{\left. {{{H}_{\nu }}\,:{{\rho }_{{x,r}}} + {{\rho }_{{r,x}}}} \right|}_{{r = \nu }}} = \min .$

Здесь сумма двух ВИР противоположной направленности определяет симметричную форму информационного рассогласования Кульбака–Лейблера [13, с. 16] между наблюдаемым сигналом x и его эталоном ${{{\mathbf{x}}}_{r}}.$ Из алгоритма (12) согласно определению (3) получим выражение для асимптотически оптимальной решающей статистики в частотной области:

(13)
$\begin{gathered} {{\rho }_{{x,r}}} = {{(2F)}^{{ - 1}}} \times \\ \times \,\,\int\limits_{{{ - F} \mathord{\left/ {\vphantom {{ - F} 2}} \right. \kern-0em} 2}}^{{F \mathord{\left/ {\vphantom {F 2}} \right. \kern-0em} 2}} {\left( {{{{{G}_{x}}(f)} \mathord{\left/ {\vphantom {{{{G}_{x}}(f)} {{{G}_{r}}(f)}}} \right. \kern-0em} {{{G}_{r}}(f)}} + {{{{G}_{r}}(f)} \mathord{\left/ {\vphantom {{{{G}_{r}}(f)} {{{G}_{x}}(f)}}} \right. \kern-0em} {{{G}_{x}}(f)}} - 2} \right){\text{d}}f} . \\ \end{gathered} $

Это известная [18] симметричная форма ДИС, или COSH-расстояние, для СПМ рассматриваемой пары сигналов. Ее практическая реализация в ИТВР хорошо изучена [2, 3]. Она основывается на методе обеляющего фильтра [10, 14] и на авторегрессионной модели речевого сигнала

(14)
${{G}_{x}}\left( f \right) = {{F}^{{ - 1}}}{{\sigma }^{2}}{{\left| {1 + \sum\limits_{m = 1}^p {{{a}_{x}}(m)\exp \left( { - j\pi {{mf} \mathord{\left/ {\vphantom {{mf} F}} \right. \kern-0em} F}} \right)} } \right|}^{2}}$

конечного порядка p = 10…20, заданной своим вектором коэффициентов линейного предсказания ${{a}_{x}}(m),$ $m = \overline {1,p} ,$ и дисперсией порождающего шума σ2 [15]. Выражения (12)–(14) в совокупности и определяют искомый алгоритм АОРР в условиях априорной неопределенности в отношении спектрально-корреляционных свойств и характеристик речевого сигнала.

Как видим, синтезированный алгоритм в принципиальном отношении отличается от своего классического аналога (1)–(3). Решение в нем принимается с использованием не одной, а одновременно двух ДИС противоположной направленности для каждой альтернативы сигнала ${{{\mathbf{x}}}_{r}}.$ Данный факт имеет решающее значение с точки зрения качества АОРР. Об этом свидетельствуют результаты проведенного автором статьи эксперимента.

4. ПРОГРАММА И РЕЗУЛЬТАТЫ ЭКСПЕРИМЕНТАЛЬНОГО ИССЛЕДОВАНИЯ

Качество АОРР на фонетическом уровне обработки речевого сигнала определяется в ИТВР [20] точностью и надежностью распознавания фонем в пределах речевого фрейма При этом точность алгоритма может быть охарактеризована [19] вероятностью ${{\alpha }_{{\nu \to r}}}$ ошибки первого рода или перепутывания ν-й фонемы с r-й, где $r \ne \nu \leqslant R.$ А его надежность – вероятностью ${{\beta }_{\nu }}$ ошибки второго рода или пропуска ν-й фонемы ввиду ее недостаточно четкого произнесения данным диктором. Вероятность ${{\alpha }_{{\nu \to r}}},$ в свою очередь, определяется [12] соответствующей ВИР ${{\rho }_{{\nu ,r}}} = \rho ({{{{{\mathbf{x}}}_{\nu }}} \mathord{\left/ {\vphantom {{{{{\mathbf{x}}}_{\nu }}} {{{{\mathbf{x}}}_{r}}}}} \right. \kern-0em} {{{{\mathbf{x}}}_{r}}}})$ между фонетическими эталонами ${{{\mathbf{x}}}_{\nu }}$ и ${{{\mathbf{x}}}_{r}},$ в частности, по формуле ДИС (3), если обработка речевого сигнала x осуществляется в частотной области. Чем больше ВИР ${{\rho }_{{\nu ,r}}}$ между фонемами в речи диктора, тем меньше вероятность их перепутывания. Аналогично, вероятность ${{\beta }_{\nu }}$ описывается известным выражением [19, 20] через ВИР аллофонов ${{\rho }_{{\nu j}}} = \rho ({{{{{\mathbf{x}}}_{{\nu j}}}} \mathord{\left/ {\vphantom {{{{{\mathbf{x}}}_{{\nu j}}}} {{{{\mathbf{x}}}_{\nu }}}}} \right. \kern-0em} {{{{\mathbf{x}}}_{\nu }}}}),$ $j = \overline {1,N,} $ в пределах ν-го фонетического кластера $\left\{ {{{{\mathbf{x}}}_{{\nu ,j}}}} \right\}$ конечного объема N. Ее эталонный аллофон ${{{\mathbf{x}}}_{\nu }}$ в ИТВР определяют [11] как центр данного кластера в информационной метрике Кульбака–Лейблера (2). А среднее значение ВИР в пределах кластера ${{\rho }_{\nu }} \triangleq {{N}^{{ - 1}}}\sum\nolimits_j {{{\rho }_{{\nu j}}}} $ служит рабочей характеристикой [11, 14] алгоритма АОРР в отношении ν-й фонемы. Величина ${{\rho }_{\nu }}$ зависит от диктора, а также от его функционального состояния в момент речеобразования [20]. Чем меньше эта величина, тем меньше вероятность ошибки второго рода ${{\beta }_{\nu }}.$ В таком случае отношение двух рассмотренных ВИР ${{{{\rho }_{{\nu ,r}}}} \mathord{\left/ {\vphantom {{{{\rho }_{{\nu ,r}}}} {{{\rho }_{\nu }}}}} \right. \kern-0em} {{{\rho }_{\nu }}}}$ – это характеристика различимости двух соответствующих фонем при учете возможных ошибок их распознавания одновременно и первого, и второго рода. Как следствие, относительная величина

(15)
${{\mu }_{\nu }} = \frac{{\mathop {\min }\limits_{r \leqslant R} {{\rho }_{{\nu ,r}}}}}{{{{\rho }_{\nu }}}}$

может служить показателем эффективности распознавания ν-й фонемы в расчете на наихудший вариант фонемы ${{{\mathbf{x}}}_{r}}$ из множества ее альтернатив [19]. Чем больше величина ${{\mu }_{\nu }},$ тем выше эффективность алгоритма в расчете на конкретную фонему ${{{\mathbf{x}}}_{\nu }}.$ Тогда на множестве из R разных фонем в речи диктора в качестве обобщенной характеристики алгоритма АОРР будем иметь векторный показатель эффективности $\left\{ {{{\mu }_{\nu }}} \right\}_{1}^{R}.$ Программа проведенного далее эксперимента предполагала сравнение по данному показателю двух конкурирующих алгоритмов обработки речевого сигнала: на основе классической формы ДИС (3) и на основе COSH-расстояния (13).

Объектом экспериментального исследования служили сигналы русских гласных фонем (случай R = 6) в произнесении контрольного диктора (в данном случае – автора статьи) как наиболее информативные в коммуникативном смысле [7, 21]. Методика исследования предполагала раздельную статистическую оценку числителя и знаменателя из выражения (15) по формуле средней выборочной величины. Для этого использовали специальную компьютерную программу “Phoneme Training”, которая находится в открытом доступе22. Скриншот ее главного окна показан на рис. 1.

Рис. 1.

Скриншот главного окна компьютерной программы в процессе обработки сигнала фонемы “у”.

В правой части экрана (см. рис. 1) отображается график СПМ сигнала произнесенной гласной фонемы. Его длительность ${{T}_{x}} = N\tau $ составляла в эксперименте не менее 2…4 с. При этом объем контрольной выборки N = 200…400 варьировался в широких пределах – в расчете на статистическое усреднение результатов АОРР на множестве речевых фреймов. Их длительность $\tau = 10$ мс была ограничена по времени условиями обеспечения стационарности речевого сигнала на интервале его автоматической обработки. В программе этот сигнал сначала автоматически редактировался – для отсечения переходных процессов в его начале и конце – и только после этого членился на множество (N-последовательность) фреймов данных ${{{\mathbf{x}}}_{j}}.$

Все основные параметры программы были установлены равными их апробированным ранее значениям [2, 3]: F = 8 кГц, n = 80, p = 20 и ${{\sigma }^{2}}$ = 1. А для определения вектора коэффициентов авторегрессии $\left\{ {{{a}_{x}}\left( m \right)} \right\}_{1}^{{20}}$ из выражения (14) по выборке ${{{\mathbf{x}}}_{j}}$ была применена высокоскоростная рекуррентная процедура Берга–Левинсона [15]. Все вычисления при этом производились на современном персональном компьютере с использованием стандартного программного обеспечения.

Формирование фонетической базы данных контрольного диктора в программе осуществлялось по известной методике [3]: в режиме “Кластеризация” на множестве отрезков сигнала $\left\{ {{{{\mathbf{x}}}_{{r,j}}}} \right\}$ каждой r-й фонемы. Одновременно была рассчитана и средняя ВИР ${{\rho }_{r}}$ в пределах каждого фонетического кластера. Точность полученных оценок на уровне значимости γ может быть охарактеризована величиной их относительной погрешности [22] $\delta = {{{{z}_{{1 - {\gamma \mathord{\left/ {\vphantom {\gamma 2}} \right. \kern-0em} 2}}}}} \mathord{\left/ {\vphantom {{{{z}_{{1 - {\gamma \mathord{\left/ {\vphantom {\gamma 2}} \right. \kern-0em} 2}}}}} {\sqrt N }}} \right. \kern-0em} {\sqrt N }},$ где z1 – γ/2 – квантиль порядка $q = 1 - {{\gamma } \mathord{\left/ {\vphantom {{\gamma } 2}} \right. \kern-0em} 2}.$ Например, при γ = 0.05 и N = 400 будем иметь [17] ${{z}_{{1 - {\gamma \mathord{\left/ {\vphantom {\gamma 2}} \right. \kern-0em} 2}}}} = {{z}_{{0.975}}} \approx 1.96$ и $\delta \leqslant 10\% ,$ что представляется [20, 21] вполне приемлемым результатом в условиях малых выборок наблюдений.

В продолжение эксперимента была поэлементно построена матрица ВИР $\left\| {{{\rho }_{{\nu ,r}}}} \right\|$ размером 6 × 6 на множестве эталонов $\left\{ {{{{\mathbf{x}}}_{r}}} \right\}_{1}^{6}$ гласных фонем от контрольного диктора. Для этого программа была переведена в режим “Обучение”. В качестве примера на рис. 2 показан скриншот окна программы при работе в этом режиме с эталоном фонемы “ы”. Здесь в колонке “Расстояние” перечислены все элементы из соответствующей строки матрицы ВИР. По матрице ВИР и вектору средних значений $\left\{ {{{\rho }_{\nu }}} \right\}$ были рассчитаны согласно выражению (15) векторные показатели эффективности алгоритмов АОРР на основе ДИС и COSH-расстояния: $\left\{ {{{{\mu }}_{{\nu }}}} \right\}$ и $\left\{ {{{{{\tilde {\mu }}}}_{{\nu }}}} \right\}$ соответственно. Полученные результаты представлены в табл. 1.

Рис. 2.

Скриншот рабочего окна программы в режиме “Обучение” при работе с эталоном фонемы “ы”.

Таблица 1.  

Показатели эффективности $\left\{ {{{\mu }_{\nu }}} \right\}$ двух алгоритмов АОРР

Алгоритм Фонемы
“а” “и” “о” “у” “ы” “э”
1 2 3 4 5 6
ДИС 15.95 24.05 25.41 31.61 25.48 47.78
COSH 21.34 45.43 28.28 41.14 44.44 51.52

Из сравнения данных, полученных на основе двух методов, видно, что использование COSH-расстояния (13) в роли решающей статистики асимптотически оптимального алгоритма (11) позволяет существенно повысить эффективность системы АОРР в отношении большинства гласных фонем. Величина достигаемого в данном случае выигрыша (рис. 3) может быть рассчитана по интуитивно понятной формуле

(16)
${{W}_{\nu }} = \frac{{{{{\tilde {\mu }}}_{\nu }} - {{\mu }_{\nu }}}}{{{{\mu }_{\nu }}}} \times 100,\,\,\% .$
Рис. 3.

Гистограмма выигрыша по эффективности ${{W}_{\nu }},\,\,\% .$

Отметим, что максимум выигрыша (16) обеспечивается при обработке наиболее сложно распознаваемых на практике [21] гласных фонем, таких как “и” и “ы”. Напротив, выигрыш минимален для фонемы “э”, которая характеризуется наиболее высоким показателем эффективности АОРР (см. табл. 1) согласно его определению (15). Подробнее данный эффект рассмотрен далее.

5. ОБСУЖДЕНИЕ ПОЛУЧЕННЫХ РЕЗУЛЬТАТОВ

Вид матрицы $\left\| {{{\rho }_{{\nu ,r}}}} \right\|$ зависит от акустических свойств речевого сигнала конкретного диктора. Для иллюстрации представлена матрица ВИР шести гласных фонем от контрольного диктора (табл. 2). В ней каждая фонема обозначена соответствующим номером из табл. 1, а элементом ${{\rho }_{{\nu ,r}}}$ на пересечении ее ν-й строки и r-го столбца служит ВИР (3) для пары фонетических эталонов $({{{\mathbf{x}}}_{{\nu }}},{{{\mathbf{x}}}_{r}}).$ Для сравнения на главной диагонали матрицы приведены средние значения ВИР $\left\{ {{{\rho }_{\nu }}} \right\}$ (выделены серым фоном) в пределах соответствующего фонетического кластера $\left\{ {{{{\mathbf{x}}}_{{\nu ,j}}}} \right\}.$ Отметим принципиально асимметричный вид данной матрицы. Это следствие известного свойства асимметрии ДИС [9] согласно ее определению (3). Причем различия в элементах ${{\rho }_{{\nu ,r}}}$ и ${{\rho }_{{r,\nu }}}$ здесь достигают весьма значительной величины: десятки раз и более. В нашем примере максимумом подобных различий характеризуются такие фонетические пары, как “а”–“о”, “а”–“у”, “о”–“и” и др. Наибольшего внимания заслуживает пара “ы”–“э”, для которой одна из ВИР противоположной направленности, а именно: ${{\rho }_{{5,6}}}$  не превышает пороговой величины [19] ${{\rho }_{0}} = 1.5...2.$ В результате для этой пары резко возрастает вероятность перепутывания фонем между собой. Однако проблема носит принципиально односторонний характер. В частности, если вероятность перепутывания “ы” с “э” для данного диктора весьма ощутима [21], то вероятностью противоположного события можно пренебречь. Но справедливо это только для алгоритма АОРР на основе ДИС (3). В асимптотически оптимальном алгоритме (11) на основе COSH-расстояния (13) роль рабочей характеристики выполняет полусумма ВИР противоположной направленности $0.5\left( {{{\rho }_{{\nu ,r}}} + {{\rho }_{{r,\nu }}}} \right),$ что практически исключает [18] ошибки, подобные рассмотренной выше. Действительно, в нашем примере с парой фонем “ы”–“э” имеем $0.5\left( {{{\rho }_{{5,6}}} + {{\rho }_{{6,5}}}} \right) \approx 3.15 > {{\rho }_{0}},$ а это гарантия [12] достаточно высокой точности и надежности их автоматического распознавания. Таким образом, именно асимметрия ДИС служит обоснованием достигаемого согласно выражению (16) выигрыша асимптотически оптимального алгоритма АОРР (12)–(14) по эффективности. Аналогичный эффект был исследован, правда с иных позиций, в работе [20].

Таблица 2.

Матрица ВИР $\left\| {{{\rho }_{{\nu ,r}}}} \right\|$

${\nu }$ r
1 2 3 4 5 6
1 0.15 30.70 3.18 3.09 5.04 2.44
2 7.84 0.10 21.34 27.34 2.29 4.52
3 75.94 546.90 0.09 2.31 92.70 25.45
4 133.85 199.88 2.21 0.07 33.88 24.39
5 8.17 5.71 6.14 5.75 0.08 1.91
6 3.54 42.83 14.82 13.32 4.40 0.07

Наглядной иллюстрацией к сказанному служат графики СПМ проблемной пары фонем на рис. 4. Здесь хорошо видна их особенность: две эти СПМ похожи между собой, но для фонемы “э” спектр мощности “богаче” на одну моду в области средних частот. Как результат, при обработке речевого сигнала методом обеляющего фильтра [10] практически исключается возможность перепутывания фонемы “э” с фонемой “ы”. Однако обратное перепутывание в процессе АОРР на основе односторонней ДИС (3) характеризуется весьма существенной вероятностью ${{\alpha }_{{r \to \nu }}}.$ Ситуация исправляется в принципиальном отношении при применении COSH-расстояния (13).

Рис. 4.

Скриншоты фрагментов главного окна программы с графиками СПМ фонемы “ы” (а) и фонемы “э” (б).

ЗАКЛЮЧЕНИЕ

Таким образом, проведенное исследование дало строгое теоретико-информационное обоснование симметричной формы ДИС в роли асимптотически оптимальной решающей статистики в задачах автоматической обработки и распознавания речевых сигналов. Полученные результаты позволят исследователям и разработчикам современных речевых систем и технологий находить наиболее эффективные технические решения острейшей в данной области науки и техники [13] проблемы: защиты от интенсивных акустических помех [46], когда известные методы обработки сигналов зачастую не обеспечивают требуемой точности и надежности распознавания отдельных фонетических единиц.

Список литературы

  1. Zhow J., Zheng W., Wang Q., Zhao L. // Chinese J. Acoust. 2014. T. 33. № 3. C. 312.

  2. Caвчeнкo B.B. // PЭ. 2017. T. 62. № 7. C. 681.

  3. Savchenko V.V. // Radiophysics and Quantum Electron. 2015. V. 58. № 5. P. 373.

  4. Schuster M. // Lecture Notes in Computer Sci. 2010. V. 6230. P. 8.

  5. Caвчeнкo B.B. // PЭ. 2016. T. 61. № 12. C. 1196.

  6. Benesty J., Sondhi M.M., Huang Y. // Springer handbook of speech processing. N.Y.: Springer, 2008. Pt B.

  7. Савченко В.В., Савченко А.В. // РЭ. 2016. Т. 61. № 4. С. 373.

  8. Chen G., Koh S.N., Soon I.Y. // Signal Processing. 2003. V. 83. P. 1445.

  9. Gray R.M., Buzo A., Gray A.H., Matsuyama Y. // IEEE Trans. 1980. V. ASSP-28. № 4. P. 367.

  10. Caвчeнкo B.B. // PЭ. 2005. T. 50. № 3. C. 309.

  11. Савченко В.В. // Изв. вузов. Радиоэлектроника. 2007. № 6. С. 3.

  12. Савченко В.В. // Изв. вузов. Радиоэлектроника. 2012. № 2. С. 47.

  13. Kullback S. Information Theory and Statistics. N.Y.: Dover Publ., 1997.

  14. Caвчeнкo B.B. // PЭ. 1997. T. 42. № 4. C. 426.

  15. Marple S.L. Digital Spectral Analysis. Englewood Cliffs, NJ: Prentice Hall, 1987.

  16. Savchenko A.V. // Lecture Notes in Computer Sci. 2014. V. 8509. P. 638.

  17. Боровков А.А. Математическая статистика. СПб.: Лань, 2010.

  18. Wei B., Gibson J. // Proc. IEEE Digital Signal Processing Workshop. Hunt, Texas, 2000. P. 3.

  19. Савченко В.В. // Электросвязь. 2017. № 12. С. 22.

  20. Caвчeнкo B.B. // PЭ. 2018. T. 63. № 1. C. 60.

  21. Конев А.А., Мещеряков Р.В., Ходашинский И.А. // VI Междисциплинарный семинар “Анализ разговорной русской речи” (АР3-2012). СПб.: Изд-во СПГУ, 2012. С. 35.

  22. Савченко В.В. // Научные ведомости Белгород. гос. ун-та. Сер. Экономика. Информатика. 2015. Т. 33/1. № 1. С. 74.

Дополнительные материалы отсутствуют.