Радиотехника и электроника, 2022, T. 67, № 3, стр. 286-293
Обнаружение гласных звуков речи в режиме реального времени с гарантированной надежностью
А. В. Савченко a, *, В. В. Савченко b, **
a Национальный исследовательский университет “Высшая школа экономики”
603155 Нижний Новгород, ул. Б. Печерская, 25, Российская Федерация
b Редакция журнала “Радиотехника и электроника”
125009 Москва, ул. Моховая, 11, стр. 7, Российская Федерация
* E-mail: avsavchenko@hse.ru
** E-mail: vvsavchenko@yandex.ru
Поступила в редакцию 25.02.2021
После доработки 21.10.2021
Принята к публикации 28.10.2021
- EDN: XAYQKR
- DOI: 10.31857/S0033849422030135
Аннотация
Рассмотрена задача обнаружения гласных звуков речи в режиме реального времени. Предложен новый алгоритм для ее решения на основе информационного (R + 1)-элемента и метода обеляющего фильтра. Рассмотрен пример его практической реализации, даны оценки эффективности. Поставлен и проведен натурный эксперимент. Показано, что при минимальных требованиях к производительности используемой вычислительной техники предложенный алгоритм характеризуется достаточно высоким быстродействием и гарантированным уровнем значимости принимаемых решений.
ВВЕДЕНИЕ
Известно [1], что гласные звуки речи (ГЗР) представляют собой наиболее значимые речевые события как с точки зрения производства, так и с точки зрения анализа речи. Их обнаружение в составе непрерывного речевого сигнала относится к числу классических задач в области автоматической обработки речи (АОР) [2–4]. В последние годы эта задача привлекает повышенный интерес исследователей в связи с появлением и распространением в мире бимодальных информационных систем и технологий [5, 6]. В них ГЗР служат сигналами условному наблюдателю для концентрации его внимания на артикуляции пользователей в моменты вероятных перемен в их эмоциональном состоянии [7, 8]. Сейчас это одно из наиболее востребованных направлений исследований в области АОР [9, 10].
Ввиду известного эффекта вариативности речи диктора на фонетическом уровне ее восприятия [11, 12] задача традиционно формулируется в терминах проверки статистических гипотез [13]. Решение в ней в многоальтернативном варианте принимают по критерию максимума правдоподобия [14]. При этом допускают ошибки разного рода [15], а именно: 1) пропуск гласной фонемы, 2) ее ложное обнаружение и, наконец, 3) перепутывание двух гласных. Их вероятности зависят от множества факторов, включая фонетические особенности речи диктора и качество используемого канала связи. А “вес” или “стоимость” таких ошибок могут сильно разниться в зависимости от поставленной наблюдателем задачи. Так, например, при анализе эмоционального состояния пользователей в многомодальных информационных системах первостепенное значение имеют ошибки первого рода, поскольку перепутывание гласных фонем друг с другом, или даже с согласными, не связано в данном случае с риском серьезных потерь полезной информации. Поэтому вероятность ошибки первого рода, или уровень значимости принимаемых решений, может служить показателем надежности используемого алгоритма обнаружения ГЗР.
Сложность состоит в том, что гласные звуки далеко не исчерпывают собой всего фонетического многообразия речи диктора. Так, например, русский язык наряду с шестью гласными (R = 6) насчитывает около сорока других фонем и несколько сотен их аллофонов [16]. В задаче обнаружения ГЗР их следует рассматривать в качестве интенсивных акустических помех речеподобного типа [17], которые сильно осложняют ее решение в режиме реального времени. По-видимому, именно этим обстоятельством можно объяснить тот общеизвестный факт [15, 16], что до настоящего времени в мире не создан сколько-нибудь эффективный коммерческий образец обнаружителя ГЗР. Поэтому актуальность темы проведенного далее исследования представляется очевидной.
Для решения похожей задачи в работе [17] было предложено расширить множество гипотез до R∑ > R единиц за счет принятия к рассмотрению R∑ – R дополнительных альтернатив, учитывающих множество речеподобных помех. Правда, в нашем случае такой вариант наталкивается на проблему множественных сравнений [14], когда недопустимо (по степенной зависимости от R∑) возрастает вероятность ошибки “ложной тревоги”. Однако для решения данной проблемы в теории АОР разработан эффективный математический аппарат, а именно: информационный (R + 1)-элемент [17, 18]. Это условный термин, введенный в работе [19] для обозначения устройства или алгоритма проверки статистических гипотез в пределах неполного множества (объема R < R∑) альтернативных распределений вероятности. В отличие от известных алгоритмов с R выходами информационный (R + 1)-элемент имеет дополнительный, (R + 1)-й выход, который используется наблюдателем для регистрации отказа одновременно от всех R контролируемых альтернатив. Указанная особенность открывает широкие возможности для преодоления проблемы множественных сравнений в задаче обнаружения ГЗР. Исследованию данных возможностей и их воплощению в алгоритм гарантированной надежности для его применения в режиме реального времени и посвящена настоящая статья. При этом используется методология информационной теории восприятия речи [20–22].
1. ПОСТАНОВКА ЗАДАЧИ
Отталкиваясь от распространенной в задачах АОР [22, 23] многомерной (n-мерной) гауссовой аппроксимации Norm(K) N-вектора отсчетов x (фрейма) речевого сигнала x(t) на интервалах его приблизительной (квази) стационарности, рассмотрим задачу проверки двух статистических гипотез
в отношении его закона распределения с автокорреляционной матрицей (АКМ) K. Здесь Kr – АКМ r-й гласной фонемы (чертой над символом H обозначено логическое отрицание). Как видим, обе гипотезы являются сложными [13]. Задача в данной формулировке не имеет оптимального решения [14]. Проблема может быть преодолена путем сведения рассматриваемой задачи к R-кратной дихотомии [18]
(1)
$\left. {\begin{array}{*{20}{c}} {{\text{ }}{{H}_{r}}{\text{:}}\,\,\,\,{\mathbf{K}} = {{{\mathbf{K}}}_{r}}{\text{ }}} \\ {{{{\overline H }}_{r}}{\text{:}}\,\,\,\,{\mathbf{K}} \ne {{{\mathbf{K}}}_{r}}} \end{array}} \right\},\,\,\,r = \overline {1,{\text{ }}R} {\text{,}}$по числу гласных фонем в речи контрольного диктора. При этом гипотеза H принимается при условии справедливости любой из парциальных гипотез Hr, т.е. выполняется равенство
Так формулируется задача об обнаружении “разладки” в случайном гауссовом процессе [22]. В ней сложной остается только вторая (альтернативная) гипотеза. Теория рекомендует применять в подобных случаях критерии несмещенного типа, для которых вероятность ошибки первого рода не превышает вероятности ошибки второго рода. В задаче (1) в этом качестве можно использовать критерий отношения правдоподобия [13]
(2)
${{W}_{r}}({\mathbf{x}}){\kern 1pt} :\,\,\,{{{{\lambda }}}_{r}}({\mathbf{x}}) \triangleq \frac{{\mathop {\sup }\limits_{{{{\mathbf{K}}}_{r}}} {\text{ }}{{p}_{r}}({\mathbf{x}})}}{{{{p}_{r}}({\mathbf{x}})}} \leqslant {{{{\lambda }}}_{0}},\,\,\,\,r = \overline {1,R} {\text{,}}$где pr(x) – функция правдоподобия гипотезы Hr (символом ∆ над знаком равенства здесь обозначено равенство по определению).
Решение ${{\overline W }_{r}}({\mathbf{x}})$ не в пользу данной гипотезы принимается в (2) при условии превышения порогового уровня λ0 > 1 отношением двух функций правдоподобия: эмпирического распределения и его гипотетической (r-й) альтернативы Norm(Kr), сформированной по результатам предварительного корреляционного анализа сигнала-эталона одноименного звука речи [11, 20]. Величина порога λ0 устанавливается наблюдателем исходя из равенства вероятности ошибки первого рода [21]
(3)
${{{{\alpha }}}_{r}} \triangleq P\left\{ {\left. {{{{\overline W }}_{r}}({\mathbf{x}})} \right|{{H}_{r}}} \right\} = P\left\{ {\left. {{{{{\lambda }}}_{r}}({\mathbf{x}}) > {{{{\lambda }}}_{0}}} \right|{{H}_{r}}} \right\} = {{{{\alpha }}}_{0}},$В самом деле, учитывая тот факт, что используемые в (1) эталоны хранятся в базе данных обнаружителя ГЗР в виде R-множества АКМ фонетических образцов xr(t) фиксированной амплитуды, нетрудно представить себе остроту указанной проблемы для практики АОР: при любой константе cr > 0 в роли масштабного множителя должна выполняться система равенств
(4)
${{W}_{r}}({\mathbf{x}}){\text{ }} = {{W}_{r}}({{c}_{r}}{\mathbf{x}}),\,\,\,\,r = \overline {1,R} .$В противном случае решающее правило (2) утрачивает свою работоспособность, поскольку вне зависимости от уровня значимости α0 будем иметь согласно (3) парадоксальное требование к пороговому уровню обнаружителя: ρ0 → ∞. Для устранения этого препятствия модифицируем критерий (2), наделив его свойством масштабной инвариантности (4).
2. СИНТЕЗ АЛГОРИТМА
Основываясь на блочно-последовательной структуре наблюдаемого фрейма x = {xm} центрированного речевого сигнала, запишем выражение [20, 22]
(5)
$\begin{gathered} \ln {{p}_{r}}\left( {\mathbf{x}} \right) = \\ = - 0.5{{M}^{{ - 1}}}\left[ {tr\left( {{\mathbf{SK}}_{r}^{{ - 1}}} \right) + \ln \left| {{{{\mathbf{K}}}_{r}}} \right| + \ln \left( {2{{\pi }}} \right)n} \right], \\ \end{gathered} $Следуя принципу максимума правдоподобия [13], в предположении о неособенности и положительной определенности матрицы S из (5) будем иметь [22]
(6)
$\begin{gathered} \mathop {\sup }\limits_{{{{\mathbf{K}}}_{r}}} {\text{ ln }}{{p}_{r}}\left( {\mathbf{x}} \right) = \\ = {{\left. { - 0.5{{M}^{{ - 1}}}\left[ {tr\left( {{\mathbf{SK}}_{r}^{{ - 1}}} \right) + \ln \left| {{{{\mathbf{K}}}_{r}}} \right| + n\ln \left( {2{{\pi }}} \right)} \right]} \right|}_{{{{{\mathbf{K}}}_{r}}{\kern 1pt} = {\kern 1pt} {\mathbf{S}}}}} = \\ {\text{ = }} - 0.5{{M}^{{ - 1}}}\left[ {n + \ln \left| {\mathbf{S}} \right| + n\ln \left( {2{{\pi }}} \right)} \right] = \\ = - 0.5{{M}^{{ - 1}}}\left[ {\ln \left| {\mathbf{S}} \right| + n\left( {\ln \left( {2{{\pi }}} \right) + 1} \right)} \right]. \\ \end{gathered} $Выражения (2), (5) и (6) в совокупности приводят к равенству
При его учете критерий (2) может быть переписан в эквивалентном виде
(7)
${{W}_{r}}({\mathbf{x}}):\,\,\,{{{{\rho }}}_{r}}{\text{(}}{\mathbf{x}}) \leqslant {{{{\rho }}}_{0}},$(8)
${{{{\rho }}}_{r}}{\text{(}}{\mathbf{x}}) \triangleq 0.5\left[ {{{n}^{{ - 1}}}tr({\mathbf{SK}}_{r}^{{ - 1}}) - {{n}^{{ - 1}}}\ln \left| {{\mathbf{SK}}_{r}^{{ - 1}}} \right| - 1} \right]$Выражения (7), (8) определяют в явном виде алгоритм обнаружения ГЗР в пределах наблюдаемого фрейма x речевого сигнала. Хотя он и не обладает свойством масштабной инвариантности в явном виде, математическая формулировка решающей статистики (8) открывает возможность для его достижения на основе использования апробированного в работе [25] подхода.
Следуя принципу минимума информационного рассогласования (МИР) [24, 26], рассмотрим оптимизационную задачу: найти минимум информационного рассогласования
(9)
$\begin{gathered} {{{{\rho }}}_{r}}({{c}_{r}}{\mathbf{x}}) = 0.5\left[ {{{n}^{{ - 1}}}c_{r}^{2}tr\left( {{\mathbf{SK}}_{r}^{{ - 1}}} \right) - {{n}^{{ - 1}}}\ln \left| {c_{r}^{2}{\mathbf{SK}}_{r}^{{ - 1}}} \right| - 1} \right] = \\ {\text{ = }}\,\,0.5\left[ {c_{r}^{2}{{n}^{{ - 1}}}tr\left( {{\mathbf{SK}}_{r}^{{ - 1}}} \right) - \ln c_{r}^{2}} \right. + \\ \left. { + \,\,{{n}^{{ - 1}}}\ln \left| {{{{\mathbf{S}}}^{{ - 1}}}} \right| - {{n}^{{ - 1}}}\ln \left| {{\mathbf{K}}_{r}^{{ - 1}}} \right| - 1} \right] \\ \end{gathered} $Приравнивая ее нулю, получим оптимизационное уравнение
решая которое, находим корень общего видаПосле подстановки полученного результата в выражение (9) будем иметь
(10)
$\begin{gathered} {{\rho }}_{r}^{*}({\mathbf{x}}) \triangleq {{{{\rho }}}_{r}}(c_{r}^{*}{\mathbf{x}}) = \\ = 0.5\left[ {\ln \left( {{{n}^{{ - 1}}}{\text{tr}}\left( {{\mathbf{SK}}_{r}^{{ - 1}}} \right)} \right) + {{n}^{{ - 1}}}\ln \left| {{{{\mathbf{S}}}^{{ - 1}}}} \right| - {{n}^{{ - 1}}}\ln \left| {{\mathbf{K}}_{r}^{{ - 1}}} \right|} \right]. \\ \end{gathered} $Полученное выражение определяет решающую статистику МИР как альтернативу (8) для подстановки в критерий (7). Нетрудно увидеть, что эта статистика обладает свойством масштабной инвариантности в смысле равенства (4), а именно:
Обоснованием алгоритма (7), (10) может служить и соображение практического характера: учитывая быструю сходимость (со скоростью неулучшаемого порядка 1/M ~ 1/N) статистических оценок АКМ по формуле выборочного среднего [13, 24], можно ожидать, что эмпирическое распределение Norm(S) должно не сильно отличаться от своего эталона Norm(Kr) при справедливости гипотезы Hr в условиях конечных (N < ∞) выборок наблюдений. Раскроем принцип действия синтезированного алгоритма на примере его практической реализации с использованием распространенной в задачах АОР [20–23] авторегрессионной модели ГЗР.
3. ПРИМЕР ПРАКТИЧЕСКОЙ РЕАЛИЗАЦИИ
Авторегрессионная (АР) модель сигнала r-й фонемы
(11)
${{x}_{r}}(t) = \sum\limits_{i = 1}^p {{{a}_{r}}(i){{x}_{r}}} (t - i) + {{{{\eta }}}_{r}}(t){\kern 1pt} {\text{ ,}}\,\,\,\,t = 1,2, \ldots ,$Так, величина ${{\sigma }}_{r}^{2}$ определяет минимально достижимую дисперсию погрешности линейного предсказания случайного временного ряда (11) на один шаг в будущее. При условии p < n она равна обратной величине первого элемента обратной одноименной (r-й) АКМ [27]:
Здесь символом e обозначен индикаторный вектор-столбец размерности n, составленный из одних нулей, за исключением единицы на первой позиции. Аналогичным образом может быть определен и соответствующий вектор АР-коэффициентов:
Он состоит из взятых с коэффициентом ${{\sigma }}_{r}^{2}$ элементов первого столбца обратной одноименной АКМ, исключая ее первый элемент. Здесь br – вектор коэффициентов линейного обеляющего фильтра (ОФ), настроенного на этапе подготовки данных на сигнал r-й фонемы xr(t). Его порядок равен р = n – 1. Данный фильтр – ключевой элемент обнаружителя ГЗР (7), (10).
Динамика ОФ описывается инверсным по отношению к (11) выражением вида [28]
Дисперсия ${{\sigma }}_{r}^{2}({\mathbf{x}}) \triangleq \left\langle {{{y}_{r}}^{2}(t)} \right\rangle $ сигнала на его выходе (скобками $\left\langle \cdot \right\rangle $ обозначено математическое ожидание случайной величины) отвечает соотношению ${{\sigma }}_{r}^{2}({\mathbf{x}}) \geqslant {{\sigma }}_{r}^{2}$ [22] с равенством лишь в асимптотике (при N → ∞), когда на вход r-го ОФ (12) поступает сигнал xr(t) одноименной фонемы. Эмпирическая (по выборке) оценка данной дисперсии определяется по формуле [13]
(13)
${{\hat {\sigma }}}_{r}^{2}({\mathbf{x}}) = {{M}^{{ - 1}}}\sum\limits_{m = 1}^M {y_{r}^{2}({{{\mathbf{x}}}_{m}})} $Полученное выражение совместно с критерием (7) определяет искомый алгоритм обнаружения ГЗР на основе метода ОФ и принципа МИР со свойством масштабной инвариантности (4). Его вычислительная сложность имеет порядок n3, что следует из известной [27] оценки затрат на операцию обращения симметричной (n × n)-матрицы S. Это совсем немного, если учесть, что в задачах АОР размерность распределения речевого сигнала ограничена величиной n = 10…20 [21–23].
4. АНАЛИЗ ЭФФЕКТИВНОСТИ
Оценим верхнюю границу решающей статистики (14):
По этой границе из выражения (3) определим гарантированный уровень значимости принимаемых согласно (7) решений:
Учитывая, что обе эмпирические дисперсии в (15) рассчитываются по формуле среднего квадрата случайной гауссовой величины (13), по аналогии с работой [22] воспользуемся для их описания двумя χ2-распределениями (Пирсона) с M-степенями свободы каждое. В предположении об их статистической независимости [28, 29] получаем
(16)
$\begin{gathered} {{{{\alpha }}}_{r}} \leqslant P\left\{ {\frac{{{{\chi }}_{1}^{2}(M)}}{{{{\chi }}_{2}^{2}(M)}} > 1 + \left. {2{{{{\rho }}}_{0}}} \right|{{H}_{r}}} \right\} = \\ = 1 - {{\Phi }_{{M,M}}}\left( {1 + 2{{{{\rho }}}_{0}}} \right), \\ \end{gathered} $(17)
${{{{\rho }}}_{0}} = 0.5\left[ {\Phi _{{M,M}}^{{ - 1}}\left( {1 - {{{{\alpha }}}_{0}}} \right) - 1} \right]$Отметим, что этим действием условный наблюдатель устанавливает требования к уровню значимости принимаемых им решений [22]: чем меньше вероятность α0, тем ниже требования наблюдателя к обнаружителю ГЗР и, следовательно, ниже значимость или надежность его решений. И, наоборот, при понижении порога ρ0 уровень значимости возрастает. Например, при равенствах α0 = 0.05 и М = 12 с использованием электронных таблиц Excel будем иметь ρ0 = 0.84. Отметим, что межфонемная величина информационного рассогласования (8) звуков речи диктора этот порог превышает на порядок и более [11, 29]. Таким образом, предложенный алгоритм может быть охарактеризован гарантированной надежностью обнаружения ГЗР в смысле уровня значимости принимаемых в нем решений. Для сравнения: его известные аналоги [30, 31], основанные на методе ОФ в формулировке (7), (8), подобным качеством не обладают, поскольку их решающие статистики свойством масштабной инвариантности не наделены.
Действительно, в этом случае из (10) будем иметь
Здесь ${{\Phi }_{M}}\left( \cdot \right)$ – интегральная функция χ2-распределения с M-степенями свободы; ${{{{\tilde {\rho }}}}_{0}} = {{{{\rho }}}_{0}} + {\text{const}}$. Отсюда по аналогии с (17) получим выражение для требуемого порога
в зависимости от установленного наблюдателем уровня значимости α0. Как видим, в отличие от выражения (17), этот порог зависит не только от номера фонемы r, но и от интенсивности наблюдаемого речевого фрейма x. Иными словами, при применении метода ОФ в формулировке (7), (8) нельзя гарантировать высокую степень надежности принимаемых наблюдателем решений. Напротив, предложенный алгоритм (7), (14) предоставляет наблюдателю такую возможность – путем регулировки уровня значимости в широком диапазоне значений α0. Проиллюстрируем данную возможность результатами проведенного далее эксперимента.
5. РЕЗУЛЬТАТЫ ЭКСПЕРИМЕНТАЛЬНОГО ИССЛЕДОВАНИЯ
Объектом проведенного исследования служил речевой сигнал x(t) достаточно большой суммарной длительности (минуты), который был получен от контрольного диктора по результатам его устного чтения текста первой главы повести А.С$.$ Пушкина “Капитанская дочка”. Предмет исследования – обнаружитель ГЗР, заданный своим критерием (7) и выражением для решающей статистики (14). Его реализация в программном виде была осуществлена на базе авторской компьютерной программы “Phoneme Training”11. Ее интерфейс ранее был подробно описан [20, 22]. Речевой сигнал x(t) в ходе эксперимента членился на фреймы длительностью τ = 30 мс – с 10 мс пересечениями каждого из них со своими “соседями” слева и справа. Частота дискретизации сигнала была установлена равной F = 8 кГц при равенстве порядка АКМ n = 20.
На этапе подготовки эксперимента по известной методике [29] была сформирована фонетическая база данных контрольного диктора. В нее вошли образцы (основные аллофоны [17]) его шести гласных фонем (R = 6). Длительность каждого образца составляла минимум T = 2…3 с. По ним сначала были получены оценки АКМ Kr для шести гласных фонем и сразу после этого – векторы коэффициентов br для системы ОФ (12). При этом точность полученных оценок в ее относительном выражении ${{\varepsilon }} = {{1.65} \mathord{\left/ {\vphantom {{1.65} {\sqrt {{{3T} \mathord{\left/ {\vphantom {{3T} {{\tau }}}} \right. \kern-0em} {{\tau }}}} }}} \right. \kern-0em} {\sqrt {{{3T} \mathord{\left/ {\vphantom {{3T} {{\tau }}}} \right. \kern-0em} {{\tau }}}} }}$ [21, 22] с доверительной вероятностью 0.9 не вышла за пределы 10%. Программа далее была переведена в режим “Сегментирование”, в котором речевой сигнал x(t) был обработан согласно критерию (7), (14) с автоматическим выделением отрезков гласных фонем. Значение порогового уровня ρ0 варьировалось в эксперименте с использованием вкладки “Параметры” в меню программы. Полученные результаты отражены на рис. 1 в виде трех скриншотов (снимков экрана) с изображением рабочего окна программы для разных значений порога ρ0.
Рис. 1.
Экранная форма рабочего окна программы “Сегментирование” при ρ0 = 0.60 (а), 0.70 (б) и 0.85 (в).

Здесь в каждом скриншоте представлена временная диаграмма сигнала короткого фрагмента речи диктора: “Нас было девять человек детей”. Серым цветом отмечены те отрезки речевого сигнала, которые были идентифицированы обнаружителем как гласные фонемы. Разные оттенки серого отвечают разной степени надежности обнаружения ГЗР (зависит от мгновенного значения (14) решающей статистики МИР). Из сравнения временных диаграмм между собой можно подтвердить сделанный ранее вывод в отношении обратно пропорциональной зависимости (16) уровня значимости решений обнаружителя от установленного в нем порога ρ0. Сделанный вывод имеет очевидное практическое значение с точки зрения оперативной регулировки порогового уровня условным наблюдателем под фонетические особенности диктора и национального языка.
6. ОБСУЖДЕНИЕ ПОЛУЧЕННЫХ РЕЗУЛЬТАТОВ
Говоря о перспективах практического применения предложенного алгоритма, следует подробнее остановиться на задаче анализа динамики эмоционального состояния пользователей бимодальных (аудио и видео) информационных систем [32, 33]. Пусть нами выбран определенный алгоритм принятия решений, например, по артикуляции диктора в процессе речеобразования. Охарактеризуем его эффективность вероятностью безошибочного решения Р(А). Соответственно, Р(Ā) = 1 – Р(А) – вероятность ошибочного решения. Обозначим через Р(Е) вероятность появления (на интервале наблюдений) ГЗР. Тогда Р(Ē) = 1 – Р(Е) – это вероятность их отсутствия. По формуле полной вероятности [13] будем иметь
Таким образом, при применении бимодального метода с обнаружением гласных фонем как стимула для концентрации внимания наблюдателя мы получаем гарантированный выигрыш по вероятности безошибочных решений. Величина выигрыша зависит от отношения двух условных вероятностей ${{\mu }} \triangleq {{Р\left( {\left. А \right|Е} \right)} \mathord{\left/ {\vphantom {{Р\left( {\left. А \right|Е} \right)} {Р\left( {\left. А \right|\overline Е } \right)}}} \right. \kern-0em} {Р\left( {\left. А \right|\overline Е } \right)}}$. При учете соотношения Р(А|Е) $ \gg $ Р(А|Ē) получаем выигрыш μ ⪢ 1. Как видим, он может быть весьма значительным. И это только подтверждает тот общеизвестный факт [36, 37], что с точки зрения проявления эмоций в артикуляции диктора гласные звуки заведомо более информативны по сравнению со всеми другими звуками его речи.
К сожалению, в мире на данный момент не существует [38] коммерческого образца информационной системы, где этот эффект реализован на практике. Проблема состоит в организации работы обнаружителя ГЗР в режиме реального времени. Она обусловлена большой вычислительной сложностью существующих алгоритмов [2–6]. На решение этой проблемы и нацелен, главным образом, предложенный в рамках настоящей статьи алгоритм.
Список литературы
Rabiner L.R., Shafer R.W. Theory and Applications of Digital Speech Processing. Boston: Pearson, 2010.
Kashani H.B., Sayadiyan A., Sheikhzadeh H. // Speech Communication. 2017. V. 91. P. 28. https://doi.org/10.1016/j.specom.2017.04.008
Srinivas N., Pradhan G., Kumar P.K. // Integration. 2018. V. 63. P. 185. https://doi.org/10.1016/j.vlsi.2018.07.005
Kumar A., Shahnawazuddin S., Pradhan G. // Int. Conf. on Signal Processing and Communications (SPCOM). Bangalore. 16–19 Jul. 2018. N.Y.: IEEE, P. 252. https://doi.org/10.1109/SPCOM.2018.8724428
Yongda D., Fang L., Huang X. // Computers & Electrical Engineering. 2018. V. 72. P. 443. https://doi.org/10.1016/j.compeleceng.2018.09.014
Hossain M.Sh., Muhammad G. // Inform. Fusion. 2019. V. 49. P. 69. https://doi.org/10.1016/j.inffus.2018.09.008
Akçay M.B., Oğuz K. // Speech Communication. 2020. V. 116. P. 56. https://doi.org/10.1016/j.specom.2019.12.001
Makino R., Yoshitomi Y., Asada T., Tabuse M. // Proc. Int. Conf. on Artificial Life and Robotics. (ICAROB 2020). Oita. 8–11 Jan. Oita: Sugisaka Masanori, 2020. P. 403. https://doi.org/10.5954/ICAROB.2020.OS16-4
Asada T. Adachi R., Takada S. et al. // Proc. Int. Conf. on Artificial Life and Robotics. (ICAROB 2020). Oita. 8–11 Jan. Oita: Sugisaka Masanori, 2020. P. 398. https://doi.org/10.5954/ICAROB.2020.OS16-3
Kumar A., Shahnawazuddin S., Pradhanet G. // Circuits Systems, Signal Process. 2017. V. 36. P. 2315. https://doi.org/10.1007/s00034-016-0409-1
Savchenko V.V. // Radioelectron. Commun. Syst. 2020. V. 63. P. 532. https://doi.org/10.3103/S0735272720100039
Lehet M., Holt L. // Cognition. 2020. V. 202. P. 104328. https://doi.org/10.1016/j.cognition.2020.104328
Боровков А.А. Математическая статистика [Электронный ресурс]. Санкт-Петербург: Лань, 2010. https://e.lanbook.com/book/3810.
Lehmann E.L., Romano J.P. Testing Statistical Hypotheses. N. Y.: Springer, 2005. P. 348. https://doi.org/10.1007/0-387-27605-X
Kashani H.B., Sayadiyan A. // Computer Speech and Language. 2018. V. 50. P. 105. https://doi.org/10.1016/j.csl.2017.12.008
Gahl S., Baayen R.H. // J. Phonetics. 2019. V. 74. P. 42. https://doi.org/10.1016/j.wocn.2019.02.001
Caвчeнкo B.B. // PЭ. 2016. № 12. C. 1196. https://doi.org/10.7868/S0033849416120238
Савченко В.В. // Электросвязь. 2017. № 12. С. 22.
Савченко В.В. // Изв. вузов. Радиоэлектроника. 2006. № 4. С. 13.
Caвчeнкo B.B. // PЭ. 2019. T. 64. № 6. C. 585. https://doi.org/10.1134/S0033849419060093
Савченко В.В., Савченко Л.В. // Измерительная техника. 2019. № 9. С. 59. https://doi.org/10.32446/0368-1025it.2019-9-59-64
Савченко В.В., Савченко А.В. // РЭ. 2020. Т. 65. № 11. С. 1101. https://doi.org/10.31857/S0033849420110157
Candan Ç. // Signal Processing. 2020. V. 166. P. 107256. https://doi.org/10.1016/j.sigpro.2019.107256
Kullback S. Information Theory and Statistics. N.Y.: Dover Publications, 1997. https://www.amazon.com// dp/0486696847.
Savchenko A.V., Savchenko V.V. & Savchenko L.V. // Optimization Lett. 2021. № 7. https://doi.org/10.1007/s11590-021-01790-5
Caвчeнкo B.B. // PЭ. 2005. T. 50. № 3. C. 309.
Marple S.L. Digital Spectral Analysis with Applications. Mineola: Dover Publications. 2019. https:// www.goodreads.com/book/show/19484239.
Caвчeнкo B.B. // PЭ. 1997. T. 42. № 4. C. 426.
Savchenko V.V. // Radioelectronics and Communications. 2018. P. 61. № 9. P. 419. https://doi.org/10.3103/S0735272718090042
Larsen B.S., Winther S., Nissen L. et al. // Computing in Cardiology (CinC). Singapore, 8–11 Sept. 2019. N.Y.: IEEE, 2019. P. 9005907. https://doi.org/10.23919/CinC49843.2019.9005907
Леховицкий Д.И., Атаманский Д.В., Рачков Д.С., Семеняка А.В. // Изв. вузов. Радиоэлектроника. 2015. Т. 58. № 12(642). С. 3. https://doi.org/10.20535/S0021347015120018
Akbulut F.P., Perros H.G., Shahzad M. // Computer Methods and Programs in Biomedicine. 2020. V. 195. P. 105571. https://doi.org/10.1016/j.cmpb.2020.105571
Falagiarda F., Collignon O. // Cortex. 2019. V. 119. P. 184. https://doi.org/10.1016/j.cortex.2019.04.017
Davis S.K., Morningstar M., Dirks M.A., Qualter P. // Personality and Individual Differences. 2020. V. 160. P. 109938. https://doi.org/10.1016/j.paid.2020.109938
Arana J., Gordillo F., Darias J., Mestas L. // Computers in Human Behavior. 2020. V. 104. P.106156. https://doi.org/10.1016/j.chb.2019.106156
Stasak B., Epps J., Goecke R. // Computer Speech and Language. 2019. V. 53. P. 140. https://doi.org/10.1016/j.csl.2018.08.001
Kim J., Toutios A., Lee S., Narayanan Sh.S. // Computer Speech and Language. 2020. V. 64. P. 101100. https://doi.org/10.1016/j.csl.2020.101100
Rammohan R., Dhanabalsamy N., Dimov V., Eidelman F.J. // J. Allergy and Clinical Immunology. 2017. V. 139. № 2. P. AB250. https://doi.org/10.1016/j.jaci.2016.12.804
Дополнительные материалы отсутствуют.
Инструменты
Радиотехника и электроника