Радиотехника и электроника, 2022, T. 67, № 3, стр. 286-293

Обнаружение гласных звуков речи в режиме реального времени с гарантированной надежностью

А. В. Савченко a*, В. В. Савченко b**

a Национальный исследовательский университет “Высшая школа экономики”
603155 Нижний Новгород, ул. Б. Печерская, 25, Российская Федерация

b Редакция журнала “Радиотехника и электроника”
125009 Москва, ул. Моховая, 11, стр. 7, Российская Федерация

* E-mail: avsavchenko@hse.ru
** E-mail: vvsavchenko@yandex.ru

Поступила в редакцию 25.02.2021
После доработки 21.10.2021
Принята к публикации 28.10.2021

Полный текст (PDF)

Аннотация

Рассмотрена задача обнаружения гласных звуков речи в режиме реального времени. Предложен новый алгоритм для ее решения на основе информационного (R + 1)-элемента и метода обеляющего фильтра. Рассмотрен пример его практической реализации, даны оценки эффективности. Поставлен и проведен натурный эксперимент. Показано, что при минимальных требованиях к производительности используемой вычислительной техники предложенный алгоритм характеризуется достаточно высоким быстродействием и гарантированным уровнем значимости принимаемых решений.

ВВЕДЕНИЕ

Известно [1], что гласные звуки речи (ГЗР) представляют собой наиболее значимые речевые события как с точки зрения производства, так и с точки зрения анализа речи. Их обнаружение в составе непрерывного речевого сигнала относится к числу классических задач в области автоматической обработки речи (АОР) [24]. В последние годы эта задача привлекает повышенный интерес исследователей в связи с появлением и распространением в мире бимодальных информационных систем и технологий [5, 6]. В них ГЗР служат сигналами условному наблюдателю для концентрации его внимания на артикуляции пользователей в моменты вероятных перемен в их эмоциональном состоянии [7, 8]. Сейчас это одно из наиболее востребованных направлений исследований в области АОР [9, 10].

Ввиду известного эффекта вариативности речи диктора на фонетическом уровне ее восприятия [11, 12] задача традиционно формулируется в терминах проверки статистических гипотез [13]. Решение в ней в многоальтернативном варианте принимают по критерию максимума правдоподобия [14]. При этом допускают ошибки разного рода [15], а именно: 1) пропуск гласной фонемы, 2) ее ложное обнаружение и, наконец, 3) перепутывание двух гласных. Их вероятности зависят от множества факторов, включая фонетические особенности речи диктора и качество используемого канала связи. А “вес” или “стоимость” таких ошибок могут сильно разниться в зависимости от поставленной наблюдателем задачи. Так, например, при анализе эмоционального состояния пользователей в многомодальных информационных системах первостепенное значение имеют ошибки первого рода, поскольку перепутывание гласных фонем друг с другом, или даже с согласными, не связано в данном случае с риском серьезных потерь полезной информации. Поэтому вероятность ошибки первого рода, или уровень значимости принимаемых решений, может служить показателем надежности используемого алгоритма обнаружения ГЗР.

Сложность состоит в том, что гласные звуки далеко не исчерпывают собой всего фонетического многообразия речи диктора. Так, например, русский язык наряду с шестью гласными (R = 6) насчитывает около сорока других фонем и несколько сотен их аллофонов [16]. В задаче обнаружения ГЗР их следует рассматривать в качестве интенсивных акустических помех речеподобного типа [17], которые сильно осложняют ее решение в режиме реального времени. По-видимому, именно этим обстоятельством можно объяснить тот общеизвестный факт [15, 16], что до настоящего времени в мире не создан сколько-нибудь эффективный коммерческий образец обнаружителя ГЗР. Поэтому актуальность темы проведенного далее исследования представляется очевидной.

Для решения похожей задачи в работе [17] было предложено расширить множество гипотез до R > R единиц за счет принятия к рассмотрению RR дополнительных альтернатив, учитывающих множество речеподобных помех. Правда, в нашем случае такой вариант наталкивается на проблему множественных сравнений [14], когда недопустимо (по степенной зависимости от R) возрастает вероятность ошибки “ложной тревоги”. Однако для решения данной проблемы в теории АОР разработан эффективный математический аппарат, а именно: информационный (R + 1)-элемент [17, 18]. Это условный термин, введенный в работе [19] для обозначения устройства или алгоритма проверки статистических гипотез в пределах неполного множества (объема R < R) альтернативных распределений вероятности. В отличие от известных алгоритмов с R выходами информационный (R + 1)-элемент имеет дополнительный, (R + 1)-й выход, который используется наблюдателем для регистрации отказа одновременно от всех R контролируемых альтернатив. Указанная особенность открывает широкие возможности для преодоления проблемы множественных сравнений в задаче обнаружения ГЗР. Исследованию данных возможностей и их воплощению в алгоритм гарантированной надежности для его применения в режиме реального времени и посвящена настоящая статья. При этом используется методология информационной теории восприятия речи [2022].

1. ПОСТАНОВКА ЗАДАЧИ

Отталкиваясь от распространенной в задачах АОР [22, 23] многомерной (n-мерной) гауссовой аппроксимации Norm(K) N-вектора отсчетов x (фрейма) речевого сигнала x(t) на интервалах его приблизительной (квази) стационарности, рассмотрим задачу проверки двух статистических гипотез

$\left. {\begin{array}{*{20}{c}} {H:\,\,\,\,{\mathbf{K}} \subset \left\{ {{{{\mathbf{K}}}_{r}}} \right\}} \\ {\overline H :\,\,\,\,{\mathbf{K}} \not\subset \left\{ {{{{\mathbf{K}}}_{r}}} \right\}} \end{array}} \right\}$

в отношении его закона распределения с автокорреляционной матрицей (АКМ) K. Здесь Kr – АКМ r-й гласной фонемы (чертой над символом H обозначено логическое отрицание). Как видим, обе гипотезы являются сложными [13]. Задача в данной формулировке не имеет оптимального решения [14]. Проблема может быть преодолена путем сведения рассматриваемой задачи к R-кратной дихотомии [18]

(1)
$\left. {\begin{array}{*{20}{c}} {{\text{ }}{{H}_{r}}{\text{:}}\,\,\,\,{\mathbf{K}} = {{{\mathbf{K}}}_{r}}{\text{ }}} \\ {{{{\overline H }}_{r}}{\text{:}}\,\,\,\,{\mathbf{K}} \ne {{{\mathbf{K}}}_{r}}} \end{array}} \right\},\,\,\,r = \overline {1,{\text{ }}R} {\text{,}}$

по числу гласных фонем в речи контрольного диктора. При этом гипотеза H принимается при условии справедливости любой из парциальных гипотез Hr, т.е. выполняется равенство

$H = \bigcup\limits_{r = 1}^R {{{H}_{r}}} {\kern 1pt} .$

Так формулируется задача об обнаружении “разладки” в случайном гауссовом процессе [22]. В ней сложной остается только вторая (альтернативная) гипотеза. Теория рекомендует применять в подобных случаях критерии несмещенного типа, для которых вероятность ошибки первого рода не превышает вероятности ошибки второго рода. В задаче (1) в этом качестве можно использовать критерий отношения правдоподобия [13]

(2)
${{W}_{r}}({\mathbf{x}}){\kern 1pt} :\,\,\,{{{{\lambda }}}_{r}}({\mathbf{x}}) \triangleq \frac{{\mathop {\sup }\limits_{{{{\mathbf{K}}}_{r}}} {\text{ }}{{p}_{r}}({\mathbf{x}})}}{{{{p}_{r}}({\mathbf{x}})}} \leqslant {{{{\lambda }}}_{0}},\,\,\,\,r = \overline {1,R} {\text{,}}$

где pr(x) – функция правдоподобия гипотезы Hr (символом ∆ над знаком равенства здесь обозначено равенство по определению).

Решение ${{\overline W }_{r}}({\mathbf{x}})$ не в пользу данной гипотезы принимается в (2) при условии превышения порогового уровня λ0 > 1 отношением двух функций правдоподобия: эмпирического распределения и его гипотетической (r-й) альтернативы Norm(Kr), сформированной по результатам предварительного корреляционного анализа сигнала-эталона одноименного звука речи [11, 20]. Величина порога λ0 устанавливается наблюдателем исходя из равенства вероятности ошибки первого рода [21]

(3)
${{{{\alpha }}}_{r}} \triangleq P\left\{ {\left. {{{{\overline W }}_{r}}({\mathbf{x}})} \right|{{H}_{r}}} \right\} = P\left\{ {\left. {{{{{\lambda }}}_{r}}({\mathbf{x}}) > {{{{\lambda }}}_{0}}} \right|{{H}_{r}}} \right\} = {{{{\alpha }}}_{0}},$
заданной константе α0$ \ll $ 1, где P{·|·} – условная вероятность случайного события. В таком случае правило (2) гарантирует требуемый уровень значимости принимаемых решений [13]. Причем не исключается возможность срабатывания данного критерия одновременно для нескольких гласных фонем с номерами r1, r2, …, rL, где LR. Однако суммарная вероятность ошибки первого рода при этом не увеличивается:
$\begin{gathered} {{{{\alpha }}}_{\Sigma }} = \prod\limits_{l = 1}^L {P\left\{ {\left. {{{{{\lambda }}}_{{{{r}_{L}}}}}{\text{(}}{\mathbf{x}}) > {{{{\lambda }}}_{0}}} \right|{{H}_{r}}} \right\}} \leqslant \\ \leqslant P\left\{ {\left. {{{{{\lambda }}}_{r}}{\text{(}}{\mathbf{x}}) > {{{{\lambda }}}_{0}}} \right|{{H}_{r}}} \right\} \leqslant {{{{\alpha }}}_{0}}, \\ \end{gathered} $
поскольку по условиям задачи обнаружения (1) различение ГЗР между собой не предусмотрено. Решение об обнаружении гласной фонемы принимается в общем случае при условии L ≥ 1. Нетрудно понять, что этим одновременно решаются проблемы как множественных сравнений, так и быстродействия обнаружителя. Однако реализации данного эффекта на практике препятствует проблема нестабильности в широких пределах масштаба или амплитуды ГЗР на входе обнаружителя [22].

В самом деле, учитывая тот факт, что используемые в (1) эталоны хранятся в базе данных обнаружителя ГЗР в виде R-множества АКМ фонетических образцов xr(t) фиксированной амплитуды, нетрудно представить себе остроту указанной проблемы для практики АОР: при любой константе cr > 0 в роли масштабного множителя должна выполняться система равенств

(4)
${{W}_{r}}({\mathbf{x}}){\text{ }} = {{W}_{r}}({{c}_{r}}{\mathbf{x}}),\,\,\,\,r = \overline {1,R} .$

В противном случае решающее правило (2) утрачивает свою работоспособность, поскольку вне зависимости от уровня значимости α0 будем иметь согласно (3) парадоксальное требование к пороговому уровню обнаружителя: ρ0 → ∞. Для устранения этого препятствия модифицируем критерий (2), наделив его свойством масштабной инвариантности (4).

2. СИНТЕЗ АЛГОРИТМА

Основываясь на блочно-последовательной структуре наблюдаемого фрейма x = {xm} центрированного речевого сигнала, запишем выражение [20, 22]

$\begin{gathered} {{p}_{r}}\left( {\mathbf{x}} \right) = {{p}_{r}}\left( {{{{\mathbf{x}}}_{1}},{{{\mathbf{x}}}_{2}},...,{{{\mathbf{x}}}_{M}}} \right) = \prod\limits_{m = 1}^M {{{p}_{r}}\left( {{{{\mathbf{x}}}_{m}}} \right)} = \\ {\text{ = }}{{\left[ {{{{\left( {2{{\pi }}} \right)}}^{n}}\left| {{{{\mathbf{K}}}_{r}}} \right|} \right]}^{{ - 0.5M}}}\exp \left( { - 0.5\sum\limits_{m = 1}^M {{\mathbf{x}}_{m}^{T}{\mathbf{K}}_{r}^{{ - 1}}{{{\mathbf{x}}}_{m}}} } \right) = \\ {\text{ = }}{{\left[ {{{{\left( {2{{\pi }}} \right)}}^{n}}\left| {{{{\mathbf{K}}}_{r}}} \right|} \right]}^{{ - 0.5M}}}\exp \left[ { - 0.5Mtr\left( {{\mathbf{SK}}_{r}^{{ - 1}}} \right)} \right],{\text{ }} \\ \end{gathered} $
или в более компактном виде
(5)
$\begin{gathered} \ln {{p}_{r}}\left( {\mathbf{x}} \right) = \\ = - 0.5{{M}^{{ - 1}}}\left[ {tr\left( {{\mathbf{SK}}_{r}^{{ - 1}}} \right) + \ln \left| {{{{\mathbf{K}}}_{r}}} \right| + \ln \left( {2{{\pi }}} \right)n} \right], \\ \end{gathered} $
где ${\mathbf{S}} \triangleq {{М}^{{ - 1}}}\sum\nolimits_{m = 1}^M {{{{\mathbf{x}}}_{m}}{\mathbf{x}}_{m}^{T}} $ – эмпирическая оценка АКМ речевого сигнала по M-выборке векторных наблюдений; xmn-вектор (столбец) отсчетов речевого сигнала x(t) в пределах его m-го (mM) отрезка длительностью τ0 = τ/M; M = [N/n], (символами tr(·) и |·| здесь обозначены соответственно след и определитель квадратной (n × n)-матрицы, [·] – целая часть рационального числа, Т – знак транспонирования). Например, при τ =30 мс, F = = 8 кГц и n = 20 (типичные значения параметров для систем АОР [21, 22]) будем иметь N = 30 × 8 = = 240 и, следовательно, M = 240/20 = 12 непересекающихся отрезков сигнала x(t).

Следуя принципу максимума правдоподобия [13], в предположении о неособенности и положительной определенности матрицы S из (5) будем иметь [22]

(6)
$\begin{gathered} \mathop {\sup }\limits_{{{{\mathbf{K}}}_{r}}} {\text{ ln }}{{p}_{r}}\left( {\mathbf{x}} \right) = \\ = {{\left. { - 0.5{{M}^{{ - 1}}}\left[ {tr\left( {{\mathbf{SK}}_{r}^{{ - 1}}} \right) + \ln \left| {{{{\mathbf{K}}}_{r}}} \right| + n\ln \left( {2{{\pi }}} \right)} \right]} \right|}_{{{{{\mathbf{K}}}_{r}}{\kern 1pt} = {\kern 1pt} {\mathbf{S}}}}} = \\ {\text{ = }} - 0.5{{M}^{{ - 1}}}\left[ {n + \ln \left| {\mathbf{S}} \right| + n\ln \left( {2{{\pi }}} \right)} \right] = \\ = - 0.5{{M}^{{ - 1}}}\left[ {\ln \left| {\mathbf{S}} \right| + n\left( {\ln \left( {2{{\pi }}} \right) + 1} \right)} \right]. \\ \end{gathered} $

Выражения (2), (5) и (6) в совокупности приводят к равенству

$\begin{gathered} {\text{ln }}{{{{\lambda }}}_{r}}({\mathbf{x}}) = \mathop {\ln \sup }\limits_{{{{\mathbf{K}}}_{r}}} {\text{ }}{{p}_{r}}({\mathbf{x}}) - \ln {{p}_{r}}({\mathbf{x}}) = \\ = 0.5{{M}^{{ - 1}}}\left\{ {\left[ {tr\left( {{\mathbf{S}} \cdot {\mathbf{K}}_{r}^{{ - 1}}} \right) + \ln \left| {{{{\mathbf{K}}}_{r}}} \right| + n\ln \left( {2{{\pi }}} \right)} \right] - } \right. \\ \left. { - \,\,\left[ {\ln \left| {\mathbf{S}} \right| + n\left( {\ln \left( {2{{\pi }}} \right) + 1} \right)} \right]} \right\} = \\ = 0.5{{M}^{{ - 1}}}\left[ {tr\left( {{\mathbf{SK}}_{r}^{{ - 1}}} \right) - \ln \left| {{\mathbf{SK}}_{r}^{{ - 1}}} \right| - n} \right]. \\ \end{gathered} $

При его учете критерий (2) может быть переписан в эквивалентном виде

(7)
${{W}_{r}}({\mathbf{x}}):\,\,\,{{{{\rho }}}_{r}}{\text{(}}{\mathbf{x}}) \leqslant {{{{\rho }}}_{0}},$
где в качестве решающей статистики используется удельная величина (на один отсчет данных) информационного рассогласования
(8)
${{{{\rho }}}_{r}}{\text{(}}{\mathbf{x}}) \triangleq 0.5\left[ {{{n}^{{ - 1}}}tr({\mathbf{SK}}_{r}^{{ - 1}}) - {{n}^{{ - 1}}}\ln \left| {{\mathbf{SK}}_{r}^{{ - 1}}} \right| - 1} \right]$
двух гауссовых n-мерных распределений Norm(Kr) и Norm(S) по Кульбаку–Лейблеру [24]. Ее пороговый уровень ρ0 по аналогии с (3) определяется корнем уравнения

$P\left\{ {\left. {{{{{\rho }}}_{r}}{\text{(}}{\mathbf{x}}) > {{{{\rho }}}_{0}}} \right|{{H}_{r}}} \right\} = {{{{\alpha }}}_{0}}.$

Выражения (7), (8) определяют в явном виде алгоритм обнаружения ГЗР в пределах наблюдаемого фрейма x речевого сигнала. Хотя он и не обладает свойством масштабной инвариантности в явном виде, математическая формулировка решающей статистики (8) открывает возможность для его достижения на основе использования апробированного в работе [25] подхода.

Следуя принципу минимума информационного рассогласования (МИР) [24, 26], рассмотрим оптимизационную задачу: найти минимум информационного рассогласования

(9)
$\begin{gathered} {{{{\rho }}}_{r}}({{c}_{r}}{\mathbf{x}}) = 0.5\left[ {{{n}^{{ - 1}}}c_{r}^{2}tr\left( {{\mathbf{SK}}_{r}^{{ - 1}}} \right) - {{n}^{{ - 1}}}\ln \left| {c_{r}^{2}{\mathbf{SK}}_{r}^{{ - 1}}} \right| - 1} \right] = \\ {\text{ = }}\,\,0.5\left[ {c_{r}^{2}{{n}^{{ - 1}}}tr\left( {{\mathbf{SK}}_{r}^{{ - 1}}} \right) - \ln c_{r}^{2}} \right. + \\ \left. { + \,\,{{n}^{{ - 1}}}\ln \left| {{{{\mathbf{S}}}^{{ - 1}}}} \right| - {{n}^{{ - 1}}}\ln \left| {{\mathbf{K}}_{r}^{{ - 1}}} \right| - 1} \right] \\ \end{gathered} $
для нестабильного сигнала x по переменной величине его масштабного множителя cr > 0. Для этого сначала найдем для целевой функции задачи ${{{{\rho }}}_{r}}({{c}_{r}}) \triangleq {{\left. {{{{{\rho }}}_{r}}({{c}_{r}}{\mathbf{x}})} \right|}_{{{\mathbf{x}} = {\text{const}}}}}$ первую производную:

$\frac{{{\text{d}}{{{{\rho }}}_{r}}({{c}_{r}})}}{{{\text{d}}{{c}_{r}}}} = {{c}_{r}}{{n}^{{ - 1}}}{\text{tr}}\left( {{\mathbf{SK}}_{r}^{{ - 1}}} \right) - c_{r}^{{ - 1}}.$

Приравнивая ее нулю, получим оптимизационное уравнение

$c_{r}^{2}{{n}^{{ - 1}}}{\text{tr}}\left( {{\mathbf{SK}}_{r}^{{ - 1}}} \right) - 1 = 0,$
решая которое, находим корень общего вида

$c_{r}^{*} = {{\left[ {{{n}^{{ - 1}}}{\text{tr}}\left( {{\mathbf{SK}}_{r}^{{ - 1}}} \right)} \right]}^{{ - 0.5}}}.$

После подстановки полученного результата в выражение (9) будем иметь

(10)
$\begin{gathered} {{\rho }}_{r}^{*}({\mathbf{x}}) \triangleq {{{{\rho }}}_{r}}(c_{r}^{*}{\mathbf{x}}) = \\ = 0.5\left[ {\ln \left( {{{n}^{{ - 1}}}{\text{tr}}\left( {{\mathbf{SK}}_{r}^{{ - 1}}} \right)} \right) + {{n}^{{ - 1}}}\ln \left| {{{{\mathbf{S}}}^{{ - 1}}}} \right| - {{n}^{{ - 1}}}\ln \left| {{\mathbf{K}}_{r}^{{ - 1}}} \right|} \right]. \\ \end{gathered} $

Полученное выражение определяет решающую статистику МИР как альтернативу (8) для подстановки в критерий (7). Нетрудно увидеть, что эта статистика обладает свойством масштабной инвариантности в смысле равенства (4), а именно:

$\begin{gathered} \forall {{c}_{r}} > 0:\,\,\,{{ \rho }}_{r}^{*}({{c}_{r}}{\mathbf{x}}) = 0.5\left[ {\ln \left( {{{n}^{{ - 1}}}{\text{tr}}\left( {{{c}_{r}}^{2}{\mathbf{SK}}_{r}^{{ - 1}}} \right)} \right)} \right. + \\ \left. { + \,\,{{n}^{{ - 1}}}\ln \left| {c_{r}^{{ - 2}}{{{\mathbf{S}}}^{{ - 1}}}} \right| - {{n}^{{ - 1}}}\ln \left| {{\mathbf{K}}_{r}^{{ - 1}}} \right|} \right] = \\ = 0.5\ln \left[ {c_{r}^{2}{{n}^{{ - 1}}}{\text{tr}}\left( {{\mathbf{SK}}_{r}^{{ - 1}}} \right){{{\left| {c_{r}^{{ - 2}}{{{\mathbf{S}}}^{{ - 1}}}} \right|}}^{{1/n}}}{{{\left| {{\mathbf{K}}_{r}^{{ - 1}}} \right|}}^{{ - 1/n}}}} \right] = \\ = 0.5\ln \left[ {{{n}^{{ - 1}}}{\text{tr}}\left( {{\mathbf{SK}}_{r}^{{ - 1}}} \right){{{\left| {{{{\mathbf{S}}}^{{ - 1}}}} \right|}}^{{1/n}}}{{{\left| {{\mathbf{K}}_{r}^{{ - 1}}} \right|}}^{{ - 1/n}}}} \right] = \\ = 0.5\left[ {\ln \left( {{{n}^{{ - 1}}}{\text{tr}}\left( {{\mathbf{SK}}_{r}^{{ - 1}}} \right)} \right)} \right. + \\ \left. { + \,\,{{n}^{{ - 1}}}\ln \left| {{{{\mathbf{S}}}^{{ - 1}}}} \right| - {{n}^{{ - 1}}}\ln \left| {{\mathbf{K}}_{r}^{{ - 1}}} \right|} \right] = {{\rho }}_{r}^{*}({\mathbf{x}}). \\ \end{gathered} $

Обоснованием алгоритма (7), (10) может служить и соображение практического характера: учитывая быструю сходимость (со скоростью неулучшаемого порядка 1/M ~ 1/N) статистических оценок АКМ по формуле выборочного среднего [13, 24], можно ожидать, что эмпирическое распределение Norm(S) должно не сильно отличаться от своего эталона Norm(Kr) при справедливости гипотезы Hr в условиях конечных (N < ∞) выборок наблюдений. Раскроем принцип действия синтезированного алгоритма на примере его практической реализации с использованием распространенной в задачах АОР [2023] авторегрессионной модели ГЗР.

3. ПРИМЕР ПРАКТИЧЕСКОЙ РЕАЛИЗАЦИИ

Авторегрессионная (АР) модель сигнала r-й фонемы

(11)
${{x}_{r}}(t) = \sum\limits_{i = 1}^p {{{a}_{r}}(i){{x}_{r}}} (t - i) + {{{{\eta }}}_{r}}(t){\kern 1pt} {\text{ ,}}\,\,\,\,t = 1,2, \ldots ,$
однозначно определяется своим вектором АР-коэффициентов ${{{\mathbf{a}}}_{r}} \triangleq \left\{ {{{a}_{r}}(i),\,\,i = \overline {1,p} } \right\}$ конечного порядка p, а также дисперсией $\sigma _{r}^{2} = {\text{const}}$ порождающего процесса $\left\{ {{{{{\eta }}}_{r}}(t)} \right\}$ типа белого гауссова шума в дискретном времени t. С одной стороны, АР-модель (11) органично сочетается с голосовым механизмом человека (имеется в виду модель речевого тракта типа “акустическая труба” [1, 22]), с другой – существенно расширяет возможности программно-аппаратной реализации критерия (7). С указанной точки зрения представляют интерес известная [2628] взаимосвязь АР-параметров речевого сигнала xr(t) и его АКМ Kr.

Так, величина ${{\sigma }}_{r}^{2}$ определяет минимально достижимую дисперсию погрешности линейного предсказания случайного временного ряда (11) на один шаг в будущее. При условии p < n она равна обратной величине первого элемента обратной одноименной (r-й) АКМ [27]:

${{\sigma }}_{r}^{2} = {{\left( {{{{\mathbf{e}}}^{Т}}{\mathbf{K}}_{r}^{{ - 1}}{\mathbf{e}}} \right)}^{{ - 1}}}.$

Здесь символом e обозначен индикаторный вектор-столбец размерности n, составленный из одних нулей, за исключением единицы на первой позиции. Аналогичным образом может быть определен и соответствующий вектор АР-коэффициентов:

${{\left( {1; - {\mathbf{а}}_{r}^{T}} \right)}^{T}} = {{\sigma }}_{r}^{2}{\mathbf{K}}_{r}^{{ - 1}}{\mathbf{e}} = \frac{{{\mathbf{K}}_{r}^{{ - 1}}{\mathbf{e}}}}{{{{{\mathbf{e}}}^{Т}}{\mathbf{K}}_{r}^{{ - 1}}{\mathbf{e}}}} \triangleq {{{\mathbf{b}}}_{r}}.$

Он состоит из взятых с коэффициентом ${{\sigma }}_{r}^{2}$ элементов первого столбца обратной одноименной АКМ, исключая ее первый элемент. Здесь br – вектор коэффициентов линейного обеляющего фильтра (ОФ), настроенного на этапе подготовки данных на сигнал r-й фонемы xr(t). Его порядок равен р = n – 1. Данный фильтр – ключевой элемент обнаружителя ГЗР (7), (10).

Динамика ОФ описывается инверсным по отношению к (11) выражением вида [28]

${{y}_{r}}(t) = x(t) - \sum\limits_{i = 1}^{n - 1} {{{a}_{r}}(i)x(t - i){\text{,}}} {\text{ }}\,\,\,\,t = 1,2, \ldots $

Дисперсия ${{\sigma }}_{r}^{2}({\mathbf{x}}) \triangleq \left\langle {{{y}_{r}}^{2}(t)} \right\rangle $ сигнала на его выходе (скобками $\left\langle \cdot \right\rangle $ обозначено математическое ожидание случайной величины) отвечает соотношению ${{\sigma }}_{r}^{2}({\mathbf{x}}) \geqslant {{\sigma }}_{r}^{2}$ [22] с равенством лишь в асимптотике (при N → ∞), когда на вход r-го ОФ (12) поступает сигнал xr(t) одноименной фонемы. Эмпирическая (по выборке) оценка данной дисперсии определяется по формуле [13]

(13)
${{\hat {\sigma }}}_{r}^{2}({\mathbf{x}}) = {{M}^{{ - 1}}}\sum\limits_{m = 1}^M {y_{r}^{2}({{{\mathbf{x}}}_{m}})} $
выборочного среднего квадрата отклика yr(xm) = $ = {\mathbf{b}}_{r}^{T}{{{\mathbf{х}}}_{m}}$ r-го ОФ на m-й отрезок xm речевого сигнала (напомним, он предварительно центрирован). Дополним выражение (13) известным асимптотическим равенством [27]
${{\left. {{{n}^{{ - 1}}}\ln \left| {{{{\text{K}}}_{r}}} \right|} \right|}_{{n \to \infty }}}{\text{ = }}\ln \sigma _{r}^{2},$
а также его двумя статистическими аналогами [28]:
${{\left. {{{n}^{{ - 1}}}{\text{tr(}}{\mathbf{SK}}_{r}^{{ - 1}}{\text{)}}} \right|}_{{n \to \infty }}} = \frac{{\hat {\sigma }_{r}^{2}({\mathbf{x}})}}{{\sigma _{r}^{2}}},\,\,\,\,{{\left. {{{n}^{{ - 1}}}\ln \left| {\mathbf{S}} \right|} \right|}_{{n \to \infty }}} = \ln \hat {\sigma }_{x}^{2}({\mathbf{x}}),$
где ${{\hat {\sigma }}}_{x}^{2}{\text{(}}{\mathbf{x}}{\text{)}} = {{({{{\mathbf{e}}}^{Т}}{{{\mathbf{S}}}^{{ - 1}}}{\mathbf{e}})}^{{ - 1}}}$ – эмпирическая дисперсия речевого сигнала на выходе адаптивного ОФ, настроенного по выборке наблюдений x в режиме “скользящего окна” длиной τ в один речевой фрейм. При их учете из выражения (10) будем иметь

${{\rho }}_{r}^{*}({\mathbf{x}}) = 0.5{\text{ln}}\left[ {\frac{{{{\sigma }}_{r}^{2}}}{{{{\hat {\sigma }}}_{x}^{2}({\mathbf{x}})}}\frac{{{{\hat {\sigma }}}_{r}^{2}({\mathbf{x}})}}{{{{\sigma }}_{r}^{2}}}} \right] = 0.5{\kern 1pt} {\text{ln}}\left[ {\frac{{{{\hat {\sigma }}}_{r}^{2}({\mathbf{x}})}}{{{{\hat {\sigma }}}_{x}^{2}({\mathbf{x}})}}} \right].$

Полученное выражение совместно с критерием (7) определяет искомый алгоритм обнаружения ГЗР на основе метода ОФ и принципа МИР со свойством масштабной инвариантности (4). Его вычислительная сложность имеет порядок n3, что следует из известной [27] оценки затрат на операцию обращения симметричной (n × n)-матрицы S. Это совсем немного, если учесть, что в задачах АОР размерность распределения речевого сигнала ограничена величиной n = 10…20 [2123].

4. АНАЛИЗ ЭФФЕКТИВНОСТИ

Оценим верхнюю границу решающей статистики (14):

${{\rho }}_{r}^{*}({\mathbf{x}}) = 0.5{\text{ln}}\left[ {\frac{{{{\hat {\sigma }}}_{r}^{2}({\mathbf{x}})}}{{{{\hat {\sigma }}}_{x}^{2}({\mathbf{x}})}}} \right] \leqslant 0.5\left[ {\frac{{{{\hat {\sigma }}}_{r}^{2}({\mathbf{x}})}}{{{{\hat {\sigma }}}_{x}^{2}({\mathbf{x}})}} - 1} \right] \triangleq \sup {{\rho }}_{r}^{*}({\mathbf{x}}).$

По этой границе из выражения (3) определим гарантированный уровень значимости принимаемых согласно (7) решений:

$\begin{gathered} {{{{\alpha }}}_{r}} = P\left\{ {{{\rho }}_{r}^{*}{\text{(}}{\mathbf{x}}) > \left. {{{{{\rho }}}_{0}}} \right|{{H}_{r}}} \right\} \leqslant P\left\{ {{\text{sup}}{\kern 1pt} \,{{\rho }}_{r}^{*}{\text{(}}{\mathbf{x}}) > \left. {{{{{\rho }}}_{0}}} \right|{{H}_{r}}} \right\} = \\ = P\left\{ {\frac{{{{\hat {\sigma }}}_{r}^{2}({\mathbf{x}})}}{{{{\hat {\sigma }}}_{x}^{2}({\mathbf{x}})}} > 1 + \left. {2{{{{\rho }}}_{0}}} \right|{{H}_{r}}} \right\}. \\ \end{gathered} $

Учитывая, что обе эмпирические дисперсии в (15) рассчитываются по формуле среднего квадрата случайной гауссовой величины (13), по аналогии с работой [22] воспользуемся для их описания двумя χ2-распределениями (Пирсона) с M-степенями свободы каждое. В предположении об их статистической независимости [28, 29] получаем

(16)
$\begin{gathered} {{{{\alpha }}}_{r}} \leqslant P\left\{ {\frac{{{{\chi }}_{1}^{2}(M)}}{{{{\chi }}_{2}^{2}(M)}} > 1 + \left. {2{{{{\rho }}}_{0}}} \right|{{H}_{r}}} \right\} = \\ = 1 - {{\Phi }_{{M,M}}}\left( {1 + 2{{{{\rho }}}_{0}}} \right), \\ \end{gathered} $
где ${{\Phi }_{{M,M}}}\left( \cdot \right)$ – интегральная функция F-распределения Фишера с (M, M)-степенями свободы [13]. Значения последней подробно табулированы, в том числе в электронном виде. Особо отметим, что правая часть выражения (16) не зависит от номера фонемы r и поэтому распространяется на весь фонетический строй контрольного диктора. Приравнивая ее заданному уровню значимости α0, получим выражение для требуемого порогового уровня
(17)
${{{{\rho }}}_{0}} = 0.5\left[ {\Phi _{{M,M}}^{{ - 1}}\left( {1 - {{{{\alpha }}}_{0}}} \right) - 1} \right]$
решающей статистики (14) для его подстановки в правую часть критерия (7).

Отметим, что этим действием условный наблюдатель устанавливает требования к уровню значимости принимаемых им решений [22]: чем меньше вероятность α0, тем ниже требования наблюдателя к обнаружителю ГЗР и, следовательно, ниже значимость или надежность его решений. И, наоборот, при понижении порога ρ0 уровень значимости возрастает. Например, при равенствах α0 = 0.05 и М = 12 с использованием электронных таблиц Excel будем иметь ρ0 = 0.84. Отметим, что межфонемная величина информационного рассогласования (8) звуков речи диктора этот порог превышает на порядок и более [11, 29]. Таким образом, предложенный алгоритм может быть охарактеризован гарантированной надежностью обнаружения ГЗР в смысле уровня значимости принимаемых в нем решений. Для сравнения: его известные аналоги [30, 31], основанные на методе ОФ в формулировке (7), (8), подобным качеством не обладают, поскольку их решающие статистики свойством масштабной инвариантности не наделены.

Действительно, в этом случае из (10) будем иметь

${{{{\rho }}}_{r}}{\text{(}}{\mathbf{x}}) = 0.5\left[ {\frac{{{{\hat {\sigma }}}_{r}^{{\text{2}}}({\mathbf{x}})}}{{{{\sigma }}_{r}^{{\text{2}}}}} + \ln {{\sigma }}_{r}^{{\text{2}}} + c} \right],$
где c = const, или в упрощенном виде [26]
${{{{\rho }}}_{r}}{\text{(}}{\mathbf{x}}) = 0.5\left[ {{{\hat {\sigma }}}_{r}^{{\text{2}}}({\mathbf{x}}) + c} \right]$
– при дополнительной нормировке дисперсии ${{\sigma }}_{r}^{2}$ порождающего процесса в рамках АР-модели (11) к единичному уровню. Основываясь на той же, что и при выводе выражений (16), (17), χ2-аппроксимации нормированной случайной величины ${{z}^{2}}({\mathbf{x}}) \triangleq M{{{{\hat {\sigma }}}_{r}^{{\text{2}}}({\mathbf{x}})} \mathord{\left/ {\vphantom {{{{\hat {\sigma }}}_{r}^{{\text{2}}}({\mathbf{x}})} {{{\sigma }}_{r}^{{\text{2}}}}}} \right. \kern-0em} {{{\sigma }}_{r}^{{\text{2}}}}} = {{{{\chi }}}^{2}}(M)$, для этого случая можно записать

$\begin{gathered} {{{{\alpha }}}_{r}} = P\left\{ {\left. {{{{{\rho }}}_{r}}{\text{(}}{\mathbf{x}}) > {{{{\rho }}}_{0}}} \right|{{H}_{r}}} \right\} = \\ = P\left\{ {\left. {0.5\left[ {{{\hat {\sigma }}}_{r}^{{\text{2}}}({\mathbf{x}}) + c} \right] > {{{{\rho }}}_{0}}} \right|{{H}_{r}}} \right\} = \\ = P\left\{ {\left. {{{\hat {\sigma }}}_{r}^{{\text{2}}}({\mathbf{x}}) > 2{{{{{\tilde {\rho }}}}}_{0}}} \right|{{H}_{r}}} \right\} = \\ = P\left\{ {\frac{{{{\hat {\sigma }}}_{{{\nu }}}^{{\text{2}}}({\mathbf{x}})}}{{{{\sigma }}_{r}^{{\text{2}}}({\mathbf{x}})}} > 2M\left. {\frac{{{{{{{\tilde {\rho }}}}}_{0}}}}{{{{\sigma }}_{r}^{{\text{2}}}({\mathbf{x}})}}} \right|{{H}_{r}}} \right\} = \\ = P\left\{ {{{{{\chi }}}^{2}}(M) > 2M\frac{{{{{{{\tilde {\rho }}}}}_{0}}}}{{{{\sigma }}_{r}^{{\text{2}}}({\mathbf{x}})}}} \right\} = 1 - {{\Phi }_{M}}\left( {2M\frac{{{{{{{\tilde {\rho }}}}}_{0}}}}{{{{\sigma }}_{r}^{{\text{2}}}({\mathbf{x}})}}} \right). \\ \end{gathered} $

Здесь ${{\Phi }_{M}}\left( \cdot \right)$ – интегральная функция χ2-распределения с M-степенями свободы; ${{{{\tilde {\rho }}}}_{0}} = {{{{\rho }}}_{0}} + {\text{const}}$. Отсюда по аналогии с (17) получим выражение для требуемого порога

${{{{\tilde {\rho }}}}_{0}} = \frac{{{{\sigma }}_{r}^{{\text{2}}}({\mathbf{x}})}}{{2M}}\Phi _{M}^{{ - 1}}\left( {1 - {{{{\alpha }}}_{0}}} \right)$

в зависимости от установленного наблюдателем уровня значимости α0. Как видим, в отличие от выражения (17), этот порог зависит не только от номера фонемы r, но и от интенсивности наблюдаемого речевого фрейма x. Иными словами, при применении метода ОФ в формулировке (7), (8) нельзя гарантировать высокую степень надежности принимаемых наблюдателем решений. Напротив, предложенный алгоритм (7), (14) предоставляет наблюдателю такую возможность – путем регулировки уровня значимости в широком диапазоне значений α0. Проиллюстрируем данную возможность результатами проведенного далее эксперимента.

5. РЕЗУЛЬТАТЫ ЭКСПЕРИМЕНТАЛЬНОГО ИССЛЕДОВАНИЯ

Объектом проведенного исследования служил речевой сигнал x(t) достаточно большой суммарной длительности (минуты), который был получен от контрольного диктора по результатам его устного чтения текста первой главы повести А.С$.$ Пушкина “Капитанская дочка”. Предмет исследования – обнаружитель ГЗР, заданный своим критерием (7) и выражением для решающей статистики (14). Его реализация в программном виде была осуществлена на базе авторской компьютерной программы “Phoneme Training”11. Ее интерфейс ранее был подробно описан [2022]. Речевой сигнал x(t) в ходе эксперимента членился на фреймы длительностью τ = 30 мс – с 10 мс пересечениями каждого из них со своими “соседями” слева и справа. Частота дискретизации сигнала была установлена равной F = 8 кГц при равенстве порядка АКМ n = 20.

На этапе подготовки эксперимента по известной методике [29] была сформирована фонетическая база данных контрольного диктора. В нее вошли образцы (основные аллофоны [17]) его шести гласных фонем (R = 6). Длительность каждого образца составляла минимум T = 2…3 с. По ним сначала были получены оценки АКМ Kr для шести гласных фонем и сразу после этого – векторы коэффициентов br для системы ОФ (12). При этом точность полученных оценок в ее относительном выражении ${{\varepsilon }} = {{1.65} \mathord{\left/ {\vphantom {{1.65} {\sqrt {{{3T} \mathord{\left/ {\vphantom {{3T} {{\tau }}}} \right. \kern-0em} {{\tau }}}} }}} \right. \kern-0em} {\sqrt {{{3T} \mathord{\left/ {\vphantom {{3T} {{\tau }}}} \right. \kern-0em} {{\tau }}}} }}$ [21, 22] с доверительной вероятностью 0.9 не вышла за пределы 10%. Программа далее была переведена в режим “Сегментирование”, в котором речевой сигнал x(t) был обработан согласно критерию (7), (14) с автоматическим выделением отрезков гласных фонем. Значение порогового уровня ρ0 варьировалось в эксперименте с использованием вкладки “Параметры” в меню программы. Полученные результаты отражены на рис. 1 в виде трех скриншотов (снимков экрана) с изображением рабочего окна программы для разных значений порога ρ0.

Рис. 1.

Экранная форма рабочего окна программы “Сегментирование” при ρ0 = 0.60 (а), 0.70 (б) и 0.85 (в).

Здесь в каждом скриншоте представлена временная диаграмма сигнала короткого фрагмента речи диктора: “Нас было девять человек детей”. Серым цветом отмечены те отрезки речевого сигнала, которые были идентифицированы обнаружителем как гласные фонемы. Разные оттенки серого отвечают разной степени надежности обнаружения ГЗР (зависит от мгновенного значения (14) решающей статистики МИР). Из сравнения временных диаграмм между собой можно подтвердить сделанный ранее вывод в отношении обратно пропорциональной зависимости (16) уровня значимости решений обнаружителя от установленного в нем порога ρ0. Сделанный вывод имеет очевидное практическое значение с точки зрения оперативной регулировки порогового уровня условным наблюдателем под фонетические особенности диктора и национального языка.

6. ОБСУЖДЕНИЕ ПОЛУЧЕННЫХ РЕЗУЛЬТАТОВ

Говоря о перспективах практического применения предложенного алгоритма, следует подробнее остановиться на задаче анализа динамики эмоционального состояния пользователей бимодальных (аудио и видео) информационных систем [32, 33]. Пусть нами выбран определенный алгоритм принятия решений, например, по артикуляции диктора в процессе речеобразования. Охарактеризуем его эффективность вероятностью безошибочного решения Р(А). Соответственно, Р(Ā) = 1 – Р(А) – вероятность ошибочного решения. Обозначим через Р(Е) вероятность появления (на интервале наблюдений) ГЗР. Тогда Р(Ē) = 1 – Р(Е) – это вероятность их отсутствия. По формуле полной вероятности [13] будем иметь

$\begin{gathered} Р\left( А \right) = Р\left( {АЕ} \right) + Р\left( {А\overline Е } \right) = \\ = Р\left( Е \right) \times Р\left( {\left. А \right|Е} \right) + Р\left( {\overline Е } \right) \times Р\left( {\left. А \right|\overline Е } \right). \\ \end{gathered} $
Из математической лингвистики известно [15, 16], что вероятности Р(Е) и Р(Ē) сопоставимы между собой по величине, если не считать пауз в речи диктора между словами, а Р(А|Е) $ \gg $ Р(А|Ē), поскольку наиболее ярко эмоции проявляются через гласные [34, 35]. Поэтому в первом приближении можно записать $Р\left( А \right) \simeq Р\left( Е \right) \times Р\left( {\left. А \right|Е} \right),$ или $Р\left( {\left. А \right|Е} \right) \simeq {{Р\left( А \right)} \mathord{\left/ {\vphantom {{Р\left( А \right)} {Р\left( Е \right)}}} \right. \kern-0em} {Р\left( Е \right)}} > Р\left( А \right)$.

Таким образом, при применении бимодального метода с обнаружением гласных фонем как стимула для концентрации внимания наблюдателя мы получаем гарантированный выигрыш по вероятности безошибочных решений. Величина выигрыша зависит от отношения двух условных вероятностей ${{\mu }} \triangleq {{Р\left( {\left. А \right|Е} \right)} \mathord{\left/ {\vphantom {{Р\left( {\left. А \right|Е} \right)} {Р\left( {\left. А \right|\overline Е } \right)}}} \right. \kern-0em} {Р\left( {\left. А \right|\overline Е } \right)}}$. При учете соотношения Р(А|Е) $ \gg $ Р(А|Ē) получаем выигрыш μ ⪢ 1. Как видим, он может быть весьма значительным. И это только подтверждает тот общеизвестный факт [36, 37], что с точки зрения проявления эмоций в артикуляции диктора гласные звуки заведомо более информативны по сравнению со всеми другими звуками его речи.

К сожалению, в мире на данный момент не существует [38] коммерческого образца информационной системы, где этот эффект реализован на практике. Проблема состоит в организации работы обнаружителя ГЗР в режиме реального времени. Она обусловлена большой вычислительной сложностью существующих алгоритмов [26]. На решение этой проблемы и нацелен, главным образом, предложенный в рамках настоящей статьи алгоритм.

ЗАКЛЮЧЕНИЕ

Таким образом, благодаря проведенному исследованию предложен новый алгоритм обнаружения ГЗР для применения в режиме реального времени с регулируемым уровнем значимости принимаемых решений.

Список литературы

  1. Rabiner L.R., Shafer R.W. Theory and Applications of Digital Speech Processing. Boston: Pearson, 2010.

  2. Kashani H.B., Sayadiyan A., Sheikhzadeh H. // Speech Communication. 2017. V. 91. P. 28. https://doi.org/10.1016/j.specom.2017.04.008

  3. Srinivas N., Pradhan G., Kumar P.K. // Integration. 2018. V. 63. P. 185. https://doi.org/10.1016/j.vlsi.2018.07.005

  4. Kumar A., Shahnawazuddin S., Pradhan G. // Int. Conf. on Signal Processing and Communications (SPCOM). Bangalore. 16–19 Jul. 2018. N.Y.: IEEE, P. 252. https://doi.org/10.1109/SPCOM.2018.8724428

  5. Yongda D., Fang L., Huang X. // Computers & Electrical Engineering. 2018. V. 72. P. 443. https://doi.org/10.1016/j.compeleceng.2018.09.014

  6. Hossain M.Sh., Muhammad G. // Inform. Fusion. 2019. V. 49. P. 69. https://doi.org/10.1016/j.inffus.2018.09.008

  7. Akçay M.B., Oğuz K. // Speech Communication. 2020. V. 116. P. 56. https://doi.org/10.1016/j.specom.2019.12.001

  8. Makino R., Yoshitomi Y., Asada T., Tabuse M. // Proc. Int. Conf. on Artificial Life and Robotics. (ICAROB 2020). Oita. 8–11 Jan. Oita: Sugisaka Masanori, 2020. P. 403. https://doi.org/10.5954/ICAROB.2020.OS16-4

  9. Asada T. Adachi R., Takada S. et al. // Proc. Int. Conf. on Artificial Life and Robotics. (ICAROB 2020). Oita. 8–11 Jan. Oita: Sugisaka Masanori, 2020. P. 398. https://doi.org/10.5954/ICAROB.2020.OS16-3

  10. Kumar A., Shahnawazuddin S., Pradhanet G. // Circuits Systems, Signal Process. 2017. V. 36. P. 2315. https://doi.org/10.1007/s00034-016-0409-1

  11. Savchenko V.V. // Radioelectron. Commun. Syst. 2020. V. 63. P. 532. https://doi.org/10.3103/S0735272720100039

  12. Lehet M., Holt L. // Cognition. 2020. V. 202. P. 104328. https://doi.org/10.1016/j.cognition.2020.104328

  13. Боровков А.А. Математическая статистика [Электронный ресурс]. Санкт-Петербург: Лань, 2010. https://e.lanbook.com/book/3810.

  14. Lehmann E.L., Romano J.P. Testing Statistical Hypotheses. N. Y.: Springer, 2005. P. 348. https://doi.org/10.1007/0-387-27605-X

  15. Kashani H.B., Sayadiyan A. // Computer Speech and Language. 2018. V. 50. P. 105. https://doi.org/10.1016/j.csl.2017.12.008

  16. Gahl S., Baayen R.H. // J. Phonetics. 2019. V. 74. P. 42. https://doi.org/10.1016/j.wocn.2019.02.001

  17. Caвчeнкo B.B. // PЭ. 2016. № 12. C. 1196. https://doi.org/10.7868/S0033849416120238

  18. Савченко В.В. // Электросвязь. 2017. № 12. С. 22.

  19. Савченко В.В. // Изв. вузов. Радиоэлектроника. 2006. № 4. С. 13.

  20. Caвчeнкo B.B. // PЭ. 2019. T. 64. № 6. C. 585. https://doi.org/10.1134/S0033849419060093

  21. Савченко В.В., Савченко Л.В. // Измерительная техника. 2019. № 9. С. 59. https://doi.org/10.32446/0368-1025it.2019-9-59-64

  22. Савченко В.В., Савченко А.В. // РЭ. 2020. Т. 65. № 11. С. 1101. https://doi.org/10.31857/S0033849420110157

  23. Candan Ç. // Signal Processing. 2020. V. 166. P. 107256. https://doi.org/10.1016/j.sigpro.2019.107256

  24. Kullback S. Information Theory and Statistics. N.Y.: Dover Publications, 1997. https://www.amazon.com// dp/0486696847.

  25. Savchenko A.V., Savchenko V.V. & Savchenko L.V. // Optimization Lett. 2021. № 7. https://doi.org/10.1007/s11590-021-01790-5

  26. Caвчeнкo B.B. // PЭ. 2005. T. 50. № 3. C. 309.

  27. Marple S.L. Digital Spectral Analysis with Applications. Mineola: Dover Publications. 2019. https:// www.goodreads.com/book/show/19484239.

  28. Caвчeнкo B.B. // PЭ. 1997. T. 42. № 4. C. 426.

  29. Savchenko V.V. // Radioelectronics and Communications. 2018. P. 61. № 9. P. 419. https://doi.org/10.3103/S0735272718090042

  30. Larsen B.S., Winther S., Nissen L. et al. // Computing in Cardiology (CinC). Singapore, 8–11 Sept. 2019. N.Y.: IEEE, 2019. P. 9005907. https://doi.org/10.23919/CinC49843.2019.9005907

  31. Леховицкий Д.И., Атаманский Д.В., Рачков Д.С., Семеняка А.В. // Изв. вузов. Радиоэлектроника. 2015. Т. 58. № 12(642). С. 3. https://doi.org/10.20535/S0021347015120018

  32. Akbulut F.P., Perros H.G., Shahzad M. // Computer Methods and Programs in Biomedicine. 2020. V. 195. P. 105571. https://doi.org/10.1016/j.cmpb.2020.105571

  33. Falagiarda F., Collignon O. // Cortex. 2019. V. 119. P. 184. https://doi.org/10.1016/j.cortex.2019.04.017

  34. Davis S.K., Morningstar M., Dirks M.A., Qualter P. // Personality and Individual Differences. 2020. V. 160. P. 109938. https://doi.org/10.1016/j.paid.2020.109938

  35. Arana J., Gordillo F., Darias J., Mestas L. // Computers in Human Behavior. 2020. V. 104. P.106156. https://doi.org/10.1016/j.chb.2019.106156

  36. Stasak B., Epps J., Goecke R. // Computer Speech and Language. 2019. V. 53. P. 140. https://doi.org/10.1016/j.csl.2018.08.001

  37. Kim J., Toutios A., Lee S., Narayanan Sh.S. // Computer Speech and Language. 2020. V. 64. P. 101100. https://doi.org/10.1016/j.csl.2020.101100

  38. Rammohan R., Dhanabalsamy N., Dimov V., Eidelman F.J. // J. Allergy and Clinical Immunology. 2017. V. 139. № 2. P. AB250. https://doi.org/10.1016/j.jaci.2016.12.804

Дополнительные материалы отсутствуют.