Автоматика и телемеханика, № 6, 2022

Д.А. ВОЛЬФ, канд. техн. наук (runsolar@mail.ru),

Р.В. МЕЩЕРЯКОВ, д-р техн. наук (mrv@ieee.org)

(Институт проблем управления им. В.А. Трапезникова РАН, Москва)

СПОСОБ СНИЖЕНИЯ РАЗМЕРНОСТИ ПРОСТРАНСТВА

ПРИЗНАКОВ ПРИ РАСПОЗНАВАНИИ РЕЧЕВЫХ

ЭМОЦИЙ С ИСПОЛЬЗОВАНИЕМ СВЕРТОЧНЫХ

НЕЙРОННЫХ СЕТЕЙ¹

Рассматриваются архитектуры сверточных нейронных сетей, исполь-

зуемые для оценки эмоционального состояния человека по его речи. Ре-

шается задача повышения эффективности распознавания эмоций за счет

снижения вычислительной сложности данного процесса. Для этого пред-

лагается способ преобразования входных данных в форму, подходящую

для алгоритмов машинного обучения.

Ключевые слова: распознавание речевых эмоций, речевой сигнал, звук,

идентификация эмоционального состояния, выявление агрессии, класси-

фикация речевых сигналов, социо-киберфизическая система, сверточная

нейронная сеть.

DOI: 10.31857/S0005231022060046, EDN: ACJOSQ

1. Введение

Основным средством человеческого общения является речь, которая со-

держит характеристические параметры, отражающие в том числе психоэмо-

циональное состояние говорящего. Распознавание эмоций человека играет

важную роль во взаимодействии человека с компьютером, так как оно явля-

ется дополнительным каналом информации. У людей распознавание эмоций

является естественной частью речевого общения, в то время как способность

распознавать автоматически с помощью программируемых устройств все еще

остается предметом исследований. Возможность автоматического определе-

ния эмоций по голосу и речи человека необходима для развития успешных

диалоговых систем [1], например, в процессах обучения, мониторинга пожи-

лых людей, людей с ограниченными возможностями, в системах интерактив-

ного развлечения и т.д. Задача идентификации эмоционального состояния

человека востребована в различных сферах: телекоммуникации, индустрии

развлечений, обучении, медицине и др.

¹ Исследование выполнено при финансовой поддержке Российского фонда фундамен-

тальных исследований в рамках проекта № 18-29-22104.

Решение задачи автоматического распознавания речевых эмоций (РРЭ,

англ. SER) с помощью вычислительных систем является предметом иссле-

дований ученых на сегодняшний день [2]. Это позволит более эффективно

решать задачи определения эмоциональной составляющей мультимедиа ма-

териалов, распространяющихся в виртуальной среде. Автоматический анализ

содержимого, выявление гнева, злости, агрессии в видео- и аудиоматериалах

позволит решить задачу классификации разнородного Интернет-контента по

степени его деструктивного воздействия на пользователя [3, 4]. Разработ-

ка методов РРЭ в данном случае должна отвечать требованиям, продикто-

ванным соответствующей платформой применения — исследовать материалы

быстро и не затрачивая значимых вычислительных ресурсов. При таких усло-

виях становится реальным создание социо-киберфизической системы управ-

ления и мониторинга информации в целях противодействия проявлению де-

структивного воздействия на пользователей. Повышение скорости вычисле-

ний и снижение их сложности возможны за счет уменьшения размерности

обучающих данных.

Цель данной статьи — представление нового способа снижения размерно-

сти пространства входных признаков, использующего современные сверточ-

ные нейронные сети, в задачах распознавания речевых эмоций.

2. Создание обучающих выборок и предобработки

при разработке систем РРЭ

В качестве обучающих выборок (данных) в задачах РРЭ обычно использу-

ются признаки в виде коэффициентов LPC (Linear Predictive Coding — коди-

рование с линейным прогнозированием), LPCC (линейные прогнозирующие

кепстральные коэффициенты) и MFCC (Mel Frequency Cepstral Coefficients —

частотные кепстральные коэффициенты мел). Создается вектор признаков

для каждого высказывания путем анализа глобальной статистики (среднее,

медиана и т.д.) по всем кадрам [5]. Качество извлечения признаков напрямую

влияет на точность распознавания речевых эмоций. Наиболее распространен-

ный метод извлечения признаков включает MFCC [6]. Признаки MFCC по-

лучаются в результате применения кратковременного преобразования Фурье

(STFT) к исходному сигналу с использованием типа постобработки, кото-

рая включает кепстральный анализ. Подробное описание процесса извлече-

ния MFCC-признаков рассматривается в [7, 8]. MFCC были доминирующими

функциями, используемыми для распознавания речи сверточными нейрон-

ными сетями (СНС). Успех использования СНС был обусловлен их способ-

ностью представлять спектр амплитуд речи в компактной форме в качестве

информации для обучения и распознавания. Между тем MFCC содержат не

только информацию об эмоциональных характеристиках, но и важную ин-

формацию о говорящем. Исследования, направленные на то, какие характер-

ные признаки эмоций извлекать из речевого сигнала, имеют большое значе-

ние [9].

Недостатком является сложность качественной оценки признаков, что мо-

жет влиять на снижение точности распознавания. Трудно гарантировать, что

хорошие результаты могут быть достигнуты за счет использования различ-

ных баз данных, так как люди выражают эмоции по-разному, а признаки

однозначного определения эмоций отсутствуют. Успех и производительность

методов машинного обучения во многом зависят от выбора представленных

данных [10, 11].

На основе выделяемого набора информативных признаков строится клас-

сификатор, который обучается на предварительно подготовленном наборе

звуковых фрагментов. Наиболее популярными техниками классификации

являются следующие: поиск ближайших соседей, метод опорных векторов,

скрытые марковские модели, модель смеси нормальных распределений, мо-

дели на основе нечеткой логики, байесовские классификаторы максимума

вероятности [12].

Классификация эмоциональных состояний производится в соответствии

либо с задачами построения анализатора (оценки удовлетворенности, уров-

ня стресса, усталости и т.п.), либо с выбранной моделью описания (набор

базовых эмоций, непрерывная классификация и т.п.). Как правило, с ростом

числа возможных вариантов классификации точность распознавания эмоцио-

нальных состояний снижается. Поэтому количество классов, используемых

для обучения, выбирается небольшим.

3. Двумерные СНС для решения задач РРЭ

Основные виды СНС основаны на двух общих архитектурах: AlexNet и

GoogleNet [13]. Ключевая идея СНС состоит в локальной связности и рас-

пределении весов нейронов, которые объединяются в слои. Каждый нейрон в

слое получает входные данные от набора нейронов, расположенных в преды-

дущем слое. Активации, вычисленные каждым ядром, собираются в матри-

цы, которые называются картами признаков и представляют собой фактиче-

ские выходные данные сверточных слоев. Последний слой СНС — это слой

вывода фактического предсказания сети, он состоит из полностью связанных

нейронов так, что каждый из них принимает в качестве входных данных все

выходные данные предыдущих слоев. С учетом успеха проектирования архи-

тектур СНС для классификации двумерных массивов классификация рече-

вых эмоций следовала тенденции использования массивов спектральных ве-

личин, известных как речевые спектрограммы. Для решения проблемы РРЭ

типичная СНС также предназначена для анализа речевых характеристик,

которые представлены в виде многомерного массива [11].

В меньшей степени, чем AlexNet или GoogleNet, для приложений распо-

знавания обычно используют более простые виды СНС, основанные на архи-

тектурах типа LeNet-5 [14]. Выбор размера как традиционной (полносвязной)

нейронной сети, так и СНС является сложной задачей. Например, для дости-

жения приемлемой эффективности должны подстраиваться размеры весовых

Рис. 1. Блок-диаграмма сверточной нейронной сети, предложенной Мишелем

Валенти (Valenti-CNN).

Рис. 2. Блок-диаграмма сверточной нейронной сети, предложенной Н. Хад-

жароласвади и Х. Демирелем (3D-CNN).

матриц в слоях. В общих случаях СНС выбираются эмпирически, в зависи-

мости от характеристик обучающих данных, прошедших предварительную

обработку.

В работе Мишеля Валенти [15] была предложена сеть CNN-Valenti-CNN

(рис. 1). На вход сети подаются аудиопоследовательности в виде специаль-

но подготовленных логарифмических спектрограмм. Для этого применено

кратковременное преобразование Фурье (STFT) с перекрытием окнами Хэм-

минга, далее абсолютные значения каждого полученного бина возведены в

квадрат и применен мел-фильтр.

Еще одно интересное решение было предложено в работе Ноушини Хад-

жароласвади и Хасана Демиреля — 3D-CNN [16] (рис. 2). На вход сети там

подается 88-мерный вектор, содержащий различные аудиохарактеристики в

виде MFCC, частоты основного тона, интенсивности сигнала и т.д. Парал-

лельно на вход подается частотный спектр каждого кадра.

Яфенг Ню и др. в [17] предложили оригинальную двумерную сверточную

нейронную сеть (рис. 3), основанную на принципе визуализации сетчатки

глаза и выпуклой линзы. На вход сети подаются спектрограммы разных раз-

меров с эффектом, полученным при изменении фокусного расстояния. Таким

образом достигалось увеличение числа тренировочных данных (аугментация)

Рис. 3. Блок-диаграмма сверточной нейронной сети, основанной на принципе

визуализации сетчатки глаза и выпуклой линзы.

путем изменения расстояния между спектрограммой и выпуклой линзой. Для

этого были выбраны изображения в различных точках фокусирования, при-

надлежащие интервалам L1(F<L1<2F), L2(L2=2F) и L3(L3>2F).

В настоящее время СНС применяется к РРЭ многими исследователями, и

в этом направлении уже достигнуты значительные результаты. Например:

1. Для сети, предложенной Яфенгом Ню и др., эксперименты проводились

для речевых баз EmoDB [18] и SAVEE [19, 20]. Достигнута точность

около 99% из семи видов эмоций.

2. Ч. Хуан и др. [21] обучили модель СНС, которая является стабиль-

ной и надежной в сложных сценах и превосходит некоторые хорошо

зарекомендовавшие себя способы для решения задач РРЭ. Достигнуты

результаты: точность 78% по базе SAVEE, 84% по базе Emo-DB.

3. С. Прасомфан [22] обнаружил эмоции, используя информацию внутри

спектрограмм. Затем с помощью нейронной сети осуществил классифи-

кацию эмоции, используя базу EmoDB, и получил точность до 83,28%

по пяти эмоциям.

4. Н. Семвал [23] предложила способ автоматического определения рече-

вых эмоций с использованием многодоменных акустических моделей

выбора и классификации. Этот подход был протестирован c базами

EmoDB и BML (RED). Для мультиклассовой классификации достига-

ется точность 80% для EmoDB и 73% для RED.

Однако для обучения глубокой нейронной сети требуется значительный

объем данных, в то время как данные, предоставляемые существующими ба-

зами общих речевых эмоций, очень ограничены.

4. Одномерные СНС для решения задач РРЭ

Двумерные СНС были исследованы переходом к одномерным архитекту-

рам, которые позволяют существенно снизить размерность обучающих при-

Рис. 4. Нейронная сеть (Reza 1-D CNN) для распознавания эмоций в речи,

предложенная Реза Чу.

Рис. 5. Нейронная сеть (Vandana-Raian 1-D CNN-RNN) для распознавания

эмоций в речи, предложенная В. Раджан.

знаков. Широкая популярность применения одномерных сверточных нейрон-

ных сетей для решения задач РРЭ возникла относительно недавно — начиная

с 2019 г.

Так, Реза Чу в [24] предложил одномерную нейронную сеть — Reza 1-D

CNN. Указанная нейронная сеть — это наиболее подходящая модель СНС

для представления аудио-кортексиального органа слуховой системы человека

в формальном описании (рис. 4, табл. 2 в справочной информации).

В это же время Ц. Чжао [25] предлагает СНС (реализация Vandana-

Raian 1-D CNN-RNN [26]) с дополнительными рекуррентными слоями LSTM

(рис. 5, табл. 3 в справочной информации). В отличие от модели Reza 1-D

CNN в сети отсутствует регуляризация (dropout). Число сверточных ядер

увеличивается в направлении выходного слоя с целью моделирования после-

довательностей. Полносвязный слой (Dense) получает выход из ячейки LSTM

и рассчитывает логиты для каждого элемента выходной последовательности.

Указанная нейронная сеть представляет собой гибридную архитектуру.

Можно заметить, что структура СНС для решения задач РРЭ имеет ти-

пичную архитектуру. Основное отличие заключается либо в расширении чис-

ла сверхточных ядер к полносвязному слою, либо к их уменьшению, а также

отсутствием или наличием LSTM каскадов. В данной статье не рассматрива-

ются параллельные архитектуры, так как такие сети нацелены на повышение

точности классификации и используют иные акустические признаки допол-

нительно к MFFC. В настоящем исследовании допускается, что особенностей

MFFC достаточно для того, чтобы решать задачу РРЭ.

5. Результаты экспериментальных расчетов

Для достижения поставленной цели была проведена собственная реализа-

ция рассмотренных выше архитектур нейронных сетей и проведено их обу-

чение с наиболее популярными базами данных.

В первом эксперименте были обучены двумерные СНС для того, чтобы

получить собственные оценки классификации. Во втором эксперименте был

осуществлен переход к одномерным архитектурам. В третьем эксперимен-

те проведены снижение размерности пространства обучающих признаков и

сопоставление полученных результатов с предыдущим экспериментом.

Для тестирования двумерных СНС были выбраны следующие базы дан-

ных эмоций: Surrey Audio-Visual Expressed Emotion (SAVEE), Ryerson Audio-

Visual Database of Emotional Speech and Song (RAVDESS) [27], Toronto

emotional speech set (TESS) [28], Crowd-sourced Emotional Multimodal Actors

Dataset (CREMA-D) [29] и Emo-DB.

Для каждого акустического образца из базы были извлечены мел-

кепстральные коэффициенты со следующими параметрами: длительность

аудио 1-4 с, частота дискретизации 44 100 Гц, 64 MFCC коэффициента.

Архитектура нейронной сети, предлагаемая Яфенг Ню и др., была заме-

нена на архитектуру сети LeNet-5 [30]. В эксперимент была добавлена одно-

Таблица 1. Результаты тестирования сверточных нейронных сетей

Accuracy

Сверточная нейронная сеть

(оценки абсолютной

точности для MFCC) LeNet-5 Valenti-cnn

3D-CNN

1D-cochlea-cnn

Входной слой

64 x 774

Обуч. параметров

5,942,666

60,614,922

1,642,954

160,202

CREMAD

0,39

0,44

0,43

0,41

SAVEE

0,48

0,5

0,6

RAVDESS

0,43

0,39

0,54

0,42

TESS

0,99

EMO-DB

0,34

0,13

0,31

0,64

UNITED

0,67

0,71

0,74

0,68

мерная СНС (1D-cochlea-cnn), рассматриваемая в [31]. После обучения ней-

ронных сетей были получены результаты, которые представлены в табл. 1.

Числовые значения в таблице показывают абсолютную точность классифика-

ции каждой из СНС для соответствующей базы. Решения для баз CREMAD,

SAVEE, RAVDESS, TESS и Emo-DB являются частными случаями, а муль-

тилингвальное решение United — общим (объединенная база).

Результаты экспериментов с применением одномерных сверточных ней-

ронных сетей показывают, что одномерные СНС для задач РРЭ не уступают

двумерным аналогам. В [31] представлены эксперименты с одномерной свер-

точной сетью для задачи распознавания эмоционального состояния агрессии,

где достигается точность в 75%.

В эксперименте каждый признак - это массив, состоящий из 49 536-131 072

элементов. В общем случае на вход двумерных СНС подаются матрицы раз-

мерностями 32, . . . , 64 на 774, . . . , 2048, . . . , N. Для снижения размерности

пространства признаков была принята гипотеза о том, что признак, задаю-

щий эмоцию в речи, сохраняется в случае усреднения мел-кепстральных ко-

эффициентов по частотной шкале [31].

Для следующего эксперимента были выбраны две базы CREAMD и

IEMOCAP, которые были объединены в единую базу. Из нее были отобраны

восемь эмоций в следующих пропорциях по гендерному типу: male_happy

(радость) — 671, male_angry (злость) — 671, male_sad (печаль) — 671,

female_angry — 600, female_happy — 600, female_sad — 600, male_neutral —

575, female_neutral — 512.

После приведения двумерных признаков MFCC (2D-MFCC) к среднему

вектору получены одномерные MFCC признаки (1D-MFCC). Длина каждого

обучающего признака представляла собой массив размерностью 2048 элемен-

тов.

Данные для обучения выбранных одномерных сетей получились следую-

щими:

— размер тренировочных признаков для обучения — 7042;

— набор тестовых признаков — 2347 (кросс-валидация);

— объем тренировочных признаков для каждой эпохи — 50.

На рис. 6 показаны одномерные MFCC-признаки для последующего ма-

шинного обучения. Полученные признаки не масштабированы по временной

шкале.

После трехсот эпох обучения точность данных проверки для сети Reza-1-

D-CNN варьируется в пределах 26%, а для сети Vandana-Raian-CNN-RNN —

в пределах 24%. На графиках ошибки (рис. 7) заметно, что модель не спо-

собна хорошо сходиться даже с восемью целевыми классами. Однако для

речевой базы RAVDESS Р. Чу декларирует, что для сети Reza-1-D-CNN до-

стигает более 70% точности. Осуществляется это за счет упрощения модели

в виде разбиения MFCC-признаков только на мужские или женские эмоции.

Для сети Vandana-Raian-CNN-RNN и базы Emo-DB достигается результат

8000

6000

4000

2000

250

500

750

1000

1250

1500

1750

2000

Length of frame

Рис. 6. Одномерные MFCC признаки на основе баз данных эмоций CREMAD

и IMPOCAP.

Vandana-Raian 1-D CNN-RNN

Reza 1-D CNN

2,2

train

test

2,0

2,05

1,8

2,00

1,6

1,4

1,95

1,2

1,90

1,0

0,8

1,85

0,6

100

150

200

250

300

100

150

200

250

300

epoch

Рис. 7. Графики ошибки в процессе обучения моделей Reza-1-D-CNN и

Vandana-Rajan-1-D-CNN-RNN с 1-D MFCC на основе баз данных эмоций

CREMAD и IMPOCAP.

в 61%. Тем не менее для объединенных баз оценки классификации остав-

ляют желать лучшего. Полученные результаты демонстрируют низкую эф-

фективность классификации из-за усложнения структуры данных. Следует

отметить, что в табл. 1 оценки для базы Emo-DB также невысоки.

В следующем эксперименте одномерные признаки MFCC были рассмот-

рены как временной ряд. Далее было применено преобразование Фурье к

каждому из признаков. После преобразования были получены масштабиро-

ванные признаки, представляющие собой массив из 64 элементов (рис. 8).

После повторного обучения точность данных проверки для сети Reza-1-

D-CNN достигла 28%, а для сети Vandana-Raian-CNN-RNN — 27%. Графики

8000

6000

4000

2000

Length of frame

Рис. 8. 1-D-MFCC-FT признаки на основе баз данных эмоций CREMAD и

IMPOCAP.

Reza 1-D CNN

Vandana-Raian 1-D CNN-RNN

train

2,15

test

3,2

test

2,10

3,0

2,8

2,05

2,6

2,00

2,4

2,2

1,95

2,0

1,90

1,8

100

150

200

250

300

100

150

200

250

300

epoch

Рис. 9. Графики ошибки в процессе обучения моделей Reza 1-D CNN и

Vandana-Rajan-1-D-CNN-RNN с 1-D MFCC-FT признаками, на основе баз дан-

ных эмоций CREMAD и IMPOCAP.

ошибок для сетей Reza-1-D-CNN и Vandana-Rajan-1-D-CNN-RNN с новыми

признаками (1-D-MFCC-FT) показаны на рис. 9.

Из графиков видно, что оценки классификации согласуются с оценками

предыдущего эксперимента. По сравнению со вторым экспериментом полу-

ченный способ позволяет снизить размерность обучающего признака в 32 ра-

за.

Несмотря на то что расчет спектрограмм не полностью соответствует кон-

цепции сквозной сети, поскольку он допускает дополнительный этап пред-

варительной обработки (преобразование 1D-MFCC в спектрограмму) перед

моделью СНС, обработка минимальна, и наиболее важно, что сохраняется це-

лостность сигнала. Предлагаемый подход к выделению признаков позволяет

значительно сократить длину обучающих признаков, обеспечивая простую

трансформацию данных в новое пространство признаков. С практической

точки зрения данный подход можно использовать для улучшения характери-

стик пространственного хранения или для вычислительной продуктивности

алгоритмов обучения. Данный способ снижения размерности предлагается

использовать в задачах РРЭ.

6. Заключение

Предложен подход приведения речевых данных, содержащих эмоциональ-

ную составляющую в речи, в форму, подходящую для алгоритмов машинного

обучения. Очевидно, что качество и объем акустических признаков определя-

ют, насколько хорошо алгоритмы машинного обучения способны обучаться.

Следовательно, критически важно провести исследование и предваритель-

ную обработку признаков, прежде чем передавать их значения алгоритму

обучения. Результаты эксперимента показывают, что небольшие сети, или се-

ти, имеющие относительно малое число параметров, обладают недостаточной

емкостью, а потому присутствует эффект недообученности, демонстрирует-

ся низкая эффективность, поскольку они не могут выявлять внутреннюю

структуру сложных данных.

Предложенный авторами статьи подход для предобработки данных и вы-

деления признаков способствует улучшению характеристик пространственно-

го хранения и вычислительной продуктивности алгоритмов обучения. Полу-

ченные результаты важны для исследований, связанных с обработкой и ана-

лизом речевых сигналов, выделением определенных эмоциональных свойств

говорящих [32]. Применение предложенного в статье метода в задачах ана-

лиза электронной информации позволит повысить эффективность работы за

счет снижения вычислительной нагрузки, уменьшения пространства призна-

ков и, соответственно, повышения скорости расчетов.

Справочная информация

1) Сокращения для конфигураций нейронных сетей:

Layer — слой;

LT — layer type (тип слоя);

SF — same filters (фильтры одного рода);

KS — kernel size (размер ядра свертки);

Strides — шаг свертки;

Activation — функция активации;

BN — batch Normalization (нормализация);

Dropout — регуляризация;

MP (P) — Max pooling (слой понижения размерности);

LSTM — Long short-term memory (слой с рекуррентной нейронной сетью);

AA — attention activation (слой активации рекуррентного слоя);

Flatten — полносвязный слой;

Dense — выходной полносвязный слой.

2) Конфигурации нейронных сетей (табл. 2, 3)

Таблица 2. Конфигурация одномерной нейронной сети — Reza-1-D-CNN

Layer

SF KS Strides Padding BN Activation Dropout

CNN (SF)

256

same

ReLu

CNN (SF)

256

same

+ ReLu

0,25

MP (P)

CNN (SF)

128

same

ReLu

CNN (SF)

128

same

ReLu

CNN (SF)

128

same

ReLu

CNN (SF)

128

same

+ ReLu

0,25

MP (P)

CNN (SF)

same

ReLu

CNN (SF)

same

ReLu

flatten

Dense

Softmax

Таблица 3. Конфигурация одномерной нейронной сети — Vandana-Raian

1-D CNN-RNN

Layer

SF KS Strides Padding BN Activation Dropout

CNN (SF)

same

elu

MP (P)

CNN (SF)

same

elu

MP (P)

CNN (SF)

128

same

elu

MP (P)

CNN (SF)

128

same

elu

MP (P)

LSTM

tanh

LSTM

Dense

Softmax

СПИСОК ЛИТЕРАТУРЫ

1. Мещеряков Р.В., Бондаренко В.П. Диалог как основа построения речевых си-

стем // Кибернетика и системный анализ. 2008. № 2. С. 30-41.

Papakotas M., Siantikos G., Giannakopoulos T. et al. IoT Applications with 5G

Connectivity in Medical Tourism Sector Management: Third-Party Service Scenar-

ios // GeNeDis 2016. Advances in Experimental Medicine and Biology. 2016. V. 989.

P. 155-164. 2016. https://doi.org/10.1007/978-3-319-57348-9 12

Okhapkin V., Okhapkina E., Iskhakova A. et al. Application of neural network mod-

eling in the task of destructive content detecting // CEUR workshop proceedings.

Proceedings of the 3rd International Conference on R. Piotrowski’s Readings in Lan-

guage Engineering and Applied Linguistics, PRLEAL 2019. St. Petersburg, Russia,

2020. P. 85-94.

Iskhakova A., Iskhakov A., Meshcheryakov R. Research of the estimated emotional

components for the content analysis // Journal of Physics: Conference Series. 2019.

V. 1203. P. 1-10. https://doi.org/10.1088/1742-6596/1203/1/012065

Scheirer E., Slaney M. Construction and evaluation of a robust multifeature

speech/music discriminator // IEEE International Conference on Acoustics, Speech,

and Signal Processing. Munich, Germany, 2002. P. 1331-1334.

https://doi.org/10.1109/ICASSP.1997.596192

Hossan M.A., Memon S., Gregory M.A. A novel approach for MFCC feature extrac-

tion // 2010 4th International Conference on Signal Processing and Communication

Systems. Gold Coast, QLD, Australia, 2010. P. 1-5.

https://doi.org/10.1109/ICSPCS.2010.5709752

Logan B. Mel Frequency Cepstral Coefficients for Music Modeling.

https: //ismir2000.ismir.net/papers/logan_abs.pdf

Rabiner L.R., Juang B.H. Fundamental of Speech Recognition. USA: Prentice Hall,

1993.

Nwe T.L., Foo S.W., Silva L.C. Speech emotion recognition using hidden Markov

models // Speech Communication. 2003. V. 41. No. 4. P. 603-623.

https://doi.org/10.1016/S0167-6393(03)00099-2

10.

Zou D., Niu Y., He Z., Tan H. A breakthrough in speech emotion recognition using

deep retinal convolution neural networks. https: //arxiv.org/abs/1707.09917

11.

Lim W., Jang D., Lee T. Speech Emotion Recognition using Convolutional and

Recurrent Neural Networks // 2016 Asia-Pacific Signal and Information Processing

Association Annual Summit and Conference (APSIPA). Jeju, Korea (South), 2016.

P. 1-4. https://doi.org/10.1109/APSIPA.2016.7820699

12.

Prasomphan S. Improvement of speech emotion recognition with neural network

classifier by using speech spectrogram // 2015 International Conference on Systems,

Signals and Image Processing (IWSSIP). London, UK, 2015. P. 73-76.

https://doi.org/10.1109/IWSSIP.2015.7314180

13.

Pakoci E., Popovic B., Pekar D. Improvements in Serbian Speech Recognition using

Sequence-Trained Deep Neural Networks // SPIIRAS Proceedings. 2018. Vol. 3(58).

P. 53-76. https://doi.org/10.15622/sp.58.3

14.

Bengio Y., Hinton G. Deep learning // Nature. 2015. V. 521. P. 436-444.

https://doi.org/10.1038/nature14539.

15.

Valenti M., Squartini S., Diment A. et al. A convolutional neural network approach

for acoustic scene classification // 2017 International Joint Conference on Neural

Networks (IJCNN). Anchorage, AK, 2017. P. 1547-1554.

https://doi.org/10.1109/IJCNN.2017.7966035

16.

Hajarolasvadi N., Demirel H. 3D CNN-Based Speech Emotion Recognition Using

K-Means Clustering and Spectrograms // Entropy. 2019. V. 21(5) 479. P. 1-17.

https://doi.org/10.3390/e21050479

17.

Niu Y., Zou D., Niu Y., He Z., Tan H. A breakthrough in speech emotion recognition

using deep retinal convolution neural networks. Preprint.

https://arxiv.org/abs/1707.09917

18.

Burkhardt F., Paeschke A., Rolfes M., Sendlmeier W.F., Weiss B. A Database of

German Emotional Speech // INTERSPEECH 2005 — Eurospeech, 9th European

Conference on Speech Communication and Technology. Lisabon, Portugal, 2005.

P. 1-4. https://doi.org/10.21437/Interspeech.2005-446

19.

Haq S., Jackson P.J.B., Edge J.D. Audio-Visual Feature Selection and Reduction for

Emotion // Proceedings of the International Conference on Auditory-Visual Speech

Processing 2008, Tangalooma Wild Dolphin Resort, Moreton Island, Queensland,

Australia, 2008. P. 185-190.

20.

Haq S., Jackson P.J.B. Speaker-Dependent Audio-Visual Emotion Recognition //

Proceedings of the International Conference on Auditory-Visual Speech Processing,

Norwich, UK, 2009. P. 53-58.

21.

Huang Z., Dong M., Mao Q., Zhan Y. Speech Emotion Recognition Using CNN //

MM ’14: Proceedings of the 22nd ACM international conference on Multimedia.

Orlando, Florida, USA, 2014. P. 801-804. https://doi.org/10.1145/2647868.2654984

22.

Prasomphan S. Improvement of speech emotion recognition with neural network

classifier by using speech spectrogram // 2015 IEEE International Conference on

Systems, Signals and Image Processing. London, UK, 2015. P. 73-76.

https://doi.org/10.1109/IWSSIP.2015.7314180

23.

Semwal N., Kumar A., Narayanan S. Automatic speech emotion detection system

using multi-domain acoustic feature selection and classification models // 2017 IEEE

International Conference on Identity, Security and Behavior Analysis (ISBA). New

Delhi, India, 2017. P. 1-6.

24.

Chu R. Speech Emotion Recognition with Convolutional Neural Network. 2019.

https://towardsdatascience.com/speech-emotion-recognition-with-convolution-

neural-network-1e6bb7130ce3

25.

Jianfeng Z., Mao X., Chen L. Speech emotion recognition using deep 1D & 2D

CNN LSTM networks // Biomedical Signal Processing and Control. 2019. V. 47.

P. 312-323. https://doi.org/10.1016/j.bspc.2018.08.035

26.

Rajan V. 1D Speech Emotion Recognition. 2021.

https: //github.com/vandana-rajan/1D-Speech-Emotion-Recognition

27.

Livingstone S.R., Russo F.A. The Ryerson Audio-Visual Database of Emotional

Speech and Song (RAVDESS): A dynamic, multimodal set of facial and vocal

expressions in North American English // PLoS ONE. 2018. V. 13(5). P. 1-35.

https://doi.org/10.1371/journal.pone.0196391

28.

Dupuis K., Pichora-Fuller M.K. Toronto emotional speech set (TESS).

https://doi.org/10.5683/SP2/E8H2MF

https://dataverse.scholarsportal.info/dataset.xhtml?persistentId=

doi:10.5683/SP2/E8H2MF

29.

Cao H., Cooper D.G., Keutmann M.K. et al. CREMA-D: Crowd-sourced emotional

multimodal actors dataset // IEEE transactions on affective computing.

2014.

V. 5(4). P. 377-390. https://doi.org/10.1109/TAFFC.2014.2336244

30. Franti E., Ispas I., Dragomir V. et al. Voice Based Emotion Recognition with

Convolutional Neural Networks for Companion Robots // Romanian Journal of

Information Science and Technology. 2018. V. 20(3). P. 222-240.

31. Iskhakova A., Wolf D., Meshcheryakov R. Automated Destructive Behavior State

Detection on the 1D CNN-Based Voice Analysis // Speech and Computer. SPECOM

2020. Lecture Notes in Computer Science. 2020. V. 12335. P. 184-193.

https://doi.org/10.1007/978-3-030-60276-5_19

32. Исхакова А.О., Вольф Д.А., Исхаков А.Ю. Неинвазивный нейрокомпьютерный

интерфейс для управления роботом // Высокопроизводительные вычислитель-

ные системы и технологии. 2021. Том 5. № 1. C. 166-171.

Статья представлена к публикации членом редколлегии О.П. Кузнецовым.

Поступила в редакцию 17.11.2021

После доработки 19.01.2022

Принята к публикации 26.01.2022