Автоматика и телемеханика, № 2, 2019
© 2019 г. А.С. КОЛОКОЛОВ, канд. техн. наук (kolokolo@ipu.ru),
И.А. ЛЮБИНСКИЙ, канд. техн. наук (liubinsk@ipu.ru)
(Институт проблем управления им. В.А. Трапезникова РАН, Москва)
ИЗМЕРЕНИЕ ОСНОВНОГО ТОНА РЕЧЕВОГО СИГНАЛА
С ИСПОЛЬЗОВАНИЕМ ФУНКЦИИ АВТОКОРРЕЛЯЦИИ
Предложен метод измерения основного тона речевого сигнала, основан-
ный на получении и последующей обработке автокорреляционной функ-
ции анализируемого сигнала, подчеркивающей ее пик, связанный с пе-
риодом сигнала. Используемая обработка предотвращает грубые ошибки
при измерении основного тона и представляет собой разновидность клип-
пирования положительных пиков автокорреляционной функции.
Ключевые слова: речевой сигнал, обработка и анализ сигналов.
DOI: 10.1134/S0005231019020090
1. Введение
Согласно теории речеобразования [1] вокализованный речевой сигнал об-
разуется в результате прохождения через речевой тракт импульсов давле-
ния, создаваемых голосовыми связками гортани. Импульсы e(t), генерируе-
мые связками, имеют форму, близкую к треугольной, и образуют последо-
вательность импульсов, следующих с интервалом T0 = 1/f0, где f0 — ос-
новной тон. Таким образом, образование вокализованного речевого сигна-
ла s(t) можно представить сверткой s(t) = e(t) ∗ h(t), где — операция сверт-
ки, h(t) — импульсная характеристика речевого тракта. Последний факт
поясняет рис. 1.
Более сложный вид s(t) по сравнению с e(t) обусловлен наличием ряда
резонансов (формант) в передаточной функции речевого тракта. Обычно в
речевом сигнале наиболее выраженными являются две первые форманты с
частотами F1 и F2. Из рис. 1 можно видеть, что периодичность, наиболее
отчетливо выраженная в e(t), сохраняется в s(t), хотя ее измерение осложня-
ется наличием дополнительных затухающих колебаний вследствие фильтра-
ции e(t) речевым трактом.
В восприятии речевого сигнала частоты f0, F1 и F2 играют разную роль.
Частотами формант F1 и F2, отражающими изменения геометрии речевого
тракта, обычно переносится фонетическая информация в речевом сообщении,
в то время как с помощью частоты основного тона f0 передается информация
о характере высказывания, о положении смысловых групп в речевом потоке,
об эмоциональном и психофизиологическом состоянии говорящего. Однако в
тональных языках информация о гласном может кодироваться также абсо-
лютным значением частоты f0. Это свидетельствует о важности измерения
основного тона в процессе анализа и распознавания речевого сигнала.
152
e(t)
T0
0
20
30
40
50
h(t)
0
0
10
20
30
s(t)
0
t(мс)
20
30
40
50
Рис. 1. Иллюстрация формирования речевого сигнала
во временной области.
В литературе описывается большое разнообразие методов измерения ча-
стоты основного тона, позволяющих производить оценку частоты основного
тона во временной, частотной и частотно-временной областях [2-8].
Методы, реализующие измерение основного тона во временной области,
базируются как на анализе интервалов между пиками тонкой временной
структуры речевой волны, так и на анализе пиков ее автокорреляционной
функции, исходного речевого сигнала или речевого сигнала, подвергнутого
специальной обработке, усиливающей его периодическую составляющую, свя-
занную с частотой основного тона [9-12].
Оценка частоты основного тона с помощью частотных методов произво-
дится на основе измерения частот гармоник речевого сигнала, выявленных с
помощью дискретного преобразования Фурье или вейвлет анализа [7, 8].
Примером частотно-временных методов являются методы, основанные на
использовании кепстра, представляющего собой косинус-преобразование Фу-
рье от логарифма амплитудного спектра выборки речевого сигнала [4, 5].
Наконец также следует отметить, что одновременно с упомянутыми вы-
ше методами также развиваются методы измерения основного тона, бази-
рующиеся на моделях восприятия звука, разрабатываемых с использованием
знаний о процессах обработки звукового сигнала в слуховом анализаторе [6].
В рамках настоящей работы ограничимся рассмотрением автокорреляци-
онных измерителей частоты основного тона, основанных на анализе пиков
автокорреляционной функции вокализованных фрагментов речевого сигна-
153
а
r0
(τ
)
1
1
/
F
1
/
f
1
0
0
-1
0
5
10
15
20
25
б
r0
(τ
)
1
0
-1
τ
(мс
)
0
5
10
15
20
25
Рис. 2. Вид автокорреляционной функции речевого сигнала r0(τ) для случаев:
а — ΔT = 25,6 мс, б — ΔT = 18 мс.
ла фиксированной длительности ΔT = 20-50 мс [9, 10], на которых речевой
сигнал может рассматриваться как квазистационарный. В этом случае ча-
стота основного тона f0 = 1/T0 для каждого сегмента обычно определяется
величиной, обратной координате главного пика на τ = T0 автокорреляцион-
ной функции
1
r(τ) =
s(t)s(t - τ)dt
ΔT
0
или нормированной функции автокорреляции r0(τ) = r(τ)/r(0). Вид авто-
корреляционной функции, полученной для гласного, демонстрирует рис. 2.
Приведенная на рис. 2,а автокорреляционная функция имеет главный пик
на τ = T0, определив положение которого можно найти частоту основного
тона f0 = 1/T0. Однако вследствие того, что речевой сигнал является сверт-
кой сигнала голосового источника с импульсной характеристикой речевого
тракта, а автокорреляционная функция для периодического сигнала убывает
с τ, главным пиком в отдельных случаях может оказаться пик автокорреля-
ционной функции, связанный с первой формантой F1 речевого сигнала. Это
будет приводить к нежелательным грубым ошибкам измерения основного то-
на. В частности, такие ошибки могут иметь место при низких значениях f0,
когда T0 < ΔT < 2T0. В этом случае амплитуда пика автокорреляционной
функции r(τ) при τ = T0 может быть меньше амплитуды пика при τ = 1/F1.
Рассмотренную ситуацию поясняет рис. 2,б .
Для уменьшения амплитуды пика r(τ), связанного с первой форман-
той F1, может быть использовано центральное клиппирование речевого сиг-
нала [10, 11]. После центрального клиппирования s(t) получается клиппиро-
154
а
r
(
τ)1
0
p
(
τ
)
0
-1
0
5
10
15
20
25
б
r (τ
)
1
0c
1
/
f
0
0,5
0
t
(мс
)
0
5
10
15
20
25
Рис. 3. Клиппирование автокорреляционной функции с помощью линейно-
убывающей функции.
ванный сигнал
s(t) - c0 при s(t) - c0 0,
s(t) + c0 при s(t) + c0 0,
sc(t) =
s(t) = 0
при s(t) - c0 < 0,
s(t) = 0
при s(t) + c0 > 0,
где c0 — уровень клиппирования. Благодаря применению клиппирования, в
сигнале sc(t) и его автокорреляционной функции выравниваются амплитуды
гармоник сигнала и тем самым ослабляются его формантные резонансы. В ре-
зультате подчеркиваются пики в автокорреляционной функции сигнала sc(t)
на τ = T0 для стационарных участков речевого сигнала. Однако рассмотрен-
ная процедура корреляционного анализа с применением клиппирования ока-
зывается неудовлетворительной при изменении амплитуды речевого сигнала
на протяжении интервала ΔT и в присутствии импульсных помех.
Ослабить пик в автокорреляционной функции, связанный с первой фор-
мантой F1, можно также с помощью клиппирования положительных пиков в
самой автокорреляционной функции [12]. Последнее достигается за счет ис-
пользования линейно убывающей пороговой функции p0(τ) = αT (τ - ΔT ),
где α — параметр, определяющий уровень клиппирования r0(τ), выбираемый
в диапазоне 0 < α < 1, а τ ∈ [0, Δ T ]. В результате получается клиппирован-
ная автокорреляционная функция
{ r0(τ) - αp0(τ) при r0(τ) - αp0(τ) > 0,
r0c(τ) =
0
при r0(τ) - αp0(τ) 0.
Клиппирование автокорреляционной функции r0(τ) с помощью линейно-
убывающей функции p0(τ) поясняет рис. 3.
155
ϑ
1
0,8
0,6
1
2
3
0,4
0,2
τ
( мс )
0
0
5
10
15
20
25
30
Рис. 4. Влияние изменения амплитуды гармонического сигнала на огибающую
его автокорреляционной функции. 1 a = 1, 2 a = 0,25, 3 a = 0.
Рассмотренная процедура клиппирования подчеркивает пик автокорреля-
ционной функции на τ = T0 для стационарных участков речевого сигнала
и является малочувствительной к присутствию импульсных помех. Однако
она оказывается неудовлетворительной при изменении амплитуды речевого
сигнала на протяжении интервала ΔT , так как в этом случае автокорреляци-
онная функция r0(τ) может убывать быстрее, чем линейная пороговая функ-
ция p0(τ). Последнее приводит к пропаданию пика на τ = T0 и, как следствие,
вообще к потере информации о f0.
Для демонстрации сказанного на рис. 4 приведены примеры влияния из-
менения амплитуды гармонического сигнала на интервале ΔT на характер
убывания огибающей его автокорреляционной функции. Для этого были най-
дены огибающие автокорреляционные функции гармонического сигнала с по-
стоянной амплитудой и с линейно убывающей амплитудой. Убывание ампли-
туды создавалось умножением выборки гармонического сигнала длительно-
стью ΔT на окно
a-1
w(t) =
t + 1,
ΔT
где параметр 0 ≤ a < 1 определяет конечную амплитуду гармонического сиг-
нала на интервале ΔT . Из рис. 4 можно видеть, что в случае гармонического
сигнала с постоянной амплитудой (a = 1) его автокорреляционная функция
убывает линейно, в то время как отклонение от линейного убывания тем
больше, чем быстрее убывает амплитуда гармонического сигнала (a = 0,25 и
a = 0) на интервале ΔT.
Ниже предлагается способ повышения надежности измерения частоты ос-
новного тона f0 речевого сигнала путем применения дополнительной обра-
ботки автокорреляционной функции r0(τ), подчеркивающей ее пик на τ = T0.
Новизна предлагаемого способа подтверждена патентом [13].
2. Описание способа
Суть предлагаемого способа состоит в том, что производится обработка
автокорреляционной функции с помощью вычитания из автокорреляцион-
ной функции r0(τ), полученной для сегмента сигнала, меньшей по амплитуде
156
сглаженной функции автокорреляции для модуля сигнала на том же сегменте
и обнуления отрицательных разностей.
В результате обработки r0(τ) получается модифицированная автокорре-
ляционная функция
{ r0(τ) - αr0e(τ) ∗ h(τ) при r0(τ) - αr0e(τ) ∗ h(τ) > 0,
rc1(τ) =
0
при r0(τ) - αr0e(τ) ∗ h(τ) 0,
ΔT-τ
ΔT
где r0e(τ) =
|s(t)| |s(t - τ)| dt/
s2(t)dt; h(τ) — симметричная им-
0
0
пульсная характеристика сглаживающего фильтра, которая в частном слу-
чае отсутствия сглаживания будет представлять собой δ-функцию Дирака;
0 < α < 1; τ ∈ [0, ΔT]; |s(t)| — модуль s(t).
Такого рода обработку можно рассматривать как разновидность клиппи-
рования r0(τ) с пороговой функцией αr0e(τ), затухающей примерно так же,
как и r0(τ). В результате этого у функции rc1(τ) амплитуда пика на τ = T0
меньше зависит от изменения амплитуды речевого сигнала на протяжении
интервала ΔT , чем у функций r0(τ) и r0c(τ). Благодаря этому, снижается
количество ошибок при измерении основного тона.
3. Результаты исследования
Предложенный способ был проверен на фрагментах синтетических и есте-
ственных гласных, взятых из речевого сигнала. Сравнительный анализ каче-
r
(t )
1
0
0
-1
0
5
10
15
20
25
r
(t )
2
0
e
1
0
0
5
10
15
20
25
rc
1
(t )
0,2
0,1
0
0
5
10
15
20
25
τ
(мс )
Рис. 5. Иллюстрация предлагаемого способа обработки автокорреляционной
функции.
157
a
rc1 t)
0,2
0,1
0
0
5
10
15
20
25
б
rc1 t)
0,2
0,1
0
0
5
10
15
20
25
в
0,2
rc1 t)
0,1
0
0
5
10
15
20
25
г
rc1 t)
0,2
0,1
0
τ
(мс)
0
5
10
15
20
25
Рис. 6. Демонстрация устойчивости предлагаемого способа к изменениям ам-
плитуды сигнала для случаев: а — 0 = 1, б a = 0,5, в a = 0,25, г
a = 0,125.
ства измерения основного тона с помощью автокорреляционного [10] и пред-
ложенного способов проводился на примере 240 образцов шести естественных
гласных: «а», «у», «э», «о», «ы», «и». Образцы были собраны от пяти муж-
чин и пяти женщин, четырехкратно произносивших короткие речевые фразы.
Запись образцов производилась через динамический микрофон МД-71 с по-
мощью 16-разрядной звуковой карты при частоте квантования 22,05 кГц. Об-
разцы гласных имели длительность ΔT = 23,2 мс и включали по 512 дискрет-
ных отсчетов. При этом число ошибок измерения основного тона составили
соответственно 28 и 8 для автокорреляционного и предложенного способов.
Для демонстрации нечувствительности метода к изменениям амплитуды
речевого сигнала был использован фрагмент двухформантного синтетическо-
158
го гласного длительностью ΔT = 18 мс при частоте дискретизации 10 кГц.
Синтезированный гласный имел частоту основного тона f0 = 100 Гц и часто-
ты формант F1 = 600 Гц и F2 = 830 Гц. Параметр α, определяющий уровень
клиппирования, был выбран равным 0,8.
Сглаживание r0e(τ) выполнялось с помощью фильтра низких частот с сим-
метричной импульсной характеристикой h(n) = 0,25u0(n - 1) + 0,5u0(n) +
+ 0,25u0(n + 1), где n = . . . - 2, -1, 0, 1, 2, . . . , u0(n) = 1 при n = 0 и u0(n) = 0
при n = 0. Поэтому вычисление свертки сводилось к суммированию трех
взвешенных спектральных отсчетов. На рис. 5 предложенный способ поясня-
ется на примере гласного с постоянной амплитудой на протяжении сегмента
длительностью ΔT = 18 мс.
На рис. 6 продемонстрирована устойчивость предложенного способа при
линейном убывании амплитуды гласного для случаев разной скорости убыва-
ния амплитуды сигнала, что обеспечивалось выбором a = 1, 0,5, 0,25, 0,125.
Из приведенных рисунков можно видеть, что предложенный способ об-
работки автокорреляционной функции позволяет подчеркнуть ее пик на
τ = 1/f0, связанный с периодом сигнала T0, как в случае речевого сигнала
с постоянной амплитудой, так и при изменениях его амплитуды на интерва-
ле анализа ΔT . При этом во всех случаях пик у rc1(τ) на τ = 1/f0 выражен
более четко в сравнении с другими пиками, нежели у автокорреляционной
функции r0(τ).
4. Заключение
Таким образом, приведенные выше результаты исследования позволяют
заключить, что предложенный способ обработки функции автокорреляции
позволяет подчеркнуть ее пик на периоде сигнала T0 и уменьшить число оши-
бок измерения основного тона речевого сигнала при наличии амплитудных
вариаций сигнала на интервале анализа ΔT .
СПИСОК ЛИТЕРАТУРЫ
1. Фант Г. Акустическая теория речеобразования. М.: Наука, 1964.
2. Hess W. Pitch determination of signals. Berlin: Springer - Verlag, 1983.
3. Маркел Д.Д., Грэй А.Х. Линейное предсказание речи. М.: Связь, 1980.
4. Чайлдерс Д.Дж., Скиннер Д.П., Кемерейт Р.Ч. Кепстр и его применение при
обработке данных // ТИИЭР. 1977. Т. 5. № 10. С. 5-23.
5. Колоколов А.С. Измерение основного тона речевого сигнала // АиТ. 2003. № 8.
С. 122-134.
Kolokolov A.S. Measuring the Fundamental Tone of Voice Signal // Autom. Remote
Control. 2003. V. 64. No. 8. P. 1310-1320.
6. Stephan D.E., Carolin T.I., Volker H. Robust fundamental frequency estimation in
an auditory model // AIA-DAGA. 2013. Merano. P. 271-274.
7. Имамвердиев Я.Н., Сухостат Л.В. Метод оценки периода основного тона с
применением эмпирического вейвлет преобразования // Радiоелектронiка, iн-
форматика, управлiння. 2015. № 2. C. 47-53.
8. Aasha D.E., Ramesh Shweta, Kathuria Chhavi, Biswas Debdatta. Comparative study
of pitch estimation using harmonic product spectrum derived from DFT, DCT, Haar
and KL transforms // Int. Pure Appl. Math. 2017. V. 115. No. 6. P. 403-408.
159
9. Баронин С.П. Автокорреляционный метод выделения основного тона речи / Сб.
тр. Гос. НИИ Мин. связи СССР. Вып. 3(24). М., 1961. С. 93-102.
10. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. М.: Радио и
связь, 1981.
11. Sondhi M.M. New methods of pitch extraction // IEEE Trans. Audio Electroacoust.
1968. V. AU-16. No. 2. P. 262-266.
12. Колоколов А.С., Любинский И.А., Мещеряков А.Ю. Измерение основного тона
речевого сигнала на основе его автокорреляционной функции // Наукоемкие
технологии. 2012. Т. 13. № 5. С. 26-29.
13. Колоколов А.С., Павлова М.И. Способ обработки функции автокорреляции для
измерения основного тона речевого сигнала // Патент на изобретение № 2559710.
Решение о выдаче от 27.05.2015.
Статья представлена к публикации членом редколлегии О.Н. Граничиным.
Поступила в редакцию 03.04.2018
После доработки 29.06.2018
Принята к публикации 08.11.2018
160