Сенсорные системы, 2023, T. 37, № 4, стр. 342-347
Особенности распознавания речевых сигналов в условиях голосовой конкуренции в норме и при нарушениях слухоречевой функции
А. А. Балякова 1, О. В. Лабутина 1, И. С. Медведев 1, С. П. Пак 1, Е. А. Огородникова 1, *
1 Федеральное государственное бюджетное учреждение науки Институт физиологии им. И.П. Павлова
Российской академии наук
199034 Санкт-Петербург, наб. Макарова, д. 6, Россия
* E-mail: ogorodnikovaea@infran.ru
Поступила в редакцию 05.09.2023
После доработки 18.09.2023
Принята к публикации 25.09.2023
- EDN: QNREOL
- DOI: 10.31857/S0235009223040029
Аннотация
Исследовали особенности восприятия речевых сигналов в условиях голосовой конкуренции по гендерному признаку (мужской/женский голос) у испытуемых разного возраста и состояния слухоречевой функции. Психофизические измерения проводили при имитации ситуации “речевого коктейля” путем одновременного произнесения разных слов диктором-мужчиной и диктором-женщиной. Средняя частота основного тона голоса (ЧОТ) у диктора-мужчины составляла 108 ± 5.92 Гц, у диктора-женщины – 185 ± 12.03 Гц. Оба диктора являлись нормативными носителями русского языка. Цифровые реализации записей выравнивали по интенсивности и микшировали, чтобы суммарный тестовый стимул представлял собой смесь слов, произнесенных мужским (М) и женским (Ж) голосом, с синхронизацией времени начала их звучания. Тестовые речевые сигналы предъявляли через наушники или через динамик, расположенный перед аудитором на расстоянии 50 см. Сравнивали показатели времени реакции и числа правильных распознаваний слов целевого диктора (М или Ж) у четырех групп испытуемых разного возраста и слухоречевого статуса: взрослые испытуемые с нормой слуха и речи (n = 35) и с нарушениями слуха (n = 26); школьники с нормотипичным развитием (n = 26) и с нарушениями речи (n = 25). Результаты свидетельствовали об ухудшении способности выделять целевые речевые потоки в условиях голосовой конкуренции при нарушениях слуха и речи, включенных в сравнительное исследование. У испытуемых с тугоухостью и с речевыми проблемами выявлены различия в восприятии мужского и женского голоса, которые могут иметь биологическую и социальную основу. Результаты имеют практическое значение для развития системы слухоречевых тренировок и современных технологий слухопротезирования.
ВВЕДЕНИЕ
Слуховое восприятие речи характеризуется определенной степенью помехоустойчивости и избирательности, что позволяет человеку обнаруживать и выделять целевого диктора на фоне акустических помех и звучания других источников звуков и речи. Эти свойства слуха играют важную роль в речевом общении в разных условиях коммуникации и обеспечивают человеку возможность сосредоточиться на одном говорящем, игнорируя других собеседников и окружающие шумы. Задачу, решаемую слуховой системой в подобной ситуации, принято обозначать как “проблему вечеринки” или “the cocktail-party problem” (Cherry, 1953). За десятилетия ее исследования, помимо изучения пространственной избирательности речевого слуха (Bronkhost, 2015; Andreeva, 2018), в психоакустике сформировалось направление “слухового анализа сцен”, ориентированное на изучение механизмов разделения и объединения (перцептивной группировки) звуковых и речевых потоков в сложной акустической среде (Bregman, 1990).
Результаты экспериментальных исследований показали, что значимыми параметрами для реализации процессов слухового анализа в сложных условиях с пространственной составляющей являются: степень близости спектрально-временных характеристик звуковых или речевых источников, синхронность их работы, разделение в пространстве (Bregman, 1990; Shamma et al., 2011; Gutschalk, Dykstra, 2014; Bronkhost, 2015; Andreeva, 2018). Помимо эффектов пространственного освобождения от маскировки, обусловленных бинауральными механизмами восприятия, можно отметить и свойства самого речевого сигнала, способствующие решению проблемы “вечеринки”. В первую очередь это относится к концентрации энергии речевого сигнала в ограниченных спектральных областях и к его избыточности, позволяющей перцептивно “восстанавливать” недостающие или замаскированные элементы речевого потока (Kalikow et al., 1977; Moore, 2012; Fogerty et al., 2015).
В сценах с отсутствием значимой пространственной составляющей перцептивная группировка речевого потока в большей степени определяется гендерными и индивидуальными характеристиками голоса диктора (частота основного тона, тембр). Определенный вклад вносит фонемная связность, особенности произношения, контекст речевого сообщения, а также когнитивные факторы, в частности, селективное или избирательное внимание (Shamma et al., 2011; Moore, 2012; Gutschalk, Dykstra, 2014; Popper, Fay, 2015). В практическом плане исследование процессов восприятия в сложной акустической среде имеет важное значение для повышения эффективности реабилитации людей с нарушениями слухоречевой функции и для развития технических средств слухопротезирования.
Цель настоящей работы – сравнительная оценка показателей восприятия целевого речевого сигнала в условиях голосовой конкуренции испытуемыми разного возраста с нормой и нарушениями слуха и речи.
МЕТОДИЧЕСКИЕ УСЛОВИЯ ИССЛЕДОВАНИЯ
Для проведения исследования использовали методику имитации сложной коммуникативной сцены без пространственной составляющей (Огородникова и др., 2022). Стимуляция соответствовала упрощенной схеме “речевого коктейля” – одновременное произнесение разных речевых сигналов (изолированных слов) двумя дикторами – мужчиной и женщиной. Оба диктора являлись нормативными носителями русского языка. Средняя частота основного тона (ЧОТ) для мужского голоса составляла 108 ± 5.92 Гц, для женского – 185 ± 12.03 Гц. Цифровые реализации записей выравнивали по интенсивности и микшировали таким образом, чтобы суммарный тестовый стимул представлял собой смесь слов, произнесенных мужским (М) и женским (Ж) голосом, с синхронизацией времени начала их звучания. Всего использовали шесть пар слов: /Ягода + + Армия/, /Борода + Барабан/, /Воробей + Береза/, /Бумага + Дерево/; /Диваны + Лимоны/, /Ягода + Выгода/, в которых прямым шрифтом отмечены слова диктора-мужчины, курсивом – слова диктора-женщины.
Тестовые речевые сигналы предъявляли через наушники или через динамик, расположенный перед аудитором на расстоянии 50 см. Условия обеспечивали голосовую конкуренцию и процедуру селективного выделения целевых слов по гендерному признаку “женский/мужской голос”. Оценивали количество правильных распознаваний и время реакции испытуемых. Эксперименты проводили при комфортном уровне стимуляции при помощи комплекса “Учись слушать”, разработанного специалистами Института физиологии им. И.П. Павлова РАН и Санкт-Петербургского Института уха, горла, носа и речи Минздрава РФ (Королева и др., 2013).
В экспериментах участвовали четыре группы испытуемых: взрослые испытуемые в возрасте от 18 до 25 лет с нормальной слухоречевой функцией (n = 35) и нарушениями слуха (третья степень сенсоневральной тугоухости, реабилитация после кохлеарной имплантации, n = 26); школьники в возрасте 10–14 лет с нормотипичным развитием (n = 26) и с нарушениями речи – общее недоразвитие речи (ОНР), проявления дислексии, дисграфии (n = 25). Все процедуры, выполненные в исследовании с участием испытуемых, соответствовали требованиям Этического комитета Института физиологии им. И.П. Павлова РАН и Хельсинкской декларации 1964 г. с ее последующими изменениями.
При статистической обработке результатов использовали t-критерий Стьюдента для несвязанных выборок с проверкой распределения на нормальность по тесту Андерсон-Дарлинга и непараметрический критерий Вилкоксона для зависимых выборок.
РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ И ИХ ОБСУЖДЕНИЕ
Полученные данные показали, что успешное выделение и распознавание целевых слов при голосовой конкуренции наблюдаются у взрослых аудиторов и у школьников с нормой слуха и речи, у которых средний уровень правильных распознаваний целевых слов, произнесенных мужским или женским голосом, превышает уровень надежного распознавания в 75% от предъявляемых сигналов. В этих группах зафиксированы и наиболее низкие показатели времени реакции, в среднем не превышающие 3 с (табл. 1).
Таблица 1.
Средние показатели распознавания и времени реакции при восприятии конкурирующих речевых сигналов в группах сравнения (М ± m)
| Группы сравнения | Взрослые испытуемые | Группы сравнения | Школьники | ||
|---|---|---|---|---|---|
| N (%) | Т реакции (с) | N (%) | Т реакции (с) | ||
| Норма слуха | 93.4 ± 1.1 | 2.5 ± 0.1 | Нормотипичное развитие | 86.9 ± 1.7 | 2.9 ± 0.2 |
| Нарушения слуха | 52.2 ± 2.9*** | 4.9 ± 0.2*** | Нарушения речи | 69.1 ± 2.4*** | 3.3 ± 0.3** |
Наибольшие трудности при выполнении задания испытывали люди с нарушениями слуха. В первую очередь это относилось к долингвальным пациентам после кохлеарной имплантации (n = 10), которые находились на первом этапе слухоречевой реабилитации. Их показатели в большинстве случаев были ниже 50% правильных ответов и составили в среднем 44.9 ± 3.4% (распознавание) и 5.4 ± 0.2 с (время реакции). Не достигли уровня надежного распознавания и школьники с нарушениями речи. У них наблюдался разброс индивидуальных данных, а средние показатели времени реакции превышали соответствующие значения и у взрослых, и школьников с нормой слухоречевой функции. Таким образом, у испытуемых разного возраста, имеющих нарушения слуха или речи, в условиях голосовой конкуренции обнаружены значимые отличия в восприятии целевых речевых сигналов относительно показателей нормы в соответствующих группах сравнения (норма слуха и нормотипичное развитие). Помимо тугоухости, такой результат, особенно у испытуемых с кохлеарными имплантами и с нарушениями речи, может быть обусловлен недостаточной сформированностью процессов центрального слухового анализа, ответственных за перцептивную группировку речевых потоков на основе характеристик голоса диктора (Королева и др., 2017). Причиной может выступать исходный дефицит сенсорного опыта (долингвальная глухота, начальный этап реабилитации после операции имплантации, степень тугоухости) и проявления центральных слуховых расстройств (Королева и др., 2017; Бобошко и др., 2014; Musiek, Chermak, 2014; Королева, 2022).
В группах сравнения наблюдались также различия, связанные с гендерными характеристиками голоса. Они были более выражены у испытуемых с нарушениями слуха и речи, но проявились и у школьников с нормотипичным развитием (рис. 1).
Рис. 1.
Показатели правильных распознаваний целевых слов, произнесенных мужским (М) и женским (Ж) голосом.
По горизонтали – условные обозначения групп испытуемых. По вертикали – число правильных распознавний (в %). Обозначения * и ** отражают уровни значимости различий p < 0.05 и p < 0.01 по критерию Вилкоксона (с учетом нулевых сдвигов).

Видно, что дети с нормой и нарушением речи достоверно лучше (p < 0.01 по критерию Вилкоксона) распознают речевые цели, произнесенные женским голосом. При этом испытуемые со слуховыми проблемами, наоборот, значимо лучше выделяют слова диктора-мужчины (p < 0.01 по критерию Вилкоксона). Можно предположить, что эти различия имеют как биологическую, так и социальную основу. У испытуемых с пониженным слухом или долингвальной глухотой, предшествующей кохлеарной имплантации, так могут проявляться особенности перцептивного опыта, сформированного с опорой на остаточный слух в области низких частот. Это может способствовать более успешному распознаванию слов диктора-мужчины с более низкой ЧОТ и высотой голоса. У школьников с нормой слуха различия в отношении гендерных характеристик голоса могут определяться особенностями коммуникативного взаимодействия в период раннего детства, которое реализуется преимущественно в диадах “мать и дитя” (Гайкова, Ляксо, 2011). Косвенным подтверждением этому служат реакции на голос матери, которые фиксируются при исследовании психосоматических процессов и используются в клинической практике (Еркудов и др., 2019; Efendi et al., 2018). Помимо биологических связей, перцептивное усиление женского голоса может определяться преобладанием воспитателей и педагогов женского пола в дошкольных и школьных образовательных учреждениях (Гриненко, 2014), особенно среди специалистов, занимающихся коррекционной работой. Влияние этих факторов проявляется и в группе школьников с нормотипичным развитием, где в результатах распознавания также наблюдается некоторый “перевес” женского голоса (p < 0.05 по критерию Вилкоксона). При этом, как следует из данных взрослых испытуемых в группе нормы, он постепенно нивелируется с возрастом.
ЗАКЛЮЧЕНИЕ
В целом результаты измерений в условиях голосовой конкуренции свидетельствуют об ухудшении способности выделять целевые речевые потоки и распознавать речь в сложной акустической среде при нарушениях слухоречевой функции, как со стороны слухового восприятия, так и при проблемах в развитии речи. Такое ухудшение определяется недостаточной сформированностью центральных механизмов слухового анализа сложных акустических сцен при недостатке сенсорного опыта. Прохождение курса слухоречевых тренировок может существенно улучшить эту ситуацию, что в первую очередь относится к пациентам после кохлеарной имплантации на начальных стадиях реабилитации (Огородникова и др., 2017; Королева, 2022). У школьников с речевыми нарушениями низкие показатели распознавания в условиях конкуренции также могут отражать проблемы с центральной обработкой акустической информации, что хорошо согласуется с данными более раннего исследования процессов слухового сегментного анализа у детей с нарушениями речи, чтения и письма (Огородникова и др., 2012).
Результаты имеют практическое значение для развития системы слухоречевых тренировок и современных технологий слухопротезирования. Они подтверждают целесообразность включения упражнений по восприятию речевых сигналов в условиях голосовой конкуренции в программы перцептивного тренинга. При подготовке таких программ следует учитывать новые данные о различиях в восприятии гендерных особенностей голоса, которые связаны с возрастом и характером нарушений слухоречевой функции. Это касается, в частности, использования расширенных баз “голосов дикторов” и записей речевого материала (слова, слоги, короткие фразы и многое другое).
Работа поддержана средствами государственного бюджета по госзаданию (тема № AAAA-A18-118050790159-4).
Авторы выражают благодарность главному научному сотруднику СПбНИИЛОР профессору И.В. Королевой и учителю-дефектологу ГБОУ Школы № 10 Калининского района г. Санкт-Петербурга Н.Ю. Беловой за помощь в проведении исследования.
Список литературы
Бобошко М.Ю., Гарбарук Е.С., Жилинская Е.В., Салахбеков М.А. Центральные слуховые расстройства (обзор литературы). Российская оториноларингология. 2014. № 5. С. 87.
Гайкова Ю.С., Ляксо Е.Е. Индивидуальный вклад характеристик материнской речи в речевое развитие ребенка первого года жизни. Вестник Санкт-Петербургского университета. Серия 3: Биология. 2011. № 3. С. 66–74.
Гриненко С.В. Гендерная ассиметрия в образовании. Современные научные исследования и инновации. 2014. № 12 (3). URL: http://web.snauka.ru/issues/2014/12/41818
Еркудов В.О., Огородникова Е.А., Пуговкин А.П., Сергеев И.В., Сляпцова Т.Н., Кундрат Е.О., Лупанова П.А., Пахомова М.А., Денисенко М.Д., Балашов А.Л. Выделение голоса целевого диктора в условиях речевой конкуренции у школьников с различным психоэмоциональным статусом. Педиатр. 2019. Т. 10. № 4. С. 51–59. https://doi.org/10.17816/PED10451
Королева И.В. Основы аудиологии и слухопротезирования. СПб: КАРО, 2022. 448 с.
Королева И.В., Огородникова Е.А., Пак С.П., Левин С.В., Балякова А.А., Шапорова А.В. Методические подходы к оценке динамики развития процессов слухоречевого восприятия у детей с кохлеарными имплантами. Российская оториноларингология. 2013. № 3. С. 75–85.
Королева И.В., Огородникова Е.А., Пак С.П., Левин С.В. Значение центральных механизмов слуха в восстановлении восприятия речи у глухих пациентов после кохлеарной имплантации. Специальное образование. 2017. № 3. С. 100.
Огородникова Е.А., Балякова А.А., Жилинская Е.В., Охарева Н.Г., Пак С.П., Бобошко М.Ю. Слуховая тренировка как метод реабилитации пациентов с нарушениями слуха и речи. Folia Otorhinolaryngologiae et Pathologiae Respiratoriae. 2017. Т. 23. №. 1. С. 33.
Огородникова Е.А., Лабутина О.В., Пак С.П. Имитация сложной акустической сцены при стимуляции через головные телефоны. Вестник психофизиологии. 2022. № 2. С. 140–146. https://doi.org/10.34985/o0640-6924-4290-f
Огородникова Е.А., Столярова Э.И., Балякова А.А. Особенности слухоречевой сегментации у детей школьного возраста с нормальным слухом и нарушениями слуха и речи. Сенсорные системы. 2012. Т. 26. № 1. С. 20–31.
Andreeva I.G. Spatial selectivity of hearing in speech recognition in speech-shaped noise environment. Hum Physiol. 2018. V. 44 (2): 226–236. https://doi.org/10.1134/S0362119718020020
Bregman A.S. Auditory scene analysis: the perceptual organization of sound. Cambridge: MIT Press. 1990.
Bronkhorst A.W. The cocktail-party problem revisited: Early processing and selection of multi-talker speech. Attention, Perception & Psychophysics. 2015. V. 77 (5). P. 1465–1487. https://doi.org/10.3758/s13414-015-0882-9
Cherry E.C. Some experiments on the recognition of speech, with one and with two ears. J. Acoust. Soc. Am. 1953. V. 25. № 5. P. 975.
Efendi D., Caswini N., Rustina Y., Iskandar A.D. Combination of mother therapeutic touch (MTT) and maternal voice stimulus (MVS) therapies stabilize sleep and physiological function in preterm infants receiving minor invasive procedures. Journal of Neonatal Nursing. 2018. № 6 (24). P. 318–324. https://doi.org/10.1016/j.jnn.2018.08.001
Fogerty D., Ahlstrom J.B., Bologna W.J., Dubno J.R. Sentence intelligibility during segmental interruption and masking by speech-modulated noise: Effects of age and hearing loss. J Acoust Soc Am. 2015. 137 (6): 3487–501. https://doi.org/10.1121/1.4921603
Gutschalk A., Dykstra A.R. Functional imaging of auditory scene analysis. Hear. Res. 2014. V. 307. P. 98.
Kalikow D.N., Stevens K.N., Elliott L.L. Development of a test of speech intelligibility in noise using sentence materials with controlled word predictability. J Acoust Soc Am. 1977. 61 (5): 1337–51. https://doi.org/10.1121/1.381436 PMID: 881487
Moore B.C.J. An Introduction to the Psychology of Hearing. Leiden. Brill. 2012. 442 p.
Musiek F.E., Chermak G.D. Handbook of central auditory processing disorder. San Diego. Plural Publishing. 2014. V. 1. Auditory neuroscience and diagnosis. 768 p.
Popper A.N., Fay R.R. (Eds). Perspectives on auditory research. Springer handbook of auditory research. 2014. 680 p.
Shamma S.A., Elhilali M., Micheyl C. Temporal coherence and attention in auditory scene analysis. Trends Neurosci. 2011. V. 34. P. 114.
Дополнительные материалы отсутствуют.
Инструменты
Сенсорные системы


