Сенсорные системы, 2023, T. 37, № 4, стр. 285-300
Роль слуховой обратной связи в контроле голоса при нормальном и сниженном слухе
А. М. Луничкин 1, *, К. С. Штин 1
1 Федеральное государственное бюджетное учреждение науки
Институт эволюционной физиологии и биохимии им. И.М. Сеченова Российской академии наук
194223 Санкт-Петербург, пр. Тореза, 44, Россия
* E-mail: BolverkDC@mail.ru
Поступила в редакцию 04.09.2023
После доработки 15.09.2023
Принята к публикации 25.09.2023
- EDN: HLWQBD
- DOI: 10.31857/S0235009223040042
Аннотация
Контроль голоса и речи осуществляется совместной работой прямой и обратной связей. Прямая связь отвечает за активацию выученной артикуляторной программы, в то время как обратная связь предоставляет акустическую и сенсомоторную информацию о выполнении высказывания. Их совместная работа по контролю речи описывается моделью DIVA, в основе которой лежит осуществляемая нервными центрами регуляция слуховой информации и проприорецептивных сигналов относительно артикуляторных программ. Несоответствие сенсорной информации, поступающей по обратной связи с представлением акустического сигнала в слуховой коре, вызывает корректирующие команды. У овладевающих речью детей слуховая обратная связь необходима для правильного освоения артикуляционных навыков, т.е. для формирования прямой связи. По этой причине прелингвально оглохшие взрослые характеризуются значительными нарушениями артикуляции ввиду несформированности артикуляторных навыков. При постлингвальной глухоте сформированная ранее прямая связь сохраняется, что позволяет успешно произносить фонемы. Однако у людей с сенсоневральной тугоухостью ухудшается контроль фонации и артикуляции по механизму слуховой обратной связи, что выражается в увеличении громкости голоса, изменении спектральных характеристик речи и нестабильности голоса по частоте и амплитуде. Похожие речевые изменения обнаруживаются у здоровых дикторов в присутствии шума, маскирующего собственный голос говорящего (эффект Ломбарда). Речь в шуме характеризуется ростом интенсивности голоса, смещения спектральных характеристик в высокочастотную область и гиперартикуляцией. Такая речевая реорганизация представляет собой адаптацию голоса диктора к фоновому шуму, целью которой являются демаскировка голоса и восстановление слуховой обратной связи.
ВВЕДЕНИЕ
Развитие и поддержание качества голоса и речи предполагает активное участие нормально функционирующего слуха. Начальным этапом процесса говорения является получение звукового сигнала, которое слух обеспечивает. Разработка ответа, словообразование и произношение слов и фраз представляют собой последующие самостоятельные этапы коммуникации (Guenther, Vladusich, 2012). Слуховая система осуществляет контроль собственного голоса диктора двумя способами – через прямую (feedforward control) и обратную связь (feedback control) (Selleck, Sataloff, 2014). Прямая связь активирует ранее изученные команды для органов артикуляционного аппарата, не используя сигналы слуховой системы в режиме реального времени. Обратная связь дает информацию о достижении речевой цели в данный момент. Она учитывает поступающий слуховой сигнал и соматосенсорный компонент, который содержит параметры, используемые для речевого воспроизведения: расположение и степень сужений в речевом тракте, проприоцептивные сигналы от мышечных веретен, тактильные паттерны на языке, губах и небе. Эта мультисенсорная информация позволяет корректировать фонацию и артикуляцию (Tourville et al., 2007; Selleck, Sataloff, 2014; Perkell, 2012). Таким образом, произношение звуков и формирование беглой речи формируются и развиваются как с помощью прямой связи, которая отвечает за моторный компонент звукопроизношения, так и с помощью обратной связи.
МОДЕЛЬ DIVA – НЕЙРОАНАТОМИЧЕСКАЯ МОДЕЛЬ КОНТРОЛЯ РЕЧИ
Попытки описать поэтапный моторный контроль речеобразования с вовлечением слуховой системы неоднократно производились с 1980-х гг. (Liberman, Mattingly, 1985; Schwartz et al., 1997), однако, каждая из теорий и моделей охватывала лишь несколько компонентов слухоречевой системы (Mermelstein, 1973; Perrier et al., 1996; Perkell, 2013). В 1992 г. Ф. Гюнтер разработал и описал нейроанатомическую модель контроля речи, получившую название DIVA. В ней рассматривается осуществляемая нервными центрами регуляция воспринимаемой по обратной слуховой связи собственной речи диктора относительно сформированной артикуляторной программы. При этом вектора в сенсорном пространстве (directions), отражающие рассогласование произносимых диктором фонем с их сенсорными образами на основе опыта, преобразуются в изменения скорости движения органов артикуляции речевого аппарата (into velocities of the articulators) (Perkell, 2013; Guenther, 2016). Таким образом, DIVA представляет собой нейровычислительную модель, описывающую связи между звучащими фонемами, активностью слуховой коры при их восприятии, а также согласование между моторными, слуховыми и соматосенсорными образами, которые вызывают эти фонемы, и такими же образами, извлекаемыми из памяти (Guenther, 1995; 2016; Guenther et al., 2006).
Нейрональную активность в слуховой коре головного мозга рассматривают как представление акустического сигнала, которое содержит информацию о частоте основного тона (ЧОТ) и частотах последующих формант. Компоненты моторной активности соответствуют степени сокращения голосовых мышц при фонации и позициям органов артикуляции, ответственных за производство речи, а именно языку, губам, нижней челюсти, гортани и мягкому небу. Соматосенсорная активность представлена параметрами, которые определяются проприоцептивными сигналами от мышечных веретен и тактильной афферентацией, приходящей от языка, губ и неба (Guenther, 2016).
Согласно DIVA, создание фонемы начинается с активации нейронного представления звука в зоне Брока вышестоящим уровнем в головном мозге, что в свою очередь приводит к считыванию слуховых, соматосенсорных и моторных сигналов. Предполагается, что звуковая карта речи состоит из нейронов, расположенных преимущественно в левой вентральной премоторной коре, и активация этого участка приводит к включению в работу систем контроля обратной и прямой связей. Система контроля обратной связи разделяется на два компонента: на подсистему контроля слуховой обратной связи и подсистему контроля соматосенсорной обратной связи, в свою очередь система контроля прямой связи отвечает за моторный компонент (Bouchard, Chang, 2014; Guenther, 2016).
Несмотря на высокую скорость работы органов артикуляции и высокую скорость речи, существуют задержки во времени произношения слов, свойственные нейронной обработке сенсорных сигналов. Система контроля слуховой обратной связи имеет внутреннюю задержку около 100–150 мс (Bouchard, Chang, 2014; Guenther, 2016), поэтому весь паттерн мышечной работы необходимо сгенерировать до активации слуховой обратной связи. За данную работу отвечает система прямой связи. Система контроля прямой связи отвечает за ранее сформированные моторные речевые программы и состоит из двух компонентов (Guenther, 2016). Первый компонент отвечает за запуск моторной программы в момент говорения и генерируется петлей кортико-базальных ганглиев в дополнительной моторной области, расположенной в лобной доле коры полушарий головного мозга (Villacorta et al., 2007). После активации сигнал проходит через бледный шар и черную субстанцию базальных ганглиев среднего мозга и ядра таламуса, способствуя запуску моторной программы для говорения в данный момент времени. Второй компонент – это собственные моторные программы, позволяющие воспроизводить изученные ранее звуки и фонемы речи (Guenther, 2016; Villacorta et al., 2007). Они обусловлены активностью вентролатеральной префронтальной коры.
Подсистема контроля слуховой обратной связи отвечает за коррекцию требуемого слухового сигнала и текущей слуховой обратной связи, которая возникает в ситуации самопрослушивания диктором своего голоса. Согласно модели DIVA, аксоны из области Брока прямо или опосредованно через кортико-мозжечковую петлю доходят до области слуховой коры в височной доле, включающую planum temporale и верхнюю височную извилину (Keough, 2013; Guenther, 2016). Подсистема контроля соматосенсорной обратной связи работает совместно с вышеописанной подсистемой контроля слуховой обратной связи и ее основные компоненты расположены в вентральной соматосенсорной коре, включая вентральную постцентральную извилину и надкраевую извилину в теменной доле головного мозга. Соматосенсорные рецепторы представляют собой механорецепторы в области гортани, которые вместе с работой мышечных веретен речевого тракта передают в ЦНС информацию о скорости вибраций голосовых складок и интенсивности голоса. Во время воспроизведения звука тактильная и проприоцептивная обратная связь от механорецепторов и мышечных веретен речевого тракта идет через проекции корково-кортикальных и кортико-мозжечковых петель через вентральное заднемедиальное ядро таламуса (Ito, Ostry, 2010; Keough, 2013; Guenther, 2016).
Влияние соматосенсорного контроля на частоту основного тона голоса было показано в экспериментах с применением местного анестетика у людей (Larson et al., 2008). Использование местной анестезии на голосовых связках или верхнем гортанном нерве приводит к снижению контроля над точным ЧОТ голоса и снижению процесса изменения ЧОТ в условиях окружающей маскировки (Svirsky et al., 1992; Larson et al., 2008). Кроме этого, соматосенсорный контроль играет важную роль в начале вокализации, а именно во время “дофонаторной настройки” (prephonatory tuning) певцов перед пением, когда происходит правильное сокращение мышц речевого тракта, регулировка работы хрящей гортани и напряжение голосовых связок для воспроизведения желаемой ноты. В этом случае своевременное включение соматосенсорной обратной связи позволяет диктору узнать, находятся ли хрящи и голосовые связки в правильном положении до начала вокализации (Wyke, 1974).
Заметим, что двигательные команды с прямой связью не могут быть полностью врожденными; они должны быть сформированы в периоды младенчества и детства, чтобы позволить генерировать акустически подходящие фонемы и слоги родного языка, используя особую морфологию речевого тракта ребенка (Graven, Brown, 2008; Gervian, Mehler, 2010). Таким образом, прямой и обратный контроль речи тесно связаны.
РОЛЬ ОБРАТНОЙ СВЯЗИ В ФОРМИРОВАНИИ ПРЯМОЙ СВЯЗИ
Контроль прямой связи относится к моторной системе, которая не анализирует входящий звуковой сигнал, а активирует уже сохраненную ранее программу для органов артикуляционного аппарата (Tourville, Guenther, 2011; Guenther, 2016). Двигательные команды прямой связи не могут быть полностью врожденными, они должны быть изучены в младенчестве и детстве на основе опыта восприятия и имитации фонем и слогов родного языка (Guenther, 2016).
В раннем возрасте вклад прямой связи в контроль речи будет небольшим, поскольку моторная команда еще недостаточно развита. Поэтому в течение некоторого времени речевая модель будет контролироваться обратной связью. Моторная команда и связанная с ней система прямой связи со временем укрепляется и совершенствуется. Далее по мере развития речевых артикуляторных навыков происходит полное включение в работу моторных команд, что позволяет системе прямой связи оставаться активной в течение всей жизни. Особенно это важно для пациентов с постлингвальной тугоухостью или глухотой (Zamani et al., 2021), а также для фонации при высоком уровне шума (Lane, Tranel, 1971; Pittman, Wiley, 2001). Такой тип контроля используется вокалистами, которые выступают с оркестром, в условиях использования многоголосия и при хоровом пении (Tourville, Guenther, 2011; Selleck, Sataloff, 2014).
Для речи детей младшего возраста, по сравнению со взрослыми, характерна более высокая интенсивность голоса (Siegel et al., 1976; Amazi, Garber, 1982). Значения частоты основного тона и формант лежат в более высокочастотной области, а наклон спектра (наклон линейной регрессии логарифмического спектра мощности в заданном диапазоне частот) описывается большей крутизной (Lee at al., 1999). Поскольку в контроле речепродукции у детей высокую роль играет самопрослушивание (Amazi, Garber, 1982), повышенные значения интенсивности голоса и его спектральных характеристик служат для облегчения различения собственной речи. Известно, что дети 3–4 лет лучше справляются с задачей повторения речевого стимула, чем с задачей называния объекта (Vance et al., 2005). При этом, если в возрасте трех лет точность повторения слов и несловесных стимулов не различаются, то уже в четырехлетнем возрасте повторение слов становится более точным, по сравнению со звуками. Артикуляционные программы, позволяющие правильно произносить речевые элементы, окончательно формируются уже к 5–7 годам. Помимо изменений, описанных в вышеупомянутой работе, для речи детей обнаруживаются большая длительность сегментных элементов и повышенная вариабельность временных и спектральных характеристик (Smith et al., 1983; 1996; Lee at al., 1999). С возрастом величина всех этих показателей снижается и к 12 годам приобретает черты, характерные для взрослой речи (Smith et al., 1996; Lee et al., 1999). Эти изменения связывают с развитием нейромышечного контроля и приобретением опыта речепродукции (Smith et al., 1996; Vance et al., 2005). Однако развитие речепродукции может испытывать значительное влияние индивидуальных особенностей ребенка (Smith et al., 1983; 1996), в частности его пола (Lee at al., 1999).
НАРУШЕНИЕ КОНТРОЛЯ РЕЧИ ПРИ ПАТОЛОГИИ СЛУХА
У глухих пациентов работа прямой связи, а следовательно, качество освоения артикуляторных жестов, необходимых для произнесения фонем, может отличаться в зависимости от времени потери слуха.
У прелингвально оглохших взрослых пациентов, потерявших слух в период до овладения речью, отсутствует слуховой опыт и недоразвит нейромышечный отдел речевой системы, отвечающий за правильное произношение фонем и артикуляцию (Ubrig et al., 2019). Вследствие того, что системы прямой и обратной связи не сформированы, у таких людей наблюдаются серьезные нарушения как фонации, так и артикуляции. К нарушению фонации у прелингвальных пациентов относят повышение ЧОТ (Coelho et al., 2019; 2015), узкий диапазон этой характеристики, а также то, что дикторы начинают и заканчивают произношение фразы с повышенными значениями ЧОТ (Stathopoulos et al., 1986). У пациентов описывают охриплость голоса, одышку при вокализации, чрезмерное напряжение голоса, изменение скорости речи, а также нестабильность голоса (Coelho et al., 2015). Ряд авторов отмечают, что речь дикторов с прелингвальной глухотой отличается монотонностью и сохранением эмоциональной окраски голоса в пределах фразы на одном уровне (Campisi et al., 2006, Voelker, 1935). В ранних исследованиях качества речи приводились примеры замедленной речи прелингвально оглохших дикторов, включавших наличие дополнительных пауз во время говорения и увеличение продолжительности вокальных сегментов (Stathopoulos et al., 1986). Анализ пауз в речи показал, что у глухих пациентов имеются как длинные паузы между предложениями, так и короткие паузы внутри произносимого предложения (Stathopoulos et al., 1986).
Из-за несформированного прямого контроля у прелингвально оглохших пациентов наблюдается нарушение освоения артикуляторных жестов, в частности вертикальных и горизонтальных движений языка. Это приводит к заметному изменению значений первой и второй формант гласных звуков (F1 и F2), которые отражают конфигурацию гортани и ротовой полости и позволяют различать гласные звуки между собой. Для наглядного изображения качества выполнения артикуляционных программ используется метод построения формантного треугольника с вершинами гласных [а], [у], [и] (Андреева, Куликов, 2004). При этом у прелингвально оглохших пациентов на формантной плоскости F1–F2 наблюдается выраженная централизация гласных. Под термином “централизация гласного звука” понимается процесс, когда органы речеобразования не успевают за определенный промежуток времени, отведенного для артикуляции, достичь эталонного для произношения соответствующего гласного звука положения (Schenk et al., 2003). У дикторов с прелингвальной глухотой наблюдаются снижение показателя F1 для гласного звука [а] и повышение его для [у] и [и], что связано с более высокой вертикальной позицией языка при говорении. Несколько другие значения можно наблюдать для показателя F2 – повышение его для гласных звуков [у] и [а] и снижение для гласного звука [и], что связано с ограничением горизонтальных движений языка.
У постлингвально оглохших пациентов сохраняется сформированный ранее контроль прямой связи (Штин и др., 2023), и отличия в процессе речепродукции относятся к утрате контроля обратной слуховой связи. Это выражается в повышении ЧОТ, увеличении громкости речи (Lee, 2012; Lee et al., 2019), нестабильности голоса по частоте (jitter) и амплитуде (shimmer) (Coelho et al., 2015). Изменения данных параметров соотносят с трудностями контроля подглоточного давления и напряжения голосовых связок, что вызывает нарушения при фонации (Das et al., 2013; Selleck, Sataloff, 2014). Для речи таких пациентов характерны “аудиогенная дисфония” и “аудиогенная дислалия”, которые возникают в результате нарушения координированной работы мышц гортани и речевых мышц. Выявлено, что у постлингвально оглохших пациентов снижается жизненная емкость легких, уменьшается время максимальной устойчивой фонации, повышается сопротивление гортани, что приводит к дальнейшей перегрузке и чрезмерной подвижности голосовых складок (Higgins et al., 1994; Szkiełkowska, Myszel, 2021).
При отсутствии длительной слуховой стимуляции участков головного мозга, отвечающих за речепродукцию, у дикторов с постлингвальной потерей слуха утрачивается не только контроль обратной, но и прямой связи. Протезирование слуховыми аппаратами и использование кохлеарных имплантов помогают поддерживать фонацию и артикуляцию на должном уровне. У дикторов с прелингвальной потерей слуха при использовании кохлеарных имплантов отмечаются снижение ЧОТ, снижение нестабильности голоса по частоте и амплитуде, а также уменьшение соотношения в голосе шумовых и гармонических компонентов (noise-to-harmonic ratio) (Hocevar-Boltezar et al., 2005). При исследовании характеристик голоса у постлингвально оглохших дикторов проводилось исследование речевых навыков после 5-часового отключения кохлеарного импланта (Zamani et al., 2021). В результате у дикторов с выключенным речевым процессором не обнаруживали изменений в артикуляции, и, более того, параметры были сходны с дикторами с нормой слуха. Данный феномен можно объяснить тем, что артикуляция у постлингвально оглохших дикторов после кохлеарной имплантации остается сохранной, благодаря сформированным слуховой и соматосенсорной системам обратного контроля (Gautam et al., 2019). Среди детей наиболее успешные результаты после кохлеарной имплантации демонстрируют прелингвально оглохшие дети, прооперированные в возрасте до 4 лет, когда идет активный процесс формирования речевых навыков. Другую категорию с успешными речевыми навыками составляют внезапно оглохшие взрослые дикторы, прооперированные в течение 1 года, у которых сохраняются процессы прямого слухового контроля.
НАРУШЕНИЕ КОНТРОЛЯ РЕЧИ У ЗДОРОВЫХ ДИКТОРОВ В УСЛОВИЯХ ШУМА
Первые доказательства влияния обратной связи на речь были получены в исследованиях, показавших непроизвольные изменения голоса диктора в шумной обстановке. Данный феномен впервые был описан в 1911 г. Этьеном Ломбардом, который ввел понятие о том, что звуковая среда влияет на текущую речь диктора. Впоследствии феномен был назван эффектом Ломбарда (Zollinger, Brumm, 2011; Hotchkin, Parks, 2013; Garnier, Henrich, 2014; Luo et al., 2018). Присутствие шума маскирует голос диктора, нарушая слуховую обратную связь. Задача демаскировки собственного голоса в шуме решается диктором, благодаря повышению голосового усилия, и смещением спектральных характеристик речи. Такая измененная речь носит название ломбардной.
Наиболее характерные и хорошо изученные проявления эффекта Ломбарда связаны с непроизвольным изменением фонации. Говорение в шуме сопровождается увеличением громкости голоса (Lane, Tranel, 1971; Amazi, Garber, 1982; Summers et al., 1988; Letowski et al., 1993; Pittman, Wiley, 2001; Bottalico et al., 2017; 2022). Усиление голоса сопровождается изменением работы голосовых мышц, которое ведет к большему натяжению голосовых связок и росту значений ЧОТ (Garnier, Henrich, 2014; Van Ngo et al., 2017; Kleczkowski et al., 2017; Alghamdi et al., 2018; Shen et al., 2023; Lunichkin et al., 2023).
Спектральные изменения, связанные с артикуляцией, выражаются в смещении значений формант гласных звуков. Первая форманта при говорении в шуме всегда увеличивается, а изменения второй форманты разнонаправлены для разных гласных (Summers et al., 1988; Bond et al., 1989; Garnier et al., 2006a; Garnier, Henrich, 2014; Tang et al., 2017; Alghamdi et al, 2018; Matsumoto, Akagi, 2019; Lunichkin et al., 2023). Изменение формантной структуры в ломбардной речи приводит к изменению площади пространства гласных на плоскости F1-F2: она увеличивается в английском (Cooke, Lu, 2010), японском (Van Ngo et al., 2017) и мандаринском китайском (Tang et al., 2017), но уменьшается в русском (Lunichkin et al., 2023).
Смещение в высокочастотную область спектральных характеристик голоса – ЧОТ, F1 и, для некоторых гласных звуков, F2 – ведет к росту значений центроида спектра (Junqua, 1993; Lu, Cooke, 2008; 2009a; Garnier, Henrich, 2014) и уплощению наклона спектра (Junqua, 1993; Lu, Cooke, 2009b; Cooke, Lu, 2010; Jokinen et al., 2016; Van Ngo et al., 2017; Kleczkowski et al., 2017).
В присутствии шума становятся более выраженными движения трех органов артикуляции: нижней челюсти, губ и языка (Garnier et al., 2006b; 2018; Simko et al., 2016; Alghamdi et al., 2018). Наиболее сильно в шуме увеличиваются движения нижней челюсти, а также смыкание и размыкание губ (Kim et al., 2005; Garnier et al., 2006b; Garnier, 2008; Simko et al., 2016). По сравнению с тишиной губы сильнее выпячиваются и растягиваются (Kim et al., 2005; Garnier et al., 2006b; Garnier, 2008). Наблюдается гиперартикуляция языка, хотя по сравнению с движением челюсти и губ она выражена слабее (Simko et al., 2016). В ряде работ показано, что ускоряется движение нижней челюсти (Garnier et al., 2006b; Garnier, 2008) и нижней губы (Huber, Chandrasekaran, 2006). По другим наблюдениям общая скорость артикуляции, наоборот, снижается (Shen et al., 2023).
Усиление артикуляции языка в меньшей степени, чем движений нижней челюсти и губ, может быть связано с тем, что движения языка ограничены ротовой полостью. Поэтому гиперартикуляция языка тесно связана с величиной опускания челюсти и соответствующего открытия рта. Однако язык играет важную роль в формировании сегментных элементов речи, и его излишняя гиперартикуляция может привести к снижению разборчивости высказывания (Simko et al., 2016). В свою очередь движения челюсти и губ, помимо их сегментного значения, участвуют в надсегментной, просодической стороне речепродукции, – регуляции интенсивности, частоты тона и длительности звуков речи. Было обнаружено усиление корреляции артикуляции челюсти с голосовым усилием (Kim et al., 2005). С практической точки зрения это означает, что широкое открытие челюсти и губ позволяет издавать более громкий речевой сигнал (Simko et al., 2016). Таким образом, изменение артикуляции в условиях шума реализует как сегментные задачи (увеличение членораздельности речи), так и просодические (усиление голоса и повышение ЧОТ).
В присутствии шума изменяются временные характеристики речи. Гласные звуки становятся более длительными, в то время как согласные укорачиваются (Junqua, 1993; Garnier et al., 2010; Garnier, Henrich, 2014; Kleczkowski et al., 2017; Van Ngo et al., 2017). Паузы между словами увеличиваются (Cooke, Lu, 2010; Kleczkowski et al., 2017). Влияние шума на скорость речи неоднозначно и, по всей видимости, зависит от речевого материала и контекста, в котором происходит ее произношение. Так, в работах, где диктор читал текст, обнаруживаются снижение скорости речи и увеличение длительности слов (Bond et al., 1989; Summers et al., 1988; Garnier et al., 2006a). Вместе с тем при коммуникации произносимые в шуме слова и фразы укорачиваются (Kleczkowski et al., 2017; Hadley et al., 2019). В работе (Junqua, 1993) было обнаружено, что для английской ломбардной речи характерна потеря фонем [T], [P], [F], расположенных на конце слова.
Таким образом, в большом количестве исследований было продемонстрировано, что адаптация голоса диктора к фоновому шуму, которая заключается не только в его усилении, как считалось изначально, но в глобальной речевой реорганизации спектральных и временных характеристик. Вместе с тем величина ломбардной речи может модифицироваться большим числом факторов, среди которых основных три: тип и уровень шума; задача, стоящая перед диктором; язык, пол и возраст диктора (Zollinger, Brumm, 2011; Hotchkin., Parks, 2013).
ФАКТОРЫ, ОПРЕДЕЛЯЮЩИЕ ХАРАКТЕРИСТИКИ ЛОМБАРДНОЙ РЕЧИ
Характерное для ломбардной речи усиление голоса впервые обнаруживается в шуме интенсивностью 43 дБ (Bottalico et al., 2017). С дальнейшим ростом интенсивности шумового маскера наблюдается соответствующее изменение значений спектральных, амплитудных и временных характеристик голоса (Summers et al., 1988; Stowe, Golob, 2013; Van Ngo et al., 2017; Hadley et al., 2019; Bottalico et al., 2022).
Тип шума, определяемый его спектральными характеристиками, так же оказывает влияние на выраженность эффекта Ломбарда. Было показано, что эффект Ломбарда чувствителен к частотам, важным для повседневной речи, и не является ответом на любой шум в среде (Stowe, Golob, 2013). В данной работе изучали изменения речи в широкополосном шуме (0.2–20 кГц), частотные характеристики которого соответствуют речевой области (0.05–4 кГц), и шум, в котором эта частотная область вырезана (4–20 кГц). Наибольшие изменения обнаруживались в широкополосном шуме, в то время как шум с вырезанными речевыми частотами не оказывал влияния на голос диктора. Вместе с тем в этом исследовании перед диктором стояла задача чтения текста, которая не учитывала коммуникационный компонент.
В работе (Kleczkowski et al., 2017) наибольшие изменения речи наблюдали в шуме многоголосия или толпы. В то же время авторы работы (Garnier et al., 2006a) показали, что увеличение интенсивности голоса и длительности слов выше в белом шуме, тогда как средние значения ЧОТ выше в шуме многоголосия. В работе (Cooke, Lu, 2010) были рассмотрены несколько типов маскера, в том числе “конкурирующая речь” и шум, в котором уровень частот подобно речи человека снижался от низких к высоким (speech-shaped noise). Наибольший рост значений интенсивности голоса и ЧОТ, а также наибольшее уплощение наклона спектра наблюдались во втором случае. Это, по всей видимости, объясняется тем, что такой шум обеспечивал более сильную энергетическую маскировку голоса диктора. Изучение ломбардных изменений в шуме многоголосия, различавшегося числом говорящих, показало, что значения интенсивности ЧОТ, спектрального центроида, и длительность фразы выше в шуме с большим числом одновременно говорящих (Lu, Cooke, 2008). Также в шуме многоголосия движения нижней челюсти и рта были более выражены, чем в белом шуме (Garnier et al., 2006b; Kim et al., 2005).
В качестве речевой задачи ранние исследования, посвященные эффекту Ломбарда, использовали чтение текста или монологическую речь. Работа авторов (Amazi, Garber, 1982) является одной из первых, где особенность ломбардной речи изучали с точки зрения различных речевых задач, – чтения и рассказа истории слушателю. Авторы показали, что наличие коммуникации увеличивало степень ломбардных изменений. Схожие результаты были получены в исследовании (Junqua et al., 1999). Гарнье с соавторами обнаружили, что в том случае, когда дикторы вовлечены в задачу интерактивного общения, значения роста интенсивности голоса, ЧОТ, первой форманты и центроида спектра выше, чем при неинтерактивном чтении (Garnier et al., 2010). Влияние коммуникативной задачи на большое число характеристик речи в шуме было изучено в работе (Cooke, Lu, 2010). Было установлено, что при интерактивном общении значения ЧОТ и интенсивности голоса выше, а наклон спектра более уплощен. Кроме того, по сравнению с чтением текста, коммуникативная задача приводит к повышению скорости речи, длительности пауз и снижению длительности слов (Cooke, Lu, 2010).
Помимо когнитивной задачи, ломбардные изменения, по всей видимости, могут зависеть от структуры фонем устной речи и особенностей ее произношения (Garnier et al., 2006; Zhao, Jurafsky, 2009; Vainio et al., 2012), а также лингвистической роли слов во фразе (Patel, Shell, 2008). Есть свидетельства, что в некоторых случаях имеет значение то обстоятельство, что говорящий является носителем конкретного языка. Так, у дикторов, для которых английский язык не является родным, ЧОТ при произношении английских слов увеличивается сильнее, чем у его носителей. Вместе с тем для голландского языка такой закономерности не было обнаружено (Marcoux, Ernestus, 2019).
Усиление громкости голоса в шуме обнаруживается уже у детей в возрасте 3–5 лет (Siegel et al., 1976; Amazi, Garber, 1982). При этом, в отличие от взрослых, у детей дошкольного возраста величина ломбардных изменений не зависит от поставленной речевой задачи (Amazi, Garber, 1982). Авторы связывают данный факт с тем, что речевая функция у детей изученного возраста еще не сформирована полностью и самопрослушивание играет определяющую роль в ее контроле, вне зависимости от наличия или отсутствия собеседника. На такую роль обратной слуховой связи у детей указывает то обстоятельство, что уровень их голоса выше, чем у взрослых, как в тишине, так и в условиях шума (Amazi, Garber, 1982), а усиление самопрослушивания ослабляет ломбардные изменения в меньшей степени, чем у взрослых (Siegel et al., 1976). Возрастные изменения эффекта Ломбарда у взрослых дикторов исследованы недостаточно. В большинстве работ изучена ломбардная речь только определенной возрастной группы (Garnier, Henrich, 2014; Kleczkowski et al., 2017; Bottalico, 2017; Bottalico et al., 2018; Shen et al., 2023). В других исследованиях изучены голоса в широком диапазоне возрастов, но их раздельный анализ не был проведен (Amazi, Garber, 1982; Zhao, Jurafsky, 2009; Anand et al., 2021). Вместе с тем, согласно последовательно проведенным исследованиям (Bottalico, 2018; Bottalico et al., 2022), у дикторов младшего зрелого возраста (18–35 лет) увеличение интенсивности голоса в шуме выше, чем у пожилых дикторов (от 60 лет).
В большей части исследований эффекта Ломбарда пол дикторов не учитывали (Lu, Cooke, 2009a, 2010; Stowe, Golob, 2013; Bottalico et al., 2017, Bottalico et al., 2022), несмотря на это ряд из них позволяет проанализировать межполовые особенности адаптации голоса в шуме. В работах (Patel, Schell, 2008; Garnier, Henrich, 2014) не было обнаружено различий мужчин и женщин по степени увеличения ЧОТ и интенсивности голоса. Тогда как в работах (Letowski et al., 1993, Kleczkowski et al., 2017; Alghamdi, et al., 2018) показана большая степень усиления голоса и роста ЧОТ у женщин, по сравнению с мужчинами. Или, наоборот, рост значений ЧОТ по данным (Junqua, 1993; Letowski et al., 1993; Shen et al., 2023) сильнее выражен у мужчин. Последний факт может быть так же объяснен тем, что обычно женский голос изначально выше (Garnier, Henrich, 2014).
Неоднозначность данных о половых особенностях ломбардной речи может объясняться несоответствием в разных исследованиях выбранного типа шума и поставленной перед диктором речевой задачи. В следующих работах рассмотрены разные когнитивные ситуации: смоделирована ситуация коммуникации (Patel, Schell, 2008; Garnier, Henrich, 2014; Kleczkowski et al., 2017); чтение предложенного текста (Junqua, 1993; Letowski et al., 1993; Alghamdi, et al., 2018; Shen et al., 2023). Различались экспериментальные работы и структурой шума. Белый шум использовался в работе (Junqua, 1993), шум многоголосия в (Patel, Schell, 2008; Garnier, Henrich, 2014), шум с уменьшением уровня частот от низких к высоким в (Alghamdi et al., 2018; Shen et al., 2023). В работах (Letowski et al., 1993; Kleczkowski et al., 2017) применялись различные типы маскера, в том числе шум многоголосия. Описанная ситуация иллюстрирует то, что различие в протоколах исследований, посвященных изучению адаптации голоса к шуму, затрудняет сравнение их результатов. Эффект Ломбарда долгое время изучался и рассматривался исключительно в качестве примера того, как нарушение слуховой обратной связи влияет на контроль речеобразования (Lane, Tranel, 1971; Garnier et al., 2010). Более поздние исследования предоставили доказательства того, что изменения голоса в шуме носят рефлекторный характер и обеспечивают адаптацию речи к фоновому шуму.
Изменения речепродукции в шуме служат для решения двух акустических задач. Первая заключается в усилении самопрослушивания, т.е. реализации слуховой обратной связи, необходимой для контроля голосообразования. Это подтверждается тем обстоятельством, что дополнительная подача диктору его голоса ослабляет эффект Ломбарда, хотя и не отменяет его полностью (Pick et al., 1989; Garnier et al., 2010; Bottalico et al., 2016). Кроме того, эффект Ломбарда оказывается больше по величине, если шум подается в головные телефоны, а не в излучатели в свободном пространстве (Garnier et al., 2010). Это объясняется тем, что первые оказывают на самопрослушивание дополнительное заглушающее действие. Вторая задача связана с коммуникативным взаимодействием между диктором и слушателем (Lane, Tranel, 1971; Junqua, 1993; Garnier et al., 2010; Ha-zan, Baker, 2011). При интерактивном взаимодействии диктора и слушателя изменения ломбардной речи оказываются более выраженными.
В результате изменений ломбардная речь распознается в шуме лучше, чем обычная (Summers et al., 1988; Pittman, Wiley, 2001; Lu, Cooke, 2008; Van Ngo et al., 2017). В работе (Garnier, Henrich, 2014) был предложен ряд механизмов, которые могут способствовать различению ломбардной речи в шуме: увеличение голосового усилия и соответствующее снижение соотношения шум\речь (boosting strategies); смещение ЧОТ и первой форманты в области локального минимума шумового маскера (bypass strategies); и модуляция характеристик голоса на фоне шума с постоянными спектрально-амплитудными характеристиками. Результаты проведенного исследования показали, что основной стратегией адаптации голоса к шуму является рост его интенсивности, однако, авторы предполагают существование дополнительного уровня адаптации, который обеспечивает более тонкие изменения, оптимизирующие акустический контраст.
Помимо общего усиления голоса, в ряде исследований показано, что распознаванию способствуют такие характерные для ломбардной речи особенности как рост ЧОТ (Bradlow et al., 1996; Lu, Cooke, 2009b), уплощение наклона спектра (Lu, Cooke, 2009b; Junqua, 1993), максимизация энергии в области 1–3 кГц (Hazan, Markham, 2004), увеличение площади пространства гласных (Bradlow et al., 1996; Van Ngo et al., 2017) и рост длительности слов (Hazan, Markham, 2004; Lu, Cooke, 2009b). Важным аргументом в пользу совместного влияния всех этих изменений на разборчивость речи является совпадение акустических особенностей ломбардной речи и “разборчивой речи” (clear speech) совпадают, причем последняя предназначена для преодоления сложных коммуникативных ситуаций (Lam, Tjaden, 2013; Shen et al., 2023).
МЕХАНИЗМЫ КОНТРОЛЯ ЛОМБАРДНОЙ РЕЧИ
Как обсуждалось выше, контроль голосообразования реализуется прямой и обратной связями, связанными с произвольным и непроизвольным контролем речи соответственно. В шуме из-за нарушения самопрослушивания возникает несоответствие между прямой связью и слуховой обратной связью, что формирует команды, корректирующие фонацию и артикуляцию (Meekings et al., 2016; Meekings, Scott, 2021). Реализация эффекта Ломбарда обусловлена работой подкорковых отделов системы управления голосовой моторикой: эффект обладает непроизвольным характером (Zollinger, Brumm, 2011; Hotchkin, Parks, 2013; Luo et al., 2018), его трудно преодолеть осознанно, даже если перед диктором стоит задача поддерживать уровень голоса на одном значении (Mahl, 1972; Pick et al., 1989; Tonkinson, 1994), вовлеченные в разговор люди не замечают изменений своего голоса, если к этому не привлекать их внимание (Mahl, 1972). Ключевая роль подкорковых центров подтверждается еще и тем, что некоторые проявления эффекта присутствуют у видов, не имеющих слуховых центров в коре больших полушарий, например, у рыб и лягушек (Holt, Johnston, 2014; Halfwerk et al., 2016). Данные, полученные на млекопитающих, в том числе приматах, позволяют предположить участие в реализации ломбардной речи верхнеоливарного комплекса и парамедианной ретикулярной формации моста, околопроводного серого вещества среднего мозга (PAG), а также латеральной ретикулярной формации (Nonaka et al., 1997; Hage et al., 2006; Luo et al., 2018).
Вопрос о том, является ли ломбардная речь исключительно непроизвольным ответом на присутствие громкого шума и в какой степени она может отражать произвольные изменения речи, был долгое время дискуссионным (Garnier et al., 2008). По всей видимости, в ряде случаев взаимодействие корковых и подкорковых структур акустической нейросети позволяет осуществлять произвольный контроль голосообразования в зашумленной обстановке. Как упомянуто ранее, при интерактивном общении эффект Ломбарда более выражен. Поскольку диктор осознает затруднения, с которыми сталкивается слушатель при распознавании его голоса, он старается демаскировать свою речь (Amazi, Garber, 1982; Lau, 2008; Garnier et al., 2010; Hadley et al., 2019). В исследовании (Lau, 2008) было обнаружено, что усиление голоса выявляется и в том случае, если в шуме находится только слушатель, но диктор осведомлен об этом. Было продемонстрировано, что дикторы изменяют параметры своего голоса в разных типах шума, согласно нуждам их партнеров по коммуникации (Hazan, Baker, 2011).
В некоторых исследованиях была показана возможность модификации эффекта Ломбарда путем обучения или предоставления говорящему дополнительной сенсорной информации. В работе (Prick et al., 1989) выявлено, что в шуме 90 дБ диктор не способен самостоятельно подавить увеличение громкости голоса, даже если специально обучается этому. Однако у обучавшихся контролю голоса его увеличение оказывалось достоверно меньше, по сравнению с неподготовленными дикторами. Вместе с тем, если диктору предоставлялась визуальная информация об уровне его голоса, то это позволяло ему поддерживать громкость своей речи на требуемом уровне. Более того, когда визуальная обратная связь была удалена, интенсивность голоса диктора не увеличивалась и сохранялась на уровне, достигнутом при использовании визуальной информации. Аналогичные результаты были получены в исследовании (Therrien et al., 2012), где визуализация соответствия уровня голоса заданному эталону не полностью подавляла эффект Ломбарда, но существенно снижала его. У профессиональных хоровых певцов наблюдают более слабый эффект Ломбарда, чем у непрофессионалов, что обусловлено тренировкой (Tonkinson, 1994; Bottalico et al., 2016). Таким образом, вовлечение кортикальных процессов способно модулировать эффект Ломбарда как в направлении его активации, так и торможения.
ЗАКЛЮЧЕНИЕ
Успешный контроль голоса и речи определяется наличием сформированной во время освоения речевых навыков прямой связи, отвечающей за реализацию артикуляционных программ, и обратной связи, которая зависит от качества слуха. Таким образом, нормальная работа слуховой системы критична для реализации речевой функции человека. Речь людей, потерявших слух в прелингвальный период, характеризуется значительными нарушениями, так как контроль посредством прямой связи оказывается несформированным. В постлингвальном периоде изменения фонации и артикуляции могут быть связаны с двумя случаями рассогласования работы прямого и обратного контроля. В первом случае нормальной работе обратной слуховой связи препятствует постлингвальная тугоухость или глухота. При этом поддержание фонации и артикуляции возможно, благодаря протезированию слуховыми аппаратами или использованию кохлеарных имплантов. Во втором случае слух сохраняется, однако, обратная связь нарушается присутствием в среде шумового маскера, понижающим степень самопрослушивания диктора. И при тугоухости, и в шуме способность диктора к произнесению фонем сохраняется благодаря наличию сформированной прямой связи, но речь таких дикторов обладает рядом особенностей, связанных с изменением ее спектрально-амплитудных характеристик. В обоих случаях наблюдаются рост интенсивности голоса, смещение его спектральных компонентов в высокочастотную область, что, по всей видимости, имеет целью повысить самопрослушивание диктора и восстановить обратную связь (Junqua, 1993; Lu, Cooke, 2009b; Hazan, Markham, 2004). Наиболее сложная ситуация складывается при говорении диктора с нарушениями слуха в шумной обстановке, когда осуществление слухового обратного контроля затруднено обоими условиями. Можно ожидать, что изменения спектрально-амплитудных характеристик голоса в такой ситуации будут наиболее значительными.
Данная работа поддержана средствами Российского научного фонда, проект № 22-25-00068.
Авторы выражают благодарность И.Г. Андреевой за консультации при написании статьи.
Список литературы
Андреева Н.Г., Куликов Г.А. Характеристика певческих гласных при разной частоте основного тона. Сенсорные системы. 2004. Т. 18. № 2. С. 172–179.
Луничкин А.М., Андреева И.Г., Зайцева Л.Г., Гвоздева А.П., Огородникова Е.А. Изменение спектральных характеристик гласных звуков в русской речи на фоне шума. Акустический Журнал. 2023. Т. 69. №. 3. С. 340–350. https://doi.org/10.31857/S032079192110018X
Штин К.С., Луничкин А.М., Гвоздева А.П., Голованова Л.Е., Андреева И.Г. Спектральные характеристики кардинальных гласных звуков как показатели слухоречевой обратной связи у пациентов с постлингвальной хронической сенсоневральной тугоухостью II и III степени. Российский физиологический журнал. 2023. Т. 109. № 4. С. 489–501. https://doi.org/10.31857/S0869813923040106
Alghamdi N., Maddock S., Marxer R., Barker J., Brown G. A corpus of audio-visual Lombard speech with frontal and profile views. The Journal of the Acoustical Society of America. 2018. V. 143 (6). P. 523–529. https://doi.org/10.1121/1.5042758
Amazi D.K., Garber S.R. The Lombard sign as a function of age and task. Journal of Speech, Language, and Hearing Research. 1982. V. 25 (4). P. 581–585. https://doi.org/10.1044/jshr.2504.581
Anand S., Gutierrez D., Bottalico P. Acoustic-perceptual correlates of voice among steam train engineers: effects of noise and hearing protection. Journal of voice: official journal of the Voice Foundation. 2023. V. 37 (3). P. 366–373. https://doi.org/10.1016/j.jvoice.2021.01.006
Bond Z., Moore T., Gable B. Acoustic–phonetic characteristics of speech produced in noise and while wearing an oxygen mask. The Journal of the Acoustical Society of America. 1989. V. 85 (2). P. 907–912. https://doi.org/10.1121/1.397563
Bottalico P. Lombard effect, ambient noise, and willingness to spend time and money in a restaurant. The Journal of the Acoustical Society of America. 2018. V. 144 (3). P. 209–214. https://doi.org/10.1121/1.5055018
Bottalico P., Graetzer S., Hunter E.J. Effect of training and level of external auditory feedback on the singing voice: volume and quality. Journal of Voice. 2016. V. 30 (4). P. 434–442. https://doi.org/10.1016/j.jvoice.2015.05.010
Bottalico P., Passione I., Graetzer S., Hunter E. Evaluation of the starting point of the Lombard effect. Acta Acustica United with Acustica. 2017. V. 103 (1). P. 169–172. https://doi.org/10.3813/AAA.919043
Bottalico P., Piper R., Legner B. Lombard effect, intelligibility, ambient noise, and willingness to spend time and money in a restaurant amongst older adults. Scientific Reports. 2022. V. 12 (1). P. 1–9. https://doi.org/10.1038/s41598-022-10414-6
Bouchard K., Chang, E. Control of spoken vowel acoustics and the influence of phonetic context in human speech sensorimotor cortex. Journal of Neuroscience. 2014. V. 34 (38). P. 12662–12672. https://doi.org/10.1523/JNEUROSCI.1219-14.2014
Bradlow A., Torretta G., Pisoni D. Intelligibility of normal speech I: Global and fine-grained acoustic-phonetic talker characteristics. Speech Communication. 1996. V. 20. P. 255–272. https://doi.org/10.1016/S0167-6393(96)00063-5
Campisi P., Low A., Papsin B., Mount R., Harrison R. Multidimensional voice program analysis in profoundly deaf children: quantifying frequency and amplitude control. Perceptual and Motor Skills. 2006. V. 103 (1). P. 40–50. https://doi.org/10.2466/pms.103.1.40-50
Coelho A., Brasolotto A., Bahmad F. Development and validation of the protocol for the evaluation of voice in subjects with hearing impairment. Brazilian Journal of Otorhinolaryngology. 2019. V. 86 (6). P. 748–762. https://doi.org/10.1016/j.bjorl.2019.05.007
Coelho A., Medved D., Brasolotto A. Hearing loss and Voice. In: Update on Hearing Loss. InTech. 2015. https://doi.org/10.5772/61217
Cooke M., Lu Y. Spectral and temporal changes to speech produced in the presence of energetic and informational maskers. The Journal of the Acoustical Society of America. 2010. V. 128 (4). P. 2059–2069. https://doi.org/10.1121/1.3478775
Das B., Chatterjee I., Kumar S. Laryngeal aerodynamics in children with hearing impairment versus age and height matched normal hearing peers. ISRN Otolaryngology. 2013. https://doi.org/10.1155/2013/394604
Garnier M., Bailly L., Dohen M., Welby P., Lœvenbruck, H. An acoustic and articulatory study of Lombard speech: global effects on the utterance. https://hal.science/hal-00370947.html
Garnier M., Dohen M., Loevenbruck H., Welby P., Bailly L. The Lombard Effect: a physiological reflex or a controlled intelligibility enhancement? https://hal.science/hal-00214307.html
Garnier M., Henrich N. Speaking in noise: How does the Lombard effect improve acoustic contrasts between speech and ambient noise? Computer Speech & Language. 2014. V. 28 (2). P. 580–597. https://doi.org/10.1016/j.csl.2013.07.005
Garnier M., Henrich N., Dubois D. Influence of sound immersion and communicative interaction on the Lombard effect. Journal of Speech, Language, and Hearing Research. 2010. V. 53 (3). P. 588–608. https://doi.org/10.1044/1092-4388(2009/08-0138)
Garnier M., Ménard L., Alexandre B. Hyper-articulation in Lombard speech: An active communicative strategy to enhance visible speech cues? The Journal of the Acoustical Society of America. 2018. V. 144 (2). P. 1059–1074. https://doi.org/10.1121/1.5051321
Gautam A., Naples J., Eliades S. Control of speech and voice in cochlear implant patients. The Laryngoscope. 2019. V. 129 (9). P. 2158–2163. https://doi.org/10.1002/lary.27787
Gervain J., Mehler J. Speech perception and language acquisition in the first year of life. Annual Review of Psychology. 2010. V. 61. P. 191–218. https://doi.org/10.1146/annurev.psych.093008.100408
Graven S., Brown J. Auditory development in the fetus and infant. Newborn and Infant Nursing Reviews; NAINR. 2008. V. 8 (4). P. 187–193. https://doi.org/10.1053/j.nainr.2008.10.010
Guenter F. Neural control of speech. London, England, The MIT Press. 2016. 420 p.
Guenther F. Speech sound acquisition, coarticulation and rate effects in a neural network model of speech production. Psychological Review. 1995. V. 102 (3). P. 594–621. https://doi.org/10.1037/0033-295x.102.3.594
Guenther F., Ghosh S., Tourville J. Neural modeling and imaging of the cortical interactions underlying syllable production. Brain & Language. 2006. V. 96 (3). P. 280–301. https://doi.org/10.1016/j.bandl.2005.06.001
Guenther F., Vladusich T. A neural theory of speech acquisition and production. Journal of Neurolinguistics. 2012. V. 25 (5). P. 408–422. https://doi.org/10.1016/j.jneuroling.2009.08.006
Hadley L., Brimijoin W., Whitmer W. Speech, movement, and gaze behaviours during dyadic conversation in noise. Scientific reports. 2019. V. 9 (1). P. 1–8. https://doi.org/10.1038/s41598-019-46416-0
Hage S., Jürgens U., Ehret G. Audio–vocal interaction in the pontine brainstem during self-initiated vocalization in the squirrel monkey. European Journal of Neuroscience. 2006. V. 23 (12). P. 3297–3308. https://doi.org/10.1111/j.1460-9568.2006.04835.x
Hage S., Nieder A. Dual neural network model for the evolution of speech and language. Trends in neurosciences. 2016. V. 39 (12). P. 813–829. https://doi.org/10.1016/j.tins.2016.10.006
Halfwerk W., Lea A., Guerra M., Page R., Ryan M. Vocal responses to noise reveal the presence of the Lombard effect in a frog. Behavioral Ecology and Sociobiology. 2006. V. 27. P. 669–676. https://doi.org/10.1093/beheco/arv204
Hazan V., Baker R. Acoustic-phonetic characteristics of speech produced with communicative intent to counter adverse listening conditions. The Journal of the Acoustical Society of America. 2011. V. 130 (4). P. 2139–2152. https://doi.org/10.1121/1.3623753
Hazan V., Markham D. Acoustic-phonetic correlates of talker intelligibility for adults and children. The Journal of the Acoustical Society of America. 2004. V. 116 (5). P. 3108–3118. https://doi.org/10.1121/1.1806826
Higgins M., Carney A., Schulte L. Physiological assessment of speech and voice production of adults with hearing loss. Journal of Speech and Hearing Research. 1994. V. 37 (3). P. 510–521. https://doi.org/10.1044/jshr.3703.510
Hocevar-Boltezar I., Vatovec J., Gros A., Zagri M. The influence of cochlear implantation on some voice parameters. International Journal of Pediatric Otorhinolaryngology. 2005. V. 69 (12). P. 1635–1640. https://doi.org/10.1016/j.ijporl.2005.03.045
Holt D., Johnston C. Evidence of the Lombard effect in fishes. Behavioral Ecology and Sociobiology. 2014. V. 25. P. 819–826. https://doi.org/10.1093/beheco/aru028
Hotchkin C., Parks S. The Lombard effect and other noise-induced vocal modifications: insight from mammalian communication systems. Biological Reviews. 2013. V. 88 (4). P. 809–824. https://doi.org/10.1111/brv.12026
Huber J., Chandrasekaran B. Effects of increasing sound pressure level on lip and jaw movement parameters and consistency in young adults. Journal of Speech, Language, and Hearing Research. 2006. V. 49 (6). P. 1368. https://doi.org/10.1044/1092-4388(2006/098)
Ito T., Ostry D. Somatosensory contribution to motor learning due to facial skin deformation. Journal of Neurophysiology. 2010. V. 104 (3). P. 1230–1238. https://doi.org/10.1152/jn.00199.2010
Jokinen E., Remes U., Alku P. The use of read versus conversational Lombard speech in spectral tilt modeling for intelligibility enhancement in near-end noise conditions. Interspeech. 2016. P. 2771–2775. https://doi.org/10.21437/Interspeech.2016-143
Junqua J. The Lombard reflex and its role on human listeners and automatic speech recognizers. The Journal of the Acoustical Society of America. 1993. V. 93. P. 510–524. https://doi.org/10.1121/1.405631
Junqua J., Fincke S., Field K. The Lombard effect: A reflex to better communicate with others in noise. IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings. 1999. V. 4. P. 2083–2086. https://doi.org/10.1109/ICASSP.1999.758343
Keough D., Hawco C., Jones J. Auditory-motor adaptation to frequency-altered auditory feedback occurs when participants ignore feedback. BMC Neuroscience. 2013. V. 9. P. 14–25. https://doi.org/10.1186/1471-2202-14-25
Kim J., Davis C., Vignali G., Hill H. A visual concomitant of the Lombard reflex. AVSP. 2005. P. 17–22.
Kleczkowski P., Żak A., Król-Nowak A. Lombard effect in Polish speech and its comparison in English speech. Archives of Acoustics. 2017. V. 42 (4). P. 561–569. https://doi.org/10.1515/aoa-2017-0060
Lam J., Tjaden K. Intelligibility of clear speech: Effect of instruction. Journal of Speech, Language, and Hearing Research. 2013. V. 56 (5). P. 1429–1440. https://doi.org/10.1044/1092-4388(2013/12-0335)
Lane H., Tranel B. The Lombard sign and the role of hearing in speech. Journal of Speech and Hearing Research. 1971. V. 14 (4). P. 677–709. https://doi.org/10.1044/jshr.1404.677
Larson C., Altman K., Liu H., Hain T. Interactions between auditory and somatosensory feedback for voice F0 control. Experimental Brain Research. 2008. V. 187 (4). P. 613–621. https://doi.org/10.1007/s00221-008-1330-z
Lau P. The Lombard Effect as a communicative phenomenon. UC Berkeley PhonLab Annual Report. 2008. V. 4 (4). https://doi.org/10.5070/P719j8j0b6
Lee G. Variability in voice fundamental frequency of sustained vowels in speakers with sensorineural hearing loss. Journal of Voice. 2012. V. 26 (1). P. 24–29. https://doi.org/10.1016/j.jvoice.2010.10.003
Lee S., Potamianos A., Narayanan S. Acoustics of children’s speech: Developmental changes of temporal and spectral parameters. The Journal of the Acoustical Society of America. 1999. V. 105 (3). P. 1455–1468. https://doi.org/10.1121/1.426686
Lee S., Yu J., Fang T., Lee G. Vocal fold nodules: a disorder of phonation organs or auditory feedback? Clinical Otolaryngology. 2019. V. 44 (6). P. 975–982. https://doi.org/10.1111/coa.13417
Letowski T., Frank T., Caravella J. Acoustical properties of speech produced in noise presented through supra-aural earphones. Ear and Hearing. 1993. V. 14 (5). P. 332–338. https://doi.org/10.1097/00003446-199310000-00004
Liberman A., Mattingly I. The motor theory of speech perception revised. Cognition. 1985. V. 21. P. 1–36. https://doi.org/10.1016/0010-0277(85)90021-6
Lu Y., Cooke M. Speech production modifications produced by competing talkers, babble, and stationary noise. The Journal of the Acoustical Society of America. 2008. V. 124. P. 3261–3275. https://doi.org/10.1121/1.2990705
Lu Y., Cooke M. Speech production modifications produced in the presence of low-pass and high-pass filtered noise. The Journal of the Acoustical Society of America. 2009. V. 126. P. 1495–1499. https://doi.org/10.1121/1.2990705
Lu Y., Cooke M. The contribution of changes in F0 and spectral tilt to increased intelligibility of speech produced in noise. Speech Communication. 2009. V. 51. P. 1253–1262. https://doi.org/10.1016/j.specom.2009.07.002
Luo J., Hage S.R., Moss C.F. The Lombard effect: from acoustics to neural mechanisms. Trends in neurosciences. 2018. V. 41 (12). P. 938–949. https://doi.org/10.1016/j.tins.2018.07.011
Marcoux K., Ernestus M. Pitch in native and non-native Lombard speech. 19th International Congress of Phonetic Sciences. Australasian Speech Science and Technology Association Inc. 2019. P. 2605–2609.
Matsumoto S., Akagi M. Variation of Formant Amplitude and Frequencies in Vowel Spectrum uttered under Various Noisy Environments. http://hdl.handle.net/10119/15772.html
Meekings S., Evans S., Lavan N. Distinct neural systems recruited when speech production is modulated by different masking sounds. The Journal of the Acoustical Society of America. 2016. V. 140 (1). P. 8–19. https://doi.org/10.1121/1.4948587
Meekings S., Scott S.K. Error in the superior temporal gyrus? A systematic review and activation likelihood estimation meta-analysis of speech production studies. J. Cogn. Neurosci. 2021. V. 33 (3). P. 422–444. https://doi.org/10.1162/jocn_a_01661
Mermelstein P. Articulatory model for the study of speech production. The Journal of the Acoustical Society of America. 1973. V. 53 (4). P. 1070–1082. https://doi.org/10.1121/1.1913427
Nonaka S., Takahashi R., Enomoto K. Lombard reflex during PAG-induced vocalization in decerebrate cats. Journal of Neuroscience Research. 1997. V. 29 (4). P. 283–289. https://doi.org/10.1016/S0168-0102(97)00097-7
Patel R., Schell K.W. The Influence of Linguistic Content on the Lombard Effect. Journal of Speech, Language, and Hearing Research. 2008. V. 51. P. 209–220. https://doi.org/10.1044/1092-4388(2008/016)
Perkell J. Five decades of research in speech motor control: what have we learned, and where should we go from here? Journal of Speech, Language, and Hearing Research. 2013. V. 56 (6). P. 1857–1874. https://doi.org/10.1044/1092-4388(2013/12-0382)
Perkell J. Movement goals and feedback and feedforward control mechanisms in speech production. Journal of Neurolinguistics. 2012. V. 25. P. 382–407. https://doi.org/10.1016/j.jneuroling.2010.02.011
Perrier P., Ostry D., Laboissière R. The equilibrium point hypothesis and its application to speech motor control. Journal of Speech and Hearing Research. 1996. V. 39 (2). P. 365–378. https://doi.org/10.1044/jshr.3902.365
Pick H., Siegel G., Fox P., Garber S., Kearney J. Inhibiting the Lombard effect. The Journal of the Acoustical Society of America. 1989. V. 85 (2). P. 894–900. https://doi.org/10.1121/1.397561
Pittman A., Wiley T. Recognition of speech produced in noise. Journal of Speech, Language, and Hearing Research. 2001. V. 44 (3). P. 487–496. https://doi.org/10.1044/1092-4388(2001/038)
Schenk B., Baumgartner W., Hamzavi J. Effect of the loss of auditory feedback on segmental parameters of vowels of postlingually deafened speakers. Auris Nasus Larynx. 2003. V. 30 (4). P. 333–339. https://doi.org/10.1016/s0385-8146(03)00093-2
Schwartz J., Boë J., Vallée N., Abry C. The dispersion-focalization theory of vowel systems. Journal of Phonetics. 1997. V. 25. P. 255–286.
Selleck M., Sataloff R. The impact of the auditory system on phonation: a review. Journal of Voice. 2014. V. 28 (6). P. 688–693. https://doi.org/10.1016/j.jvoice.2014.03.018
Shen C., Cooke M., Janse E. Speaking in the presence of noise: Consistency of acoustic properties in clear-Lombard speech over time. The Journal of the Acoustical Society of America. 2023. V. 153 (4). P. 2165–2165. https://doi.org/10.1121/10.0017769
Siegel G., Pick H., Olsen M., Sawin L. Auditory feedback on the regulation of vocal intensity of preschool children. Developmental Psychology. 1976. V. 12 (3). P. 255. https://doi.org/10.1037/0012-1649.12.3.255
Šimko J., Beňuš Š., Vainio M. Hyperarticulation in Lombard speech: Global coordination of the jaw, lips and the tongue. The Journal of the Acoustical Society of America. 2016. V. 139 (1). P. 151–162. https://doi.org/10.1121/1.4939495
Smith B., Kenney M., Hussain S. A longitudinal investigation of duration and temporal variability in children’s speech production. The Journal of the Acoustical Society of America. 1996. V. 99 (4). P. 2344–2349. https://doi.org/10.1121/1.415421
Smith B., Sugarman M., Long S. Experimental manipulation of speaking rate for studying temporal variability in children’s speech. The Journal of the Acoustical Society of America. 1983. V. 74 (3). P. 744–749. https://doi.org/10.1121/1.389860
Stathopoulos E., Duchan J., Sonnenmeier R., Bruce N. Intonation and pausing in deaf speech. Folia Phoniat. 1986. V. 38 (1). P. 1–12. https://doi.org/10.1159/000265814
Stowe L., Golob E. Evidence that the Lombard effect is frequency-specific in humans. The Journal of the Acoustical Society of America. 2013. V. 134 (1). P. 640–647. https://doi.org/10.1121/1.4807645
Summers W., Pisoni D., Bernacki R., Pedlow R., Stokes M. Effects of noise on speech production: Acoustic and perceptual analyses. The Journal of the Acoustical Society of America. 1988. V. 84 (3). P. 917–928. https://doi.org/10.1121/1.396660
Svirsky M., Lane H., Perkell J., Wozniak J. Effects of short-term auditory deprivation on speech production in adult cochlear implant users. Journal of the Acoustical Society of America. 1992. V. 92 (3). P. 1284–1300. https://doi.org/10.1121/1.403923
Szkiełkowska A., Myszel K. Acoustic voice parameters in hearing-impaired, school-aged children. Research study outcomes. Journal of Clinical Otorhinolaryngology. 2021. V. 3 (3). https://doi.org/10.31579/2692-9562/034
Tang P., Xu Rattanasone N., Yuen I., Demuth K. Phonetic enhancement of Mandarin vowels and tones: Infant-directed speech and Lombard speech. The Journal of the Acoustical Society of America. 2017. V. 142 (2). P. 493–503. https://doi.org/10.1121/1.4995998
Therrien A., Lyons J., Balasubramaniam R. Sensory attenuation of self-produced feedback: the lombard effect revisited. PLoS One. 2012. V. 7 (11). 11. P. 1–7. https://doi.org/10.1371/journal.pone.0049370
Tonkinson S. The Lombard effect in choral singing. Journal of Voice. 1994. V. 8 (1). P. 24–29. https://doi.org/10.1016/S0892-1997(05)80316-9
Tourville J., Guenther F. The DIVA model: a neural theory of speech acquisition and production. Language and cognitive processes. 2011. V. 26 (7). P. 952–981. https://doi.org/10.1080/01690960903498424
Tourville J., Reilly K., Guenther F. Neural mechanisms underlying auditory feedback control of speech. NeuroImage. 2007. V. 39 (3). P. 1429–1443. https://doi.org/10.1016/j.neuroimage.2007.09.054
Ubrig M., Tsuji R., Weber R., Menezes M., Barrichelo V., Cunha M., Tsuji D., Goffi-Gomez M. The influence of auditory feedback and vocal rehabilitation on prelingual hearing-impaired individuals post cochlear implant. Journal of Voice. 2018. V. 33 (6). P. 1–9. https://doi.org/10.1016/j.jvoice.2018.07.004
Vainio M., Aalto D., Suni A., Arnhold A., Raitio T., Seijo H., Järvikivi J., Alku P. Effect of noise type and level on focus related fundamental frequency changes. http://interspeech2012.org/accepted-abstract.html?id=952.html.
Van Ngo T., Kubo R., Morikawa D., Akagi M. Acoustical analyses of tendencies of intelligibility in Lombard speech with different background noise levels. Journal of Signal Processing. 2017. V. 21 (4). P. 171–174. https://doi.org/10.2299/jsp.21.171
Vance M., Stackhouse J., Wells B. Speech-production skills in children aged 3–7 years. International Journal of Language & Communication Disorders. 2005. V. 40 (1). P. 29–48. https://doi.org/10.1080/13682820410001716172
Villacorta V., Perkell J., Guenther F. Sensorimotor adaptation to feedback perturbations of vowel acoustics and its relation to perception. Journal of the Acoustical Society of America. 2007. V. 122. P. 2306–2319. https://doi.org/10.1121/1.2773966
Voelker C. A preliminary strobophotoscopic study of the speech of the deaf. American Annals of the Deaf. 1935. V. 80. P. 243–259.
Wyke B. Laryngeal myotatic reflexes and phonation. Folia Phoniatr. 1974. V. 26 (4). P. 249–264. https://doi.org/10.1159/000263784
Zamani P., Bayat A., Saki N., Ataee E., Bagheripour H. Post-lingual deaf adult cochlear implant users’ speech and voice characteristics: cochlear implant turned-on versus turned-off. Acta Oto-Laryngologica. 2021. V. 141 (4). P. 367–373. https://doi.org/10.1080/00016489.2020.1866778
Zhao Y., Jurafsky D. The effect of lexical frequency and Lombard reflex on tone hyperarticulation. Journal of Phonetics. 2009. V. 37 (2). P. 231–247. https://doi.org/10.1016/j.wocn.2009.03.002
Zollinger S.A., Brumm H. The evolution of the Lombard effect: 100 years of psychoacoustic research. Behaviour. 2011. V. 148 (11–13). P. 1173–1198. .https://doi.org/10.1163/000579511X605759
Дополнительные материалы отсутствуют.
Инструменты
Сенсорные системы


