ScholarGate
Ассистент

Восприятие речи и ее разборчивость

Восприятие речи — это процесс, посредством которого слушатели извлекают лингвистические единицы, слова и смысл из быстро меняющегося акустического речевого сигнала. Разборчивость — это степень правильного понимания речи, и она зависит от речевого материала, слушателя и условий прослушивания, особенно от фонового шума. Эта тема охватывает акустические признаки, которые различают звуки речи, как слушатели их категоризируют, а также как измеряется и прогнозируется разборчивость.

Найти тему в PaperMindСкороFind papers & topics
Tools & resources
Скачать слайды
Learn & explore
ВидеоСкоро

Definition

Восприятие речи — это слуховой и когнитивный процесс сопоставления акустического речевого сигнала с лингвистическими категориями, такими как фонемы и слова, а разборчивость — это мера того, насколько точно слушатель восстанавливает предполагаемую речь.

Scope

Тема охватывает акустические признаки гласных и согласных, категориальное восприятие фонем, устойчивость речи к деградации и шуму, а также измерение и прогнозирование разборчивости. Это справочный и образовательный материал по слуховому и речевому восприятию, а не клиническое руководство.

Core questions

  • Какие акустические признаки отличают один речевой звук от другого?
  • Как слушатели сопоставляют непрерывно меняющийся сигнал с дискретными фонемами?
  • Какая часть речевого сигнала может быть деградирована до того, как разборчивость нарушится?
  • Как измеряется и прогнозируется разборчивость речи в различных условиях прослушивания?

Key concepts

  • Форманты и идентичность гласных
  • Время начала голоса и признаки согласных
  • Категориальное восприятие
  • Порог восприятия речи
  • Индекс разборчивости речи
  • Признаки огибающей против тонкой структуры
  • Речь в шуме и информационная маскировка

Key theories

Категориальное восприятие речи
Слушатели склонны разделять континуумы речевых звуков, такие как серия, варьирующаяся по времени начала голоса, на дискретные фонематические категории, различая пары, которые пересекают границу категории, гораздо лучше, чем равноудаленные пары внутри категории.
Распределение речевой информации по частотным полосам
Разборчивость может быть предсказана путем взвешивания слышимости речи по частотным полосам, что является основой индекса артикуляции и индекса разборчивости речи, которые количественно определяют, сколько полезной речевой информации достигает слушателя.

Mechanisms

Гласные в значительной степени идентифицируются по частотам их формант, резонансов голосового тракта, в то время как согласные обозначаются быстрыми спектральными переходами, взрывами и временными признаками, такими как время начала голоса (voice onset time). Слуховая система извлекает эти спектральные и временные паттерны, а более высокие уровни обработки сопоставляют их с фонемами и категориями слов, опираясь на контекст и лингвистические знания. Речь обладает высокой избыточностью, поэтому она остается разборчивой при существенной деградации; эксперименты по замене тонких спектральных деталей несколькими полосами амплитудно-модулированного шума показывают, что одна только медленная временная огибающая может обеспечивать хорошее распознавание в тишине, что является принципом, применимым к кодированию кохлеарных имплантатов.

Clinical relevance

Трудности с пониманием речи, особенно в шуме, являются одними из наиболее распространенных и инвалидизирующих последствий потери слуха, и они могут превышать то, что предсказывают пороговые значения чистого тона, поскольку сниженная частотная избирательность и временное кодирование ухудшают признаки, на которые полагаются слушатели. Таким образом, меры восприятия речи дополняют аудиограмму в описании функционального слуха. Этот материал объясняет, почему проверяется понимание речи, и не является основой для индивидуальной диагностики или лечения.

Evidence & guidelines

Акустическая основа гласных и согласных была картирована в классических исследованиях Петерсона и Барни (Peterson and Barney, 1952) и Миллера и Найсли (Miller and Nicely, 1955), а категориальное восприятие было установлено Либерманом и коллегами (Liberman et al., 1957). Прогнозирование разборчивости по слышимости полос стандартизировано как Индекс разборчивости речи (Speech Intelligibility Index) в ANSI S3.5-1997, а достаточность временных огибающих признаков была продемонстрирована Шенноном и коллегами (Shannon et al., 1995).

History

Военные и послевоенные работы в Bell Laboratories по артикуляции телефонной речи привели к созданию индекса артикуляции и подробным исследованиям акустики согласных и гласных. Либерман и коллеги в Haskins Laboratories установили категориальное восприятие в 1950-х годах и разработали влиятельные теории речи. Более поздние работы, включая исследования с полосовым вокодером Шеннона и коллег, прояснили относительные роли спектральных деталей и временной огибающей и повлияли на обработку сигналов кохлеарных имплантатов.

Debates

Воспринимается ли речь специализированными механизмами или общими слуховыми процессами?
Теории расходятся во мнениях относительно того, задействует ли речь специализированный перцептивный режим, связанный с артикуляцией, или обрабатывается общими слуховыми и обучающими процессами; обе точки зрения объясняют части доказательств, и вопрос остается спорным.

Key figures

  • George A. Miller
  • Gordon Peterson
  • Alvin Liberman
  • Robert Shannon
  • Harvey Fletcher

Related topics

Seminal works

  • peterson-barney-1952
  • miller-nicely-1955
  • liberman-1957
  • shannon-1995

Frequently asked questions

Почему потеря слуха может затруднять понимание речи, даже когда звуки слышны?
Слышимость восстанавливает обнаружение, но не тонкую частотную и временную разрешающую способность, на которую опирается речь. Сниженная кохлеарная избирательность и временное кодирование размывают признаки, которые различают звуки речи, поэтому понимание, особенно в шуме, может оставаться плохим, даже когда звуки достаточно громкие, чтобы их слышать.
Как измеряется разборчивость речи?
Она обычно измеряется поведенчески как процент правильно идентифицированных слов или предложений при заданном уровне или отношении сигнал/шум, иногда суммируемый как порог восприятия речи. Ее также можно предсказать по слышимости речи в различных частотных полосах с использованием таких индексов, как Индекс разборчивости речи.

Methods for this concept

Related concepts