言语感知和可懂度
言语感知是听者从快速变化的声学言语信号中恢复语言单位、词语和意义的过程。可懂度是指言语被正确理解的程度,它取决于言语材料、听者和听力条件,尤其是背景噪声。本主题涵盖区分言语声音的声学线索、听者如何对其进行分类以及如何测量和预测可懂度。
Definition
言语感知是将声学言语信号映射到音素和词语等语言类别的听觉和认知过程,而可懂度是衡量听者恢复预期言语准确程度的指标。
Scope
本主题涵盖元音和辅音的声学线索、音素的范畴性感知、言语对退化和噪声的鲁棒性以及可懂度的测量和预测。它是听觉和言语感知的参考和教育材料,而非临床指导。
Core questions
- 哪些声学线索能区分不同的言语声音?
- 听者如何将连续变化的信号映射到离散的音素?
- 言语信号在何种程度上退化后可懂度会失效?
- 如何在不同的听力条件下测量和预测言语可懂度?
Key concepts
- 共振峰和元音识别
- 语音起始时间和辅音线索
- 范畴性感知
- 言语接收阈
- 言语可懂度指数
- 包络与精细结构线索
- 噪声中的言语和信息掩蔽
Key theories
- 言语的范畴性感知
- 听者倾向于将言语声音的连续体(例如语音起始时间变化的系列)划分为离散的音素类别,区分跨越类别边界的配对远优于同一类别内等距的配对。
- 言语信息在频带间的分布
- 可懂度可以通过加权言语在不同频带的可听度来预测,这是清晰度指数和言语可懂度指数的基础,它们量化了多少可用的言语信息到达听者。
Mechanisms
元音主要通过其共振峰(声道的共振)的频率来识别,而辅音则通过快速的频谱瞬变、爆发音和时间线索(如语音起始时间)来指示。听觉系统提取这些频谱和时间模式,更高层次的处理将其映射到音素和词语类别,并利用语境和语言知识。言语具有高度冗余性,因此即使在严重退化的情况下也能保持可懂度;用少量幅度调制噪声带替换精细频谱细节的实验表明,在安静环境中,单独的慢速时间包络就能支持良好的识别,这一原理与人工耳蜗编码相关。
Clinical relevance
理解言语的困难,尤其是在噪声中,是听力损失最常见和最具致残性的后果之一,它可能超出纯音听阈的预测,因为频率选择性和时间编码的降低会损害听者所依赖的线索。因此,言语感知测量是对听力图的补充,用于描述功能性听力。本材料解释了为何要测试言语理解,并非用于个体诊断或治疗的依据。
Evidence & guidelines
元音和辅音的声学基础由Peterson和Barney(1952)以及Miller和Nicely(1955)的经典研究绘制,范畴性感知由Liberman及其同事(1957)确立。从频带可听度预测可懂度已在ANSI S3.5-1997中标准化为言语可懂度指数,时间包络线索的充分性由Shannon及其同事(1995)证明。
History
贝尔实验室在战时和战后对电话言语清晰度的研究产生了清晰度指数以及对辅音和元音声学的详细研究。20世纪50年代,哈斯金斯实验室的Liberman及其同事确立了范畴性感知,并发展了有影响力的言语理论。后来的工作,包括Shannon及其同事的频带声码器研究,阐明了频谱细节和时间包络的相对作用,并为人工耳蜗信号处理提供了信息。
Debates
- 言语是通过专门机制还是通过一般听觉过程感知的?
- 理论分歧在于言语是否需要与发音相关的专用感知模式,还是由通用听觉和学习过程处理;这两种观点都解释了部分证据,该问题仍存在争议。
Key figures
- George A. Miller
- Gordon Peterson
- Alvin Liberman
- Robert Shannon
- Harvey Fletcher
Related topics
Seminal works
- peterson-barney-1952
- miller-nicely-1955
- liberman-1957
- shannon-1995
Frequently asked questions
- 为什么听力损失即使在声音可听的情况下也可能导致言语难以理解?
- 可听度恢复了检测能力,但未能恢复言语所依赖的精细频率和时间分辨率。耳蜗选择性和时间编码的降低模糊了区分言语声音的线索,因此即使声音响亮到可以听到,理解能力(尤其是在噪声中)仍可能很差。
- 言语可懂度是如何测量的?
- 通常通过行为学方法测量,即在给定水平或信噪比下正确识别的词语或句子百分比,有时总结为言语接收阈。也可以使用言语可懂度指数等指标,根据言语在不同频带的可听度进行预测。