什么是词错误率？

词错误率衡量识别质量，表示相对于参考文本，被替换、删除或插入的词的比例，因此较低的值表示更准确的转录。

自动语音识别

通过将语音信号的声学模型与词序列的语言模型相结合，将口语转录成文本，从隐马尔可夫模型系统到端到端神经识别器。

用 PaperMind 寻找选题即将推出Find papers & topics

Tools & resources

Learn & explore

视频即将推出

自动语音识别是将声学语音信号转换为词序列的计算任务。

涵盖音频到文本的转换：声学特征提取、声学和发音建模、语言模型的作用、解码，以及从隐马尔可夫模型系统到端到端神经识别的转变。它涉及通过词错误率进行的评估以及共享语料库的重要性。语音合成和下游理解在相关主题中介绍。

语音识别是统计方法的主要驱动力，IBM 基于隐马尔可夫模型（HMM）的系统和共享语料库（如华尔街日报语料库，1992年）促成了稳定、可衡量的进展。2010年左右出现的深度神经声学模型以及随后的端到端架构显著降低了错误率，并将识别技术带入了日常设备。