自动语音识别
通过将语音信号的声学模型与词序列的语言模型相结合,将口语转录成文本,从隐马尔可夫模型系统到端到端神经识别器。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
自动语音识别是将声学语音信号转换为词序列的计算任务。
Scope
涵盖音频到文本的转换:声学特征提取、声学和发音建模、语言模型的作用、解码,以及从隐马尔可夫模型系统到端到端神经识别的转变。它涉及通过词错误率进行的评估以及共享语料库的重要性。语音合成和下游理解在相关主题中介绍。
Core questions
- 声学信号如何映射到候选词?
- 声学模型和语言模型如何在识别中结合?
- 为什么神经模型和端到端模型取代了基于隐马尔可夫模型的系统?
- 如何通过词错误率衡量识别准确性?
Key concepts
- 声学模型
- 语言模型
- 特征提取
- 隐马尔可夫模型
- 解码
- 端到端识别
- 词错误率
- 发音模型
Key theories
- 声学模型与语言模型的结合
- 识别选择使声学模型的似然性和语言模型的先验概率乘积最大化的词序列,这是语音识别的噪声信道公式。
- 用于语音的神经序列建模
- 循环网络和基于注意力的网络直接建模语音的时间结构,实现端到端识别,共同学习声学和语言模式。
History
语音识别是统计方法的主要驱动力,IBM 基于隐马尔可夫模型(HMM)的系统和共享语料库(如华尔街日报语料库,1992年)促成了稳定、可衡量的进展。2010年左右出现的深度神经声学模型以及随后的端到端架构显著降低了错误率,并将识别技术带入了日常设备。
Debates
- 模块化与端到端识别
- 是保持独立的声学、发音和语言模型,还是训练一个单一的端到端网络;在数据充足的情况下,端到端系统目前表现领先,但可能更难适应。
Key figures
- Frederick Jelinek
- Janet Baker
- Daniel Jurafsky
- James H. Martin
Related topics
Seminal works
- paul1992
- jurafsky2025
Frequently asked questions
- 什么是词错误率?
- 词错误率衡量识别质量,表示相对于参考文本,被替换、删除或插入的词的比例,因此较低的值表示更准确的转录。