自動音声認識
音声信号の音響モデルと単語列の言語モデルを組み合わせることで、隠れマルコフモデルシステムからエンドツーエンドのニューラル認識器に至るまで、話し言葉をテキストに転写する技術です。
PaperMindでテーマを探す近日公開Find papers & topics
Tools & resources
Learn & explore
動画近日公開
Definition
自動音声認識とは、音響音声信号を一連の単語に変換する計算タスクです。
Scope
音声のテキスト変換、すなわち音響特徴抽出、音響モデルと発音モデル、言語モデルの役割、デコーディング、そして隠れマルコフモデルシステムからエンドツーエンドのニューラル認識への移行を扱います。単語誤り率による評価と共有コーパスの重要性についても触れます。音声合成と下流の理解については、関連トピックで扱われます。
Core questions
- 音響信号はどのようにして候補となる単語にマッピングされるのでしょうか?
- 音響モデルと言語モデルは認識においてどのように組み合わされるのでしょうか?
- ニューラルモデルとエンドツーエンドモデルはなぜHMMベースのシステムに取って代わったのでしょうか?
- 認識精度は単語誤り率によってどのように測定されるのでしょうか?
Key concepts
- 音響モデル
- 言語モデル
- 特徴抽出
- 隠れマルコフモデル
- デコーディング
- エンドツーエンド認識
- 単語誤り率
- 発音モデル
Key theories
- 音響モデルと言語モデルの組み合わせ
- 認識は、音響モデルの尤度と言語モデルの事前確率の積を最大化する単語列を選択します。これは音声認識のノイズチャネル定式化です。
- 音声のためのニューラルシーケンスモデリング
- リカレントネットワークとアテンションベースのネットワークは、音声の時間構造を直接モデル化し、音響パターンと言語パターンを共同で学習するエンドツーエンド認識を可能にします。
History
音声認識は統計的手法の主要な推進力であり、IBMのHMMベースのシステムやWall Street Journalコレクション(1992年)のような共有コーパスが着実で測定可能な進歩を可能にしました。2010年頃の深層ニューラル音響モデルとそれに続くエンドツーエンドアーキテクチャは、誤り率を劇的に低減させ、認識技術を日常のデバイスにもたらしました。
Debates
- モジュール型認識とエンドツーエンド認識
- 音響モデル、発音モデル、言語モデルを個別に保持するか、単一のエンドツーエンドネットワークを訓練するかという問題です。十分なデータがあればエンドツーエンドシステムが優位ですが、適応が難しい場合があります。
Key figures
- Frederick Jelinek
- Janet Baker
- Daniel Jurafsky
- James H. Martin
Related topics
Seminal works
- paul1992
- jurafsky2025
Frequently asked questions
- 単語誤り率とは何ですか?
- 単語誤り率は、参照転写と比較して、置換、削除、または挿入された単語の割合として認識品質を測定するものであり、値が低いほど転写の精度が高いことを示します。