計算言語学の基礎
計算言語学の数学的および方法論的基盤:形式文法、オートマトン、有限状態技術、確率的言語モデル、およびシステムを厳密に比較可能にする評価手法。
PaperMindでテーマを探す近日公開Find papers & topics
Tools & resources
Learn & explore
動画近日公開
Definition
計算言語学の基礎とは、機械による自然言語の表現と処理に用いられる形式的、アルゴリズム的、統計的プリミティブの研究です。
Scope
この分野は、言語の計算処理が構築される抽象化を扱います。これには、チョムスキー階層の形式言語とそれらを認識するオートマトン、トークン化と形態論のための実用的なツールとしての正規表現と有限状態トランスデューサー、n-グラムと確率的言語モデル、および経験的作業を支える実験的装置(コーパス、アノテーション、訓練/テスト分割、評価指標)が含まれます。特定のダウンストリームアプリケーションと深層構文解析は、それぞれの分野で扱われるため、ここには含まれません。
Sub-topics
Core questions
- どのような形式言語のクラスが存在し、どのオートマトンがそれらを認識するのか?
- 有限状態手法は、トークン化、スペル、形態論をどのように効率的にモデル化できるのか?
- 単語のシーケンスに確率を割り当てるにはどうすればよいのか、そしてそれはなぜ役立つのか?
- 言語処理システムは、結果が比較可能で再現性があるように、どのように評価されるべきか?
Key concepts
- チョムスキー階層
- 有限状態オートマトン
- 正規表現
- 文脈自由文法
- n-グラムモデル
- 平滑化
- パープレキシティ
- コーパスとアノテーション
Key theories
- チョムスキー階層
- 形式言語クラス(正規、文脈自由、文脈依存、帰納的可算)の包含階層であり、それぞれが文法のクラスと抽象機械に結びついており、自然言語現象を記述するためにどの程度の計算能力が必要かを示す枠組みを提供する。
- 確率的言語モデリング
- 言語を確率過程として扱い、単語シーケンスの確率を推定すること。古典的には平滑化を伴うn-グラムモデルを介して行われ、音声認識、スペル訂正、生成の基礎を提供する。
History
計算言語学は、その形式的な核を1950年代の形式言語理論(チョムスキー)と情報理論(シャノン)の研究から継承しました。これらは共に、記号文法と確率的言語モデルの両方を示唆しました。有限状態手法は、形態論と音韻論のための効率的なツールとして1980年代を通じて成熟し、一方、マニングとシュッツェによって記録された1990年代の統計的革命は、コーパスベースの確率的モデリングを支配的な経験的パラダイムとしました。
Debates
- 記号文法と統計モデル
- 自然言語が手作業で構築された形式規則によって最もよく捉えられるのか、それともデータから推定された確率分布によって最もよく捉えられるのかという問題。この分野は、形式文法を分析ツールとして保持しつつ、ハイブリッドおよびデータ駆動型のアプローチに大きく収束している。
Key figures
- Noam Chomsky
- Claude Shannon
- Daniel Jurafsky
- James H. Martin
- Christopher Manning
Related topics
Seminal works
- chomsky1956
- manning1999
- jurafsky2025
Frequently asked questions
- なぜ計算言語学者はチョムスキー階層に関心を持つのか?
- それは、ある現象に必要な最小限の計算機構を示しています。正規パターンは高速な有限状態ツールで処理できますが、入れ子になった節のような現象には少なくとも文脈自由の能力が必要です。適切なレベルを選択することで、システムは適切かつ効率的になります。
- 言語モデリングは大規模言語モデルと同じですか?
- 両者は単語シーケンスに確率を割り当てるという同じ核心的なタスクを共有していますが、古典的な言語モデルはn-グラムカウンタであったのに対し、現代の大規模言語モデルはニューラルネットワークを使用しています。基本的な考え方は同じですが、推定方法が異なります。