コーパス言語学とウェブコーパス
大規模な自然言語テキストサンプルを通じた言語研究:コーパスの構築と照会、コロケーションと頻度の測定、そして広大な言語資源としてのウェブの活用。
PaperMindでテーマを探す近日公開Find papers & topics
Tools & resources
Learn & explore
動画近日公開
Definition
コーパス言語学は、自然発生的なテキストの体系的なコレクションに基づき、頻度、コンコーダンス、および関連性の尺度を用いて分析される、言語の実証的研究です。
Scope
テキストコーパスの設計、編集、分析を扱います。これには、サンプリングとバランス、コンコーダンスとキーワード分析、相互情報量などの頻度とコロケーション統計、およびコーパスとしてのウェブの利用が含まれます。記述的なコーパス言語学と計算システムへのデータ供給の両方に対応しています。アノテーションスキームとツリーバンクは、関連トピックで扱われます。
Core questions
- 言語の多様性を公平に代表するために、コーパスはどのようにサンプリングされるのでしょうか?
- 相互情報量のような関連性尺度は、どのようにコロケーションを明らかにするのでしょうか?
- コーパスとしてウェブを使用することの利点と落とし穴は何でしょうか?
- コンコーダンスは、言語学的および辞書編纂的分析をどのようにサポートするのでしょうか?
Key concepts
- コーパス設計
- コンコーダンス
- コロケーション
- 点別相互情報量
- 頻度分布
- キーワード分析
- コーパスとしてのウェブ
- バランスコーパス
Key theories
- コロケーションのための関連性尺度
- 点別相互情報量などの統計量を用いて、偶然を超えて共起する単語ペアを検出し、コロケーションを明らかにし、辞書編纂を支援します。
- コーパスとしてのウェブ
- ウェブを、制御されていないとはいえ、膨大なコーパスとして扱い、稀な現象や低資源言語の多様性の研究を可能にする一方で、代表性の問題も提起します。
History
コーパス言語学は、シンクレアの辞書編纂プロジェクトとバランスコーパスの構築から発展しました。一方、チャーチとハンクスの1989年の相互情報量に関する研究は、統計的関連性尺度を主流に導きました。キルガリフとグレフェンステットは後に、ノイズが多いとはいえ、前例のない規模の正当なコーパスとしてウェブを確立しました。
Debates
- ウェブデータの代表性
- ウェブコーパスは膨大ですが、不均衡で特徴づけが難しいため、そこから導き出された結論が言語全体にどの程度一般化できるかについて議論が巻き起こっています。
Key figures
- Adam Kilgarriff
- Kenneth Church
- Patrick Hanks
- John Sinclair
Related topics
Seminal works
- church1989
- kilgarriff2003
Frequently asked questions
- コロケーションとは何ですか?
- コロケーションとは、偶然が予測するよりも頻繁に習慣的に共起する単語のペアまたはグループであり、「powerful tea」ではなく「strong tea」のようなものです。関連性尺度は、それらを自動的に検出するのに役立ちます。