ScholarGate
アシスタント

コーパス言語学とウェブコーパス

大規模な自然言語テキストサンプルを通じた言語研究:コーパスの構築と照会、コロケーションと頻度の測定、そして広大な言語資源としてのウェブの活用。

PaperMindでテーマを探す近日公開Find papers & topics
Tools & resources
スライドをダウンロード
Learn & explore
動画近日公開

Definition

コーパス言語学は、自然発生的なテキストの体系的なコレクションに基づき、頻度、コンコーダンス、および関連性の尺度を用いて分析される、言語の実証的研究です。

Scope

テキストコーパスの設計、編集、分析を扱います。これには、サンプリングとバランス、コンコーダンスとキーワード分析、相互情報量などの頻度とコロケーション統計、およびコーパスとしてのウェブの利用が含まれます。記述的なコーパス言語学と計算システムへのデータ供給の両方に対応しています。アノテーションスキームとツリーバンクは、関連トピックで扱われます。

Core questions

  • 言語の多様性を公平に代表するために、コーパスはどのようにサンプリングされるのでしょうか?
  • 相互情報量のような関連性尺度は、どのようにコロケーションを明らかにするのでしょうか?
  • コーパスとしてウェブを使用することの利点と落とし穴は何でしょうか?
  • コンコーダンスは、言語学的および辞書編纂的分析をどのようにサポートするのでしょうか?

Key concepts

  • コーパス設計
  • コンコーダンス
  • コロケーション
  • 点別相互情報量
  • 頻度分布
  • キーワード分析
  • コーパスとしてのウェブ
  • バランスコーパス

Key theories

コロケーションのための関連性尺度
点別相互情報量などの統計量を用いて、偶然を超えて共起する単語ペアを検出し、コロケーションを明らかにし、辞書編纂を支援します。
コーパスとしてのウェブ
ウェブを、制御されていないとはいえ、膨大なコーパスとして扱い、稀な現象や低資源言語の多様性の研究を可能にする一方で、代表性の問題も提起します。

History

コーパス言語学は、シンクレアの辞書編纂プロジェクトとバランスコーパスの構築から発展しました。一方、チャーチとハンクスの1989年の相互情報量に関する研究は、統計的関連性尺度を主流に導きました。キルガリフとグレフェンステットは後に、ノイズが多いとはいえ、前例のない規模の正当なコーパスとしてウェブを確立しました。

Debates

ウェブデータの代表性
ウェブコーパスは膨大ですが、不均衡で特徴づけが難しいため、そこから導き出された結論が言語全体にどの程度一般化できるかについて議論が巻き起こっています。

Key figures

  • Adam Kilgarriff
  • Kenneth Church
  • Patrick Hanks
  • John Sinclair

Related topics

Seminal works

  • church1989
  • kilgarriff2003

Frequently asked questions

コロケーションとは何ですか?
コロケーションとは、偶然が予測するよりも頻繁に習慣的に共起する単語のペアまたはグループであり、「powerful tea」ではなく「strong tea」のようなものです。関連性尺度は、それらを自動的に検出するのに役立ちます。

Methods for this concept

Related concepts