コロケーションとは何ですか？

コロケーションとは、偶然が予測するよりも頻繁に習慣的に共起する単語のペアまたはグループであり、「powerful tea」ではなく「strong tea」のようなものです。関連性尺度は、それらを自動的に検出するのに役立ちます。

コーパス言語学とウェブコーパス

大規模な自然言語テキストサンプルを通じた言語研究：コーパスの構築と照会、コロケーションと頻度の測定、そして広大な言語資源としてのウェブの活用。

PaperMindでテーマを探す近日公開Find papers & topics

Tools & resources

スライドをダウンロード

Learn & explore

動画近日公開

Definition

コーパス言語学は、自然発生的なテキストの体系的なコレクションに基づき、頻度、コンコーダンス、および関連性の尺度を用いて分析される、言語の実証的研究です。

Scope

テキストコーパスの設計、編集、分析を扱います。これには、サンプリングとバランス、コンコーダンスとキーワード分析、相互情報量などの頻度とコロケーション統計、およびコーパスとしてのウェブの利用が含まれます。記述的なコーパス言語学と計算システムへのデータ供給の両方に対応しています。アノテーションスキームとツリーバンクは、関連トピックで扱われます。

Core questions

言語の多様性を公平に代表するために、コーパスはどのようにサンプリングされるのでしょうか？
相互情報量のような関連性尺度は、どのようにコロケーションを明らかにするのでしょうか？
コーパスとしてウェブを使用することの利点と落とし穴は何でしょうか？
コンコーダンスは、言語学的および辞書編纂的分析をどのようにサポートするのでしょうか？

Key concepts

コーパス設計
コンコーダンス
コロケーション
点別相互情報量
頻度分布
キーワード分析
コーパスとしてのウェブ
バランスコーパス

Key theories

コロケーションのための関連性尺度: 点別相互情報量などの統計量を用いて、偶然を超えて共起する単語ペアを検出し、コロケーションを明らかにし、辞書編纂を支援します。
コーパスとしてのウェブ: ウェブを、制御されていないとはいえ、膨大なコーパスとして扱い、稀な現象や低資源言語の多様性の研究を可能にする一方で、代表性の問題も提起します。

History

コーパス言語学は、シンクレアの辞書編纂プロジェクトとバランスコーパスの構築から発展しました。一方、チャーチとハンクスの1989年の相互情報量に関する研究は、統計的関連性尺度を主流に導きました。キルガリフとグレフェンステットは後に、ノイズが多いとはいえ、前例のない規模の正当なコーパスとしてウェブを確立しました。

Debates

ウェブデータの代表性: ウェブコーパスは膨大ですが、不均衡で特徴づけが難しいため、そこから導き出された結論が言語全体にどの程度一般化できるかについて議論が巻き起こっています。

Key figures

Adam Kilgarriff
Kenneth Church
Patrick Hanks
John Sinclair

Seminal works

church1989
kilgarriff2003

Frequently asked questions

コロケーションとは何ですか？: コロケーションとは、偶然が予測するよりも頻繁に習慣的に共起する単語のペアまたはグループであり、「powerful tea」ではなく「strong tea」のようなものです。関連性尺度は、それらを自動的に検出するのに役立ちます。