良いコーパスとはどのようなものですか？

良いコーパスとは、信頼できる統計を得るのに十分な大きさがあり、研究対象の言語変種を代表するもので、その情報源、サンプリング、およびアノテーションが明確に文書化されており、結果が解釈可能で再現可能であるものです。

語彙・コーパス資源

経験的計算言語学が依拠するデータおよび知識ベース：テキストコーパス、語彙データベースとオントロジー、単語構造の計算処理、および豊富なアノテーション付きツリーバンク。

PaperMindでテーマを探す近日公開Find papers & topics

Tools & resources

スライドをダウンロード

Learn & explore

動画近日公開

Definition

語彙・コーパス資源とは、経験的分析と言語処理システムの訓練を支援するために構築された、言語データ（テキスト、語彙、アノテーション）の構造化された集合体である。

Scope

言語資源の構築、管理、利用を対象とする。これには、バランスの取れたコーパスやウェブコーパス、WordNetのような語彙意味データベース、計算形態論と辞書、アノテーション付きツリーバンクが含まれる。コーパス設計、代表性、アノテーション標準、およびシステム訓練と評価における資源の役割について論じる。これらの資源を利用するアルゴリズムモデリングは、他の分野で扱われる。

Sub-topics

Core questions

コーパスはどのようにして代表性とバランスが取れるように設計されるのか？
単語の意味はどのようにして機械可読な語彙データベースに整理できるのか？
形態論的に豊かな言語において、単語構造は計算上どのように表現されるのか？
アノテーション付きツリーバンクがデータ駆動型言語学の中心であるのはなぜか？

Key concepts

コーパス
代表性
語彙データベース
WordNet
シノニムセット (synset)
形態論的辞書
ツリーバンク
アノテーション標準

Key theories

コーパスに基づく経験主義: 言語学的一般化とシステムパラメータは、内省のみに頼るのではなく、実証された用例の大量のサンプルに基づいて確立されるべきであるという方法論的立場。
語彙意味ネットワーク: 語彙を、同義性や上位概念などの関係によってリンクされた意味のグラフとして整理するもので、WordNetのように、曖昧性解消から意味的類似性まで様々なタスクをサポートする。

History

1990年代における経験的手法への移行により、コーパスと語彙資源が基礎的なものとなった。WordNetは再利用可能な語彙意味データベースを提供し、British National Corpusのようなバランスの取れたコーパスは設計標準を確立し、KilgarriffとGrefenstetteの研究はウェブ自体を言語研究のための広大なコーパスとして正当化した。

Debates

バランスの取れたコーパス対コーパスとしてのウェブ: 慎重にバランスの取れたコーパスと、雑多ではあるが膨大なウェブのどちらが言語学的探求により適しているかという議論。この分野では、代表性と規模を比較検討しながら、両方を活用する傾向にある。

Key figures

Christiane Fellbaum
Adam Kilgarriff
Christopher Manning
George Miller

Seminal works

fellbaum1998
kilgarriff2003
manning1999

Frequently asked questions

良いコーパスとはどのようなものですか？: 良いコーパスとは、信頼できる統計を得るのに十分な大きさがあり、研究対象の言語変種を代表するもので、その情報源、サンプリング、およびアノテーションが明確に文書化されており、結果が解釈可能で再現可能であるものです。