ツリーバンクと注釈付きコーパス
統語ツリー、依存関係、意味、エンティティなどの言語構造が手作業で注釈付けされたコーパスであり、計算言語学のトレーニングデータおよびゴールドスタンダードとして機能する。
PaperMindでテーマを探す近日公開Find papers & topics
Tools & resources
Learn & explore
動画近日公開
Definition
ツリーバンクとは、各文に統語構造が注釈付けされたコーパスである。より広義には、注釈付きコーパスとは、人間によって追加された明示的な言語ラベルを持つコーパスを指す。
Scope
注釈付きコーパス、特に構成素解析または依存関係構文解析を扱うツリーバンクの設計と構築、およびそれらを支える注釈パイプライン、ガイドライン、品質管理について扱う。これには、ペンツリーバンクの伝統と多言語ユニバーサル依存関係の取り組み、およびアノテーター間の一致の役割が含まれる。一般的なコーパス設計と語彙リソースは、関連トピックで扱われる。
Core questions
- ツリーバンクはどのように設計され、どのような注釈スキームを使用しているか?
- 教師あり学習にとって、注釈付きコーパスが不可欠であるのはなぜか?
- 注釈の品質はどのように保証され、測定されるか?
- ユニバーサル依存関係のような多言語注釈は、どのように一貫性を達成しているか?
Key concepts
- ツリーバンク
- 注釈スキーム
- 注釈ガイドライン
- ゴールドスタンダード
- アノテーター間の一致
- ペンツリーバンク
- ユニバーサル依存関係
- 裁定
Key theories
- ツリーバンク駆動型教師あり学習
- 手作業で注釈付けされた統語コーパスは、統計的構文解析、タグ付け、および多くの自然言語処理タスクを可能にした教師信号を提供する。
- 多言語調和注釈
- ユニバーサル依存関係は、多くの言語にわたって単一の注釈スキームを適用し、比較可能なツリーバンクとモデルの転移を可能にする。
History
ペンツリーバンク(1993年)は、最初の大規模な統語的に注釈付けされたコーパスであり、統計的構文解析を促進した。その後のツリーバンクでは、意味層と談話層が追加され、ユニバーサル依存関係プロジェクトは言語間の注釈を標準化し、事実上の多言語ツリーバンク資源となった。
Debates
- 注釈の深さと一貫性
- より豊富な注釈はより多くの言語学的詳細を捉えるが、一貫して適用するのがより困難である。プロジェクトは、理論的な洗練と信頼性のあるスケーラブルな注釈とのバランスを取る必要がある。
Key figures
- Mitchell Marcus
- Beatrice Santorini
- Marie-Catherine de Marneffe
- Joakim Nivre
Related topics
Seminal works
- marcus1993
- demarneffe2021
Frequently asked questions
- パーサーが存在するのに、なぜツリーバンクを手作業で構築するのか?
- パーサーは、人間が注釈付けしたツリーバンクをゴールドスタンダードとして、それに対してトレーニングされ、評価される。信頼できる手作業による注釈がなければ、学習する対象も、精度を測定する基準も存在しないことになる。