ScholarGate
Ассистент

Древовидные банки и аннотированные корпуса

Корпуса, размеченные вручную лингвистической структурой — синтаксическими деревьями, зависимостями, значениями и сущностями, — которые служат обучающими данными и эталонами для вычислительной лингвистики.

Найти тему в PaperMindСкороFind papers & topics
Tools & resources
Скачать слайды
Learn & explore
ВидеоСкоро

Definition

Древовидный банк (treebank) — это корпус, в котором каждое предложение аннотировано его синтаксической структурой; в более широком смысле, аннотированный корпус содержит явные лингвистические метки, добавленные людьми.

Scope

Охватывает проектирование и создание аннотированных корпусов, особенно древовидных банков, содержащих синтаксис составляющих или зависимостей, а также конвейеры аннотирования, руководства и контроль качества, стоящие за ними. Включает традицию Penn Treebank и кросс-языковые усилия Universal Dependencies, а также роль согласованности между аннотаторами. Общий дизайн корпусов и лексические ресурсы рассматриваются в смежных темах.

Core questions

  • Как проектируются древовидные банки и какие схемы аннотации они используют?
  • Почему аннотированные корпуса незаменимы для обучения с учителем?
  • Как обеспечивается и измеряется качество аннотации?
  • Как кросс-языковая аннотация, такая как Universal Dependencies, достигает согласованности?

Key concepts

  • древовидный банк
  • схема аннотации
  • руководство по аннотации
  • золотой стандарт
  • согласованность между аннотаторами
  • Penn Treebank
  • Universal Dependencies
  • арбитраж

Key theories

Обучение с учителем на основе древовидных банков
Синтаксические корпуса, аннотированные вручную, обеспечивают сигнал для обучения, что сделало возможным статистический синтаксический анализ, разметку и многие задачи НЛП.
Кросс-языковая гармонизированная аннотация
Universal Dependencies применяет единую схему аннотации для многих языков, что позволяет создавать сопоставимые древовидные банки и переносить модели.

History

Penn Treebank (1993) был первым крупным синтаксически аннотированным корпусом и катализировал статистический синтаксический анализ. Последующие древовидные банки добавили семантические и дискурсивные слои, а проект Universal Dependencies стандартизировал аннотацию для разных языков, став де-факто многоязычным ресурсом древовидных банков.

Debates

Глубина аннотации против согласованности
Более богатая аннотация фиксирует больше лингвистических деталей, но ее сложнее применять последовательно; проекты должны балансировать теоретическую изощренность с надежной, масштабируемой аннотацией.

Key figures

  • Mitchell Marcus
  • Beatrice Santorini
  • Marie-Catherine de Marneffe
  • Joakim Nivre

Related topics

Seminal works

  • marcus1993
  • demarneffe2021

Frequently asked questions

Зачем создавать древовидные банки вручную, если существуют парсеры?
Парсеры обучаются и оцениваются на основе древовидных банков, аннотированных человеком, которые служат золотым стандартом. Без надежной ручной аннотации не было бы ничего, на чем можно было бы учиться или измерять точность.

Methods for this concept

Related concepts