Древовидные банки и аннотированные корпуса
Корпуса, размеченные вручную лингвистической структурой — синтаксическими деревьями, зависимостями, значениями и сущностями, — которые служат обучающими данными и эталонами для вычислительной лингвистики.
Definition
Древовидный банк (treebank) — это корпус, в котором каждое предложение аннотировано его синтаксической структурой; в более широком смысле, аннотированный корпус содержит явные лингвистические метки, добавленные людьми.
Scope
Охватывает проектирование и создание аннотированных корпусов, особенно древовидных банков, содержащих синтаксис составляющих или зависимостей, а также конвейеры аннотирования, руководства и контроль качества, стоящие за ними. Включает традицию Penn Treebank и кросс-языковые усилия Universal Dependencies, а также роль согласованности между аннотаторами. Общий дизайн корпусов и лексические ресурсы рассматриваются в смежных темах.
Core questions
- Как проектируются древовидные банки и какие схемы аннотации они используют?
- Почему аннотированные корпуса незаменимы для обучения с учителем?
- Как обеспечивается и измеряется качество аннотации?
- Как кросс-языковая аннотация, такая как Universal Dependencies, достигает согласованности?
Key concepts
- древовидный банк
- схема аннотации
- руководство по аннотации
- золотой стандарт
- согласованность между аннотаторами
- Penn Treebank
- Universal Dependencies
- арбитраж
Key theories
- Обучение с учителем на основе древовидных банков
- Синтаксические корпуса, аннотированные вручную, обеспечивают сигнал для обучения, что сделало возможным статистический синтаксический анализ, разметку и многие задачи НЛП.
- Кросс-языковая гармонизированная аннотация
- Universal Dependencies применяет единую схему аннотации для многих языков, что позволяет создавать сопоставимые древовидные банки и переносить модели.
History
Penn Treebank (1993) был первым крупным синтаксически аннотированным корпусом и катализировал статистический синтаксический анализ. Последующие древовидные банки добавили семантические и дискурсивные слои, а проект Universal Dependencies стандартизировал аннотацию для разных языков, став де-факто многоязычным ресурсом древовидных банков.
Debates
- Глубина аннотации против согласованности
- Более богатая аннотация фиксирует больше лингвистических деталей, но ее сложнее применять последовательно; проекты должны балансировать теоретическую изощренность с надежной, масштабируемой аннотацией.
Key figures
- Mitchell Marcus
- Beatrice Santorini
- Marie-Catherine de Marneffe
- Joakim Nivre
Related topics
Seminal works
- marcus1993
- demarneffe2021
Frequently asked questions
- Зачем создавать древовидные банки вручную, если существуют парсеры?
- Парсеры обучаются и оцениваются на основе древовидных банков, аннотированных человеком, которые служат золотым стандартом. Без надежной ручной аннотации не было бы ничего, на чем можно было бы учиться или измерять точность.