树库与标注语料库
人工标注了语言结构(句法树、依存关系、语义和实体)的语料库,用作计算语言学的训练数据和“黄金标准”。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
树库是一种语料库,其中每个句子都标注了其句法结构;更广义地说,标注语料库包含由人类添加的明确语言标签。
Scope
涵盖标注语料库(特别是包含成分句法或依存句法的树库)的设计与构建,以及其背后的标注流程、指南和质量控制。内容包括宾州树库的传统、跨语言的Universal Dependencies项目,以及标注者间一致性的作用。通用语料库设计和词汇资源在相关主题中讨论。
Core questions
- 树库是如何设计的,它们使用哪些标注方案?
- 为什么标注语料库对于监督学习不可或缺?
- 如何确保和衡量标注质量?
- Universal Dependencies等跨语言标注如何实现一致性?
Key concepts
- 树库
- 标注方案
- 标注指南
- 黄金标准
- 标注者间一致性
- 宾州树库
- Universal Dependencies
- 仲裁
Key theories
- 树库驱动的监督学习
- 人工标注的句法语料库提供了监督信号,使得统计句法分析、标注和许多自然语言处理任务成为可能。
- 跨语言协调标注
- Universal Dependencies在多种语言中应用单一标注方案,从而实现可比较的树库和模型迁移。
History
宾州树库(1993年)是第一个大型句法标注语料库,催生了统计句法分析。随后的树库增加了语义和语篇层面,而Universal Dependencies项目则规范了跨语言的标注,成为事实上的多语言树库资源。
Debates
- 标注深度与一致性
- 更丰富的标注能捕捉更多语言细节,但更难保持一致性;项目必须在理论复杂性与可靠、可扩展的标注之间取得平衡。
Key figures
- Mitchell Marcus
- Beatrice Santorini
- Marie-Catherine de Marneffe
- Joakim Nivre
Related topics
Seminal works
- marcus1993
- demarneffe2021
Frequently asked questions
- 如果解析器已经存在,为什么还要手动构建树库?
- 解析器是根据人工标注的树库进行训练和评估的,这些树库充当“黄金标准”。如果没有可靠的人工标注,就没有可供学习或衡量准确性的依据。