ScholarGate
助手

树库与标注语料库

人工标注了语言结构(句法树、依存关系、语义和实体)的语料库,用作计算语言学的训练数据和“黄金标准”。

用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
下载幻灯片
Learn & explore
视频即将推出

Definition

树库是一种语料库,其中每个句子都标注了其句法结构;更广义地说,标注语料库包含由人类添加的明确语言标签。

Scope

涵盖标注语料库(特别是包含成分句法或依存句法的树库)的设计与构建,以及其背后的标注流程、指南和质量控制。内容包括宾州树库的传统、跨语言的Universal Dependencies项目,以及标注者间一致性的作用。通用语料库设计和词汇资源在相关主题中讨论。

Core questions

  • 树库是如何设计的,它们使用哪些标注方案?
  • 为什么标注语料库对于监督学习不可或缺?
  • 如何确保和衡量标注质量?
  • Universal Dependencies等跨语言标注如何实现一致性?

Key concepts

  • 树库
  • 标注方案
  • 标注指南
  • 黄金标准
  • 标注者间一致性
  • 宾州树库
  • Universal Dependencies
  • 仲裁

Key theories

树库驱动的监督学习
人工标注的句法语料库提供了监督信号,使得统计句法分析、标注和许多自然语言处理任务成为可能。
跨语言协调标注
Universal Dependencies在多种语言中应用单一标注方案,从而实现可比较的树库和模型迁移。

History

宾州树库(1993年)是第一个大型句法标注语料库,催生了统计句法分析。随后的树库增加了语义和语篇层面,而Universal Dependencies项目则规范了跨语言的标注,成为事实上的多语言树库资源。

Debates

标注深度与一致性
更丰富的标注能捕捉更多语言细节,但更难保持一致性;项目必须在理论复杂性与可靠、可扩展的标注之间取得平衡。

Key figures

  • Mitchell Marcus
  • Beatrice Santorini
  • Marie-Catherine de Marneffe
  • Joakim Nivre

Related topics

Seminal works

  • marcus1993
  • demarneffe2021

Frequently asked questions

如果解析器已经存在,为什么还要手动构建树库?
解析器是根据人工标注的树库进行训练和评估的,这些树库充当“黄金标准”。如果没有可靠的人工标注,就没有可供学习或衡量准确性的依据。

Methods for this concept

Related concepts