ScholarGate
助手

信息抽取

将非结构化文本转化为结构化数据:检测命名实体、它们之间的关系以及它们参与的事件,从而可以对文档进行查询和聚合。

用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
下载幻灯片
Learn & explore
视频即将推出

Definition

信息抽取是从非结构化自然语言文本中自动识别结构化事实——实体、关系和事件。

Scope

涵盖从文本中提取结构化信息——命名实体识别、关系抽取、事件抽取以及时间信息和模板填充。它涉及基于规则和基于学习的方法,以及由共享任务建立的评估传统。底层的序列标注模型在解析领域中有所涵盖。

Core questions

  • 如何在文本中检测和分类命名实体?
  • 如何抽取实体之间的关系和事件?
  • 共享评估如何塑造任务及其度量标准?
  • 基于规则和基于学习的抽取方法如何比较?

Key concepts

  • 命名实体识别
  • 关系抽取
  • 事件抽取
  • 模板填充
  • 条件随机场
  • 远程监督
  • 本体填充
  • 评估活动

Key theories

模板填充信息抽取
将抽取框架化为用文本中发现的实体和关系填充结构化模板,这是消息理解会议中发展出的表述。
序列标注抽取
将实体和跨度抽取视为序列标注,使用条件随机场和基于词元的神经网络标注器等模型。

History

信息抽取受到20世纪90年代消息理解会议(Message Understanding Conferences)的影响,该会议定义了命名实体和模板填充任务及其评估。该领域从手工构建的模式发展到统计序列模型(如条件随机场),然后发展到大规模的神经网络和远程监督抽取。

Debates

监督式与远程监督式抽取
是依赖昂贵的手动标注数据,还是通过远程监督从知识库中进行自举,后者可扩展但会引入噪声标签。

Key figures

  • Ralph Grishman
  • Beth Sundheim
  • Andrew McCallum

Related topics

Seminal works

  • grishman1996
  • lafferty2001

Frequently asked questions

什么是命名实体识别?
命名实体识别在文本中查找并分类专有名词跨度,例如人名、组织名和地名。它通常是文档中抽取关系和事件的第一步。

Methods for this concept

Related concepts