ScholarGate
助手

信息抽取

信息抽取是指自动识别非结构化自然语言文本中的结构化信息(实体、关系和事件)的任务。

用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
下载幻灯片
Learn & explore
视频即将推出

Definition

信息抽取通过检测和分类实体提及、它们之间的关系以及它们参与的事件,将非结构化文本转换为结构化表示,通常用于填充数据库或知识库。

Scope

本主题涵盖从文本中抽取结构化事实:命名实体识别、关系抽取、事件抽取、共指消解以及模板或知识库的填充。它涉及基于规则、统计序列标注以及监督和远程监督方法,并通过精确率和召回率评估抽取效果。用于训练抽取器的一般机器学习方法属于机器学习子领域;此处重点关注抽取任务及其语言学挑战。

Core questions

  • 如何检测和分类文本中提及的实体,例如人物、组织和地点?
  • 如何识别和抽取实体之间的关系?
  • 如何识别事件及其参与者,以及如何解决共指问题?
  • 如何评估抽取性能,以及精确率和召回率之间会产生哪些权衡?

Key concepts

  • 命名实体识别
  • 关系抽取
  • 事件抽取
  • 共指消解
  • BIO序列标注
  • 模板填充
  • 知识库填充
  • 精确率和召回率

Key theories

作为序列标注的命名实体识别
识别实体提及通常被框定为用标签(例如,使用BIO方案)标注每个词元,通过利用上下文标记跨度及其类型的序列模型来解决。
关系和事件抽取
除了实体之外,信息抽取还识别实体如何关联以及发生哪些事件,填充结构化模板;这种任务驱动的框架由消息理解会议明确提出。
知识库填充
抽取的实体和关系可以聚合起来构建或扩展知识库,将提及链接到规范实体,并从大量文本集合中积累事实。

Clinical relevance

信息抽取将文本转化为可查询数据,应用于生物医学文献挖掘、金融和新闻分析、构建知识图谱以及从文档中填充数据库等,使大量非结构化文本可供下游系统使用。

History

信息抽取由20世纪80年代末和90年代的消息理解会议(MUC)塑造,这些会议定义了命名实体识别和模板填充等任务,并引入了标准化评估。该领域从手工规则发展到统计序列模型,后来又发展到神经网络方法,同时保持了其任务结构。

Key figures

  • Ralph Grishman
  • Beth Sundheim
  • Christopher D. Manning
  • Daniel Jurafsky

Related topics

Seminal works

  • grishman1996
  • jurafsky2023

Frequently asked questions

什么是命名实体识别?
命名实体识别是查找和分类指代真实世界实体(如人物、组织、地点和日期)的文本片段的任务。它通常是信息抽取的第一步,因为许多关系和事件都是以这些实体来表述的。
如何评估信息抽取?
抽取通常通过精确率(抽取项中正确的比例)和召回率(正确项中被抽取的比例)进行评估,通常结合成F值。这反映了抽取过少和抽取不正确信息之间的权衡。

Methods for this concept

Related concepts