信息抽取
将非结构化文本转化为结构化数据:检测命名实体、它们之间的关系以及它们参与的事件,从而可以对文档进行查询和聚合。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
信息抽取是从非结构化自然语言文本中自动识别结构化事实——实体、关系和事件。
Scope
涵盖从文本中提取结构化信息——命名实体识别、关系抽取、事件抽取以及时间信息和模板填充。它涉及基于规则和基于学习的方法,以及由共享任务建立的评估传统。底层的序列标注模型在解析领域中有所涵盖。
Core questions
- 如何在文本中检测和分类命名实体?
- 如何抽取实体之间的关系和事件?
- 共享评估如何塑造任务及其度量标准?
- 基于规则和基于学习的抽取方法如何比较?
Key concepts
- 命名实体识别
- 关系抽取
- 事件抽取
- 模板填充
- 条件随机场
- 远程监督
- 本体填充
- 评估活动
Key theories
- 模板填充信息抽取
- 将抽取框架化为用文本中发现的实体和关系填充结构化模板,这是消息理解会议中发展出的表述。
- 序列标注抽取
- 将实体和跨度抽取视为序列标注,使用条件随机场和基于词元的神经网络标注器等模型。
History
信息抽取受到20世纪90年代消息理解会议(Message Understanding Conferences)的影响,该会议定义了命名实体和模板填充任务及其评估。该领域从手工构建的模式发展到统计序列模型(如条件随机场),然后发展到大规模的神经网络和远程监督抽取。
Debates
- 监督式与远程监督式抽取
- 是依赖昂贵的手动标注数据,还是通过远程监督从知识库中进行自举,后者可扩展但会引入噪声标签。
Key figures
- Ralph Grishman
- Beth Sundheim
- Andrew McCallum
Related topics
Seminal works
- grishman1996
- lafferty2001
Frequently asked questions
- 什么是命名实体识别?
- 命名实体识别在文本中查找并分类专有名词跨度,例如人名、组织名和地名。它通常是文档中抽取关系和事件的第一步。