什么是命名实体识别？

命名实体识别是查找和分类指代真实世界实体（如人物、组织、地点和日期）的文本片段的任务。它通常是信息抽取的第一步，因为许多关系和事件都是以这些实体来表述的。

如何评估信息抽取？

抽取通常通过精确率（抽取项中正确的比例）和召回率（正确项中被抽取的比例）进行评估，通常结合成F值。这反映了抽取过少和抽取不正确信息之间的权衡。

信息抽取是指自动识别非结构化自然语言文本中的结构化信息（实体、关系和事件）的任务。

用 PaperMind 寻找选题即将推出Find papers & topics

Tools & resources

Learn & explore

视频即将推出

信息抽取通过检测和分类实体提及、它们之间的关系以及它们参与的事件，将非结构化文本转换为结构化表示，通常用于填充数据库或知识库。

本主题涵盖从文本中抽取结构化事实：命名实体识别、关系抽取、事件抽取、共指消解以及模板或知识库的填充。它涉及基于规则、统计序列标注以及监督和远程监督方法，并通过精确率和召回率评估抽取效果。用于训练抽取器的一般机器学习方法属于机器学习子领域；此处重点关注抽取任务及其语言学挑战。

信息抽取将文本转化为可查询数据，应用于生物医学文献挖掘、金融和新闻分析、构建知识图谱以及从文档中填充数据库等，使大量非结构化文本可供下游系统使用。

信息抽取由20世纪80年代末和90年代的消息理解会议（MUC）塑造，这些会议定义了命名实体识别和模板填充等任务，并引入了标准化评估。该领域从手工规则发展到统计序列模型，后来又发展到神经网络方法，同时保持了其任务结构。

什么是命名实体识别？: 命名实体识别是查找和分类指代真实世界实体（如人物、组织、地点和日期）的文本片段的任务。它通常是信息抽取的第一步，因为许多关系和事件都是以这些实体来表述的。
如何评估信息抽取？: 抽取通常通过精确率（抽取项中正确的比例）和召回率（正确项中被抽取的比例）进行评估，通常结合成F值。这反映了抽取过少和抽取不正确信息之间的权衡。