ScholarGate
助手

词性标注与序列标注

使用隐马尔可夫模型和条件随机场等概率序列模型,为句子中的每个词元分配一个标签——其词性、命名实体类型或短语块标签。

用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
下载幻灯片
Learn & explore
视频即将推出

Definition

序列标注是将一个类别标签分配给输入序列的每个元素的任务,其中词性标注是其典型实例。

Scope

涵盖了作为浅层分析核心的序列标注任务:词性标注、命名实体识别和短语块划分。它包括标准模型——隐马尔可夫模型、最大熵马尔可夫模型、条件随机场和神经序列标注器——以及Penn Treebank和Universal POS等标注集。完整的句法分析在相关主题中涵盖。

Core questions

  • 隐马尔可夫模型如何分配最可能的标签序列?
  • 为什么条件随机场优于局部归一化模型?
  • 标注集是如何设计并在不同语言之间标准化的?
  • 序列标注如何支持下游的句法分析和信息抽取?

Key concepts

  • 词性标签
  • 隐马尔可夫模型
  • 维特比算法
  • 条件随机场
  • 命名实体识别
  • 短语块划分
  • 标注集
  • BIO编码

Key theories

隐马尔可夫模型标注
将标签序列建模为发出观测词语的马尔可夫链,并使用维特比算法高效地恢复最可能的标签序列。
条件随机场
用于序列标注的全局归一化判别模型,它以整个输入为条件,并避免了局部归一化模型的标签偏差问题。

History

词性标注是统计自然语言处理的早期成功案例,这得益于Penn Treebank(1993)提供了大量标注数据。隐马尔可夫模型标注器在2001年左右被判别式最大熵模型和条件随机场模型取代,而这些模型又在2010年代被神经序列标注器所吸收。

Debates

生成式与判别式序列模型
是建模词语和标签的联合分布(隐马尔可夫模型),还是直接根据输入条件化标签(条件随机场);当有丰富的特征可用时,判别式模型通常在准确性上更胜一筹。

Key figures

  • Mitchell Marcus
  • John Lafferty
  • Andrew McCallum
  • Fernando Pereira

Related topics

Seminal works

  • marcus1993
  • lafferty2001

Frequently asked questions

为什么词性标注并非易事?
许多词语是模糊的——“book”既可以是名词也可以是动词——因此正确的标签取决于上下文。序列模型通过联合考虑周围的词语和标签来解决这个问题。

Methods for this concept

Related concepts