词性标注与序列标注
使用隐马尔可夫模型和条件随机场等概率序列模型,为句子中的每个词元分配一个标签——其词性、命名实体类型或短语块标签。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
序列标注是将一个类别标签分配给输入序列的每个元素的任务,其中词性标注是其典型实例。
Scope
涵盖了作为浅层分析核心的序列标注任务:词性标注、命名实体识别和短语块划分。它包括标准模型——隐马尔可夫模型、最大熵马尔可夫模型、条件随机场和神经序列标注器——以及Penn Treebank和Universal POS等标注集。完整的句法分析在相关主题中涵盖。
Core questions
- 隐马尔可夫模型如何分配最可能的标签序列?
- 为什么条件随机场优于局部归一化模型?
- 标注集是如何设计并在不同语言之间标准化的?
- 序列标注如何支持下游的句法分析和信息抽取?
Key concepts
- 词性标签
- 隐马尔可夫模型
- 维特比算法
- 条件随机场
- 命名实体识别
- 短语块划分
- 标注集
- BIO编码
Key theories
- 隐马尔可夫模型标注
- 将标签序列建模为发出观测词语的马尔可夫链,并使用维特比算法高效地恢复最可能的标签序列。
- 条件随机场
- 用于序列标注的全局归一化判别模型,它以整个输入为条件,并避免了局部归一化模型的标签偏差问题。
History
词性标注是统计自然语言处理的早期成功案例,这得益于Penn Treebank(1993)提供了大量标注数据。隐马尔可夫模型标注器在2001年左右被判别式最大熵模型和条件随机场模型取代,而这些模型又在2010年代被神经序列标注器所吸收。
Debates
- 生成式与判别式序列模型
- 是建模词语和标签的联合分布(隐马尔可夫模型),还是直接根据输入条件化标签(条件随机场);当有丰富的特征可用时,判别式模型通常在准确性上更胜一筹。
Key figures
- Mitchell Marcus
- John Lafferty
- Andrew McCallum
- Fernando Pereira
Related topics
Seminal works
- marcus1993
- lafferty2001
Frequently asked questions
- 为什么词性标注并非易事?
- 许多词语是模糊的——“book”既可以是名词也可以是动词——因此正确的标签取决于上下文。序列模型通过联合考虑周围的词语和标签来解决这个问题。