为什么词性标注并非易事？

许多词语是模糊的——“book”既可以是名词也可以是动词——因此正确的标签取决于上下文。序列模型通过联合考虑周围的词语和标签来解决这个问题。

词性标注与序列标注

使用隐马尔可夫模型和条件随机场等概率序列模型，为句子中的每个词元分配一个标签——其词性、命名实体类型或短语块标签。

用 PaperMind 寻找选题即将推出Find papers & topics

Tools & resources

Learn & explore

视频即将推出

序列标注是将一个类别标签分配给输入序列的每个元素的任务，其中词性标注是其典型实例。

涵盖了作为浅层分析核心的序列标注任务：词性标注、命名实体识别和短语块划分。它包括标准模型——隐马尔可夫模型、最大熵马尔可夫模型、条件随机场和神经序列标注器——以及Penn Treebank和Universal POS等标注集。完整的句法分析在相关主题中涵盖。

词性标注是统计自然语言处理的早期成功案例，这得益于Penn Treebank（1993）提供了大量标注数据。隐马尔可夫模型标注器在2001年左右被判别式最大熵模型和条件随机场模型取代，而这些模型又在2010年代被神经序列标注器所吸收。

生成式与判别式序列模型: 是建模词语和标签的联合分布（隐马尔可夫模型），还是直接根据输入条件化标签（条件随机场）；当有丰富的特征可用时，判别式模型通常在准确性上更胜一筹。

为什么词性标注并非易事？: 许多词语是模糊的——“book”既可以是名词也可以是动词——因此正确的标签取决于上下文。序列模型通过联合考虑周围的词语和标签来解决这个问题。