Étiquetage des parties du discours et étiquetage de séquences
Attribution d'une étiquette à chaque jeton d'une phrase — sa partie du discours, son type d'entité nommée ou son étiquette de segment — à l'aide de modèles de séquences probabilistes tels que les modèles de Markov cachés et les champs aléatoires conditionnels.
Definition
L'étiquetage de séquences est la tâche d'attribuer une étiquette catégorielle à chaque élément d'une séquence d'entrée, l'étiquetage des parties du discours en étant l'exemple canonique.
Scope
Ce sujet couvre les tâches d'étiquetage de séquences centrales à l'analyse superficielle : l'étiquetage des parties du discours, la reconnaissance d'entités nommées et le découpage en segments (chunking). Il inclut les modèles standards — modèles de Markov cachés, modèles de Markov à entropie maximale, champs aléatoires conditionnels et étiqueteurs de séquences neuronaux — ainsi que des jeux d'étiquettes tels que le Penn Treebank et Universal POS. L'analyse syntaxique complète est abordée dans des sujets connexes.
Core questions
- Comment les modèles de Markov cachés attribuent-ils la séquence d'étiquettes la plus probable ?
- Pourquoi les champs aléatoires conditionnels surpassent-ils les modèles normalisés localement ?
- Comment les jeux d'étiquettes sont-ils conçus et standardisés à travers les langues ?
- Comment l'étiquetage de séquences soutient-il l'analyse syntaxique et l'extraction en aval ?
Key concepts
- étiquette de partie du discours
- modèle de Markov caché
- algorithme de Viterbi
- champ aléatoire conditionnel
- reconnaissance d'entités nommées
- découpage en segments (chunking)
- jeu d'étiquettes
- encodage BIO
Key theories
- Étiquetage par modèles de Markov cachés
- Modélisation d'une séquence d'étiquettes comme une chaîne de Markov émettant des mots observés, l'algorithme de Viterbi permettant de récupérer efficacement la séquence d'étiquettes la plus probable.
- Champs aléatoires conditionnels
- Modèles discriminatifs globalement normalisés pour l'étiquetage de séquences qui conditionnent sur l'ensemble de l'entrée et évitent le biais d'étiquetage des modèles normalisés localement.
History
L'étiquetage des parties du discours a été un succès précoce du traitement automatique du langage naturel (TALN) statistique une fois que le Penn Treebank (1993) a fourni de grandes quantités de données annotées. Les étiqueteurs basés sur les modèles de Markov cachés ont cédé la place à des modèles discriminatifs à entropie maximale et à champs aléatoires conditionnels vers 2001, qui ont été à leur tour intégrés dans les étiqueteurs de séquences neuronaux dans les années 2010.
Debates
- Modèles de séquences génératifs versus discriminatifs
- S'il faut modéliser la distribution conjointe des mots et des étiquettes (HMM) ou conditionner les étiquettes directement sur l'entrée (CRF) ; les modèles discriminatifs l'emportent généralement en termes de précision lorsque des caractéristiques riches sont disponibles.
Key figures
- Mitchell Marcus
- John Lafferty
- Andrew McCallum
- Fernando Pereira
Related topics
Seminal works
- marcus1993
- lafferty2001
Frequently asked questions
- Pourquoi l'étiquetage des parties du discours n'est-il pas trivial ?
- De nombreux mots sont ambigus — « book » (livre) peut être un nom ou un verbe — l'étiquette correcte dépend donc du contexte. Les modèles de séquences résolvent ce problème en considérant conjointement les mots et les étiquettes environnants.