ScholarGate
Assistant

Étiquetage des parties du discours et étiquetage de séquences

Attribution d'une étiquette à chaque jeton d'une phrase — sa partie du discours, son type d'entité nommée ou son étiquette de segment — à l'aide de modèles de séquences probabilistes tels que les modèles de Markov cachés et les champs aléatoires conditionnels.

Trouver un sujet avec PaperMindBientôtFind papers & topics
Tools & resources
Télécharger les diapositives
Learn & explore
VidéoBientôt

Definition

L'étiquetage de séquences est la tâche d'attribuer une étiquette catégorielle à chaque élément d'une séquence d'entrée, l'étiquetage des parties du discours en étant l'exemple canonique.

Scope

Ce sujet couvre les tâches d'étiquetage de séquences centrales à l'analyse superficielle : l'étiquetage des parties du discours, la reconnaissance d'entités nommées et le découpage en segments (chunking). Il inclut les modèles standards — modèles de Markov cachés, modèles de Markov à entropie maximale, champs aléatoires conditionnels et étiqueteurs de séquences neuronaux — ainsi que des jeux d'étiquettes tels que le Penn Treebank et Universal POS. L'analyse syntaxique complète est abordée dans des sujets connexes.

Core questions

  • Comment les modèles de Markov cachés attribuent-ils la séquence d'étiquettes la plus probable ?
  • Pourquoi les champs aléatoires conditionnels surpassent-ils les modèles normalisés localement ?
  • Comment les jeux d'étiquettes sont-ils conçus et standardisés à travers les langues ?
  • Comment l'étiquetage de séquences soutient-il l'analyse syntaxique et l'extraction en aval ?

Key concepts

  • étiquette de partie du discours
  • modèle de Markov caché
  • algorithme de Viterbi
  • champ aléatoire conditionnel
  • reconnaissance d'entités nommées
  • découpage en segments (chunking)
  • jeu d'étiquettes
  • encodage BIO

Key theories

Étiquetage par modèles de Markov cachés
Modélisation d'une séquence d'étiquettes comme une chaîne de Markov émettant des mots observés, l'algorithme de Viterbi permettant de récupérer efficacement la séquence d'étiquettes la plus probable.
Champs aléatoires conditionnels
Modèles discriminatifs globalement normalisés pour l'étiquetage de séquences qui conditionnent sur l'ensemble de l'entrée et évitent le biais d'étiquetage des modèles normalisés localement.

History

L'étiquetage des parties du discours a été un succès précoce du traitement automatique du langage naturel (TALN) statistique une fois que le Penn Treebank (1993) a fourni de grandes quantités de données annotées. Les étiqueteurs basés sur les modèles de Markov cachés ont cédé la place à des modèles discriminatifs à entropie maximale et à champs aléatoires conditionnels vers 2001, qui ont été à leur tour intégrés dans les étiqueteurs de séquences neuronaux dans les années 2010.

Debates

Modèles de séquences génératifs versus discriminatifs
S'il faut modéliser la distribution conjointe des mots et des étiquettes (HMM) ou conditionner les étiquettes directement sur l'entrée (CRF) ; les modèles discriminatifs l'emportent généralement en termes de précision lorsque des caractéristiques riches sont disponibles.

Key figures

  • Mitchell Marcus
  • John Lafferty
  • Andrew McCallum
  • Fernando Pereira

Related topics

Seminal works

  • marcus1993
  • lafferty2001

Frequently asked questions

Pourquoi l'étiquetage des parties du discours n'est-il pas trivial ?
De nombreux mots sont ambigus — « book » (livre) peut être un nom ou un verbe — l'étiquette correcte dépend donc du contexte. Les modèles de séquences résolvent ce problème en considérant conjointement les mots et les étiquettes environnants.

Methods for this concept

Related concepts