Qu'est-ce que la perplexité ?

La perplexité mesure à quel point un modèle de langage est « surpris » par un texte non vu (texte de test) ; une perplexité plus faible signifie que le modèle attribue une probabilité plus élevée aux mots observés, indiquant un meilleur ajustement.

Pourquoi la modélisation du langage nécessite-t-elle un lissage ?

Tout corpus fini omet de nombreuses séquences de mots valides, de sorte qu'un modèle naïf leur attribuerait une probabilité nulle. Le lissage redistribue une petite masse de probabilité aux événements non observés afin que le modèle puisse gérer de nouveaux textes.

Modélisation du langage

L'attribution de probabilités à des séquences de mots, la tâche fondamentale qui permet aux systèmes de prédire, d'évaluer et de générer du texte — des compteurs de n-grammes classiques aux modèles de langage neuronaux.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

Un modèle de langage est une distribution de probabilité sur des séquences de mots ou de jetons, généralement définie en prédisant chaque jeton à partir de son contexte précédent.

Scope

Couvre la tâche de modélisation du langage elle-même : l'estimation de la probabilité d'un mot étant donné son contexte, les modèles de n-grammes et leurs techniques de lissage, l'évaluation par perplexité, et la transition vers les représentations neuronales et distribuées. Il situe les grands modèles de langage comme l'incarnation moderne de cette même tâche. Les architectures neuronales détaillées sont traitées dans le domaine du TALN statistique et neuronal.

Core questions

Comment la probabilité d'une phrase peut-elle être décomposée en probabilités conditionnelles de mots ?
Comment le lissage gère-t-il les séquences de mots jamais rencontrées lors de l'entraînement ?
Comment la perplexité est-elle utilisée pour évaluer et comparer les modèles de langage ?
Qu'est-ce que les modèles de langage neuronaux ont modifié par rapport aux modèles de n-grammes ?

Key concepts

n-gramme
hypothèse de Markov
lissage
perplexité
repli et interpolation
représentations distribuées de mots
entropie croisée
prédiction du jeton suivant

Key theories

Modélisation de Markov par n-grammes: Approximer la probabilité d'un mot en la conditionnant uniquement aux n−1 mots précédents, transformant ainsi la modélisation du langage en un problème de comptage et de lissage traitable.
Modèle de langage probabiliste neuronal: Remplacer les comptages de n-grammes épars par un réseau neuronal qui apprend des représentations distribuées de mots, atténuant ainsi la malédiction de la dimensionnalité et permettant la généralisation à des contextes non observés.

History

La théorie de l'information de Shannon a conceptualisé le langage comme une source stochastique prévisible, et la communauté de la reconnaissance vocale d'IBM a rendu la modélisation par n-grammes centrale dans les années 1980. Bengio et ses collègues ont introduit les modèles de langage probabilistes neuronaux en 2003, amorçant l'approche par représentations distribuées qui, mise à l'échelle, a produit les grands modèles de langage actuels.

Debates

Comptage versus représentations apprises: La question de savoir si le langage est mieux modélisé par des comptages lissés sur des séquences discrètes ou par des réseaux neuronaux qui apprennent des représentations continues ; les méthodes neuronales dominent désormais mais héritent du même objectif probabiliste.

Key figures

Claude Shannon
Frederick Jelinek
Yoshua Bengio
Daniel Jurafsky

Seminal works

shannon1948
bengio2003
jurafsky2025

Frequently asked questions

Qu'est-ce que la perplexité ?: La perplexité mesure à quel point un modèle de langage est « surpris » par un texte non vu (texte de test) ; une perplexité plus faible signifie que le modèle attribue une probabilité plus élevée aux mots observés, indiquant un meilleur ajustement.
Pourquoi la modélisation du langage nécessite-t-elle un lissage ?: Tout corpus fini omet de nombreuses séquences de mots valides, de sorte qu'un modèle naïf leur attribuerait une probabilité nulle. Le lissage redistribue une petite masse de probabilité aux événements non observés afin que le modèle puisse gérer de nouveaux textes.