Qu'est-ce que le modèle sac de mots (bag-of-words) ?

Le modèle sac de mots (bag-of-words) représente un document comme l'ensemble ou le multiensemble des termes qu'il contient, ignorant l'ordre des mots et la grammaire. Malgré l'abandon des informations de séquence, il est simple, efficace et étonnamment performant pour la recherche d'information, la classification et le regroupement (clustering).

Pourquoi appliquer un logarithme à la fréquence de terme ?

Un terme apparaissant dix fois n'est pas dix fois plus important qu'un terme apparaissant une seule fois. L'application d'un logarithme à la fréquence de terme atténue cet effet, de sorte que les occurrences supplémentaires ajoutent progressivement moins de poids, reflétant mieux la relation entre la répétition et la pertinence.

Représentation et pondération des documents

La représentation des documents transforme le texte brut en un ensemble structuré de caractéristiques pondérées, déterminant ce qui constitue un terme et l'importance de la contribution de chaque terme.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

La représentation et la pondération des documents est le processus de transformation du texte brut d'un document en un vecteur de caractéristiques, généralement des termes, en tokenisant et en normalisant le texte et en attribuant à chaque caractéristique un poids qui reflète son importance au sein du document et à travers la collection.

Scope

Ce sujet couvre les étapes qui convertissent les documents en représentations interrogeables : la tokenisation, la normalisation, la gestion des mots vides (stop-words), la racinisation (stemming) et la lemmatisation, ainsi que la construction de vecteurs de caractéristiques de type sac de mots (bag-of-words) ou n-grammes, conjointement avec des schémas de pondération des termes tels que la fréquence de terme brute et logarithmique, la fréquence inverse de document (inverse document frequency), et le tf-idf avec normalisation de longueur. Il aborde les choix qui façonnent la représentation alimentant la recherche d'information, la classification et le regroupement (clustering), tout en laissant les modèles de classement et les représentations latentes aux sujets connexes.

Core questions

Comment le texte brut est-il tokenisé et normalisé en termes ?
Quel est l'effet de la suppression des mots vides (stop-words), de la racinisation (stemming) et de la lemmatisation ?
Pourquoi la fréquence de terme seule constitue-t-elle une mauvaise pondération, et comment est-elle transformée ?
Comment la fréquence inverse de document (inverse document frequency) capture-t-elle l'importance d'un terme à travers une collection ?
Comment la normalisation de longueur maintient-elle la comparabilité entre documents longs et courts ?

Key concepts

tokenisation et normalisation
mots vides (stop words)
racinisation (stemming) et lemmatisation
sac de mots (bag-of-words) et n-grammes
fréquence de terme (brute et logarithmique)
fréquence inverse de document (inverse document frequency)
variantes du tf-idf
normalisation de longueur

Key theories

Représentation en sac de mots (bag-of-words): Traiter un document comme un multiensemble non ordonné de termes, en ignorant l'ordre des mots, produit un vecteur de caractéristiques simple et efficace qui sous-tend la recherche d'information, la classification et le regroupement (clustering) classiques, malgré l'abandon de la syntaxe.
Schémas de pondération tf-idf: La combinaison d'une composante de fréquence de terme (souvent atténuée) avec la fréquence inverse de document et la normalisation de longueur produit des poids qui mettent l'accent sur les termes fréquents dans un document mais rares dans la collection, avec de nombreuses variantes documentées.

Clinical relevance

Les choix de représentation et de pondération affectent directement la qualité de chaque tâche en aval, du classement des résultats de recherche au filtrage du spam et au regroupement (clustering). Les représentations tf-idf demeurent une base solide et interprétable, et les mêmes questions de conception concernant la tokenisation et la normalisation persistent dans les pipelines modernes qui alimentent les plongements (embeddings) appris.

History

La représentation des documents a mûri parallèlement au modèle d'espace vectoriel dans les années 1960 et 1970, avec l'introduction de la fréquence inverse de document (inverse document frequency) par Spärck Jones en 1972 et la systématisation des variantes de pondération des termes par Salton et Buckley en 1988. La représentation en sac de mots (bag-of-words) et le tf-idf sont devenus le substrat par défaut pour le traitement de texte en recherche d'information (IR) et en apprentissage automatique (machine learning) pendant des décennies.

Key figures

Gerard Salton
Chris Buckley
Karen Spärck Jones

Seminal works

salton1988
sparckjones1972
manning2008

Frequently asked questions

Qu'est-ce que le modèle sac de mots (bag-of-words) ?: Le modèle sac de mots (bag-of-words) représente un document comme l'ensemble ou le multiensemble des termes qu'il contient, ignorant l'ordre des mots et la grammaire. Malgré l'abandon des informations de séquence, il est simple, efficace et étonnamment performant pour la recherche d'information, la classification et le regroupement (clustering).
Pourquoi appliquer un logarithme à la fréquence de terme ?: Un terme apparaissant dix fois n'est pas dix fois plus important qu'un terme apparaissant une seule fois. L'application d'un logarithme à la fréquence de terme atténue cet effet, de sorte que les occurrences supplémentaires ajoutent progressivement moins de poids, reflétant mieux la relation entre la répétition et la pertinence.