Représentation et pondération des documents
La représentation des documents transforme le texte brut en un ensemble structuré de caractéristiques pondérées, déterminant ce qui constitue un terme et l'importance de la contribution de chaque terme.
Definition
La représentation et la pondération des documents est le processus de transformation du texte brut d'un document en un vecteur de caractéristiques, généralement des termes, en tokenisant et en normalisant le texte et en attribuant à chaque caractéristique un poids qui reflète son importance au sein du document et à travers la collection.
Scope
Ce sujet couvre les étapes qui convertissent les documents en représentations interrogeables : la tokenisation, la normalisation, la gestion des mots vides (stop-words), la racinisation (stemming) et la lemmatisation, ainsi que la construction de vecteurs de caractéristiques de type sac de mots (bag-of-words) ou n-grammes, conjointement avec des schémas de pondération des termes tels que la fréquence de terme brute et logarithmique, la fréquence inverse de document (inverse document frequency), et le tf-idf avec normalisation de longueur. Il aborde les choix qui façonnent la représentation alimentant la recherche d'information, la classification et le regroupement (clustering), tout en laissant les modèles de classement et les représentations latentes aux sujets connexes.
Core questions
- Comment le texte brut est-il tokenisé et normalisé en termes ?
- Quel est l'effet de la suppression des mots vides (stop-words), de la racinisation (stemming) et de la lemmatisation ?
- Pourquoi la fréquence de terme seule constitue-t-elle une mauvaise pondération, et comment est-elle transformée ?
- Comment la fréquence inverse de document (inverse document frequency) capture-t-elle l'importance d'un terme à travers une collection ?
- Comment la normalisation de longueur maintient-elle la comparabilité entre documents longs et courts ?
Key concepts
- tokenisation et normalisation
- mots vides (stop words)
- racinisation (stemming) et lemmatisation
- sac de mots (bag-of-words) et n-grammes
- fréquence de terme (brute et logarithmique)
- fréquence inverse de document (inverse document frequency)
- variantes du tf-idf
- normalisation de longueur
Key theories
- Représentation en sac de mots (bag-of-words)
- Traiter un document comme un multiensemble non ordonné de termes, en ignorant l'ordre des mots, produit un vecteur de caractéristiques simple et efficace qui sous-tend la recherche d'information, la classification et le regroupement (clustering) classiques, malgré l'abandon de la syntaxe.
- Schémas de pondération tf-idf
- La combinaison d'une composante de fréquence de terme (souvent atténuée) avec la fréquence inverse de document et la normalisation de longueur produit des poids qui mettent l'accent sur les termes fréquents dans un document mais rares dans la collection, avec de nombreuses variantes documentées.
Clinical relevance
Les choix de représentation et de pondération affectent directement la qualité de chaque tâche en aval, du classement des résultats de recherche au filtrage du spam et au regroupement (clustering). Les représentations tf-idf demeurent une base solide et interprétable, et les mêmes questions de conception concernant la tokenisation et la normalisation persistent dans les pipelines modernes qui alimentent les plongements (embeddings) appris.
History
La représentation des documents a mûri parallèlement au modèle d'espace vectoriel dans les années 1960 et 1970, avec l'introduction de la fréquence inverse de document (inverse document frequency) par Spärck Jones en 1972 et la systématisation des variantes de pondération des termes par Salton et Buckley en 1988. La représentation en sac de mots (bag-of-words) et le tf-idf sont devenus le substrat par défaut pour le traitement de texte en recherche d'information (IR) et en apprentissage automatique (machine learning) pendant des décennies.
Key figures
- Gerard Salton
- Chris Buckley
- Karen Spärck Jones
Related topics
Seminal works
- salton1988
- sparckjones1972
- manning2008
Frequently asked questions
- Qu'est-ce que le modèle sac de mots (bag-of-words) ?
- Le modèle sac de mots (bag-of-words) représente un document comme l'ensemble ou le multiensemble des termes qu'il contient, ignorant l'ordre des mots et la grammaire. Malgré l'abandon des informations de séquence, il est simple, efficace et étonnamment performant pour la recherche d'information, la classification et le regroupement (clustering).
- Pourquoi appliquer un logarithme à la fréquence de terme ?
- Un terme apparaissant dix fois n'est pas dix fois plus important qu'un terme apparaissant une seule fois. L'application d'un logarithme à la fréquence de terme atténue cet effet, de sorte que les occurrences supplémentaires ajoutent progressivement moins de poids, reflétant mieux la relation entre la répétition et la pertinence.