ScholarGate
Assistant

Représentation et classification de texte

La représentation et la classification de texte décrivent comment les documents sont transformés en caractéristiques et comment ces représentations permettent d'organiser des collections par catégorie, similarité et sujets latents.

Trouver un sujet avec PaperMindBientôtFind papers & topics
Tools & resources
Télécharger les diapositives
Learn & explore
VidéoBientôt

Definition

La représentation et la classification de texte constituent l'ensemble des méthodes permettant de convertir des documents en représentations de caractéristiques et d'assigner, de regrouper ou de projeter ces représentations, y compris la catégorisation supervisée en classes connues, le regroupement non supervisé (clustering), et la modélisation de sujets ou sémantique latente, au service de la recherche d'information et de l'organisation de collections.

Scope

Ce domaine couvre la représentation de texte pour la recherche d'information et l'organisation non supervisée et supervisée de collections de documents : la représentation de documents et la pondération des termes, la classification automatique de texte en catégories prédéfinies, le regroupement (clustering) de texte en groupes découverts, et les modèles sémantiques latents et de sujets qui révèlent une structure cachée. Il traite de la représentation et de l'organisation en tant qu'elles soutiennent la recherche d'information, s'appuyant sur l'apprentissage automatique tout en se concentrant sur l'utilisation de ces méthodes orientée vers la recherche plutôt que sur la théorie générale de l'apprentissage automatique.

Sub-topics

Core questions

  • Comment les documents sont-ils convertis en caractéristiques, et comment les termes sont-ils pondérés ?
  • Comment les documents peuvent-ils être automatiquement triés en catégories prédéfinies ?
  • Comment une collection peut-elle être regroupée en clusters sans étiquettes prédéfinies ?
  • Comment les modèles de sujets latents et sémantiques révèlent-ils une structure cachée dans le texte ?
  • Comment ces représentations améliorent-elles la recherche d'information, la navigation et le filtrage ?

Key concepts

  • représentation de documents
  • pondération des termes (tf-idf)
  • classification / catégorisation de texte
  • regroupement (clustering) de texte
  • analyse sémantique latente
  • modèles de sujets
  • sélection de caractéristiques
  • inadéquation du vocabulaire

Key theories

Représentation vectorielle et pondération des termes
La représentation des documents sous forme de vecteurs de caractéristiques pondérés, généralement sur des termes avec des poids de type tf-idf, fournit le substrat commun sur lequel opèrent la classification, le regroupement (clustering) et le calcul de similarité.
Catégorisation de texte supervisée
Étant donné des exemples étiquetés, les classificateurs d'apprentissage automatique peuvent assigner des documents à des catégories prédéfinies, le choix des caractéristiques et de l'apprenant déterminant la précision, comme systématisé dans la littérature sur la catégorisation de texte.
Structure sémantique et de sujets latents
Des méthodes telles que l'analyse sémantique latente et l'allocation de Dirichlet latente projettent les documents dans des espaces de dimension inférieure ou des distributions de sujets, capturant les relations sémantiques et atténuant l'inadéquation du vocabulaire.

Clinical relevance

Ces méthodes alimentent le filtrage du spam, le routage et le filtrage basés sur les sujets, la navigation à facettes, la déduplication et l'organisation des résultats de recherche. Les modèles de sujets et sémantiques soutiennent la recherche exploratoire et la recommandation. La représentation de documents sous-tend également le passage des vecteurs de termes creux aux plongements (embeddings) denses appris dans la recherche d'information moderne.

History

La catégorisation de texte est passée des systèmes basés sur des règles dans les années 1980 à une discipline d'apprentissage automatique dans les années 1990, consolidée dans l'étude de Sebastiani de 2002. L'analyse sémantique latente (1990) a introduit la réduction de dimensionnalité pour la recherche d'information, et l'allocation de Dirichlet latente (2003) a établi la modélisation probabiliste de sujets, toutes deux ayant façonné la manière dont la structure sémantique dans le texte est représentée.

Key figures

  • Fabrizio Sebastiani
  • Susan Dumais
  • David Blei
  • Christopher Manning

Related topics

Seminal works

  • manning2008
  • sebastiani2002
  • deerwester1990
  • blei2003

Frequently asked questions

Quelle est la différence entre la classification de texte et le regroupement (clustering) de texte ?
La classification est supervisée : elle assigne des documents à des catégories prédéfinies en utilisant des exemples d'entraînement étiquetés. Le regroupement (clustering) est non supervisé : il regroupe les documents par similarité sans catégories prédéfinies, découvrant une structure plutôt que de l'adapter à des étiquettes connues.
Pourquoi les modèles de sujets latents sont-ils utiles pour la recherche d'information ?
Les modèles de sujets et sémantiques latents représentent les documents par des thèmes sous-jacents plutôt que par des mots exacts, ce qui aide à faire correspondre les requêtes et les documents qui utilisent un vocabulaire différent pour le même concept et soutient la navigation d'une collection par sujet.

Methods for this concept

Related concepts