Regroupement de textes
Le regroupement de textes organise les documents en grappes (clusters) de contenu similaire sans catégories prédéfinies, révélant ainsi la structure d'une collection et facilitant la navigation et la récupération d'informations.
Definition
Le regroupement de textes est le partitionnement non supervisé d'une collection de documents en groupes, de telle sorte que les documents au sein d'un groupe soient plus similaires les uns aux autres qu'aux documents des autres groupes, en utilisant une mesure de similarité sur des représentations de documents et sans étiquettes prédéfinies.
Scope
Ce sujet aborde le regroupement non supervisé de documents : les méthodes de partitionnement plat telles que k-means appliquées aux vecteurs de documents, le regroupement hiérarchique agglomératif, les mesures de similarité et les fonctions de critère impliquées, ainsi que l'évaluation de la qualité des grappes (clusters) à la fois en interne et par rapport à des étiquettes externes. Il couvre également les motivations spécifiques à la récupération d'informations, notamment l'hypothèse des grappes (cluster hypothesis) et le regroupement des résultats de recherche. Il traite du regroupement tel qu'il sert la récupération d'informations, distinct de la classification supervisée et des modèles de sujets latents.
Core questions
- Comment la similarité entre documents est-elle mesurée pour le regroupement ?
- En quoi les méthodes plates telles que k-means diffèrent-elles du regroupement hiérarchique agglomératif ?
- Comment le nombre de grappes (clusters) est-il choisi ?
- Comment la qualité des grappes est-elle évaluée sans étiquettes de vérité terrain ?
- Qu'implique l'hypothèse des grappes (cluster hypothesis) pour la récupération d'informations ?
Key concepts
- regroupement non supervisé
- similarité de documents (cosinus)
- regroupement k-means
- regroupement hiérarchique agglomératif
- fonctions de critère
- hypothèse des grappes (cluster hypothesis)
- évaluation interne et externe des grappes
- regroupement des résultats de recherche
Key theories
- Hypothèse des grappes (Cluster hypothesis)
- Les documents pertinents pour une même requête tendent à être similaires les uns aux autres ; le regroupement peut donc rassembler les documents pertinents, ce qui motive la récupération basée sur les grappes et l'organisation des résultats.
- Regroupement plat et hiérarchique
- Les méthodes plates telles que k-means partitionnent les documents en un nombre choisi de grappes (clusters) en optimisant une fonction de critère, tandis que les méthodes hiérarchiques agglomératives construisent un arbre imbriqué de grappes, le choix du critère affectant fortement la qualité du regroupement de documents.
Clinical relevance
Le regroupement facilite l'exploration et l'organisation de vastes ensembles de documents : il permet de regrouper les résultats de recherche par sous-thème, de dédupliquer et d'organiser les actualités, de structurer les bibliothèques numériques et de fournir des aperçus pour la recherche exploratoire. L'hypothèse des grappes (cluster hypothesis) éclaire également les méthodes de récupération d'informations qui exploitent la similarité des documents.
History
Le regroupement a été appliqué très tôt à la récupération d'informations, van Rijsbergen ayant formulé l'hypothèse des grappes (cluster hypothesis) dans les années 1970 comme justification de la récupération basée sur les grappes. À mesure que les collections s'agrandissaient, des méthodes évolutives telles que k-means et ses variantes de bissection, ainsi que des comparaisons rigoureuses des critères de regroupement, sont devenues la norme, et le regroupement des résultats est apparu comme un moyen d'organiser la sortie de la recherche web.
Key figures
- C. J. van Rijsbergen
- George Karypis
- Christopher Manning
Related topics
Seminal works
- vanrijsbergen1979
- manning2008
- zhao2004
Frequently asked questions
- Qu'est-ce que l'hypothèse des grappes (cluster hypothesis) ?
- L'hypothèse des grappes (cluster hypothesis) stipule que les documents pertinents pour un même besoin d'information tendent à être similaires les uns aux autres. Si cela est avéré, le regroupement de documents similaires rassemble les documents pertinents, ce qui peut être exploité pour améliorer ou organiser les résultats de la récupération d'informations.
- Comment évalue-t-on le regroupement lorsqu'il n'y a pas d'étiquettes ?
- Les mesures internes évaluent la cohésion et la séparation des grappes directement à partir des données, tandis que les mesures externes comparent les grappes à une catégorisation connue lorsqu'elle est disponible. Les deux sont utilisées, car le regroupement est non supervisé et la 'justesse' dépend de l'objectif visé.