Agrupación de texto (Text Clustering)
La agrupación de texto agrupa documentos en clústeres de contenido similar sin categorías predefinidas, revelando la estructura de una colección y facilitando la navegación y la recuperación.
Definition
La agrupación de texto es la partición no supervisada de una colección de documentos en grupos, de modo que los documentos dentro de un grupo son más similares entre sí que a los documentos de otros grupos, utilizando una medida de similitud sobre las representaciones de los documentos y sin etiquetas predefinidas.
Scope
Este tema abarca la agrupación no supervisada de documentos: métodos de partición plana como k-means en vectores de documentos, agrupación jerárquica aglomerativa, las medidas de similitud y funciones de criterio involucradas, y la evaluación de la calidad del clúster tanto internamente como frente a etiquetas externas. También cubre motivaciones específicas de recuperación, en particular la hipótesis del clúster y la agrupación de resultados de búsqueda. Trata la agrupación como un servicio a la recuperación de información, distinta de la clasificación supervisada y de los modelos de temas latentes.
Core questions
- ¿Cómo se mide la similitud entre documentos para la agrupación?
- ¿En qué se diferencian los métodos planos como k-means de la agrupación jerárquica aglomerativa?
- ¿Cómo se elige el número de clústeres?
- ¿Cómo se evalúa la calidad del clúster sin etiquetas de verdad fundamental?
- ¿Qué implica la hipótesis del clúster para la recuperación?
Key concepts
- agrupación no supervisada
- similitud de documentos (coseno)
- agrupación k-means
- agrupación jerárquica aglomerativa
- funciones de criterio
- hipótesis del clúster
- evaluación interna y externa de clústeres
- agrupación de resultados de búsqueda
Key theories
- Hipótesis del clúster
- Los documentos que son relevantes para la misma consulta tienden a ser similares entre sí, por lo que la agrupación puede agrupar documentos relevantes, lo que motiva la recuperación basada en clústeres y la organización de resultados.
- Agrupación plana y jerárquica
- Los métodos planos como k-means dividen los documentos en un número elegido de clústeres optimizando una función de criterio, mientras que los métodos aglomerativos jerárquicos construyen un árbol anidado de clústeres, con la elección del criterio afectando fuertemente la calidad de la agrupación de documentos.
Clinical relevance
La agrupación facilita la exploración y organización de grandes conjuntos de documentos: agrupando los resultados de búsqueda por subtema, deduplicando y organizando noticias, estructurando bibliotecas digitales y proporcionando resúmenes para la búsqueda exploratoria. La hipótesis del clúster también informa los métodos de recuperación que explotan la similitud de los documentos.
History
La agrupación se aplicó a la recuperación tempranamente, con van Rijsbergen articulando la hipótesis del clúster en la década de 1970 como una justificación para la recuperación basada en clústeres. A medida que las colecciones crecieron, los métodos escalables como k-means y las variantes de bisección y las comparaciones cuidadosas de los criterios de agrupación se hicieron estándar, y la agrupación de resultados surgió como una forma de organizar la salida de la búsqueda web.
Key figures
- C. J. van Rijsbergen
- George Karypis
- Christopher Manning
Related topics
Seminal works
- vanrijsbergen1979
- manning2008
- zhao2004
Frequently asked questions
- ¿Qué es la hipótesis del clúster?
- La hipótesis del clúster establece que los documentos relevantes para la misma necesidad de información tienden a ser similares entre sí. Si esto es cierto, agrupar documentos similares reúne los relevantes, lo que puede explotarse para mejorar u organizar los resultados de la recuperación.
- ¿Cómo se evalúa la agrupación cuando no hay etiquetas?
- Las medidas internas evalúan la cohesión y separación del clúster directamente a partir de los datos, mientras que las medidas externas comparan los clústeres con una categorización conocida cuando está disponible. Ambas se utilizan, ya que la agrupación no es supervisada y la 'corrección' depende del propósito previsto.