ScholarGate
Assistente

Agrupamento de Texto

O agrupamento de texto organiza documentos em grupos de conteúdo semelhante sem categorias predefinidas, revelando a estrutura de uma coleção e auxiliando na navegação e recuperação.

Encontrar tema com PaperMindEm breveFind papers & topics
Tools & resources
Baixar slides
Learn & explore
VídeoEm breve

Definition

O agrupamento de texto é o particionamento não supervisionado de uma coleção de documentos em grupos, de modo que os documentos dentro de um grupo sejam mais semelhantes entre si do que a documentos em outros grupos, utilizando uma medida de similaridade sobre representações de documentos e sem rótulos predefinidos.

Scope

Este tópico abrange o agrupamento não supervisionado de documentos: métodos de particionamento plano, como k-means em vetores de documentos, agrupamento hierárquico aglomerativo, as medidas de similaridade e funções de critério envolvidas, e a avaliação da qualidade do agrupamento tanto internamente quanto em relação a rótulos externos. Abrange também motivações específicas de recuperação, notadamente a hipótese de agrupamento e o agrupamento de resultados de pesquisa. Trata o agrupamento como um serviço à recuperação de informação, distinto da classificação supervisionada e dos modelos de tópicos latentes.

Core questions

  • Como a similaridade entre documentos é medida para o agrupamento?
  • Como os métodos planos, como k-means, diferem do agrupamento hierárquico aglomerativo?
  • Como o número de agrupamentos é escolhido?
  • Como a qualidade do agrupamento é avaliada sem rótulos de verdade fundamental?
  • O que a hipótese de agrupamento implica para a recuperação?

Key concepts

  • agrupamento não supervisionado
  • similaridade de documentos (cosseno)
  • agrupamento k-means
  • agrupamento hierárquico aglomerativo
  • funções de critério
  • hipótese de agrupamento
  • avaliação interna e externa de agrupamentos
  • agrupamento de resultados de pesquisa

Key theories

Hipótese de agrupamento
Documentos que são relevantes para a mesma consulta tendem a ser semelhantes entre si, de modo que o agrupamento pode agrupar documentos relevantes, motivando a recuperação e organização de resultados baseadas em agrupamento.
Agrupamento plano e hierárquico
Métodos planos, como k-means, particionam documentos em um número escolhido de agrupamentos otimizando uma função de critério, enquanto métodos aglomerativos hierárquicos constroem uma árvore aninhada de agrupamentos, com a escolha do critério afetando fortemente a qualidade do agrupamento de documentos.

Clinical relevance

O agrupamento apoia a exploração e organização de grandes conjuntos de documentos: agrupando resultados de pesquisa por subtópico, deduplicando e organizando notícias, estruturando bibliotecas digitais e fornecendo visões gerais para pesquisa exploratória. A hipótese de agrupamento também informa métodos de recuperação que exploram a similaridade de documentos.

History

O agrupamento foi aplicado à recuperação precocemente, com van Rijsbergen articulando a hipótese de agrupamento na década de 1970 como uma justificativa para a recuperação baseada em agrupamento. À medida que as coleções cresciam, métodos escaláveis como k-means e variantes de bisseção e comparações cuidadosas de critérios de agrupamento tornaram-se padrão, e o agrupamento de resultados emergiu como uma forma de organizar a saída de pesquisa na web.

Key figures

  • C. J. van Rijsbergen
  • George Karypis
  • Christopher Manning

Related topics

Seminal works

  • vanrijsbergen1979
  • manning2008
  • zhao2004

Frequently asked questions

O que é a hipótese de agrupamento?
A hipótese de agrupamento afirma que documentos relevantes para a mesma necessidade de informação tendem a ser semelhantes entre si. Se verdadeira, agrupar documentos semelhantes reúne os relevantes, o que pode ser explorado para melhorar ou organizar os resultados da recuperação.
Como se avalia o agrupamento quando não há rótulos?
Medidas internas avaliam a coesão e separação dos agrupamentos diretamente a partir dos dados, enquanto medidas externas comparam os agrupamentos com uma categorização conhecida quando disponível. Ambas são usadas, uma vez que o agrupamento é não supervisionado e a 'correção' depende do propósito pretendido.

Methods for this concept

Related concepts