Agrupamento de Texto
O agrupamento de texto organiza documentos em grupos de conteúdo semelhante sem categorias predefinidas, revelando a estrutura de uma coleção e auxiliando na navegação e recuperação.
Definition
O agrupamento de texto é o particionamento não supervisionado de uma coleção de documentos em grupos, de modo que os documentos dentro de um grupo sejam mais semelhantes entre si do que a documentos em outros grupos, utilizando uma medida de similaridade sobre representações de documentos e sem rótulos predefinidos.
Scope
Este tópico abrange o agrupamento não supervisionado de documentos: métodos de particionamento plano, como k-means em vetores de documentos, agrupamento hierárquico aglomerativo, as medidas de similaridade e funções de critério envolvidas, e a avaliação da qualidade do agrupamento tanto internamente quanto em relação a rótulos externos. Abrange também motivações específicas de recuperação, notadamente a hipótese de agrupamento e o agrupamento de resultados de pesquisa. Trata o agrupamento como um serviço à recuperação de informação, distinto da classificação supervisionada e dos modelos de tópicos latentes.
Core questions
- Como a similaridade entre documentos é medida para o agrupamento?
- Como os métodos planos, como k-means, diferem do agrupamento hierárquico aglomerativo?
- Como o número de agrupamentos é escolhido?
- Como a qualidade do agrupamento é avaliada sem rótulos de verdade fundamental?
- O que a hipótese de agrupamento implica para a recuperação?
Key concepts
- agrupamento não supervisionado
- similaridade de documentos (cosseno)
- agrupamento k-means
- agrupamento hierárquico aglomerativo
- funções de critério
- hipótese de agrupamento
- avaliação interna e externa de agrupamentos
- agrupamento de resultados de pesquisa
Key theories
- Hipótese de agrupamento
- Documentos que são relevantes para a mesma consulta tendem a ser semelhantes entre si, de modo que o agrupamento pode agrupar documentos relevantes, motivando a recuperação e organização de resultados baseadas em agrupamento.
- Agrupamento plano e hierárquico
- Métodos planos, como k-means, particionam documentos em um número escolhido de agrupamentos otimizando uma função de critério, enquanto métodos aglomerativos hierárquicos constroem uma árvore aninhada de agrupamentos, com a escolha do critério afetando fortemente a qualidade do agrupamento de documentos.
Clinical relevance
O agrupamento apoia a exploração e organização de grandes conjuntos de documentos: agrupando resultados de pesquisa por subtópico, deduplicando e organizando notícias, estruturando bibliotecas digitais e fornecendo visões gerais para pesquisa exploratória. A hipótese de agrupamento também informa métodos de recuperação que exploram a similaridade de documentos.
History
O agrupamento foi aplicado à recuperação precocemente, com van Rijsbergen articulando a hipótese de agrupamento na década de 1970 como uma justificativa para a recuperação baseada em agrupamento. À medida que as coleções cresciam, métodos escaláveis como k-means e variantes de bisseção e comparações cuidadosas de critérios de agrupamento tornaram-se padrão, e o agrupamento de resultados emergiu como uma forma de organizar a saída de pesquisa na web.
Key figures
- C. J. van Rijsbergen
- George Karypis
- Christopher Manning
Related topics
Seminal works
- vanrijsbergen1979
- manning2008
- zhao2004
Frequently asked questions
- O que é a hipótese de agrupamento?
- A hipótese de agrupamento afirma que documentos relevantes para a mesma necessidade de informação tendem a ser semelhantes entre si. Se verdadeira, agrupar documentos semelhantes reúne os relevantes, o que pode ser explorado para melhorar ou organizar os resultados da recuperação.
- Como se avalia o agrupamento quando não há rótulos?
- Medidas internas avaliam a coesão e separação dos agrupamentos diretamente a partir dos dados, enquanto medidas externas comparam os agrupamentos com uma categorização conhecida quando disponível. Ambas são usadas, uma vez que o agrupamento é não supervisionado e a 'correção' depende do propósito pretendido.