ScholarGate
Ассистент

Кластеризация текста

Кластеризация текста группирует документы в кластеры схожего содержания без предопределенных категорий, выявляя структуру в коллекции и поддерживая просмотр и поиск.

Найти тему в PaperMindСкороFind papers & topics
Tools & resources
Скачать слайды
Learn & explore
ВидеоСкоро

Definition

Кластеризация текста — это неконтролируемое разбиение коллекции документов на группы таким образом, чтобы документы внутри группы были более похожи друг на друга, чем на документы в других группах, с использованием меры сходства для представлений документов и без предопределенных меток.

Scope

Эта тема охватывает неконтролируемую группировку документов: методы плоского разбиения, такие как k-средних для векторов документов, иерархическую агломеративную кластеризацию, используемые меры сходства и функции критериев, а также оценку качества кластеров как внутренне, так и по отношению к внешним меткам. Она также охватывает мотивации, специфичные для поиска, в частности, гипотезу кластеризации и кластеризацию результатов поиска. Она рассматривает кластеризацию как средство информационного поиска, отличающееся от контролируемой классификации и от моделей латентных тем.

Core questions

  • Как измеряется сходство между документами для кластеризации?
  • Чем плоские методы, такие как k-средних, отличаются от иерархической агломеративной кластеризации?
  • Как выбирается количество кластеров?
  • Как оценивается качество кластера без меток истинности?
  • Что подразумевает гипотеза кластеризации для поиска?

Key concepts

  • неконтролируемая кластеризация
  • сходство документов (косинусное)
  • кластеризация методом k-средних
  • иерархическая агломеративная кластеризация
  • функции критериев
  • гипотеза кластеризации
  • внутренняя и внешняя оценка кластеров
  • кластеризация результатов поиска

Key theories

Гипотеза кластеризации
Документы, релевантные одному и тому же запросу, как правило, похожи друг на друга, поэтому кластеризация может группировать релевантные документы вместе, что мотивирует кластерный поиск и организацию результатов.
Плоская и иерархическая кластеризация
Плоские методы, такие как k-средних, разбивают документы на выбранное количество кластеров путем оптимизации функции критерия, в то время как иерархические агломеративные методы строят вложенное дерево кластеров, при этом выбор критерия сильно влияет на качество кластеризации документов.

Clinical relevance

Кластеризация поддерживает исследование и организацию больших наборов документов: группировку результатов поиска по подтемам, дедупликацию и организацию новостей, структурирование цифровых библиотек и предоставление обзоров для исследовательского поиска. Гипотеза кластеризации также лежит в основе методов поиска, использующих сходство документов.

History

Кластеризация применялась к поиску на ранних этапах, когда ван Рейсберген сформулировал гипотезу кластеризации в 1970-х годах как обоснование для кластерного поиска. По мере роста коллекций масштабируемые методы, такие как k-средних и бисекционные варианты, а также тщательные сравнения критериев кластеризации стали стандартом, и кластеризация результатов появилась как способ организации вывода веб-поиска.

Key figures

  • C. J. van Rijsbergen
  • George Karypis
  • Christopher Manning

Related topics

Seminal works

  • vanrijsbergen1979
  • manning2008
  • zhao2004

Frequently asked questions

Что такое гипотеза кластеризации?
Гипотеза кластеризации утверждает, что документы, релевантные одной и той же информационной потребности, как правило, похожи друг на друга. Если это верно, группировка похожих документов объединяет релевантные, что может быть использовано для улучшения или организации результатов поиска.
Как оценивать кластеризацию, когда нет меток?
Внутренние меры оценивают сплоченность и разделение кластеров непосредственно по данным, в то время как внешние меры сравнивают кластеры с известной категоризацией, если таковая имеется. Используются оба подхода, поскольку кластеризация является неконтролируемой, и «правильность» зависит от предполагаемой цели.

Methods for this concept

Related concepts