Кластеризация текста
Кластеризация текста группирует документы в кластеры схожего содержания без предопределенных категорий, выявляя структуру в коллекции и поддерживая просмотр и поиск.
Definition
Кластеризация текста — это неконтролируемое разбиение коллекции документов на группы таким образом, чтобы документы внутри группы были более похожи друг на друга, чем на документы в других группах, с использованием меры сходства для представлений документов и без предопределенных меток.
Scope
Эта тема охватывает неконтролируемую группировку документов: методы плоского разбиения, такие как k-средних для векторов документов, иерархическую агломеративную кластеризацию, используемые меры сходства и функции критериев, а также оценку качества кластеров как внутренне, так и по отношению к внешним меткам. Она также охватывает мотивации, специфичные для поиска, в частности, гипотезу кластеризации и кластеризацию результатов поиска. Она рассматривает кластеризацию как средство информационного поиска, отличающееся от контролируемой классификации и от моделей латентных тем.
Core questions
- Как измеряется сходство между документами для кластеризации?
- Чем плоские методы, такие как k-средних, отличаются от иерархической агломеративной кластеризации?
- Как выбирается количество кластеров?
- Как оценивается качество кластера без меток истинности?
- Что подразумевает гипотеза кластеризации для поиска?
Key concepts
- неконтролируемая кластеризация
- сходство документов (косинусное)
- кластеризация методом k-средних
- иерархическая агломеративная кластеризация
- функции критериев
- гипотеза кластеризации
- внутренняя и внешняя оценка кластеров
- кластеризация результатов поиска
Key theories
- Гипотеза кластеризации
- Документы, релевантные одному и тому же запросу, как правило, похожи друг на друга, поэтому кластеризация может группировать релевантные документы вместе, что мотивирует кластерный поиск и организацию результатов.
- Плоская и иерархическая кластеризация
- Плоские методы, такие как k-средних, разбивают документы на выбранное количество кластеров путем оптимизации функции критерия, в то время как иерархические агломеративные методы строят вложенное дерево кластеров, при этом выбор критерия сильно влияет на качество кластеризации документов.
Clinical relevance
Кластеризация поддерживает исследование и организацию больших наборов документов: группировку результатов поиска по подтемам, дедупликацию и организацию новостей, структурирование цифровых библиотек и предоставление обзоров для исследовательского поиска. Гипотеза кластеризации также лежит в основе методов поиска, использующих сходство документов.
History
Кластеризация применялась к поиску на ранних этапах, когда ван Рейсберген сформулировал гипотезу кластеризации в 1970-х годах как обоснование для кластерного поиска. По мере роста коллекций масштабируемые методы, такие как k-средних и бисекционные варианты, а также тщательные сравнения критериев кластеризации стали стандартом, и кластеризация результатов появилась как способ организации вывода веб-поиска.
Key figures
- C. J. van Rijsbergen
- George Karypis
- Christopher Manning
Related topics
Seminal works
- vanrijsbergen1979
- manning2008
- zhao2004
Frequently asked questions
- Что такое гипотеза кластеризации?
- Гипотеза кластеризации утверждает, что документы, релевантные одной и той же информационной потребности, как правило, похожи друг на друга. Если это верно, группировка похожих документов объединяет релевантные, что может быть использовано для улучшения или организации результатов поиска.
- Как оценивать кластеризацию, когда нет меток?
- Внутренние меры оценивают сплоченность и разделение кластеров непосредственно по данным, в то время как внешние меры сравнивают кластеры с известной категоризацией, если таковая имеется. Используются оба подхода, поскольку кластеризация является неконтролируемой, и «правильность» зависит от предполагаемой цели.