В чем разница между классификацией текста и кластеризацией текста?

Классификация является контролируемой: она присваивает документы предопределенным категориям, используя размеченные обучающие примеры. Кластеризация является неконтролируемой: она группирует документы по сходству без предопределенных категорий, обнаруживая структуру, а не подгоняя ее под известные метки.

Почему латентные тематические модели полезны для поиска?

Тематические и латентно-семантические модели представляют документы по основным темам, а не по точным словам, что помогает сопоставлять запросы и документы, использующие разную лексику для одной и той же концепции, и поддерживает просмотр коллекции по темам.

Представление и классификация текста

Представление и классификация текста охватывают методы преобразования документов в признаки, а также то, как эти представления поддерживают организацию коллекций по категориям, сходству и латентным темам.

Найти тему в PaperMindСкороFind papers & topics

Tools & resources

Скачать слайды

Learn & explore

ВидеоСкоро

Definition

Представление и классификация текста — это совокупность методов для преобразования документов в представления признаков и для присвоения, группировки или проецирования этих представлений, включая контролируемую категоризацию по известным классам, неконтролируемую кластеризацию и латентное тематическое или семантическое моделирование, в целях поиска и организации коллекций.

Scope

Эта область охватывает представление текста для поиска, а также неконтролируемую и контролируемую организацию коллекций документов: представление документов и взвешивание терминов, автоматическую классификацию текста по предопределенным категориям, кластеризацию текста по обнаруженным группам, а также латентно-семантические и тематические модели, которые выявляют скрытую структуру. Она рассматривает представление и организацию в той мере, в какой они поддерживают информационный поиск, опираясь на машинное обучение, но фокусируясь на ориентированном на поиск использовании этих методов, а не на общей теории машинного обучения.

Sub-topics

Core questions

Как документы преобразуются в признаки и как взвешиваются термины?
Как документы могут быть автоматически отсортированы по предопределенным категориям?
Как коллекция может быть сгруппирована в кластеры без предопределенных меток?
Как латентные тематические и семантические модели выявляют скрытую структуру в тексте?
Как эти представления улучшают поиск, просмотр и фильтрацию?

Key concepts

представление документа
взвешивание терминов (tf-idf)
классификация / категоризация текста
кластеризация текста
латентно-семантический анализ
тематические модели
выбор признаков
несоответствие словарей

Key theories

Векторное представление и взвешивание терминов: Представление документов в виде взвешенных векторов признаков, обычно по терминам с весами в стиле tf-idf, обеспечивает общую основу, на которой работают классификация, кластеризация и вычисление сходства.
Контролируемая категоризация текста: При наличии размеченных примеров классификаторы машинного обучения могут присваивать документы предопределенным категориям, при этом выбор признаков и алгоритма обучения определяет точность, как это систематизировано в литературе по категоризации текста.
Латентная семантическая и тематическая структура: Методы, такие как латентно-семантический анализ и латентное размещение Дирихле, проецируют документы в пространства меньшей размерности или распределения тем, улавливая семантические отношения и уменьшая проблему несоответствия словарей.

Clinical relevance

Эти методы лежат в основе фильтрации спама, тематической маршрутизации и фильтрации, фасетного просмотра, дедупликации и организации результатов поиска, а тематические и семантические модели поддерживают исследовательский поиск и рекомендации. Представление документов также лежит в основе перехода от разреженных векторных представлений терминов к плотным обученным встраиваниям (embeddings) в современном поиске.

History

Категоризация текста развивалась от систем, основанных на правилах, в 1980-х годах до дисциплины машинного обучения в 1990-х годах, что было систематизировано в обзоре Себастьяни 2002 года. Латентно-семантический анализ (1990) ввел снижение размерности для поиска, а латентное размещение Дирихле (2003) установило вероятностное тематическое моделирование, оба из которых сформировали способы представления семантической структуры в тексте.

Key figures

Fabrizio Sebastiani
Susan Dumais
David Blei
Christopher Manning

Seminal works

manning2008
sebastiani2002
deerwester1990
blei2003

Frequently asked questions

В чем разница между классификацией текста и кластеризацией текста?: Классификация является контролируемой: она присваивает документы предопределенным категориям, используя размеченные обучающие примеры. Кластеризация является неконтролируемой: она группирует документы по сходству без предопределенных категорий, обнаруживая структуру, а не подгоняя ее под известные метки.
Почему латентные тематические модели полезны для поиска?: Тематические и латентно-семантические модели представляют документы по основным темам, а не по точным словам, что помогает сопоставлять запросы и документы, использующие разную лексику для одной и той же концепции, и поддерживает просмотр коллекции по темам.