Представление и классификация текста
Представление и классификация текста охватывают методы преобразования документов в признаки, а также то, как эти представления поддерживают организацию коллекций по категориям, сходству и латентным темам.
Definition
Представление и классификация текста — это совокупность методов для преобразования документов в представления признаков и для присвоения, группировки или проецирования этих представлений, включая контролируемую категоризацию по известным классам, неконтролируемую кластеризацию и латентное тематическое или семантическое моделирование, в целях поиска и организации коллекций.
Scope
Эта область охватывает представление текста для поиска, а также неконтролируемую и контролируемую организацию коллекций документов: представление документов и взвешивание терминов, автоматическую классификацию текста по предопределенным категориям, кластеризацию текста по обнаруженным группам, а также латентно-семантические и тематические модели, которые выявляют скрытую структуру. Она рассматривает представление и организацию в той мере, в какой они поддерживают информационный поиск, опираясь на машинное обучение, но фокусируясь на ориентированном на поиск использовании этих методов, а не на общей теории машинного обучения.
Sub-topics
Core questions
- Как документы преобразуются в признаки и как взвешиваются термины?
- Как документы могут быть автоматически отсортированы по предопределенным категориям?
- Как коллекция может быть сгруппирована в кластеры без предопределенных меток?
- Как латентные тематические и семантические модели выявляют скрытую структуру в тексте?
- Как эти представления улучшают поиск, просмотр и фильтрацию?
Key concepts
- представление документа
- взвешивание терминов (tf-idf)
- классификация / категоризация текста
- кластеризация текста
- латентно-семантический анализ
- тематические модели
- выбор признаков
- несоответствие словарей
Key theories
- Векторное представление и взвешивание терминов
- Представление документов в виде взвешенных векторов признаков, обычно по терминам с весами в стиле tf-idf, обеспечивает общую основу, на которой работают классификация, кластеризация и вычисление сходства.
- Контролируемая категоризация текста
- При наличии размеченных примеров классификаторы машинного обучения могут присваивать документы предопределенным категориям, при этом выбор признаков и алгоритма обучения определяет точность, как это систематизировано в литературе по категоризации текста.
- Латентная семантическая и тематическая структура
- Методы, такие как латентно-семантический анализ и латентное размещение Дирихле, проецируют документы в пространства меньшей размерности или распределения тем, улавливая семантические отношения и уменьшая проблему несоответствия словарей.
Clinical relevance
Эти методы лежат в основе фильтрации спама, тематической маршрутизации и фильтрации, фасетного просмотра, дедупликации и организации результатов поиска, а тематические и семантические модели поддерживают исследовательский поиск и рекомендации. Представление документов также лежит в основе перехода от разреженных векторных представлений терминов к плотным обученным встраиваниям (embeddings) в современном поиске.
History
Категоризация текста развивалась от систем, основанных на правилах, в 1980-х годах до дисциплины машинного обучения в 1990-х годах, что было систематизировано в обзоре Себастьяни 2002 года. Латентно-семантический анализ (1990) ввел снижение размерности для поиска, а латентное размещение Дирихле (2003) установило вероятностное тематическое моделирование, оба из которых сформировали способы представления семантической структуры в тексте.
Key figures
- Fabrizio Sebastiani
- Susan Dumais
- David Blei
- Christopher Manning
Related topics
Seminal works
- manning2008
- sebastiani2002
- deerwester1990
- blei2003
Frequently asked questions
- В чем разница между классификацией текста и кластеризацией текста?
- Классификация является контролируемой: она присваивает документы предопределенным категориям, используя размеченные обучающие примеры. Кластеризация является неконтролируемой: она группирует документы по сходству без предопределенных категорий, обнаруживая структуру, а не подгоняя ее под известные метки.
- Почему латентные тематические модели полезны для поиска?
- Тематические и латентно-семантические модели представляют документы по основным темам, а не по точным словам, что помогает сопоставлять запросы и документы, использующие разную лексику для одной и той же концепции, и поддерживает просмотр коллекции по темам.