ScholarGate
Ассистент

Представление и классификация текста

Представление и классификация текста охватывают методы преобразования документов в признаки, а также то, как эти представления поддерживают организацию коллекций по категориям, сходству и латентным темам.

Найти тему в PaperMindСкороFind papers & topics
Tools & resources
Скачать слайды
Learn & explore
ВидеоСкоро

Definition

Представление и классификация текста — это совокупность методов для преобразования документов в представления признаков и для присвоения, группировки или проецирования этих представлений, включая контролируемую категоризацию по известным классам, неконтролируемую кластеризацию и латентное тематическое или семантическое моделирование, в целях поиска и организации коллекций.

Scope

Эта область охватывает представление текста для поиска, а также неконтролируемую и контролируемую организацию коллекций документов: представление документов и взвешивание терминов, автоматическую классификацию текста по предопределенным категориям, кластеризацию текста по обнаруженным группам, а также латентно-семантические и тематические модели, которые выявляют скрытую структуру. Она рассматривает представление и организацию в той мере, в какой они поддерживают информационный поиск, опираясь на машинное обучение, но фокусируясь на ориентированном на поиск использовании этих методов, а не на общей теории машинного обучения.

Sub-topics

Core questions

  • Как документы преобразуются в признаки и как взвешиваются термины?
  • Как документы могут быть автоматически отсортированы по предопределенным категориям?
  • Как коллекция может быть сгруппирована в кластеры без предопределенных меток?
  • Как латентные тематические и семантические модели выявляют скрытую структуру в тексте?
  • Как эти представления улучшают поиск, просмотр и фильтрацию?

Key concepts

  • представление документа
  • взвешивание терминов (tf-idf)
  • классификация / категоризация текста
  • кластеризация текста
  • латентно-семантический анализ
  • тематические модели
  • выбор признаков
  • несоответствие словарей

Key theories

Векторное представление и взвешивание терминов
Представление документов в виде взвешенных векторов признаков, обычно по терминам с весами в стиле tf-idf, обеспечивает общую основу, на которой работают классификация, кластеризация и вычисление сходства.
Контролируемая категоризация текста
При наличии размеченных примеров классификаторы машинного обучения могут присваивать документы предопределенным категориям, при этом выбор признаков и алгоритма обучения определяет точность, как это систематизировано в литературе по категоризации текста.
Латентная семантическая и тематическая структура
Методы, такие как латентно-семантический анализ и латентное размещение Дирихле, проецируют документы в пространства меньшей размерности или распределения тем, улавливая семантические отношения и уменьшая проблему несоответствия словарей.

Clinical relevance

Эти методы лежат в основе фильтрации спама, тематической маршрутизации и фильтрации, фасетного просмотра, дедупликации и организации результатов поиска, а тематические и семантические модели поддерживают исследовательский поиск и рекомендации. Представление документов также лежит в основе перехода от разреженных векторных представлений терминов к плотным обученным встраиваниям (embeddings) в современном поиске.

History

Категоризация текста развивалась от систем, основанных на правилах, в 1980-х годах до дисциплины машинного обучения в 1990-х годах, что было систематизировано в обзоре Себастьяни 2002 года. Латентно-семантический анализ (1990) ввел снижение размерности для поиска, а латентное размещение Дирихле (2003) установило вероятностное тематическое моделирование, оба из которых сформировали способы представления семантической структуры в тексте.

Key figures

  • Fabrizio Sebastiani
  • Susan Dumais
  • David Blei
  • Christopher Manning

Related topics

Seminal works

  • manning2008
  • sebastiani2002
  • deerwester1990
  • blei2003

Frequently asked questions

В чем разница между классификацией текста и кластеризацией текста?
Классификация является контролируемой: она присваивает документы предопределенным категориям, используя размеченные обучающие примеры. Кластеризация является неконтролируемой: она группирует документы по сходству без предопределенных категорий, обнаруживая структуру, а не подгоняя ее под известные метки.
Почему латентные тематические модели полезны для поиска?
Тематические и латентно-семантические модели представляют документы по основным темам, а не по точным словам, что помогает сопоставлять запросы и документы, использующие разную лексику для одной и той же концепции, и поддерживает просмотр коллекции по темам.

Methods for this concept

Related concepts