ScholarGate
Ассистент

Представление и взвешивание документов

Представление документа преобразует необработанный текст в структурированный набор взвешенных признаков, определяя, что считается термином и насколько каждый термин должен вносить вклад.

Найти тему в PaperMindСкороFind papers & topics
Tools & resources
Скачать слайды
Learn & explore
ВидеоСкоро

Definition

Представление и взвешивание документов — это процесс преобразования необработанного текста документа в вектор признаков, обычно терминов, путем токенизации и нормализации текста и присвоения каждому признаку веса, который отражает его важность в документе и во всей коллекции.

Scope

Эта тема охватывает шаги, которые преобразуют документы в доступные для поиска представления: токенизацию, нормализацию, обработку стоп-слов, стемминг и лемматизацию, а также построение векторов признаков типа «мешок слов» или n-грамм, наряду со схемами взвешивания терминов, такими как необработанная и логарифмическая частота терминов, обратная частота документа и tf-idf с нормализацией длины. Она рассматривает выбор, который формирует представление, используемое для поиска, классификации и кластеризации, оставляя модели ранжирования и латентные представления смежным темам.

Core questions

  • Как необработанный текст токенизируется и нормализуется в термины?
  • Каков эффект удаления стоп-слов, стемминга и лемматизации?
  • Почему одна только частота термина является плохим весом, и как она преобразуется?
  • Как обратная частота документа отражает важность термина в коллекции?
  • Как нормализация длины позволяет сравнивать длинные и короткие документы?

Key concepts

  • токенизация и нормализация
  • стоп-слова
  • стемминг и лемматизация
  • мешок слов и n-граммы
  • частота термина (необработанная и логарифмическая)
  • обратная частота документа
  • варианты tf-idf
  • нормализация длины

Key theories

Представление «мешок слов»
Рассмотрение документа как неупорядоченного мультимножества терминов, игнорирующее порядок слов, дает простой, эффективный вектор признаков, который лежит в основе классического поиска, классификации и кластеризации, несмотря на отбрасывание синтаксиса.
Схемы взвешивания tf-idf
Сочетание компонента частоты термина (часто ослабленного) с обратной частотой документа и нормализацией длины дает веса, которые подчеркивают термины, часто встречающиеся в документе, но редкие в коллекции, с множеством задокументированных вариантов.

Clinical relevance

Выбор представления и взвешивания напрямую влияет на качество каждой последующей задачи, от ранжирования результатов поиска до фильтрации спама и кластеризации. Представления tf-idf остаются сильной, интерпретируемой базовой линией, и те же вопросы проектирования токенизации и нормализации сохраняются в современных конвейерах, которые питают обученные вложения.

History

Представление документов развивалось наряду с векторной моделью в 1960-х и 1970-х годах: Спарк Джонс представила обратную частоту документа в 1972 году, а Салтон и Бакли систематизировали варианты взвешивания терминов в 1988 году. Представление «мешок слов» и tf-idf стали стандартной основой для обработки текста в ИР и машинном обучении на протяжении десятилетий.

Key figures

  • Gerard Salton
  • Chris Buckley
  • Karen Spärck Jones

Related topics

Seminal works

  • salton1988
  • sparckjones1972
  • manning2008

Frequently asked questions

Что такое модель «мешок слов»?
Модель «мешок слов» представляет документ как набор или мультимножество содержащихся в нем терминов, игнорируя порядок слов и грамматику. Несмотря на отбрасывание информации о последовательности, она проста, эффективна и удивительно действенна для поиска, классификации и кластеризации.
Зачем применять логарифм к частоте термина?
Термин, появляющийся десять раз, не в десять раз важнее того, который появляется один раз. Применение логарифма к частоте термина ослабляет этот эффект, так что дополнительные вхождения добавляют постепенно меньший вес, лучше отражая, как повторение связано с релевантностью.

Methods for this concept

Related concepts