Что такое модель «мешок слов»?

Модель «мешок слов» представляет документ как набор или мультимножество содержащихся в нем терминов, игнорируя порядок слов и грамматику. Несмотря на отбрасывание информации о последовательности, она проста, эффективна и удивительно действенна для поиска, классификации и кластеризации.

Зачем применять логарифм к частоте термина?

Термин, появляющийся десять раз, не в десять раз важнее того, который появляется один раз. Применение логарифма к частоте термина ослабляет этот эффект, так что дополнительные вхождения добавляют постепенно меньший вес, лучше отражая, как повторение связано с релевантностью.

Представление и взвешивание документов

Представление документа преобразует необработанный текст в структурированный набор взвешенных признаков, определяя, что считается термином и насколько каждый термин должен вносить вклад.

Найти тему в PaperMindСкороFind papers & topics

Tools & resources

Скачать слайды

Learn & explore

ВидеоСкоро

Definition

Представление и взвешивание документов — это процесс преобразования необработанного текста документа в вектор признаков, обычно терминов, путем токенизации и нормализации текста и присвоения каждому признаку веса, который отражает его важность в документе и во всей коллекции.

Scope

Эта тема охватывает шаги, которые преобразуют документы в доступные для поиска представления: токенизацию, нормализацию, обработку стоп-слов, стемминг и лемматизацию, а также построение векторов признаков типа «мешок слов» или n-грамм, наряду со схемами взвешивания терминов, такими как необработанная и логарифмическая частота терминов, обратная частота документа и tf-idf с нормализацией длины. Она рассматривает выбор, который формирует представление, используемое для поиска, классификации и кластеризации, оставляя модели ранжирования и латентные представления смежным темам.

Core questions

Как необработанный текст токенизируется и нормализуется в термины?
Каков эффект удаления стоп-слов, стемминга и лемматизации?
Почему одна только частота термина является плохим весом, и как она преобразуется?
Как обратная частота документа отражает важность термина в коллекции?
Как нормализация длины позволяет сравнивать длинные и короткие документы?

Key concepts

токенизация и нормализация
стоп-слова
стемминг и лемматизация
мешок слов и n-граммы
частота термина (необработанная и логарифмическая)
обратная частота документа
варианты tf-idf
нормализация длины

Key theories

Представление «мешок слов»: Рассмотрение документа как неупорядоченного мультимножества терминов, игнорирующее порядок слов, дает простой, эффективный вектор признаков, который лежит в основе классического поиска, классификации и кластеризации, несмотря на отбрасывание синтаксиса.
Схемы взвешивания tf-idf: Сочетание компонента частоты термина (часто ослабленного) с обратной частотой документа и нормализацией длины дает веса, которые подчеркивают термины, часто встречающиеся в документе, но редкие в коллекции, с множеством задокументированных вариантов.

Clinical relevance

Выбор представления и взвешивания напрямую влияет на качество каждой последующей задачи, от ранжирования результатов поиска до фильтрации спама и кластеризации. Представления tf-idf остаются сильной, интерпретируемой базовой линией, и те же вопросы проектирования токенизации и нормализации сохраняются в современных конвейерах, которые питают обученные вложения.

History

Представление документов развивалось наряду с векторной моделью в 1960-х и 1970-х годах: Спарк Джонс представила обратную частоту документа в 1972 году, а Салтон и Бакли систематизировали варианты взвешивания терминов в 1988 году. Представление «мешок слов» и tf-idf стали стандартной основой для обработки текста в ИР и машинном обучении на протяжении десятилетий.

Key figures

Gerard Salton
Chris Buckley
Karen Spärck Jones

Seminal works

salton1988
sparckjones1972
manning2008

Frequently asked questions

Что такое модель «мешок слов»?: Модель «мешок слов» представляет документ как набор или мультимножество содержащихся в нем терминов, игнорируя порядок слов и грамматику. Несмотря на отбрасывание информации о последовательности, она проста, эффективна и удивительно действенна для поиска, классификации и кластеризации.
Зачем применять логарифм к частоте термина?: Термин, появляющийся десять раз, не в десять раз важнее того, который появляется один раз. Применение логарифма к частоте термина ослабляет этот эффект, так что дополнительные вхождения добавляют постепенно меньший вес, лучше отражая, как повторение связано с релевантностью.