Представление и взвешивание документов
Представление документа преобразует необработанный текст в структурированный набор взвешенных признаков, определяя, что считается термином и насколько каждый термин должен вносить вклад.
Definition
Представление и взвешивание документов — это процесс преобразования необработанного текста документа в вектор признаков, обычно терминов, путем токенизации и нормализации текста и присвоения каждому признаку веса, который отражает его важность в документе и во всей коллекции.
Scope
Эта тема охватывает шаги, которые преобразуют документы в доступные для поиска представления: токенизацию, нормализацию, обработку стоп-слов, стемминг и лемматизацию, а также построение векторов признаков типа «мешок слов» или n-грамм, наряду со схемами взвешивания терминов, такими как необработанная и логарифмическая частота терминов, обратная частота документа и tf-idf с нормализацией длины. Она рассматривает выбор, который формирует представление, используемое для поиска, классификации и кластеризации, оставляя модели ранжирования и латентные представления смежным темам.
Core questions
- Как необработанный текст токенизируется и нормализуется в термины?
- Каков эффект удаления стоп-слов, стемминга и лемматизации?
- Почему одна только частота термина является плохим весом, и как она преобразуется?
- Как обратная частота документа отражает важность термина в коллекции?
- Как нормализация длины позволяет сравнивать длинные и короткие документы?
Key concepts
- токенизация и нормализация
- стоп-слова
- стемминг и лемматизация
- мешок слов и n-граммы
- частота термина (необработанная и логарифмическая)
- обратная частота документа
- варианты tf-idf
- нормализация длины
Key theories
- Представление «мешок слов»
- Рассмотрение документа как неупорядоченного мультимножества терминов, игнорирующее порядок слов, дает простой, эффективный вектор признаков, который лежит в основе классического поиска, классификации и кластеризации, несмотря на отбрасывание синтаксиса.
- Схемы взвешивания tf-idf
- Сочетание компонента частоты термина (часто ослабленного) с обратной частотой документа и нормализацией длины дает веса, которые подчеркивают термины, часто встречающиеся в документе, но редкие в коллекции, с множеством задокументированных вариантов.
Clinical relevance
Выбор представления и взвешивания напрямую влияет на качество каждой последующей задачи, от ранжирования результатов поиска до фильтрации спама и кластеризации. Представления tf-idf остаются сильной, интерпретируемой базовой линией, и те же вопросы проектирования токенизации и нормализации сохраняются в современных конвейерах, которые питают обученные вложения.
History
Представление документов развивалось наряду с векторной моделью в 1960-х и 1970-х годах: Спарк Джонс представила обратную частоту документа в 1972 году, а Салтон и Бакли систематизировали варианты взвешивания терминов в 1988 году. Представление «мешок слов» и tf-idf стали стандартной основой для обработки текста в ИР и машинном обучении на протяжении десятилетий.
Key figures
- Gerard Salton
- Chris Buckley
- Karen Spärck Jones
Related topics
Seminal works
- salton1988
- sparckjones1972
- manning2008
Frequently asked questions
- Что такое модель «мешок слов»?
- Модель «мешок слов» представляет документ как набор или мультимножество содержащихся в нем терминов, игнорируя порядок слов и грамматику. Несмотря на отбрасывание информации о последовательности, она проста, эффективна и удивительно действенна для поиска, классификации и кластеризации.
- Зачем применять логарифм к частоте термина?
- Термин, появляющийся десять раз, не в десять раз важнее того, который появляется один раз. Применение логарифма к частоте термина ослабляет этот эффект, так что дополнительные вхождения добавляют постепенно меньший вес, лучше отражая, как повторение связано с релевантностью.