Process / pipeline

TF-IDF — частота термов-обратная частота документов

TF-IDF, предложенный Сэлтоном и Бакли (Salton and Buckley, 1988), представляет собой схему взвешивания термов, которая оценивает каждое слово в документе по тому, как часто оно там встречается и насколько оно редко встречается во всей коллекции. Он преобразует необработанный текст во взвешенные векторы документов, присваивая большой вес терминам, которые часто встречаются в одном документе, но редко — в других.

Открыть в MethodMindСкороВидеоСкороDownload slides

Читать метод полностью

Только для участников

Войдите с бесплатным аккаунтом, чтобы прочитать этот раздел.

Войти

Method map

The neighbourhood of related methods — select a node to explore.

TF-IDF

Анализ тональности Классификация текстов Word2Vec Анализ совместной встреч…Doc2Vec Кластеризация документов Детектирование фейковых…Встраивания GloVe Извлечение ключевых слов Лексическое разнообразие

+13 more

Источники

Salton, G. & Buckley, C. (1988). Term-weighting approaches in automatic text retrieval. Information Processing & Management, 24(5), 513-523. DOI: 10.1016/0306-4573(88)90021-0 ↗

Как цитировать эту страницу

ScholarGate. (2026, June 1). Term Frequency–Inverse Document Frequency Vectorization. ScholarGate. https://scholargate.app/ru/text-mining/tf-idf

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Анализ тональностиИнтеллектуальный анализ текста↔ compare
Классификация текстовИнтеллектуальный анализ текста↔ compare
Word2VecИнтеллектуальный анализ текста↔ compare

Compare side by side →

Упоминается в

Анализ совместной встречаемости Doc2Vec Кластеризация документов Детектирование фейковых новостей Встраивания GloVe Извлечение ключевых слов Лексическое разнообразие Оценка лингвистической приемлемости Морфологический анализ Многодокументное реферирование N-граммная языковая модель Тематическое моделирование на основе НМФ Анализ удобочитаемости Семантическое сходство Анализ тональности Обработка естественного языка (NLP) в социальных сетях Классификация текстов Дедупликация текстов Анализ частоты текста Регрессия на тексте Сегментация текста Тематическое моделирование Word2Vec

Нашли ошибку на этой странице? Сообщите о ней или предложите исправление →

Читать метод полностью

Method map

Источники

Как цитировать эту страницу

Связанные методы

Which method?

Упоминается в