Process / pipeline

TF-IDF — Tần suất thuật ngữ–Nghịch đảo tần suất tài liệu

TF-IDF, được Salton và Buckley (1988) giới thiệu, là một lược đồ trọng số thuật ngữ nhằm chấm điểm mỗi từ trong một tài liệu dựa trên tần suất xuất hiện của nó trong tài liệu đó và mức độ hiếm của nó trong toàn bộ tập hợp tài liệu. Nó biến văn bản thô thành các vectơ tài liệu có trọng số, gán trọng số cao cho các thuật ngữ thường xuyên xuất hiện trong một tài liệu nhưng hiếm gặp ở những nơi khác.

Mở trong MethodMindSắp ra mắtVideoSắp ra mắtDownload slides

Đọc toàn bộ phương pháp

Chỉ dành cho thành viên

Đăng nhập bằng tài khoản miễn phí để đọc phần này.

Đăng nhập

Method map

The neighbourhood of related methods — select a node to explore.

TF-IDF

Phân tích Cảm xúc Phân loại văn bản Word2Vec Phân tích đồng xuất hiện Doc2Vec Phân cụm tài liệu Phát hiện tin giả GloVe Embeddings Trích xuất từ khóa Độ đa dạng từ vựng

+13 more

Nguồn tài liệu

Salton, G. & Buckley, C. (1988). Term-weighting approaches in automatic text retrieval. Information Processing & Management, 24(5), 513-523. DOI: 10.1016/0306-4573(88)90021-0 ↗

Cách trích dẫn trang này

ScholarGate. (2026, June 1). Term Frequency–Inverse Document Frequency Vectorization. ScholarGate. https://scholargate.app/vi/text-mining/tf-idf

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Phân tích Cảm xúcKhai phá văn bản↔ compare
Phân loại văn bảnKhai phá văn bản↔ compare
Word2VecKhai phá văn bản↔ compare

Compare side by side →

Phát hiện lỗi trên trang này? Báo cáo hoặc đề xuất chỉnh sửa →

Đọc toàn bộ phương pháp

Method map

Nguồn tài liệu

Cách trích dẫn trang này

Phương pháp liên quan

Which method?

Được tham chiếu bởi