TF-IDF — Tần suất thuật ngữ–Nghịch đảo tần suất tài liệu
TF-IDF, được Salton và Buckley (1988) giới thiệu, là một lược đồ trọng số thuật ngữ nhằm chấm điểm mỗi từ trong một tài liệu dựa trên tần suất xuất hiện của nó trong tài liệu đó và mức độ hiếm của nó trong toàn bộ tập hợp tài liệu. Nó biến văn bản thô thành các vectơ tài liệu có trọng số, gán trọng số cao cho các thuật ngữ thường xuyên xuất hiện trong một tài liệu nhưng hiếm gặp ở những nơi khác.
Đọc toàn bộ phương pháp
Đăng nhập bằng tài khoản miễn phí để đọc phần này.
Method map
The neighbourhood of related methods — select a node to explore.
+13 more
Nguồn tài liệu
- Salton, G. & Buckley, C. (1988). Term-weighting approaches in automatic text retrieval. Information Processing & Management, 24(5), 513-523. DOI: 10.1016/0306-4573(88)90021-0 ↗
Cách trích dẫn trang này
ScholarGate. (2026, June 1). Term Frequency–Inverse Document Frequency Vectorization. ScholarGate. https://scholargate.app/vi/text-mining/tf-idf
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Phân tích Cảm xúcKhai phá văn bản↔ compare
- Phân loại văn bảnKhai phá văn bản↔ compare
- Word2VecKhai phá văn bản↔ compare
Được tham chiếu bởi
Phát hiện lỗi trên trang này? Báo cáo hoặc đề xuất chỉnh sửa →