Process / pipeline

TF-IDF — Tần suất thuật ngữ–Nghịch đảo tần suất tài liệu

TF-IDF, được Salton và Buckley (1988) giới thiệu, là một lược đồ trọng số thuật ngữ nhằm chấm điểm mỗi từ trong một tài liệu dựa trên tần suất xuất hiện của nó trong tài liệu đó và mức độ hiếm của nó trong toàn bộ tập hợp tài liệu. Nó biến văn bản thô thành các vectơ tài liệu có trọng số, gán trọng số cao cho các thuật ngữ thường xuyên xuất hiện trong một tài liệu nhưng hiếm gặp ở những nơi khác.

Mở trong MethodMindSắp ra mắtVideoSắp ra mắtDownload slides

Đọc toàn bộ phương pháp

Chỉ dành cho thành viên

Đăng nhập bằng tài khoản miễn phí để đọc phần này.

Đăng nhập

Method map

The neighbourhood of related methods — select a node to explore.

+13 more

Nguồn tài liệu

  1. Salton, G. & Buckley, C. (1988). Term-weighting approaches in automatic text retrieval. Information Processing & Management, 24(5), 513-523. DOI: 10.1016/0306-4573(88)90021-0

Cách trích dẫn trang này

ScholarGate. (2026, June 1). Term Frequency–Inverse Document Frequency Vectorization. ScholarGate. https://scholargate.app/vi/text-mining/tf-idf

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Được tham chiếu bởi

ScholarGateTF-IDF (Term Frequency–Inverse Document Frequency Vectorization). Truy cập ngày 2026-06-15 từ https://scholargate.app/vi/text-mining/tf-idf · Bộ dữ liệu: https://doi.org/10.5281/zenodo.20539026