ScholarGate
Trợ lý

Phân cụm văn bản

Phân cụm văn bản nhóm các tài liệu thành các cụm có nội dung tương tự mà không cần các danh mục được xác định trước, tiết lộ cấu trúc trong một bộ sưu tập và hỗ trợ duyệt và truy xuất.

Tìm chủ đề với PaperMindSắp ra mắtFind papers & topics
Tools & resources
Tải xuống bản trình chiếu
Learn & explore
VideoSắp ra mắt

Definition

Phân cụm văn bản là việc phân vùng không giám sát một bộ sưu tập tài liệu thành các nhóm sao cho các tài liệu trong một nhóm tương tự nhau hơn so với các tài liệu trong các nhóm khác, sử dụng một phép đo độ tương đồng trên các biểu diễn tài liệu và không có nhãn được xác định trước.

Scope

Chủ đề này bao gồm việc nhóm tài liệu không giám sát: các phương pháp phân vùng phẳng như k-means trên các vectơ tài liệu, phân cụm phân cấp kết tụ, các phép đo độ tương đồng và các hàm tiêu chí liên quan, và việc đánh giá chất lượng cụm cả nội bộ và so với các nhãn bên ngoài. Nó cũng bao gồm các động lực cụ thể của truy xuất, đặc biệt là giả thuyết cụm và phân cụm kết quả tìm kiếm. Nó coi phân cụm như một công cụ phục vụ truy xuất thông tin, khác biệt với phân loại có giám sát và các mô hình chủ đề tiềm ẩn.

Core questions

  • Độ tương đồng giữa các tài liệu được đo lường như thế nào để phân cụm?
  • Các phương pháp phẳng như k-means khác với phân cụm phân cấp kết tụ như thế nào?
  • Số lượng cụm được chọn như thế nào?
  • Chất lượng cụm được đánh giá như thế nào khi không có nhãn thực tế?
  • Giả thuyết cụm ngụ ý gì đối với truy xuất?

Key concepts

  • phân cụm không giám sát
  • độ tương đồng tài liệu (cosine)
  • phân cụm k-means
  • phân cụm phân cấp kết tụ
  • hàm tiêu chí
  • giả thuyết cụm
  • đánh giá cụm nội bộ và bên ngoài
  • phân cụm kết quả tìm kiếm

Key theories

Giả thuyết cụm
Các tài liệu liên quan đến cùng một truy vấn có xu hướng tương tự nhau, vì vậy phân cụm có thể nhóm các tài liệu liên quan lại với nhau, thúc đẩy truy xuất dựa trên cụm và tổ chức kết quả.
Phân cụm phẳng và phân cấp
Các phương pháp phẳng như k-means phân vùng tài liệu thành một số cụm đã chọn bằng cách tối ưu hóa một hàm tiêu chí, trong khi các phương pháp phân cấp kết tụ xây dựng một cây cụm lồng nhau, với việc lựa chọn tiêu chí ảnh hưởng mạnh đến chất lượng phân cụm tài liệu.

Clinical relevance

Phân cụm hỗ trợ khám phá và tổ chức các bộ tài liệu lớn: nhóm kết quả tìm kiếm theo chủ đề phụ, loại bỏ trùng lặp và tổ chức tin tức, cấu trúc thư viện số và cung cấp tổng quan cho tìm kiếm thăm dò. Giả thuyết cụm cũng cung cấp thông tin cho các phương pháp truy xuất khai thác sự tương đồng của tài liệu.

History

Phân cụm đã được áp dụng sớm vào truy xuất, với van Rijsbergen đã trình bày giả thuyết cụm vào những năm 1970 như một lý do cho việc truy xuất dựa trên cụm. Khi các bộ sưu tập phát triển, các phương pháp có thể mở rộng như k-means và các biến thể phân đôi cùng với việc so sánh cẩn thận các tiêu chí phân cụm đã trở thành tiêu chuẩn, và phân cụm kết quả đã nổi lên như một cách để tổ chức đầu ra tìm kiếm trên web.

Key figures

  • C. J. van Rijsbergen
  • George Karypis
  • Christopher Manning

Related topics

Seminal works

  • vanrijsbergen1979
  • manning2008
  • zhao2004

Frequently asked questions

Giả thuyết cụm là gì?
Giả thuyết cụm nói rằng các tài liệu liên quan đến cùng một nhu cầu thông tin có xu hướng tương tự nhau. Nếu đúng, việc nhóm các tài liệu tương tự sẽ đưa các tài liệu liên quan lại với nhau, điều này có thể được khai thác để cải thiện hoặc tổ chức kết quả truy xuất.
Làm thế nào để đánh giá phân cụm khi không có nhãn?
Các phép đo nội bộ đánh giá sự gắn kết và tách biệt của cụm trực tiếp từ dữ liệu, trong khi các phép đo bên ngoài so sánh các cụm với một phân loại đã biết khi có sẵn. Cả hai đều được sử dụng, vì phân cụm là không giám sát và 'tính đúng đắn' phụ thuộc vào mục đích dự định.

Methods for this concept

Related concepts