Biểu diễn và Phân loại Văn bản
Biểu diễn và phân loại văn bản bao gồm cách các tài liệu được chuyển đổi thành các đặc trưng và cách các biểu diễn đó hỗ trợ việc tổ chức các bộ sưu tập theo danh mục, mức độ tương đồng và các chủ đề tiềm ẩn.
Definition
Biểu diễn và phân loại văn bản là tập hợp các phương pháp để chuyển đổi tài liệu thành các biểu diễn đặc trưng và để gán, nhóm hoặc chiếu các biểu diễn đó, bao gồm phân loại có giám sát thành các lớp đã biết, phân cụm không giám sát, và mô hình hóa chủ đề hoặc ngữ nghĩa tiềm ẩn, nhằm phục vụ việc truy xuất và tổ chức bộ sưu tập.
Scope
Lĩnh vực này bao gồm việc biểu diễn văn bản để truy xuất và tổ chức các bộ sưu tập tài liệu có giám sát và không giám sát: biểu diễn tài liệu và trọng số thuật ngữ, phân loại văn bản tự động thành các danh mục được xác định trước, phân cụm văn bản thành các nhóm được khám phá, và các mô hình ngữ nghĩa tiềm ẩn và chủ đề nhằm khám phá cấu trúc ẩn. Nó xem xét biểu diễn và tổ chức khi chúng hỗ trợ truy xuất thông tin, dựa trên học máy trong khi tập trung vào việc sử dụng các phương pháp này theo định hướng truy xuất hơn là lý thuyết học máy đa năng.
Sub-topics
Core questions
- Các tài liệu được chuyển đổi thành các đặc trưng như thế nào, và các thuật ngữ được gán trọng số ra sao?
- Làm thế nào để các tài liệu có thể được tự động sắp xếp vào các danh mục được xác định trước?
- Làm thế nào để một bộ sưu tập có thể được nhóm thành các cụm mà không có nhãn được xác định trước?
- Các mô hình chủ đề và ngữ nghĩa tiềm ẩn tiết lộ cấu trúc ẩn trong văn bản như thế nào?
- Các biểu diễn này cải thiện việc truy xuất, duyệt và lọc như thế nào?
Key concepts
- biểu diễn tài liệu
- trọng số thuật ngữ (tf-idf)
- phân loại văn bản
- phân cụm văn bản
- phân tích ngữ nghĩa tiềm ẩn
- mô hình chủ đề
- lựa chọn đặc trưng
- không khớp từ vựng
Key theories
- Biểu diễn vectơ và trọng số thuật ngữ
- Biểu diễn tài liệu dưới dạng các vectơ đặc trưng có trọng số, thường là trên các thuật ngữ với trọng số kiểu tf-idf, cung cấp nền tảng chung mà trên đó phân loại, phân cụm và tính toán độ tương đồng đều hoạt động.
- Phân loại văn bản có giám sát
- Với các ví dụ được gán nhãn, các bộ phân loại học máy có thể gán tài liệu vào các danh mục được xác định trước, với việc lựa chọn các đặc trưng và bộ học quyết định độ chính xác, như được hệ thống hóa trong tài liệu phân loại văn bản.
- Cấu trúc ngữ nghĩa và chủ đề tiềm ẩn
- Các phương pháp như phân tích ngữ nghĩa tiềm ẩn và phân bổ Dirichlet tiềm ẩn chiếu tài liệu vào các không gian chiều thấp hơn hoặc phân phối chủ đề, nắm bắt các mối quan hệ ngữ nghĩa và giảm thiểu sự không khớp từ vựng.
Clinical relevance
Các phương pháp này cung cấp năng lượng cho việc lọc thư rác, định tuyến và lọc dựa trên chủ đề, duyệt theo khía cạnh, loại bỏ trùng lặp và tổ chức kết quả tìm kiếm, đồng thời các mô hình chủ đề và ngữ nghĩa hỗ trợ tìm kiếm thăm dò và đề xuất. Biểu diễn tài liệu cũng là nền tảng cho sự chuyển đổi từ các vectơ thuật ngữ thưa thớt sang các nhúng học được dày đặc trong truy xuất hiện đại.
History
Phân loại văn bản phát triển từ các hệ thống dựa trên quy tắc vào những năm 1980 thành một lĩnh vực học máy trong suốt những năm 1990, được củng cố trong khảo sát của Sebastiani năm 2002. Phân tích ngữ nghĩa tiềm ẩn (1990) đã giới thiệu việc giảm chiều cho truy xuất, và phân bổ Dirichlet tiềm ẩn (2003) đã thiết lập mô hình hóa chủ đề xác suất, cả hai đều định hình cách cấu trúc ngữ nghĩa trong văn bản được biểu diễn.
Key figures
- Fabrizio Sebastiani
- Susan Dumais
- David Blei
- Christopher Manning
Related topics
Seminal works
- manning2008
- sebastiani2002
- deerwester1990
- blei2003
Frequently asked questions
- Sự khác biệt giữa phân loại văn bản và phân cụm văn bản là gì?
- Phân loại là có giám sát: nó gán tài liệu vào các danh mục được xác định trước bằng cách sử dụng các ví dụ huấn luyện được gán nhãn. Phân cụm là không giám sát: nó nhóm các tài liệu theo độ tương đồng mà không có các danh mục được xác định trước, khám phá cấu trúc thay vì điều chỉnh nó theo các nhãn đã biết.
- Tại sao các mô hình chủ đề tiềm ẩn hữu ích cho việc truy xuất?
- Các mô hình chủ đề và ngữ nghĩa tiềm ẩn biểu diễn tài liệu bằng các chủ đề cơ bản thay vì các từ chính xác, điều này giúp khớp các truy vấn và tài liệu sử dụng từ vựng khác nhau cho cùng một khái niệm và hỗ trợ duyệt một bộ sưu tập theo chủ đề.