Mô hình hóa chủ đề và Khai thác văn bản
Mô hình hóa chủ đề đọc một kho ngữ liệu theo cách mà một người đọc lướt nhanh có thể làm, sắp xếp các từ của nó thành các cụm từ đồng xuất hiện lặp đi lặp lại thường trông giống như các chủ đề. Nó và các phương pháp khai thác văn bản liên quan cho phép các học giả khảo sát các bộ sưu tập khổng lồ, nhưng các mẫu mà chúng làm nổi bật phải được diễn giải một cách cẩn thận.
Definition
Việc sử dụng các phương pháp thống kê không giám sát — đặc biệt là các mô hình chủ đề xác suất — và các kỹ thuật khai thác văn bản liên quan để khám phá cấu trúc chủ đề và từ vựng tiềm ẩn trên các kho ngữ liệu nhân văn lớn.
Scope
Bao gồm các phương pháp không giám sát để khám phá cấu trúc trong các bộ sưu tập văn bản lớn, đặc biệt là các mô hình chủ đề xác suất như Phân bổ Dirichlet tiềm ẩn (Latent Dirichlet Allocation), và các kỹ thuật khai thác văn bản rộng hơn để trích xuất các mẫu và xu hướng. Bao gồm cách các nhà nhân văn học sử dụng, diễn giải và phê bình các phương pháp này. Khác biệt với xử lý ngôn ngữ tự nhiên như một lĩnh vực kỹ thuật; trọng tâm ở đây là diễn giải nhân văn.
Core questions
- Các cụm mà mô hình chủ đề tạo ra là gì, và chúng có thực sự là các chủ đề không?
- Nên chọn số lượng chủ đề và các tham số mô hình như thế nào?
- Làm thế nào để xác thực và diễn giải đầu ra của mô hình chủ đề một cách có trách nhiệm?
- Các mẫu khai thác văn bản cho phép người ta đưa ra tuyên bố gì về một kho ngữ liệu?
Key concepts
- Phân bổ Dirichlet tiềm ẩn
- Chủ đề tiềm ẩn
- Phân phối tài liệu-chủ đề
- Học không giám sát
- Diễn giải mô hình
Key theories
- Phân bổ Dirichlet tiềm ẩn
- Blei, Ng, và Jordan đã giới thiệu LDA, một mô hình xác suất sinh thành biểu diễn các tài liệu dưới dạng hỗn hợp các chủ đề tiềm ẩn, mỗi chủ đề là một phân phối trên các từ.
- Các mô hình chủ đề xác suất như một công cụ khám phá
- Blei đã định hình các mô hình chủ đề như những công cụ để khám phá và tổ chức các kho lưu trữ lớn, làm nổi bật cấu trúc chủ đề mà không cần giám sát.
- Các chủ đề như các cấu trúc diễn giải
- Các nhà nhân văn học như Jockers đã áp dụng mô hình hóa chủ đề vào các kho ngữ liệu văn học, trong khi các nhà phê bình như Schmidt cảnh báo rằng các chủ đề là các tạo tác thống kê đòi hỏi sự diễn giải cẩn thận, hoài nghi.
History
LDA được giới thiệu vào năm 2003 và nhanh chóng được áp dụng rộng rãi trong các ngành khoa học. Khoảng năm 2010, các nhà nhân văn học bắt đầu áp dụng mô hình hóa chủ đề vào các kho ngữ liệu văn học và lịch sử; Macroanalysis (2013) của Jockers là một ví dụ nổi bật, trong khi bài phê bình năm 2012 của Schmidt và các công trình khác đã đặt ra câu hỏi về cách diễn giải đầu ra mô hình một cách có trách nhiệm.
Debates
- Các chủ đề có ý nghĩa hay chỉ là tạo tác?
- Liệu các cụm từ được tạo ra bởi các mô hình chủ đề có tương ứng với các chủ đề có thể diễn giải được hay chỉ là các tạo tác thống kê được định hình bởi các lựa chọn tham số và tiền xử lý.
Key figures
- David Blei
- Matthew L. Jockers
- Benjamin Schmidt
Related topics
Seminal works
- blei2003
- blei2012
- jockers2013
- schmidt2012
Frequently asked questions
- Một mô hình chủ đề có cho tôi biết kho ngữ liệu nói về điều gì không?
- Không phải tự nó. Nó tạo ra các cụm từ đồng xuất hiện có thể tương ứng với các chủ đề nhưng nhạy cảm với tiền xử lý và số lượng chủ đề đã chọn. Đầu ra là một điểm khởi đầu để diễn giải, không phải là một bản tóm tắt khách quan, và nên được xác thực dựa trên các văn bản.