Quá trình Dirichlet và các mô hình hỗn hợp
Quá trình Dirichlet là một phân phối tiên nghiệm trên các phân phối mà tính rời rạc của nó làm cho nó trở thành một cơ sở tự nhiên cho các mô hình hỗn hợp suy luận số lượng cụm từ dữ liệu.
Definition
Quá trình Dirichlet là một quá trình ngẫu nhiên mà các hiện thực hóa của nó là các độ đo xác suất; một mô hình hỗn hợp quá trình Dirichlet kết hợp các độ đo ngẫu nhiên rời rạc này với một hạt nhân, tạo ra một hỗn hợp với số lượng thành phần ngẫu nhiên, được xác định bởi dữ liệu.
Scope
Chủ đề này bao gồm quá trình Dirichlet và tham số nồng độ cũng như độ đo cơ sở của nó, các biểu diễn quy trình bình Polya và nhà hàng Trung Quốc, sự phân cụm mà chúng tạo ra, và mô hình hỗn hợp quá trình Dirichlet được sử dụng để ước tính mật độ và phân cụm với số lượng thành phần không giới hạn.
Core questions
- Tham số nồng độ và độ đo cơ sở của quá trình Dirichlet là gì?
- Bình Polya và quy trình nhà hàng Trung Quốc mô tả sự phân cụm của nó như thế nào?
- Mô hình hỗn hợp quá trình Dirichlet suy luận số lượng cụm như thế nào?
- Suy luận hậu nghiệm cho các mô hình này được thực hiện như thế nào?
Key concepts
- Quá trình Dirichlet
- tham số nồng độ
- độ đo cơ sở
- quy trình nhà hàng Trung Quốc
- sơ đồ bình Polya
- mô hình hỗn hợp vô hạn
- phân cụm
Key theories
- Quá trình Dirichlet
- Ferguson đã định nghĩa quá trình Dirichlet sao cho các giá trị của nó trên bất kỳ phân hoạch hữu hạn nào đều được phân phối Dirichlet, tạo ra một phân phối tiên nghiệm liên hợp, gần như chắc chắn rời rạc trên các phân phối.
- Các hỗn hợp quá trình Dirichlet
- Việc trộn một hạt nhân liên tục trên một độ đo được phân phối theo quá trình Dirichlet mang lại các ước tính mật độ linh hoạt và phân cụm với số lượng thành phần không giới hạn, với suy luận thông qua lấy mẫu Gibbs.
Clinical relevance
Các hỗn hợp quá trình Dirichlet thực hiện phân cụm dựa trên mô hình và ước tính mật độ mà không cần cố định số lượng nhóm, điều này có giá trị trong genomics, phân loại phụ quần thể và các thiết lập khác nơi số lượng cụm chưa được biết.
History
Ferguson đã định nghĩa quá trình Dirichlet vào năm 1973 và Antoniak đã giới thiệu các hỗn hợp của quá trình Dirichlet vào năm 1974. Phương pháp lấy mẫu Gibbs của Escobar và West năm 1995 đã biến các hỗn hợp quá trình Dirichlet thành một công cụ thực tế để ước tính mật độ và phân cụm.
Debates
- Độ nhạy với tham số nồng độ
- Số lượng cụm được suy luận phụ thuộc vào tham số nồng độ và độ đo cơ sở, vì vậy các lựa chọn tiên nghiệm ảnh hưởng đáng kể đến kết luận phân cụm và cần được xử lý cẩn thận.
Key figures
- Thomas Ferguson
- Charles Antoniak
- Michael Escobar
- Mike West
Related topics
Seminal works
- ferguson1973
- escobar1995
Frequently asked questions
- Mô hình hỗn hợp quá trình Dirichlet quyết định có bao nhiêu cụm như thế nào?
- Nó không cố định số lượng cụm; quá trình Dirichlet cho phép số lượng tùy ý, và hậu nghiệm, được thúc đẩy bởi dữ liệu và tham số nồng độ, đặt xác suất trên các số lượng cụm được chiếm giữ khác nhau.