Phân loại khác với phân cụm như thế nào?

Phân loại là có giám sát: các nhóm được biết trước và có sẵn một mẫu huấn luyện đã được gán nhãn. Phân cụm là không giám sát và khám phá các nhóm mà không có nhãn được xác định trước.

Tại sao phải ước tính lỗi trên dữ liệu giữ lại?

Lỗi được đo trên cùng dữ liệu được sử dụng để điều chỉnh bộ phân loại có sai lệch lạc quan, vì vậy cần có các ước tính ngoài mẫu từ kiểm định chéo hoặc tập kiểm tra để đánh giá hiệu suất dự đoán thực sự.

Phân loại và Phân tích Phân biệt

Phân loại và phân tích phân biệt bao gồm các phương pháp đa biến gán các quan sát vào các nhóm được xác định trước bằng cách sử dụng các đặc điểm đo lường và một mẫu các trường hợp đã được gán nhãn.

Tìm chủ đề với PaperMindSắp ra mắtFind papers & topics

Tools & resources

Tải xuống bản trình chiếu

Learn & explore

VideoSắp ra mắt

Definition

Phân tích phân biệt và phân loại là việc xây dựng các quy tắc gán một quan sát đa biến vào một trong số các nhóm đã biết nhằm giảm thiểu chi phí dự kiến hoặc lỗi phân loại sai.

Scope

Lĩnh vực này bao gồm phân loại có giám sát các quan sát đa biến. Nó bao gồm phân biệt tuyến tính của Fisher và diễn giải mô hình Gaussian của nó, phân tích phân biệt bậc hai cho các hiệp phương sai nhóm không bằng nhau, phân biệt logistic như một mô hình trực tiếp của xác suất thành viên lớp, và các phương pháp dựa trên biên như máy vector hỗ trợ. Trọng tâm là việc xây dựng, hình học và đánh giá các ranh giới quyết định.

Sub-topics

Core questions

Làm thế nào để gán một quan sát vào một trong số các nhóm đã biết từ các đặc điểm đo lường của nó?
Ranh giới quyết định nào giảm thiểu chi phí phân loại sai dự kiến?
Khi nào ranh giới tuyến tính là đủ và khi nào cần ranh giới bậc hai hoặc phi tuyến tính?
Làm thế nào để ước tính hiệu suất của bộ phân loại mà không có sai lệch lạc quan?

Key theories

Phân loại tối ưu Bayes: Việc gán mỗi quan sát vào nhóm có xác suất hậu nghiệm cao nhất sẽ giảm thiểu lỗi phân loại sai dự kiến; các phương pháp phân biệt tham số ước tính các xác suất hậu nghiệm này dưới các giả định phân phối.
Phân biệt tuyến tính của Fisher: Fisher tìm kiếm sự kết hợp tuyến tính của các đặc điểm phân tách tối đa các giá trị trung bình của nhóm so với sự phân tán trong nhóm, tạo ra một hướng phân biệt mà, dưới các hiệp phương sai Gaussian bằng nhau, trùng với quy tắc Bayes.

Clinical relevance

Các phương pháp phân loại được sử dụng ở bất cứ nơi nào các trường hợp phải được sắp xếp vào các danh mục đã biết từ các phép đo đa biến, bao gồm chẩn đoán y tế, chấm điểm tín dụng, nhận dạng loài và lập bản đồ lớp phủ đất bằng cảm biến từ xa.

History

Lĩnh vực này bắt đầu với phân biệt tuyến tính năm 1936 của Fisher được áp dụng cho các phép đo phân loại. Các công thức xác suất và Gaussian tiếp theo, phân biệt logistic cung cấp một mô hình trực tiếp của xác suất lớp, và sự phát triển cuối thế kỷ XX của các phương pháp dựa trên biên và hạt nhân đã mở rộng phân loại sang các thiết lập đa chiều và phi tuyến tính.

Debates

Phân loại sinh tạo so với phân loại phân biệt: Các phương pháp sinh tạo như phân tích phân biệt mô hình hóa phân phối đặc điểm trong mỗi lớp, trong khi các phương pháp phân biệt như hồi quy logistic và máy vector hỗ trợ mô hình hóa trực tiếp ranh giới hoặc xác suất lớp; ưu điểm tương đối của chúng phụ thuộc vào kích thước mẫu và mức độ phù hợp của các giả định phân phối.

Key figures

Ronald A. Fisher
Vladimir Vapnik

Seminal works

fisher1936
hastie2009
johnson2007

Frequently asked questions

Phân loại khác với phân cụm như thế nào?: Phân loại là có giám sát: các nhóm được biết trước và có sẵn một mẫu huấn luyện đã được gán nhãn. Phân cụm là không giám sát và khám phá các nhóm mà không có nhãn được xác định trước.
Tại sao phải ước tính lỗi trên dữ liệu giữ lại?: Lỗi được đo trên cùng dữ liệu được sử dụng để điều chỉnh bộ phân loại có sai lệch lạc quan, vì vậy cần có các ước tính ngoài mẫu từ kiểm định chéo hoặc tập kiểm tra để đánh giá hiệu suất dự đoán thực sự.