Điều gì làm cho dữ liệu được gọi là “phân loại”?

Dữ liệu là phân loại khi mỗi quan sát thuộc về một trong một tập hợp các lớp rời rạc — chẳng hạn như bị bệnh/khỏe mạnh hoặc nhóm điều trị A/B/C — thay vì có một giá trị số được đo lường; phân tích hoạt động với số đếm trong mỗi lớp.

Lĩnh vực này khác với hồi quy cho các kết cục liên tục như thế nào?

Kết cục ở đây là một danh mục hoặc một số đếm, không phải là một phép đo liên tục, vì vậy các phương pháp tập trung vào các bảng tần số, tỷ số nguy cơ và tỷ số chênh, và các mô hình như hồi quy logistic và log-linear thay vì các giá trị trung bình và hồi quy tuyến tính thông thường.

Phân tích dữ liệu phân loại

Phân tích dữ liệu phân loại là một nhánh của thống kê sinh học liên quan đến dữ liệu thuộc các danh mục rời rạc thay vì có các giá trị số liên tục — ví dụ như một bệnh có hay không, một khối u lành tính hay ác tính, một bệnh nhân được chỉ định vào một trong số các nhóm điều trị. Đối tượng trung tâm của nó là bảng tần số (contingency table) của các số đếm, và các phương pháp của nó kiểm định và định lượng các mối liên hệ giữa các biến phân loại trong khi kiểm soát các biến khác.

Tìm chủ đề với PaperMindSắp ra mắtFind papers & topics

Tools & resources

Tải xuống bản trình chiếu

Learn & explore

VideoSắp ra mắt

Definition

Phân tích dữ liệu phân loại là tập hợp các phương pháp thống kê để mô tả, kiểm định và mô hình hóa các mối liên hệ giữa các biến có giá trị là số đếm trong các danh mục rời rạc không có thứ tự hoặc có thứ tự, thường được tổ chức dưới dạng bảng tần số.

Scope

Lĩnh vực này định hướng người đọc đến các ý tưởng cốt lõi lặp lại trong các trang chủ đề bên dưới: cách các quan sát phân loại được sắp xếp vào các bảng tần số, cách kiểm định mối liên hệ trong một bảng (kiểm định chi-bình phương và kiểm định chính xác), cách tóm tắt mối liên hệ bằng một thước đo hiệu ứng (tỷ số nguy cơ và tỷ số chênh), và cách xử lý một biến phân loại gây nhiễu bằng cách phân tầng (phương pháp Mantel-Haenszel). Nó trình bày những điều này như các công cụ phương pháp luận để đọc và tạo ra nghiên cứu y tế, không phải là hướng dẫn lâm sàng.

Sub-topics

Core questions

Có mối liên hệ nào giữa hai biến phân loại không, hay chúng độc lập?
Mối liên hệ lớn đến mức nào, được biểu thị bằng tỷ số hoặc sự khác biệt về nguy cơ hoặc tỷ số chênh?
Một mối liên hệ rõ ràng có còn tồn tại sau khi phân tầng theo một biến phân loại thứ ba không, hay nó bị nhiễu hoặc bị biến đổi bởi biến đó?
Khi số đếm ô nhỏ, quy trình chính xác nào thay thế phép xấp xỉ mẫu lớn?

Key concepts

Bảng tần số của các số đếm
Tính độc lập của các biến phân loại
Kiểm định chi-bình phương về mối liên hệ
Các kiểm định chính xác cho các bảng thưa thớt
Các thước đo hiệu ứng: tỷ số nguy cơ và tỷ số chênh
Phân tầng và ước tính Mantel-Haenszel
Nhiễu và biến đổi hiệu ứng trên các tầng
Các mô hình log-linear và logistic cho các bảng

Mechanisms

Các quan sát phân loại được phân loại chéo vào một bảng mà các ô chứa tần số. Một kiểm định mối liên hệ so sánh các số đếm ô quan sát được với các số đếm dự kiến nếu các biến hàng và cột độc lập: thống kê chi-bình phương của Pearson, được biện minh tiệm cận bởi sự làm rõ bậc tự do của Fisher, tổng hợp các hiệu số chuẩn hóa bình phương, trong khi các kiểm định chính xác liệt kê phân phối có điều kiện của các bảng khi số đếm quá nhỏ để sử dụng phép xấp xỉ. Độ mạnh của mối liên hệ sau đó được tóm tắt bằng một thước đo hiệu ứng được suy ra từ bảng — tỷ số nguy cơ hoặc tỷ số chênh. Khi một biến thứ ba có nguy cơ gây nhiễu mối liên hệ, dữ liệu được chia thành các tầng được xác định bởi biến đó và một ước tính gộp được hình thành trên các tầng; quy trình Mantel-Haenszel cung cấp một kiểm định phân tầng và ước tính tóm tắt như vậy. Những phần này tổng quát hóa thành các mô hình hồi quy log-linear và logistic xử lý nhiều yếu tố dự báo phân loại cùng một lúc.

Clinical relevance

Hầu hết các bằng chứng chẩn đoán, tiên lượng và yếu tố nguy cơ trong khoa học sức khỏe được báo cáo dưới dạng mối liên hệ giữa các biến phân loại — phơi nhiễm so với không phơi nhiễm, sự kiện so với không sự kiện — do đó, các phương pháp trong lĩnh vực này là nền tảng cho cách bằng chứng đó được tạo ra và đánh giá. Chúng mô tả cách các mối liên hệ được đo lường và kiểm định; chúng là công cụ để diễn giải nghiên cứu chứ không phải là cơ sở cho các quyết định chẩn đoán hoặc điều trị cá nhân.

Epidemiology

Các phương pháp bảng tần số là công cụ hàng ngày của dịch tễ học: các nghiên cứu đoàn hệ, bệnh chứng và cắt ngang đều quy về, ở dạng đơn giản nhất, một bảng hai-nhân-hai về phơi nhiễm so với kết cục, và phân tích phân tầng (Mantel-Haenszel) là phương pháp phi mô hình cổ điển để xử lý nhiễu trước khi sử dụng hồi quy. Các phương pháp tương tự lặp lại trong các thử nghiệm lâm sàng báo cáo các điểm cuối nhị phân và trong đánh giá xét nghiệm chẩn đoán.

History

Lĩnh vực này bắt đầu với thống kê chi-bình phương của Karl Pearson vào đầu thế kỷ XX và sự điều chỉnh bậc tự do của Fisher vào năm 1922 cho các bảng tần số, tiếp theo là kiểm định chính xác của Fisher cho các mẫu nhỏ. Dịch tễ học giữa thế kỷ đã cung cấp khung thước đo hiệu ứng — lập luận tỷ số chênh của Cornfield và ước tính phân tầng Mantel-Haenszel năm 1959 — và cuối thế kỷ XX đã thống nhất các phương pháp này trong khuôn khổ mô hình tuyến tính tổng quát, được tổng hợp trong giáo trình của Agresti.

Key figures

Karl Pearson
Ronald A. Fisher
Jerome Cornfield
Nathan Mantel
William Haenszel
Alan Agresti
Joseph Fleiss

Seminal works

fisher-1922
mantel-haenszel-1959
agresti-2013

Frequently asked questions

Điều gì làm cho dữ liệu được gọi là “phân loại”?: Dữ liệu là phân loại khi mỗi quan sát thuộc về một trong một tập hợp các lớp rời rạc — chẳng hạn như bị bệnh/khỏe mạnh hoặc nhóm điều trị A/B/C — thay vì có một giá trị số được đo lường; phân tích hoạt động với số đếm trong mỗi lớp.
Lĩnh vực này khác với hồi quy cho các kết cục liên tục như thế nào?: Kết cục ở đây là một danh mục hoặc một số đếm, không phải là một phép đo liên tục, vì vậy các phương pháp tập trung vào các bảng tần số, tỷ số nguy cơ và tỷ số chênh, và các mô hình như hồi quy logistic và log-linear thay vì các giá trị trung bình và hồi quy tuyến tính thông thường.