Tại sao tính chuẩn lại quan trọng?

Nhiều tóm tắt (giá trị trung bình, độ lệch chuẩn) và kiểm định (kiểm định t, ANOVA) phổ biến giả định dữ liệu gần chuẩn; khi giả định đó không được đáp ứng, các phép đo đó có thể gây hiểu lầm và các phương pháp thay thế phi tham số hoặc biến đổi có thể phù hợp hơn.

Liệu một kiểm định Shapiro-Wilk có ý nghĩa có đủ lý do để từ bỏ một phương pháp tham số không?

Không phải chỉ riêng nó. Kiểm định trở nên rất nhạy trong các mẫu lớn và kém mạnh trong các mẫu nhỏ, do đó kích thước của sai lệch, hình dạng được thấy trên biểu đồ Q-Q và tính vững chắc của phân tích đã lên kế hoạch đều nên được xem xét.

Phân phối dữ liệu và tính chuẩn

Sự phân phối của một biến mô tả cách các giá trị của nó trải rộng trên phạm vi các khả năng, và nhiều phương pháp mô tả và suy luận phụ thuộc vào hình dạng của sự phân phối đó. Tính chuẩn — liệu dữ liệu có tuân theo phân phối chuẩn đối xứng, hình chuông hay không — là giả định phân phối thường được kiểm tra nhất trong nghiên cứu sức khỏe, bởi vì nó chi phối sự lựa chọn giữa các tóm tắt và kiểm định tham số và phi tham số.

Tìm chủ đề với PaperMindSắp ra mắtFind papers & topics

Tools & resources

Tải xuống bản trình chiếu

Learn & explore

VideoSắp ra mắt

Definition

Một phân phối thống kê mô tả tần suất tương đối hoặc xác suất của các giá trị có thể có của một biến; tính chuẩn đề cập đến sự phù hợp với phân phối Gaussian (chuẩn), một dạng hình chuông đối xứng được đánh giá bằng đồ họa và bằng các kiểm định chính thức để quyết định xem các phương pháp tham số có phù hợp hay không.

Scope

Mục này bao gồm hình dạng phân phối (tính đối xứng, độ lệch, độ nhọn), phân phối chuẩn và lý do tại sao nó quan trọng, và cách tính chuẩn được đánh giá thông qua kiểm tra đồ họa và các kiểm định chính thức. Đây là một tài liệu tham khảo về phương pháp luận và không cung cấp hướng dẫn lâm sàng.

Core questions

Hình dạng phân phối của biến là gì, và nó đối xứng hay bị lệch?
Giả định về tính chuẩn có hợp lý đối với biến này không?
Những công cụ đồ họa và chính thức nào đánh giá tính chuẩn tốt nhất, và chúng hoạt động như thế nào với các mẫu nhỏ hoặc lớn?

Key concepts

Phân phối chuẩn (Gaussian)
Độ lệch và độ nhọn
Đánh giá đồ họa (biểu đồ tần suất, biểu đồ Q-Q)
Kiểm định Shapiro-Wilk
Kiểm định Kolmogorov-Smirnov
Lựa chọn tham số so với phi tham số
Độ nhạy của các kiểm định tính chuẩn theo kích thước mẫu

Key theories

Định lý giới hạn trung tâm: Định lý giới hạn trung tâm phát biểu rằng, đối với một mẫu đủ lớn, phân phối lấy mẫu của giá trị trung bình tiến gần đến phân phối chuẩn bất kể hình dạng của biến cơ bản. Đây là lý do tại sao các phương pháp lý thuyết chuẩn thường vẫn hữu ích cho các giá trị trung bình ngay cả khi dữ liệu thô không chuẩn.

Mechanisms

Tính chuẩn được đánh giá theo hai cách bổ sung. Các phương pháp đồ họa — biểu đồ tần suất (histogram) và biểu đồ lượng tử-lượng tử (Q-Q plot) — hiển thị trực tiếp các sai lệch như độ lệch, đuôi dày hoặc lưỡng cực. Các kiểm định chính thức, trong đó kiểm định Shapiro-Wilk là một trong những kiểm định được sử dụng rộng rãi nhất, trả về xác suất quan sát dữ liệu theo một mô hình chuẩn. Bởi vì các kiểm định này tăng sức mạnh theo kích thước mẫu, chúng có xu hướng chỉ ra các sai lệch không đáng kể trong các mẫu lớn và bỏ sót các sai lệch có ý nghĩa trong các mẫu nhỏ, do đó việc kiểm tra đồ họa và các hậu quả thực tế của việc không chuẩn được cân nhắc cùng với bất kỳ kết quả kiểm định nào. Khi đại lượng quan tâm là giá trị trung bình, định lý giới hạn trung tâm thường biện minh cho các phương pháp lý thuyết chuẩn ngay cả đối với dữ liệu thô không chuẩn.

Clinical relevance

Việc một dấu ấn sinh học, thời gian nằm viện, hoặc điểm số được coi là chuẩn hay không sẽ quyết định cách nó được tóm tắt và phân tích trong toàn bộ tài liệu lâm sàng, vì vậy việc đánh giá tính chuẩn là một phần của việc thẩm định các phương pháp của một nghiên cứu. Mục này mô tả việc đánh giá các giả định phân phối và không phải là cơ sở cho các quyết định chẩn đoán hoặc điều trị cá nhân.

Epidemiology

Nhiều phép đo sinh học và lâm sàng bị lệch phải (ví dụ: nồng độ hormone, chi phí và thời gian chờ đợi), do đó không thể giả định tính chuẩn và cần được kiểm tra thường xuyên. Quyết định này định hình việc liệu kết quả được báo cáo bằng giá trị trung bình và độ lệch chuẩn hay bằng giá trị trung vị và phạm vi, và liệu các kiểm định tham số hay phi tham số được sử dụng.

History

Phân phối chuẩn được phát triển vào thế kỷ XVIII và XIX trong công trình của de Moivre, Laplace và Gauss, và trở thành trung tâm của thống kê thông qua lý thuyết sai số và định lý giới hạn trung tâm. Các công cụ chính thức để kiểm tra giả định này xuất hiện vào thế kỷ XX, với kiểm định phân tích phương sai cho tính chuẩn của Shapiro và Wilk năm 1965 trở thành một quy trình tiêu chuẩn trong công việc ứng dụng.

Debates

Tính chuẩn nên được đánh giá bằng các kiểm định chính thức hay bằng kiểm tra đồ họa?: Các kiểm định tính chuẩn chính thức nhạy cảm với kích thước mẫu — bác bỏ các sai lệch không đáng kể trong các mẫu lớn và không phát hiện được các sai lệch quan trọng trong các mẫu nhỏ — do đó nhiều nhà phương pháp luận khuyến nghị rằng việc đánh giá đồ họa và tính vững chắc thực tế của phân tích đã lên kế hoạch nên hướng dẫn quyết định hơn là chỉ dựa vào giá trị p của một kiểm định.

Key figures

Samuel S. Shapiro
Martin B. Wilk
Carl Friedrich Gauss

Seminal works

shapiro-wilk-1965
kwak-2017
ghasemi-2012

Frequently asked questions

Tại sao tính chuẩn lại quan trọng?: Nhiều tóm tắt (giá trị trung bình, độ lệch chuẩn) và kiểm định (kiểm định t, ANOVA) phổ biến giả định dữ liệu gần chuẩn; khi giả định đó không được đáp ứng, các phép đo đó có thể gây hiểu lầm và các phương pháp thay thế phi tham số hoặc biến đổi có thể phù hợp hơn.
Liệu một kiểm định Shapiro-Wilk có ý nghĩa có đủ lý do để từ bỏ một phương pháp tham số không?: Không phải chỉ riêng nó. Kiểm định trở nên rất nhạy trong các mẫu lớn và kém mạnh trong các mẫu nhỏ, do đó kích thước của sai lệch, hình dạng được thấy trên biểu đồ Q-Q và tính vững chắc của phân tích đã lên kế hoạch đều nên được xem xét.