Độ mạnh thống kê và Cỡ mẫu
Độ mạnh thống kê là xác suất một nghiên cứu sẽ phát hiện một hiệu ứng có độ lớn nhất định khi hiệu ứng đó thực sự tồn tại – chính thức là một trừ đi tỷ lệ lỗi loại II. Xác định cỡ mẫu là bước lập kế hoạch chọn số lượng người tham gia cần thiết để đạt được độ mạnh mục tiêu, với kích thước hiệu ứng dự kiến, mức ý nghĩa đã chọn và sự biến thiên của dữ liệu. Cùng với nhau, chúng quyết định liệu một nghiên cứu có đủ lớn để đưa ra câu hỏi của nó một cơ hội công bằng để có câu trả lời hay không.
Definition
Độ mạnh thống kê là xác suất một thử nghiệm bác bỏ chính xác một giả thuyết không đúng (phát hiện một hiệu ứng thực sự có kích thước xác định); xác định cỡ mẫu là tính toán số lượng quan sát cần thiết để đạt được độ mạnh mục tiêu ở một mức ý nghĩa nhất định cho một kích thước hiệu ứng và sự biến thiên giả định.
Scope
Chủ đề này giải thích ý nghĩa của độ mạnh, bốn đại lượng liên quan chặt chẽ của một phép tính độ mạnh (kích thước hiệu ứng, mức ý nghĩa, độ mạnh và cỡ mẫu), và hậu quả của nghiên cứu thiếu độ mạnh. Nó được trình bày như một phương pháp tham chiếu để lập kế hoạch và đánh giá các nghiên cứu, không phải là một quy tắc quyết định lâm sàng.
Core questions
- Nghiên cứu có khả năng phát hiện hiệu ứng mà nó đang tìm kiếm đến mức nào?
- Cần bao nhiêu người tham gia để đạt được độ mạnh mục tiêu?
- Kích thước hiệu ứng, sự biến thiên và mức ý nghĩa ảnh hưởng đến cỡ mẫu như thế nào?
- Điều gì xảy ra khi một nghiên cứu thiếu độ mạnh?
Key concepts
- Độ mạnh thống kê (1 trừ beta)
- Kích thước hiệu ứng
- Mức ý nghĩa (alpha)
- Sự biến thiên và độ lệch chuẩn
- Tính toán cỡ mẫu tiên nghiệm
- Nghiên cứu thiếu độ mạnh
- Sự khác biệt tối thiểu có ý nghĩa lâm sàng
Mechanisms
Độ mạnh, mức ý nghĩa, kích thước hiệu ứng và cỡ mẫu được liên kết với nhau sao cho việc cố định ba yếu tố bất kỳ sẽ xác định yếu tố thứ tư. Đối với một mức ý nghĩa nhất định, độ mạnh tăng khi kích thước hiệu ứng thực sự tăng, khi sự biến thiên giảm và khi cỡ mẫu tăng. Tính toán cỡ mẫu đảo ngược mối quan hệ này: bắt đầu từ một kích thước hiệu ứng giả định (thường là mức tối thiểu đáng để phát hiện), một mức ý nghĩa đã chọn và một độ mạnh mục tiêu – thông thường là 80% hoặc 90% – nó giải quyết để tìm số lượng quan sát cần thiết. Việc thiếu độ mạnh không chỉ làm tăng khả năng bỏ sót các hiệu ứng thực sự (lỗi loại II) mà còn làm cho bất kỳ phát hiện có ý nghĩa nào cũng có nhiều khả năng bị phóng đại hoặc sai lệch, bởi vì chỉ những ước tính lớn, có thể bị thổi phồng mới vượt qua ngưỡng trong một nghiên cứu nhỏ.
Clinical relevance
Việc một thử nghiệm hay nghiên cứu có đủ độ mạnh hay không sẽ định hình cách đọc kết quả của nó: một kết quả không có ý nghĩa từ một nghiên cứu thiếu độ mạnh phần lớn là không cung cấp thông tin hơn là trấn an, và việc biện minh cỡ mẫu một cách tiên nghiệm là một yếu tố được mong đợi trong báo cáo nghiên cứu. Mục này mô tả lý luận về độ mạnh và cỡ mẫu cho mục đích đánh giá và thiết kế và không phải là cơ sở cho các quyết định chẩn đoán hoặc điều trị cá nhân.
Evidence & guidelines
Các tiêu chuẩn báo cáo cho các thử nghiệm lâm sàng và nghiên cứu quan sát yêu cầu một biện minh cỡ mẫu tiên nghiệm, và các đánh giá phương pháp luận đã ghi nhận những tác hại rộng rãi của độ mạnh thấp. Button và cộng sự đã chỉ ra rằng các lĩnh vực thiếu độ mạnh kinh niên tạo ra các tài liệu không đáng tin cậy, trong khi Altman và Bland cùng với hướng dẫn giải thích sai của Greenland và cộng sự nhấn mạnh rằng độ mạnh thấp giải thích nhiều kết quả không có ý nghĩa không cung cấp thông tin.
History
Độ mạnh là một hệ quả trực tiếp của khuôn khổ kiểm định Neyman-Pearson, đã định nghĩa tỷ lệ lỗi loại II mà phần bù của nó là độ mạnh. Công trình của Jacob Cohen từ những năm 1960 trở đi, được củng cố trong chuyên khảo năm 1988 của ông, đã phổ biến phân tích độ mạnh hệ thống và các quy ước về kích thước hiệu ứng trong các ngành khoa học sức khỏe và hành vi. Mối lo ngại về nghiên cứu thiếu độ mạnh gia tăng trong các cuộc tranh luận về khả năng tái tạo vào những năm 2010.
Debates
- Hậu quả của việc thiếu độ mạnh kinh niên
- Độ mạnh thấp kéo dài không chỉ làm tăng số âm tính giả mà còn làm giảm xác suất một phát hiện có ý nghĩa thống kê phản ánh một hiệu ứng thực sự và phóng đại kích thước của những hiệu ứng được báo cáo, làm suy yếu độ tin cậy của toàn bộ các tài liệu.
Key figures
- Jacob Cohen
- Jerzy Neyman
- Egon Pearson
- Douglas G. Altman
- John P. A. Ioannidis
Related topics
Seminal works
- cohen-1988
- button-2013
Frequently asked questions
- Độ mạnh thống kê là gì theo cách đơn giản?
- Đó là cơ hội một nghiên cứu sẽ phát hiện một hiệu ứng thực sự có độ lớn nhất định nếu hiệu ứng đó thực sự tồn tại. Độ mạnh cao hơn có nghĩa là cơ hội tốt hơn để không bỏ lỡ một hiệu ứng thực sự; độ mạnh 80% là một mục tiêu phổ biến.
- Tại sao cỡ mẫu lại quan trọng đến vậy?
- Cỡ mẫu lớn hơn làm tăng độ mạnh và thu hẹp độ chính xác của các ước tính, do đó một nghiên cứu có thể phát hiện đáng tin cậy hiệu ứng mà nó đang tìm kiếm. Cỡ mẫu quá nhỏ có nguy cơ bỏ lỡ các hiệu ứng thực sự và tạo ra các phát hiện có ý nghĩa bị phóng đại.