อำนาจเชิงสถิติและขนาดตัวอย่าง
อำนาจเชิงสถิติ (statistical power) คือความน่าจะเป็นที่การศึกษาจะตรวจพบผลกระทบที่มีขนาดที่กำหนดเมื่อผลกระทบนั้นมีอยู่จริง — โดยเป็นหนึ่งลบด้วยอัตราความผิดพลาดชนิดที่ 2 (Type II error rate) การกำหนดขนาดตัวอย่าง (sample size determination) เป็นขั้นตอนการวางแผนที่เลือกจำนวนผู้เข้าร่วมที่จำเป็นเพื่อให้ได้อำนาจเชิงสถิติเป้าหมาย โดยพิจารณาจากขนาดผลกระทบที่คาดการณ์ไว้ ระดับนัยสำคัญที่เลือก และความแปรปรวนของข้อมูล ทั้งสองสิ่งนี้จะตัดสินว่าการศึกษามีขนาดใหญ่พอที่จะให้โอกาสที่เป็นธรรมในการตอบคำถามหรือไม่
Definition
อำนาจเชิงสถิติคือความน่าจะเป็นที่การทดสอบปฏิเสธสมมติฐานว่างที่เป็นเท็จได้อย่างถูกต้อง (ตรวจพบผลกระทบจริงที่มีขนาดที่ระบุ) การกำหนดขนาดตัวอย่างคือการคำนวณจำนวนการสังเกตที่จำเป็นเพื่อให้ได้อำนาจเชิงสถิติเป้าหมายที่ระดับนัยสำคัญที่กำหนดสำหรับขนาดผลกระทบและความแปรปรวนที่สมมติขึ้น
Scope
หัวข้อนี้อธิบายความหมายของอำนาจเชิงสถิติ ปริมาณสี่อย่างที่เชื่อมโยงกันในการคำนวณอำนาจเชิงสถิติ (ขนาดผลกระทบ ระดับนัยสำคัญ อำนาจเชิงสถิติ และขนาดตัวอย่าง) และผลที่ตามมาของการวิจัยที่มีอำนาจเชิงสถิติต่ำ (underpowered research) โดยนำเสนอเป็นระเบียบวิธีอ้างอิงสำหรับการวางแผนและประเมินการศึกษา ไม่ใช่กฎการตัดสินใจทางคลินิก
Core questions
- การศึกษามีแนวโน้มที่จะตรวจพบผลกระทบที่กำลังมองหามากน้อยเพียงใด?
- ต้องมีผู้เข้าร่วมกี่คนจึงจะบรรลุอำนาจเชิงสถิติเป้าหมาย?
- ขนาดผลกระทบ ความแปรปรวน และระดับนัยสำคัญส่งผลต่อขนาดตัวอย่างอย่างไร?
- เกิดอะไรขึ้นเมื่อการศึกษามีอำนาจเชิงสถิติต่ำ?
Key concepts
- อำนาจเชิงสถิติ (1 ลบเบต้า)
- ขนาดผลกระทบ
- ระดับนัยสำคัญ (อัลฟ่า)
- ความแปรปรวนและส่วนเบี่ยงเบนมาตรฐาน
- การคำนวณขนาดตัวอย่างล่วงหน้า
- การศึกษาที่มีอำนาจเชิงสถิติต่ำ
- ความแตกต่างทางคลินิกที่สำคัญน้อยที่สุด
Mechanisms
อำนาจเชิงสถิติ ระดับนัยสำคัญ ขนาดผลกระทบ และขนาดตัวอย่างมีความเชื่อมโยงกัน โดยการกำหนดค่าสามอย่างใด ๆ จะกำหนดค่าที่สี่ สำหรับระดับนัยสำคัญที่กำหนด อำนาจเชิงสถิติจะเพิ่มขึ้นเมื่อขนาดผลกระทบที่แท้จริงเพิ่มขึ้น เมื่อความแปรปรวนลดลง และเมื่อขนาดตัวอย่างเพิ่มขึ้น การคำนวณขนาดตัวอย่างจะกลับความสัมพันธ์นี้: โดยเริ่มต้นจากขนาดผลกระทบที่สมมติขึ้น (มักจะเป็นค่าต่ำสุดที่ควรตรวจพบ) ระดับนัยสำคัญที่เลือก และอำนาจเชิงสถิติเป้าหมาย — โดยทั่วไปคือ 80% หรือ 90% — จะคำนวณหาจำนวนการสังเกตที่จำเป็น การมีอำนาจเชิงสถิติต่ำไม่เพียงแต่เพิ่มโอกาสที่จะพลาดผลกระทบจริง (ความผิดพลาดชนิดที่ 2) แต่ยังทำให้ผลการวิจัยที่มีนัยสำคัญมีแนวโน้มที่จะถูกกล่าวเกินจริงหรือเป็นเท็จมากขึ้น เนื่องจากมีเพียงค่าประมาณที่ใหญ่และอาจถูกขยายเกินจริงเท่านั้นที่ผ่านเกณฑ์ในการศึกษาขนาดเล็ก
Clinical relevance
การที่การทดลองหรือการศึกษามีอำนาจเชิงสถิติเพียงพอหรือไม่นั้นมีผลต่อการตีความผลลัพธ์: ผลลัพธ์ที่ไม่มีนัยสำคัญจากการศึกษาที่มีอำนาจเชิงสถิติต่ำมักจะให้ข้อมูลน้อยมากกว่าที่จะสร้างความมั่นใจ และการให้เหตุผลล่วงหน้าสำหรับขนาดตัวอย่างเป็นองค์ประกอบที่คาดหวังในการรายงานผลการศึกษา บทความนี้อธิบายเหตุผลเกี่ยวกับอำนาจเชิงสถิติและขนาดตัวอย่างเพื่อวัตถุประสงค์ในการประเมินและออกแบบ และไม่ใช่พื้นฐานสำหรับการวินิจฉัยหรือการตัดสินใจในการรักษาเฉพาะบุคคล
Evidence & guidelines
มาตรฐานการรายงานสำหรับการทดลองทางคลินิกและการศึกษาเชิงสังเกตการณ์คาดหวังการให้เหตุผลขนาดตัวอย่างล่วงหน้า และการทบทวนระเบียบวิธีวิจัยได้บันทึกถึงอันตรายที่แพร่หลายของอำนาจเชิงสถิติต่ำ Button และคณะแสดงให้เห็นว่าสาขาวิชาที่มีอำนาจเชิงสถิติต่ำเรื้อรังให้ผลงานวิจัยที่ไม่น่าเชื่อถือ ในขณะที่ Altman และ Bland และคู่มือการตีความผิดโดย Greenland และคณะเน้นย้ำว่าอำนาจเชิงสถิติต่ำอธิบายผลลัพธ์ที่เป็นโมฆะที่ให้ข้อมูลน้อยจำนวนมาก
History
อำนาจเชิงสถิติเป็นผลโดยตรงจากกรอบการทดสอบของ Neyman-Pearson ซึ่งกำหนดอัตราความผิดพลาดชนิดที่ 2 ซึ่งเป็นส่วนเติมเต็มของอำนาจเชิงสถิติ งานของ Jacob Cohen ตั้งแต่ทศวรรษ 1960 เป็นต้นมา ซึ่งรวมอยู่ในเอกสารทางวิชาการของเขาในปี 1988 ได้ทำให้การวิเคราะห์อำนาจเชิงสถิติอย่างเป็นระบบและข้อตกลงเกี่ยวกับขนาดผลกระทบเป็นที่นิยมในสาขาวิทยาศาสตร์สุขภาพและพฤติกรรม ความกังวลเกี่ยวกับการวิจัยที่มีอำนาจเชิงสถิติต่ำทวีความรุนแรงขึ้นในการถกเถียงเรื่องความสามารถในการทำซ้ำได้ในทศวรรษ 2010
Debates
- ผลที่ตามมาของการมีอำนาจเชิงสถิติต่ำเรื้อรัง
- อำนาจเชิงสถิติต่ำอย่างต่อเนื่องไม่เพียงแต่เพิ่มจำนวนผลลัพธ์เชิงลบที่เป็นเท็จ แต่ยังลดความน่าจะเป็นที่ผลลัพธ์ที่มีนัยสำคัญทางสถิติจะสะท้อนถึงผลกระทบที่แท้จริง และกล่าวเกินจริงถึงขนาดของผลลัพธ์ที่รายงาน ซึ่งบ่อนทำลายความน่าเชื่อถือของงานวิจัยทั้งหมด
Key figures
- Jacob Cohen
- Jerzy Neyman
- Egon Pearson
- Douglas G. Altman
- John P. A. Ioannidis
Related topics
Seminal works
- cohen-1988
- button-2013
Frequently asked questions
- อำนาจเชิงสถิติในแง่ง่ายๆ คืออะไร?
- คือโอกาสที่การศึกษาจะตรวจพบผลกระทบจริงที่มีขนาดที่กำหนด หากผลกระทบนั้นมีอยู่จริง อำนาจเชิงสถิติที่สูงขึ้นหมายถึงโอกาสที่ดีขึ้นที่จะไม่พลาดผลกระทบที่แท้จริง อำนาจเชิงสถิติ 80% เป็นเป้าหมายทั่วไป
- ทำไมขนาดตัวอย่างจึงมีความสำคัญมาก?
- ตัวอย่างที่ใหญ่ขึ้นจะเพิ่มอำนาจเชิงสถิติและลดความแม่นยำของการประมาณค่า ดังนั้นการศึกษาจึงสามารถตรวจพบผลกระทบที่กำลังมองหาได้อย่างน่าเชื่อถือ ตัวอย่างที่เล็กเกินไปมีความเสี่ยงทั้งที่จะพลาดผลกระทบจริงและสร้างผลลัพธ์ที่มีนัยสำคัญที่เกินจริง