การกระจายตัวของข้อมูลและการแจกแจงปกติ
การกระจายตัวของตัวแปรอธิบายว่าค่าของตัวแปรนั้นกระจายไปทั่วช่วงของความเป็นไปได้อย่างไร และวิธีการเชิงพรรณนาและเชิงอนุมานหลายวิธีขึ้นอยู่กับลักษณะของการกระจายตัวนั้น การแจกแจงปกติ — ไม่ว่าข้อมูลจะมีการแจกแจงแบบปกติที่มีรูปร่างสมมาตรคล้ายระฆังหรือไม่ — เป็นสมมติฐานเกี่ยวกับการกระจายตัวที่มักถูกตรวจสอบมากที่สุดในการวิจัยด้านสุขภาพ เนื่องจากเป็นตัวกำหนดทางเลือกระหว่างการสรุปผลและการทดสอบแบบพารามิเตอร์และไม่ใช้พารามิเตอร์
Definition
การแจกแจงทางสถิติอธิบายความถี่สัมพัทธ์หรือความน่าจะเป็นของค่าที่เป็นไปได้ของตัวแปร; การแจกแจงปกติหมายถึงการสอดคล้องกับการแจกแจงแบบเกาส์เซียน (ปกติ) ซึ่งเป็นรูปแบบสมมาตรคล้ายระฆังที่ประเมินด้วยกราฟและการทดสอบอย่างเป็นทางการเพื่อตัดสินใจว่าวิธีการแบบพารามิเตอร์เหมาะสมหรือไม่
Scope
บทความนี้ครอบคลุมถึงรูปร่างของการกระจายตัว (ความสมมาตร, ความเบ้, ความโด่ง), การแจกแจงปกติและความสำคัญของมัน, และวิธีการประเมินการแจกแจงปกติผ่านการตรวจสอบด้วยกราฟและการทดสอบอย่างเป็นทางการ บทความนี้เป็นข้อมูลอ้างอิงทางระเบียบวิธีวิจัยและไม่ได้ให้คำแนะนำทางคลินิก
Core questions
- รูปร่างของการกระจายตัวของตัวแปรเป็นอย่างไร และสมมาตรหรือเบ้หรือไม่?
- สมมติฐานของการแจกแจงปกติสมเหตุสมผลสำหรับตัวแปรนี้หรือไม่?
- เครื่องมือทางกราฟและแบบเป็นทางการใดที่ประเมินการแจกแจงปกติได้ดีที่สุด และทำงานอย่างไรกับตัวอย่างขนาดเล็กหรือใหญ่?
Key concepts
- การแจกแจงปกติ (เกาส์เซียน)
- ความเบ้และความโด่ง
- การประเมินด้วยกราฟ (ฮิสโตแกรม, แผนภาพ Q-Q)
- การทดสอบ Shapiro-Wilk
- การทดสอบ Kolmogorov-Smirnov
- ทางเลือกระหว่างพารามิเตอร์กับไม่ใช้พารามิเตอร์
- ความไวของขนาดตัวอย่างของการทดสอบการแจกแจงปกติ
Key theories
- ทฤษฎีขีดจำกัดกลาง
- ทฤษฎีขีดจำกัดกลางระบุว่า สำหรับตัวอย่างที่มีขนาดใหญ่พอ การแจกแจงการสุ่มตัวอย่างของค่าเฉลี่ยจะเข้าใกล้การแจกแจงปกติโดยไม่คำนึงถึงรูปร่างของตัวแปรพื้นฐาน นี่คือเหตุผลที่วิธีการตามทฤษฎีปกติมักจะยังคงใช้งานได้ดีสำหรับค่าเฉลี่ยแม้ว่าข้อมูลดิบจะไม่ได้มีการแจกแจงปกติก็ตาม
Mechanisms
การแจกแจงปกติได้รับการประเมินด้วยสองวิธีที่เสริมกัน วิธีการทางกราฟ — ฮิสโตแกรมและแผนภาพควอนไทล์-ควอนไทล์ (Q-Q plot) — แสดงความเบี่ยงเบนโดยตรง เช่น ความเบ้, หางหนา, หรือสองยอด การทดสอบอย่างเป็นทางการ ซึ่งการทดสอบ Shapiro-Wilk เป็นหนึ่งในวิธีที่ใช้กันอย่างแพร่หลายที่สุด จะให้ค่าความน่าจะเป็นของการสังเกตข้อมูลภายใต้แบบจำลองปกติ เนื่องจากการทดสอบเหล่านี้มีอำนาจการทดสอบเพิ่มขึ้นตามขนาดตัวอย่าง จึงมักจะระบุความเบี่ยงเบนเล็กน้อยในตัวอย่างขนาดใหญ่และพลาดความเบี่ยงเบนที่มีนัยสำคัญในตัวอย่างขนาดเล็ก ดังนั้นการตรวจสอบด้วยกราฟและผลกระทบในทางปฏิบัติของการไม่แจกแจงปกติจึงถูกพิจารณาร่วมกับผลการทดสอบใดๆ เมื่อปริมาณที่สนใจคือค่าเฉลี่ย ทฤษฎีขีดจำกัดกลางมักจะให้เหตุผลสำหรับวิธีการตามทฤษฎีปกติแม้ว่าข้อมูลดิบจะไม่ได้มีการแจกแจงปกติก็ตาม
Clinical relevance
ไม่ว่าตัวบ่งชี้ทางชีวภาพ, ระยะเวลาการเข้าพักในโรงพยาบาล, หรือคะแนนจะถูกพิจารณาว่ามีการแจกแจงปกติหรือไม่นั้นเป็นตัวกำหนดวิธีการสรุปและวิเคราะห์ข้อมูลตลอดวรรณกรรมทางคลินิก ดังนั้นการตัดสินการแจกแจงปกติจึงเป็นส่วนหนึ่งของการประเมินระเบียบวิธีวิจัยของการศึกษา บทความนี้อธิบายการประเมินสมมติฐานการแจกแจงและไม่ใช่พื้นฐานสำหรับการตัดสินใจในการวินิจฉัยหรือการรักษาเฉพาะบุคคล
Epidemiology
การวัดทางชีวภาพและทางคลินิกหลายอย่างมีการเบ้ขวา (เช่น ระดับฮอร์โมน, ค่าใช้จ่าย, และเวลารอคอย) ดังนั้นจึงไม่สามารถสมมติการแจกแจงปกติได้และต้องตรวจสอบเป็นประจำ การตัดสินใจนี้กำหนดว่าผลลัพธ์จะถูกรายงานด้วยค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน หรือด้วยค่ามัธยฐานและช่วง และจะใช้วิธีการทดสอบแบบพารามิเตอร์หรือแบบไม่ใช้พารามิเตอร์
History
การแจกแจงปกติได้รับการพัฒนาในศตวรรษที่สิบแปดและสิบเก้าในผลงานของ de Moivre, Laplace และ Gauss และกลายเป็นหัวใจสำคัญของสถิติผ่านทฤษฎีความคลาดเคลื่อนและทฤษฎีขีดจำกัดกลาง เครื่องมืออย่างเป็นทางการสำหรับการตรวจสอบสมมติฐานตามมาในศตวรรษที่ยี่สิบ โดยการทดสอบ Shapiro-Wilk สำหรับการแจกแจงปกติในปี 1965 ซึ่งเป็นการทดสอบความแปรปรวน ได้กลายเป็นขั้นตอนมาตรฐานในการประยุกต์ใช้
Debates
- ควรตัดสินการแจกแจงปกติด้วยการทดสอบอย่างเป็นทางการหรือด้วยการตรวจสอบด้วยกราฟ?
- การทดสอบการแจกแจงปกติอย่างเป็นทางการมีความไวต่อขนาดตัวอย่าง — โดยปฏิเสธความเบี่ยงเบนเล็กน้อยในตัวอย่างขนาดใหญ่และไม่สามารถตรวจจับความเบี่ยงเบนที่สำคัญในตัวอย่างขนาดเล็กได้ — ดังนั้นนักระเบียบวิธีวิจัยหลายคนแนะนำว่าการประเมินด้วยกราฟและความทนทานในทางปฏิบัติของการวิเคราะห์ที่วางแผนไว้ควรเป็นแนวทางในการตัดสินใจมากกว่าค่า p-value ของการทดสอบเพียงอย่างเดียว
Key figures
- Samuel S. Shapiro
- Martin B. Wilk
- Carl Friedrich Gauss
Related topics
Seminal works
- shapiro-wilk-1965
- kwak-2017
- ghasemi-2012
Frequently asked questions
- ทำไมการแจกแจงปกติจึงมีความสำคัญ?
- การสรุปผลและการทดสอบทั่วไปหลายอย่าง (ค่าเฉลี่ย, ส่วนเบี่ยงเบนมาตรฐาน, t-test, ANOVA) สมมติว่าข้อมูลมีการแจกแจงปกติโดยประมาณ เมื่อสมมติฐานนั้นไม่เป็นจริง การวัดเหล่านั้นอาจทำให้เข้าใจผิดได้ และทางเลือกที่ไม่ใช้พารามิเตอร์หรือการแปลงข้อมูลอาจเหมาะสมกว่า
- การทดสอบ Shapiro-Wilk ที่มีนัยสำคัญเพียงพอที่จะละทิ้งวิธีการแบบพารามิเตอร์หรือไม่?
- ไม่เพียงพอด้วยตัวมันเอง การทดสอบจะมีความไวมากในตัวอย่างขนาดใหญ่และมีอำนาจการทดสอบต่ำในตัวอย่างขนาดเล็ก ดังนั้นขนาดของความเบี่ยงเบน, รูปร่างที่เห็นบนแผนภาพ Q-Q, และความทนทานของการวิเคราะห์ที่วางแผนไว้ควรได้รับการพิจารณาทั้งหมด