ทำไมการแจกแจงปกติจึงมีความสำคัญ?

การสรุปผลและการทดสอบทั่วไปหลายอย่าง (ค่าเฉลี่ย, ส่วนเบี่ยงเบนมาตรฐาน, t-test, ANOVA) สมมติว่าข้อมูลมีการแจกแจงปกติโดยประมาณ เมื่อสมมติฐานนั้นไม่เป็นจริง การวัดเหล่านั้นอาจทำให้เข้าใจผิดได้ และทางเลือกที่ไม่ใช้พารามิเตอร์หรือการแปลงข้อมูลอาจเหมาะสมกว่า

การทดสอบ Shapiro-Wilk ที่มีนัยสำคัญเพียงพอที่จะละทิ้งวิธีการแบบพารามิเตอร์หรือไม่?

ไม่เพียงพอด้วยตัวมันเอง การทดสอบจะมีความไวมากในตัวอย่างขนาดใหญ่และมีอำนาจการทดสอบต่ำในตัวอย่างขนาดเล็ก ดังนั้นขนาดของความเบี่ยงเบน, รูปร่างที่เห็นบนแผนภาพ Q-Q, และความทนทานของการวิเคราะห์ที่วางแผนไว้ควรได้รับการพิจารณาทั้งหมด

การกระจายตัวของข้อมูลและการแจกแจงปกติ

การกระจายตัวของตัวแปรอธิบายว่าค่าของตัวแปรนั้นกระจายไปทั่วช่วงของความเป็นไปได้อย่างไร และวิธีการเชิงพรรณนาและเชิงอนุมานหลายวิธีขึ้นอยู่กับลักษณะของการกระจายตัวนั้น การแจกแจงปกติ — ไม่ว่าข้อมูลจะมีการแจกแจงแบบปกติที่มีรูปร่างสมมาตรคล้ายระฆังหรือไม่ — เป็นสมมติฐานเกี่ยวกับการกระจายตัวที่มักถูกตรวจสอบมากที่สุดในการวิจัยด้านสุขภาพ เนื่องจากเป็นตัวกำหนดทางเลือกระหว่างการสรุปผลและการทดสอบแบบพารามิเตอร์และไม่ใช้พารามิเตอร์

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics

Tools & resources

ดาวน์โหลดสไลด์

Learn & explore

วิดีโอเร็ว ๆ นี้

Definition

การแจกแจงทางสถิติอธิบายความถี่สัมพัทธ์หรือความน่าจะเป็นของค่าที่เป็นไปได้ของตัวแปร; การแจกแจงปกติหมายถึงการสอดคล้องกับการแจกแจงแบบเกาส์เซียน (ปกติ) ซึ่งเป็นรูปแบบสมมาตรคล้ายระฆังที่ประเมินด้วยกราฟและการทดสอบอย่างเป็นทางการเพื่อตัดสินใจว่าวิธีการแบบพารามิเตอร์เหมาะสมหรือไม่

Scope

บทความนี้ครอบคลุมถึงรูปร่างของการกระจายตัว (ความสมมาตร, ความเบ้, ความโด่ง), การแจกแจงปกติและความสำคัญของมัน, และวิธีการประเมินการแจกแจงปกติผ่านการตรวจสอบด้วยกราฟและการทดสอบอย่างเป็นทางการ บทความนี้เป็นข้อมูลอ้างอิงทางระเบียบวิธีวิจัยและไม่ได้ให้คำแนะนำทางคลินิก

Core questions

รูปร่างของการกระจายตัวของตัวแปรเป็นอย่างไร และสมมาตรหรือเบ้หรือไม่?
สมมติฐานของการแจกแจงปกติสมเหตุสมผลสำหรับตัวแปรนี้หรือไม่?
เครื่องมือทางกราฟและแบบเป็นทางการใดที่ประเมินการแจกแจงปกติได้ดีที่สุด และทำงานอย่างไรกับตัวอย่างขนาดเล็กหรือใหญ่?

Key concepts

การแจกแจงปกติ (เกาส์เซียน)
ความเบ้และความโด่ง
การประเมินด้วยกราฟ (ฮิสโตแกรม, แผนภาพ Q-Q)
การทดสอบ Shapiro-Wilk
การทดสอบ Kolmogorov-Smirnov
ทางเลือกระหว่างพารามิเตอร์กับไม่ใช้พารามิเตอร์
ความไวของขนาดตัวอย่างของการทดสอบการแจกแจงปกติ

Key theories

ทฤษฎีขีดจำกัดกลาง: ทฤษฎีขีดจำกัดกลางระบุว่า สำหรับตัวอย่างที่มีขนาดใหญ่พอ การแจกแจงการสุ่มตัวอย่างของค่าเฉลี่ยจะเข้าใกล้การแจกแจงปกติโดยไม่คำนึงถึงรูปร่างของตัวแปรพื้นฐาน นี่คือเหตุผลที่วิธีการตามทฤษฎีปกติมักจะยังคงใช้งานได้ดีสำหรับค่าเฉลี่ยแม้ว่าข้อมูลดิบจะไม่ได้มีการแจกแจงปกติก็ตาม

Mechanisms

การแจกแจงปกติได้รับการประเมินด้วยสองวิธีที่เสริมกัน วิธีการทางกราฟ — ฮิสโตแกรมและแผนภาพควอนไทล์-ควอนไทล์ (Q-Q plot) — แสดงความเบี่ยงเบนโดยตรง เช่น ความเบ้, หางหนา, หรือสองยอด การทดสอบอย่างเป็นทางการ ซึ่งการทดสอบ Shapiro-Wilk เป็นหนึ่งในวิธีที่ใช้กันอย่างแพร่หลายที่สุด จะให้ค่าความน่าจะเป็นของการสังเกตข้อมูลภายใต้แบบจำลองปกติ เนื่องจากการทดสอบเหล่านี้มีอำนาจการทดสอบเพิ่มขึ้นตามขนาดตัวอย่าง จึงมักจะระบุความเบี่ยงเบนเล็กน้อยในตัวอย่างขนาดใหญ่และพลาดความเบี่ยงเบนที่มีนัยสำคัญในตัวอย่างขนาดเล็ก ดังนั้นการตรวจสอบด้วยกราฟและผลกระทบในทางปฏิบัติของการไม่แจกแจงปกติจึงถูกพิจารณาร่วมกับผลการทดสอบใดๆ เมื่อปริมาณที่สนใจคือค่าเฉลี่ย ทฤษฎีขีดจำกัดกลางมักจะให้เหตุผลสำหรับวิธีการตามทฤษฎีปกติแม้ว่าข้อมูลดิบจะไม่ได้มีการแจกแจงปกติก็ตาม

Clinical relevance

ไม่ว่าตัวบ่งชี้ทางชีวภาพ, ระยะเวลาการเข้าพักในโรงพยาบาล, หรือคะแนนจะถูกพิจารณาว่ามีการแจกแจงปกติหรือไม่นั้นเป็นตัวกำหนดวิธีการสรุปและวิเคราะห์ข้อมูลตลอดวรรณกรรมทางคลินิก ดังนั้นการตัดสินการแจกแจงปกติจึงเป็นส่วนหนึ่งของการประเมินระเบียบวิธีวิจัยของการศึกษา บทความนี้อธิบายการประเมินสมมติฐานการแจกแจงและไม่ใช่พื้นฐานสำหรับการตัดสินใจในการวินิจฉัยหรือการรักษาเฉพาะบุคคล

Epidemiology

การวัดทางชีวภาพและทางคลินิกหลายอย่างมีการเบ้ขวา (เช่น ระดับฮอร์โมน, ค่าใช้จ่าย, และเวลารอคอย) ดังนั้นจึงไม่สามารถสมมติการแจกแจงปกติได้และต้องตรวจสอบเป็นประจำ การตัดสินใจนี้กำหนดว่าผลลัพธ์จะถูกรายงานด้วยค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน หรือด้วยค่ามัธยฐานและช่วง และจะใช้วิธีการทดสอบแบบพารามิเตอร์หรือแบบไม่ใช้พารามิเตอร์

History

การแจกแจงปกติได้รับการพัฒนาในศตวรรษที่สิบแปดและสิบเก้าในผลงานของ de Moivre, Laplace และ Gauss และกลายเป็นหัวใจสำคัญของสถิติผ่านทฤษฎีความคลาดเคลื่อนและทฤษฎีขีดจำกัดกลาง เครื่องมืออย่างเป็นทางการสำหรับการตรวจสอบสมมติฐานตามมาในศตวรรษที่ยี่สิบ โดยการทดสอบ Shapiro-Wilk สำหรับการแจกแจงปกติในปี 1965 ซึ่งเป็นการทดสอบความแปรปรวน ได้กลายเป็นขั้นตอนมาตรฐานในการประยุกต์ใช้

Debates

ควรตัดสินการแจกแจงปกติด้วยการทดสอบอย่างเป็นทางการหรือด้วยการตรวจสอบด้วยกราฟ?: การทดสอบการแจกแจงปกติอย่างเป็นทางการมีความไวต่อขนาดตัวอย่าง — โดยปฏิเสธความเบี่ยงเบนเล็กน้อยในตัวอย่างขนาดใหญ่และไม่สามารถตรวจจับความเบี่ยงเบนที่สำคัญในตัวอย่างขนาดเล็กได้ — ดังนั้นนักระเบียบวิธีวิจัยหลายคนแนะนำว่าการประเมินด้วยกราฟและความทนทานในทางปฏิบัติของการวิเคราะห์ที่วางแผนไว้ควรเป็นแนวทางในการตัดสินใจมากกว่าค่า p-value ของการทดสอบเพียงอย่างเดียว

Key figures

Samuel S. Shapiro
Martin B. Wilk
Carl Friedrich Gauss

Seminal works

shapiro-wilk-1965
kwak-2017
ghasemi-2012

Frequently asked questions

ทำไมการแจกแจงปกติจึงมีความสำคัญ?: การสรุปผลและการทดสอบทั่วไปหลายอย่าง (ค่าเฉลี่ย, ส่วนเบี่ยงเบนมาตรฐาน, t-test, ANOVA) สมมติว่าข้อมูลมีการแจกแจงปกติโดยประมาณ เมื่อสมมติฐานนั้นไม่เป็นจริง การวัดเหล่านั้นอาจทำให้เข้าใจผิดได้ และทางเลือกที่ไม่ใช้พารามิเตอร์หรือการแปลงข้อมูลอาจเหมาะสมกว่า
การทดสอบ Shapiro-Wilk ที่มีนัยสำคัญเพียงพอที่จะละทิ้งวิธีการแบบพารามิเตอร์หรือไม่?: ไม่เพียงพอด้วยตัวมันเอง การทดสอบจะมีความไวมากในตัวอย่างขนาดใหญ่และมีอำนาจการทดสอบต่ำในตัวอย่างขนาดเล็ก ดังนั้นขนาดของความเบี่ยงเบน, รูปร่างที่เห็นบนแผนภาพ Q-Q, และความทนทานของการวิเคราะห์ที่วางแผนไว้ควรได้รับการพิจารณาทั้งหมด