การอธิบายข้อมูลและสถิติสรุป
การอธิบายข้อมูลและสถิติสรุปเป็นส่วนหนึ่งของชีวสถิติที่เกี่ยวข้องกับการจัดระเบียบ การย่อ และการนำเสนอชุดข้อมูลจากการสังเกต เพื่อให้สามารถเข้าใจลักษณะสำคัญของข้อมูลได้อย่างรวดเร็ว ก่อนที่จะมีการอนุมานใด ๆ นักวิจัยจะอธิบายว่าข้อมูลมีการกระจายตัวอย่างไร มีจุดศูนย์กลางอยู่ที่ใด มีการกระจายตัวกว้างเพียงใด และมีรูปร่างอย่างไร โดยใช้การสรุปเชิงตัวเลขและการแสดงผลด้วยกราฟ
Definition
การอธิบายข้อมูลและสถิติสรุปประกอบด้วยวิธีการเชิงตัวเลขและกราฟิกที่ใช้ในการระบุตำแหน่งศูนย์กลาง การกระจายตัว รูปร่างการกระจายตัว และโครงสร้างของชุดข้อมูล ก่อนและเป็นอิสระจากการอนุมานเชิงสรุปไปยังประชากร
Scope
ส่วนนี้จะแนะนำผู้อ่านให้รู้จักกับชีวสถิติเชิงพรรณนา: สถิติเชิงพรรณนาโดยรวม การกระจายตัวและความเป็นปกติของข้อมูล มาตรวัดแนวโน้มเข้าสู่ส่วนกลาง มาตรวัดความแปรปรวน และการแสดงข้อมูลด้วยภาพ เป็นภาพรวมอ้างอิงว่าข้อมูลด้านสุขภาพถูกสรุปอย่างไร ไม่ใช่ข้อกำหนดสำหรับการวิเคราะห์หรือการดำเนินการทางคลินิก
Sub-topics
Core questions
- จุดศูนย์กลางของข้อมูลอยู่ที่ใด และมาตรวัดตำแหน่งใดที่แสดงถึงจุดนั้นได้ดีที่สุด?
- ข้อมูลจากการสังเกตมีความแตกต่างกันมากน้อยเพียงใด และการกระจายตัวนั้นถูกวัดปริมาณอย่างไร?
- รูปร่างของการกระจายตัวเป็นอย่างไร และมีความเป็นปกติโดยประมาณหรือไม่?
- จะแสดงข้อมูลอย่างไรเพื่อให้เห็นรูปแบบ ความเบ้ และค่าผิดปกติได้?
Key concepts
- สถิติเชิงพรรณนาเทียบกับสถิติเชิงอนุมาน
- มาตรวัดแนวโน้มเข้าสู่ส่วนกลาง (ค่าเฉลี่ย มัธยฐาน ฐานนิยม)
- มาตรวัดความแปรปรวน (พิสัย ความแปรปรวน ส่วนเบี่ยงเบนมาตรฐาน พิสัยระหว่างควอร์ไทล์)
- รูปร่างการกระจายตัว ความเบ้ และความโด่ง
- ความเป็นปกติและการประเมิน
- การสรุปด้วยกราฟ (ฮิสโตแกรม แผนภาพกล่อง แผนภาพการกระจาย)
- การวิเคราะห์ข้อมูลเชิงสำรวจ
Mechanisms
การอธิบายข้อมูลดำเนินการโดยการลดข้อมูลจากการสังเกตจำนวนมากให้เหลือเพียงปริมาณและภาพไม่กี่อย่างที่ให้ข้อมูล มาตรวัดตำแหน่ง (ค่าเฉลี่ย มัธยฐาน หรือฐานนิยม) สรุปว่าข้อมูลอยู่ตรงไหน; มาตรวัดการกระจายตัว (ส่วนเบี่ยงเบนมาตรฐาน พิสัยระหว่างควอร์ไทล์ พิสัย) สรุปว่าข้อมูลกระจายตัวรอบตำแหน่งนั้นมากน้อยเพียงใด; และการจับคู่ตำแหน่งกับการกระจายตัวจะถูกเลือกให้เข้ากับรูปร่างของการกระจายตัว โดยมัธยฐานและพิสัยระหว่างควอร์ไทล์เป็นที่นิยมสำหรับข้อมูลที่มีความเบ้ และค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานสำหรับข้อมูลที่มีความสมมาตรโดยประมาณ การแสดงผลด้วยกราฟ เช่น ฮิสโตแกรมและแผนภาพกล่อง เผยให้เห็นรูปร่าง ความเบ้ และค่าผิดปกติที่ตัวเลขเดี่ยว ๆ อาจซ่อนไว้ และเครื่องมือเหล่านี้ร่วมกันเป็นขั้นตอนการสำรวจที่นำไปสู่การอนุมานอย่างเป็นทางการ
Clinical relevance
การศึกษาทางคลินิก การตรวจสอบ และรายงานการเฝ้าระวังเกือบทุกฉบับเริ่มต้นด้วยการสรุปเชิงพรรณนาของผู้เข้าร่วมและการวัดผล ดังนั้นการทำความเข้าใจการสรุปเหล่านี้จึงเป็นพื้นฐานในการอ่านวรรณกรรมด้านวิทยาศาสตร์สุขภาพ ส่วนนี้อธิบายว่าข้อมูลถูกระบุลักษณะอย่างไร และมีวัตถุประสงค์เพื่อเป็นพื้นฐานสำหรับการประเมินหลักฐาน ไม่ใช่เป็นพื้นฐานสำหรับการวินิจฉัยหรือการตัดสินใจในการรักษาเฉพาะบุคคล
Epidemiology
การสรุปเชิงพรรณนาเป็นขั้นตอนการวิเคราะห์แรกในการวิจัยทางระบาดวิทยาและทางคลินิก ซึ่งใช้ในการระบุลักษณะประชากรที่ศึกษา ตารางพื้นฐาน และการกระจายตัวของการสัมผัสและผลลัพธ์ ก่อนที่จะมีการประมาณความสัมพันธ์ การเลือกมาตรวัดสรุปและการแสดงผลมีผลโดยตรงต่อความโปร่งใสในการสื่อสารข้อมูลของการศึกษา
History
การสรุปข้อมูลเชิงตัวเลขมีรากฐานลึกซึ้งในดาราศาสตร์และสถิติชีพในศตวรรษที่สิบแปดและสิบเก้า แต่ชุดเครื่องมือเชิงพรรณนาสมัยใหม่ได้รับการรวบรวมในศตวรรษที่ยี่สิบ หนังสือ Exploratory Data Analysis (1977) ของ John Tukey ได้ปรับกรอบการอธิบายข้อมูลให้เป็นการสำรวจในตัวเองและทำให้การแสดงผลเช่นแผนภาพกล่องเป็นที่นิยม ในขณะที่นักการศึกษาสถิติในสาขาวิทยาศาสตร์สุขภาพได้ประมวลผลการสรุปมาตรฐานที่รายงานในวารสารทางการแพทย์ในปัจจุบัน
Debates
- เมื่อใดที่ค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานควรถูกแทนที่ด้วยมัธยฐานและพิสัยระหว่างควอร์ไทล์?
- เนื่องจากค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานได้รับผลกระทบจากความเบ้และค่าผิดปกติ จึงมีคำแนะนำมานานแล้วให้สรุปข้อมูลที่ไม่เป็นปกติด้วยมัธยฐานและพิสัยระหว่างควอร์ไทล์; เกณฑ์การเปลี่ยนผ่านในทางปฏิบัติขึ้นอยู่กับรูปร่างการกระจายตัวและขนาดตัวอย่าง
Key figures
- John W. Tukey
- William S. Cleveland
- Douglas G. Altman
- J. Martin Bland
Related topics
Seminal works
- tukey-1977
- gupta-2019
Frequently asked questions
- ความแตกต่างระหว่างสถิติเชิงพรรณนาและสถิติเชิงอนุมานคืออะไร?
- สถิติเชิงพรรณนาสรุปและแสดงข้อมูลที่เก็บรวบรวมจริง ในขณะที่สถิติเชิงอนุมานใช้ข้อมูลเหล่านั้นเพื่อสรุปผลเกี่ยวกับประชากรที่กว้างขึ้น การพรรณนาจะมาก่อนและไม่มีการอ้างอิงความน่าจะเป็นนอกเหนือจากตัวอย่างที่อยู่ในมือ
- ทำไมต้องอธิบายข้อมูลก่อนทำการทดสอบ?
- การสรุปและแผนภาพเผยให้เห็นรูปร่างการกระจายตัว การกระจายตัว และค่าผิดปกติหรือข้อผิดพลาด ซึ่งเป็นตัวกำหนดว่าการวิเคราะห์ในภายหลังเหมาะสมหรือไม่และควรตีความผลลัพธ์อย่างไร