อะไรทำให้ข้อมูลเป็น “จำแนกประเภท”?

ข้อมูลเป็นจำแนกประเภทเมื่อการสังเกตการณ์แต่ละครั้งจัดอยู่ในหนึ่งในชุดของคลาสที่ไม่ต่อเนื่อง — เช่น ป่วย/สุขภาพดี หรือกลุ่มการรักษา A/B/C — แทนที่จะเป็นค่าตัวเลขที่วัดได้; การวิเคราะห์จะทำงานกับจำนวนนับในแต่ละคลาส

ส่วนนี้แตกต่างจากการถดถอยสำหรับผลลัพธ์ต่อเนื่องอย่างไร?

ผลลัพธ์ในที่นี้คือประเภทหรือจำนวนนับ ไม่ใช่การวัดค่าต่อเนื่อง ดังนั้นวิธีการจึงเน้นที่ตารางความบังเอิญ อัตราส่วนของความเสี่ยงและความน่าจะเป็น และแบบจำลองเช่นการถดถอยโลจิสติกและลอการิทึมเชิงเส้น แทนที่จะเป็นค่าเฉลี่ยและการถดถอยเชิงเส้นสามัญ

การวิเคราะห์ข้อมูลจำแนกประเภท

การวิเคราะห์ข้อมูลจำแนกประเภทเป็นสาขาหนึ่งของชีวสถิติที่เกี่ยวข้องกับข้อมูลที่จัดอยู่ในประเภทที่ไม่ต่อเนื่อง แทนที่จะเป็นค่าตัวเลขต่อเนื่อง เช่น การมีอยู่หรือไม่มีอยู่ของโรค เนื้องอกที่เป็นชนิดไม่ร้ายแรงหรือร้ายแรง ผู้ป่วยที่ได้รับการจัดสรรให้กับการรักษาหลายกลุ่ม วัตถุประสงค์หลักคือตารางความบังเอิญของจำนวนนับ และวิธีการของมันจะทดสอบและหาปริมาณความสัมพันธ์ระหว่างตัวแปรจำแนกประเภทในขณะที่ควบคุมตัวแปรอื่น ๆ

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics

Tools & resources

ดาวน์โหลดสไลด์

Learn & explore

วิดีโอเร็ว ๆ นี้

Definition

การวิเคราะห์ข้อมูลจำแนกประเภทคือชุดของวิธีการทางสถิติสำหรับการอธิบาย การทดสอบ และการสร้างแบบจำลองความสัมพันธ์ระหว่างตัวแปรที่มีค่าเป็นจำนวนนับภายในประเภทที่ไม่เรียงลำดับหรือเรียงลำดับ ซึ่งโดยทั่วไปจะจัดเรียงเป็นตารางความบังเอิญของความถี่

Scope

ส่วนนี้จะนำผู้อ่านไปสู่แนวคิดหลักที่ปรากฏซ้ำ ๆ ในหน้าหัวข้อด้านล่าง: วิธีการจัดเรียงการสังเกตการณ์จำแนกประเภทลงในตารางความบังเอิญ วิธีการทดสอบความสัมพันธ์ในตาราง (การทดสอบไคกำลังสองและการทดสอบแบบแม่นยำ) วิธีการสรุปความสัมพันธ์ด้วยมาตรวัดผลกระทบ (อัตราส่วนความเสี่ยงและอัตราส่วนความน่าจะเป็น) และวิธีการจัดการกับตัวแปรจำแนกประเภทที่ทำให้เกิดความสับสนโดยการแบ่งชั้น (วิธีการ Mantel-Haenszel) โดยจะนำเสนอสิ่งเหล่านี้เป็นเครื่องมือทางระเบียบวิธีสำหรับการอ่านและการผลิตงานวิจัยด้านสุขภาพ ไม่ใช่เป็นแนวทางทางคลินิก

Sub-topics

Core questions

มีความสัมพันธ์ระหว่างตัวแปรจำแนกประเภทสองตัวหรือไม่ หรือเป็นอิสระต่อกัน?
ความสัมพันธ์มีขนาดใหญ่เพียงใด แสดงเป็นอัตราส่วนหรือความแตกต่างของความเสี่ยงหรือความน่าจะเป็น?
ความสัมพันธ์ที่ปรากฏยังคงอยู่หรือไม่หลังจากแบ่งชั้นตามตัวแปรจำแนกประเภทที่สาม หรือถูกทำให้สับสนหรือถูกปรับเปลี่ยนโดยตัวแปรนั้น?
เมื่อจำนวนเซลล์มีขนาดเล็ก ขั้นตอนที่แม่นยำใดที่มาแทนที่การประมาณค่าตัวอย่างขนาดใหญ่?

Key concepts

ตารางความบังเอิญของจำนวนนับ
ความเป็นอิสระของตัวแปรจำแนกประเภท
การทดสอบไคกำลังสองของความสัมพันธ์
การทดสอบแบบแม่นยำสำหรับตารางที่เบาบาง
มาตรวัดผลกระทบ: อัตราส่วนความเสี่ยงและอัตราส่วนความน่าจะเป็น
การแบ่งชั้นและตัวประมาณค่า Mantel-Haenszel
การสับสนและการปรับเปลี่ยนผลกระทบข้ามชั้น
แบบจำลองลอการิทึมเชิงเส้นและโลจิสติกสำหรับตาราง

Mechanisms

การสังเกตการณ์จำแนกประเภทจะถูกจัดประเภทไขว้กันเป็นตารางซึ่งเซลล์จะเก็บความถี่ การทดสอบความสัมพันธ์จะเปรียบเทียบจำนวนเซลล์ที่สังเกตได้กับจำนวนที่คาดการณ์ไว้หากตัวแปรแถวและคอลัมน์เป็นอิสระ: สถิติไคกำลังสองของ Pearson ซึ่งได้รับการพิสูจน์โดยการชี้แจงระดับความเป็นอิสระของ Fisher จะรวมผลต่างมาตรฐานกำลังสอง ในขณะที่การทดสอบแบบแม่นยำจะแจกแจงการกระจายแบบมีเงื่อนไขของตารางเมื่อจำนวนนับน้อยเกินไปสำหรับการประมาณค่า ความแข็งแกร่งของความสัมพันธ์จะถูกสรุปโดยมาตรวัดผลกระทบที่ได้จากตาราง — อัตราส่วนความเสี่ยงหรืออัตราส่วนความน่าจะเป็น เมื่อตัวแปรที่สามคุกคามที่จะทำให้ความสัมพันธ์สับสน ข้อมูลจะถูกแบ่งออกเป็นชั้นที่กำหนดโดยตัวแปรนั้น และมีการประมาณค่าแบบรวมข้ามชั้น; กระบวนการ Mantel-Haenszel ให้การทดสอบแบบแบ่งชั้นและการประมาณค่าสรุปดังกล่าว ชิ้นส่วนเหล่านี้จะถูกนำไปใช้ในแบบจำลองการถดถอยแบบลอการิทึมเชิงเส้นและแบบโลจิสติกที่จัดการตัวทำนายจำแนกประเภทหลายตัวพร้อมกัน

Clinical relevance

หลักฐานการวินิจฉัย การพยากรณ์โรค และปัจจัยเสี่ยงส่วนใหญ่ในวิทยาศาสตร์สุขภาพจะถูกรายงานเป็นความสัมพันธ์ระหว่างตัวแปรจำแนกประเภท — ผู้สัมผัสเทียบกับผู้ไม่สัมผัส เหตุการณ์เทียบกับไม่มีเหตุการณ์ — ดังนั้นวิธีการในส่วนนี้จึงเป็นพื้นฐานว่าหลักฐานนั้นถูกสร้างขึ้นและประเมินอย่างไร พวกเขาอธิบายวิธีการวัดและทดสอบความสัมพันธ์; พวกเขาเป็นเครื่องมือสำหรับการตีความงานวิจัยและไม่ใช่พื้นฐานสำหรับการตัดสินใจวินิจฉัยหรือการรักษาเฉพาะบุคคล

Epidemiology

วิธีการตารางความบังเอิญเป็นกลไกประจำวันของระบาดวิทยา: การศึกษาแบบกลุ่ม การศึกษาแบบควบคุมกรณี และการศึกษาแบบภาคตัดขวางทั้งหมดลดลงอย่างง่ายที่สุดเหลือตารางสองคูณสองของการสัมผัสเทียบกับผลลัพธ์ และการวิเคราะห์แบบแบ่งชั้น (Mantel-Haenszel) เป็นแนวทางที่ไม่ใช่แบบจำลองแบบคลาสสิกสำหรับการสับสนก่อนการถดถอย วิธีการเดียวกันนี้ยังปรากฏซ้ำในการทดลองทางคลินิกที่รายงานจุดสิ้นสุดแบบไบนารีและการประเมินการทดสอบการวินิจฉัย

History

สาขาเริ่มต้นด้วยสถิติไคกำลังสองของ Karl Pearson ในช่วงต้นศตวรรษที่ยี่สิบและการแก้ไขระดับความเป็นอิสระของ Fisher ในปี 1922 สำหรับตารางความบังเอิญ ตามด้วยการทดสอบแบบแม่นยำของ Fisher สำหรับตัวอย่างขนาดเล็ก ระบาดวิทยาในช่วงกลางศตวรรษได้ให้กรอบมาตรวัดผลกระทบ — ข้อโต้แย้งอัตราส่วนความน่าจะเป็นของ Cornfield และตัวประมาณค่าแบบแบ่งชั้น Mantel-Haenszel ในปี 1959 — และปลายศตวรรษที่ยี่สิบได้รวมวิธีการเหล่านี้เข้าด้วยกันภายในกรอบแบบจำลองเชิงเส้นทั่วไป ซึ่งสังเคราะห์ในการรักษาตำราเรียนของ Agresti

Key figures

Karl Pearson
Ronald A. Fisher
Jerome Cornfield
Nathan Mantel
William Haenszel
Alan Agresti
Joseph Fleiss

Seminal works

fisher-1922
mantel-haenszel-1959
agresti-2013

Frequently asked questions

อะไรทำให้ข้อมูลเป็น “จำแนกประเภท”?: ข้อมูลเป็นจำแนกประเภทเมื่อการสังเกตการณ์แต่ละครั้งจัดอยู่ในหนึ่งในชุดของคลาสที่ไม่ต่อเนื่อง — เช่น ป่วย/สุขภาพดี หรือกลุ่มการรักษา A/B/C — แทนที่จะเป็นค่าตัวเลขที่วัดได้; การวิเคราะห์จะทำงานกับจำนวนนับในแต่ละคลาส
ส่วนนี้แตกต่างจากการถดถอยสำหรับผลลัพธ์ต่อเนื่องอย่างไร?: ผลลัพธ์ในที่นี้คือประเภทหรือจำนวนนับ ไม่ใช่การวัดค่าต่อเนื่อง ดังนั้นวิธีการจึงเน้นที่ตารางความบังเอิญ อัตราส่วนของความเสี่ยงและความน่าจะเป็น และแบบจำลองเช่นการถดถอยโลจิสติกและลอการิทึมเชิงเส้น แทนที่จะเป็นค่าเฉลี่ยและการถดถอยเชิงเส้นสามัญ