สถิติไร้พารามิเตอร์
สถิติไร้พารามิเตอร์ทำการอนุมานโดยไม่ต้องสมมติรูปแบบพารามิเตอร์เฉพาะสำหรับการแจกแจงพื้นฐาน โดยแลกเปลี่ยนประสิทธิภาพบางส่วนกับความทนทานและความยืดหยุ่น
Definition
สถิติไร้พารามิเตอร์คือชุดของวิธีการสำหรับการประมาณค่าและการทดสอบที่สมมติเพียงคุณสมบัติเชิงคุณภาพอย่างกว้างๆ ของการแจกแจงที่สร้างข้อมูล เช่น ความต่อเนื่องหรือความเรียบ แทนที่จะเป็นแบบจำลองพารามิเตอร์ที่มีมิติจำกัด
Scope
ขอบเขตนี้ครอบคลุมการทดสอบอันดับแบบไม่ขึ้นกับการแจกแจง เช่น การทดสอบเครื่องหมาย (sign test), การทดสอบวิลคอกซัน (Wilcoxon test) และการทดสอบครัสคัล-วอลลิส (Kruskal-Wallis test), ฟังก์ชันการแจกแจงเชิงประจักษ์ (empirical distribution function) และการลู่เข้าอย่างสม่ำเสมอ (uniform convergence) ของฟังก์ชันดังกล่าว, การประมาณค่าความหนาแน่นและการถดถอยแบบไร้พารามิเตอร์ด้วยเคอร์เนล (kernels), สไปลน์ (splines) และวิธีเฉพาะที่ (local methods), การแลกเปลี่ยนระหว่างความเอนเอียงกับความแปรปรวน (bias-variance trade-off) และการเลือกแบนด์วิดท์ (bandwidth selection), อัตราค่ามินิแมกซ์ (minimax rates) สำหรับกลุ่มฟังก์ชันเรียบ (smooth function classes) และวิธีการสุ่มตัวอย่างซ้ำ (resampling methods) รวมถึงบูตสแตรป (bootstrap) และการทดสอบการเรียงสับเปลี่ยน (permutation tests) ที่ประมาณค่าการแจกแจงจากการสุ่มตัวอย่างจากข้อมูลเอง
Sub-topics
Core questions
- การทดสอบแบบอิงอันดับบรรลุความถูกต้องได้อย่างไรโดยไม่ต้องสมมติการแจกแจงที่เฉพาะเจาะจง?
- ความหนาแน่นและฟังก์ชันการถดถอยถูกประมาณค่าอย่างไร และการปรับเรียบถูกควบคุมอย่างไร?
- การแลกเปลี่ยนระหว่างความเอนเอียงกับความแปรปรวนในการปรับเรียบคืออะไร และเลือกแบนด์วิดท์อย่างไร?
- วิธีการบูตสแตรปและการเรียงสับเปลี่ยนประมาณค่าการแจกแจงจากการสุ่มตัวอย่างจากข้อมูลได้อย่างไร?
Key theories
- วิธีการอันดับแบบไม่ขึ้นกับการแจกแจง
- การแทนที่ค่าข้อมูลด้วยอันดับของข้อมูลทำให้ได้สถิติทดสอบที่การแจกแจงภายใต้สมมติฐานว่าง (null distribution) ไม่ขึ้นอยู่กับการแจกแจงต่อเนื่องพื้นฐาน ทำให้ได้การทดสอบที่ถูกต้องภายใต้ข้อสมมติฐานที่น้อยที่สุด
- การปรับเรียบและการแลกเปลี่ยนระหว่างความเอนเอียงกับความแปรปรวน
- ตัวประมาณค่าเคอร์เนลและสไปลน์ของความหนาแน่นและฟังก์ชันการถดถอยจะสร้างสมดุลระหว่างความเอนเอียงกับความแปรปรวนผ่านแบนด์วิดท์ และทฤษฎีมินิแมกซ์ให้ค่าอัตราที่เหมาะสมที่สุดสำหรับกลุ่มความเรียบที่กำหนด
- การสุ่มตัวอย่างซ้ำ
- วิธีการบูตสแตรปและการเรียงสับเปลี่ยนประมาณค่าการแจกแจงจากการสุ่มตัวอย่างของสถิติโดยการสุ่มตัวอย่างซ้ำจากข้อมูลที่สังเกตได้ ทำให้ได้ค่าความคลาดเคลื่อนมาตรฐาน (standard errors), ช่วงความเชื่อมั่น (confidence intervals) และการทดสอบโดยมีข้อสมมติฐานน้อย
Clinical relevance
วิธีการไร้พารามิเตอร์มีความจำเป็นอย่างยิ่งเมื่อข้อมูลเป็นแบบอันดับ (ordinal), มีความเบ้ (skewed) หรือปนเปื้อนด้วยค่าผิดปกติ (outliers): การทดสอบอันดับเป็นมาตรฐานในการศึกษาทางคลินิกและนิเวศวิทยา, ตัวปรับเรียบเคอร์เนลและสไปลน์ใช้อธิบายเส้นโค้งการตอบสนองต่อขนาดยาและการเติบโต, และบูตสแตรปให้ช่วงความเชื่อมั่นเมื่อไม่มีสูตรคำนวณ
History
การทดสอบอันดับแบบไม่ขึ้นกับการแจกแจงเกิดขึ้นพร้อมกับการทดสอบของวิลคอกซันในปี 1945 และการทดสอบของแมนน์-วิทนีย์ (Mann-Whitney) และครัสคัล-วอลลิส (Kruskal-Wallis) ตามมาไม่นาน การประมาณค่าความหนาแน่นพัฒนาขึ้นโดยโรเซนแบลตต์ (Rosenblatt) และพาร์เซน (Parzen) ในช่วงทศวรรษ 1950 และ 1960 และบูตสแตรปของเอฟรอน (Efron) ในปี 1979 ได้นำการสุ่มตัวอย่างซ้ำที่ต้องใช้คอมพิวเตอร์อย่างเข้มข้นมาสู่ใจกลางของวิชานี้
Key figures
- Frank Wilcoxon
- Bradley Efron
- Emanuel Parzen
- Larry Wasserman
Related topics
Seminal works
- wasserman2006
Frequently asked questions
- วิธีการไร้พารามิเตอร์ดีกว่าเสมอไปหรือไม่เพราะมีข้อสมมติฐานน้อยกว่า?
- ไม่ การมีข้อสมมติฐานน้อยลงทำให้ได้ความทนทานแต่ต้องแลกมาด้วยประสิทธิภาพ: เมื่อแบบจำลองพารามิเตอร์ถูกต้อง วิธีการพารามิเตอร์จะมีกำลังมากกว่า ดังนั้นวิธีการไร้พารามิเตอร์จึงเป็นที่นิยมส่วนใหญ่เมื่อแบบจำลองนั้นเป็นที่น่าสงสัย
- คำว่า 'ไร้พารามิเตอร์' หมายความว่าไม่มีพารามิเตอร์เลยใช่หรือไม่?
- ไม่ มันหมายความว่าแบบจำลองไม่ได้ถูกอธิบายด้วยชุดพารามิเตอร์จำกัดที่ตายตัว เป้าหมายอาจเป็นฟังก์ชันทั้งหมด เช่น ความหนาแน่นหรือเส้นโค้งการถดถอย ซึ่งมีมิติเป็นอนันต์อย่างมีประสิทธิภาพ