การวิจัยที่ทำซ้ำได้
การวิจัยที่ทำซ้ำได้คือแนวปฏิบัติในการดำเนินการและเผยแพร่การวิเคราะห์ทางสถิติ เพื่อให้ผู้อื่นสามารถสร้างผลลัพธ์ที่รายงานขึ้นมาใหม่ได้อย่างถูกต้อง โดยใช้ข้อมูลและรหัสชุดเดียวกัน
Definition
การวิจัยที่ทำซ้ำได้คือชุดของแนวปฏิบัติที่รับรองว่าผลลัพธ์เชิงคำนวณของการวิเคราะห์ทางสถิติสามารถสร้างขึ้นใหม่ได้จากข้อมูลและรหัสต้นฉบับ โดยการเชื่อมโยงข้อมูล รหัสการวิเคราะห์ สภาพแวดล้อมการคำนวณ และคำบรรยายเข้าด้วยกัน
Scope
หัวข้อนี้ครอบคลุมถึงการเขียนโปรแกรมเชิงวรรณกรรม (literate programming) ที่ผสานรหัส ผลลัพธ์ และคำบรรยายเข้าด้วยกัน, เอกสารแบบไดนามิกและสมุดบันทึกที่นำมาใช้, การควบคุมเวอร์ชันและการบันทึกสภาพแวดล้อม, การแบ่งปันข้อมูลและรหัสภายใต้หลักการต่างๆ เช่น FAIR, และความแตกต่างระหว่างความสามารถในการทำซ้ำได้ (reproducibility) กับเป้าหมายที่ยากกว่าคือความสามารถในการทำซ้ำผล (replicability) โดยเน้นที่ความสามารถในการทำซ้ำเชิงคำนวณของการวิเคราะห์
Core questions
- การวิเคราะห์เชิงคำนวณที่ทำซ้ำได้หมายความว่าอย่างไร?
- การเขียนโปรแกรมเชิงวรรณกรรมและเอกสารแบบไดนามิกเชื่อมโยงรหัสเข้ากับผลลัพธ์ได้อย่างไร?
- การควบคุมเวอร์ชันและการบันทึกสภาพแวดล้อมช่วยรักษางานวิเคราะห์ได้อย่างไร?
- หลักการแบ่งปันข้อมูลเช่น FAIR สนับสนุนการนำกลับมาใช้ใหม่และการตรวจสอบได้อย่างไร?
Key concepts
- การเขียนโปรแกรมเชิงวรรณกรรม
- เอกสารแบบไดนามิก
- การควบคุมเวอร์ชัน
- การบันทึกสภาพแวดล้อม
- หลักการข้อมูล FAIR
- ความสามารถในการทำซ้ำได้เทียบกับความสามารถในการทำซ้ำผล
Key theories
- การเขียนโปรแกรมเชิงวรรณกรรมและเอกสารแบบไดนามิก
- การสลับรหัสการวิเคราะห์กับข้อความอธิบายและการสร้างรูปภาพและตารางขึ้นใหม่โดยตรงจากรหัสนั้น เช่นเดียวกับการเขียนโปรแกรมเชิงวรรณกรรมและสมุดบันทึกสมัยใหม่ ช่วยให้มั่นใจได้ว่าผลลัพธ์ที่รายงานจะตรงกับการคำนวณที่สร้างขึ้นมาเสมอ
- ข้อมูลและสภาพแวดล้อมที่ค้นหาได้และเข้าถึงได้
- การแบ่งปันข้อมูลและรหัสภายใต้หลักการต่างๆ เช่น FAIR พร้อมด้วยสภาพแวดล้อมการคำนวณที่บันทึกไว้และประวัติเวอร์ชัน ช่วยให้ผู้อื่นสามารถค้นหา เรียกใช้ และตรวจสอบการวิเคราะห์ได้ แทนที่จะเพียงแค่อ่านข้อสรุปเท่านั้น
Clinical relevance
ขั้นตอนการทำงานที่ทำซ้ำได้ช่วยให้ผู้ร่วมงาน ผู้ตรวจสอบ และหน่วยงานกำกับดูแลสามารถตรวจสอบผลลัพธ์ทางสถิติ ค้นหาข้อผิดพลาด และต่อยอดจากงานวิจัยก่อนหน้าได้ ท่ามกลางความกังวลเกี่ยวกับวิกฤตความสามารถในการทำซ้ำได้ในสาขาวิทยาศาสตร์ต่างๆ แนวปฏิบัติเหล่านี้จึงเป็นหลักประกันเชิงปฏิบัติสำหรับความน่าเชื่อถือของการวิเคราะห์ข้อมูล
History
Claerbout เป็นผู้บุกเบิกเอกสารเชิงคำนวณที่ทำซ้ำได้ในสาขาธรณีฟิสิกส์, การเขียนโปรแกรมเชิงวรรณกรรมของ Knuth เป็นแนวคิดพื้นฐาน, และนักสถิติเช่น Gentleman ได้กำหนดรูปแบบการวิเคราะห์ที่ทำซ้ำได้; ต่อมาเครื่องมือเอกสารแบบไดนามิกและหลักการ FAIR ได้ทำให้แนวปฏิบัติเหล่านี้เป็นที่นิยม
Debates
- ความสามารถในการทำซ้ำได้เทียบกับความสามารถในการทำซ้ำผล
- การสร้างผลลัพธ์เดิมขึ้นใหม่จากข้อมูลและรหัสชุดเดิม (ความสามารถในการทำซ้ำได้) แตกต่างจากการได้มาซึ่งผลลัพธ์ที่สอดคล้องกันในการศึกษาใหม่ (ความสามารถในการทำซ้ำผล) มีการถกเถียงกันอย่างต่อเนื่องเกี่ยวกับคำศัพท์และขอบเขตที่แต่ละอย่างรับประกันความถูกต้องทางวิทยาศาสตร์
Key figures
- Donald Knuth
- Robert Gentleman
- Duncan Temple Lang
- Jon Claerbout
Related topics
Seminal works
- knuth1984
- gentleman2007
Frequently asked questions
- ความสามารถในการทำซ้ำได้เหมือนกับการได้ข้อสรุปทางวิทยาศาสตร์เดียวกันในการทดลองใหม่หรือไม่?
- ไม่ ความสามารถในการทำซ้ำได้หมายถึงการสร้างผลลัพธ์เดิมขึ้นใหม่จากข้อมูลและรหัสชุดเดิม การได้มาซึ่งผลลัพธ์ที่สอดคล้องกันในการศึกษาใหม่ด้วยข้อมูลใหม่คือความสามารถในการทำซ้ำผล ซึ่งเป็นมาตรฐานที่แยกต่างหากและโดยทั่วไปแล้วยากกว่า
- เครื่องมือใดบ้างที่สนับสนุนการวิจัยที่ทำซ้ำได้?
- ระบบเอกสารแบบไดนามิกและสมุดบันทึกที่รันรหัสเพื่อสร้างรูปภาพและตาราง, การควบคุมเวอร์ชันเพื่อติดตามการเปลี่ยนแปลง, และเครื่องมือบันทึกสภาพแวดล้อมที่บันทึกเวอร์ชันซอฟต์แวร์ ทั้งหมดนี้ช่วยให้ผู้อื่นสามารถทำซ้ำการวิเคราะห์ได้