可重现研究
可重现研究是指进行和发布统计分析的一种实践,以便其他人,在获得相同数据和代码的情况下,能够精确地重新生成所报告的结果。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
可重现研究是一套实践,通过将数据、分析代码、计算环境和叙述结合起来,确保统计分析的计算结果可以从原始数据和代码中重新生成。
Scope
本主题涵盖了将代码、结果和叙述编织在一起的“文学化编程”(literate programming),实现这一目标的动态文档和笔记本,版本控制和环境捕获,遵循FAIR等原则的数据和代码共享,以及可重现性与更难实现的可复制性之间的区别。重点在于分析的计算可重现性。
Core questions
- 计算分析可重现意味着什么?
- 文学化编程和动态文档如何将代码与结果结合起来?
- 版本控制和环境捕获如何保存分析?
- FAIR 等数据共享原则如何支持重用和验证?
Key concepts
- 文学化编程
- 动态文档
- 版本控制
- 环境捕获
- FAIR数据原则
- 可重现性与可复制性
Key theories
- 文学化编程和动态文档
- 将分析代码与解释性文本交错,并直接从代码中重新生成图表,如文学化编程和现代笔记本所示,确保报告的结果始终与产生它们的计算相符。
- 可查找、可访问的数据和环境
- 根据 FAIR 等原则共享数据和代码,并结合捕获的计算环境和版本历史,使其他人能够定位、运行和验证分析,而不仅仅是阅读其结论。
Clinical relevance
可重现的工作流程使合作者、审稿人和监管机构能够验证统计结果、发现错误并在此前工作的基础上进行发展;在科学界对可重现性危机日益担忧的背景下,这些实践是保障数据分析可信度的实用保障。
History
Claerbout 在地球物理学中开创了可重现计算文档的先河,Knuth 的文学化编程提供了基础思想,而 Gentleman 等统计学家则将可重现分析正式化;动态文档工具和 FAIR 原则随后使这些实践成为主流。
Debates
- 可重现性与可复制性
- 从相同数据和代码中重新生成相同结果(可重现性)与在新研究中获得一致发现(可复制性)是不同的;关于术语以及两者在多大程度上保证科学有效性,目前仍在讨论中。
Key figures
- Donald Knuth
- Robert Gentleman
- Duncan Temple Lang
- Jon Claerbout
Related topics
Seminal works
- knuth1984
- gentleman2007
Frequently asked questions
- 可重现性与在新实验中获得相同的科学结论是一回事吗?
- 不是。可重现性意味着从相同的数据和代码中重新生成相同的结果。在新的研究中使用新数据获得一致的发现是可复制性,这是一个独立且通常更难达到的标准。
- 有哪些工具支持可重现研究?
- 运行代码以生成图表的动态文档系统和笔记本、用于跟踪更改的版本控制以及记录软件版本的环境捕获工具,共同使分析可供他人重现。