Recherche reproductible
La recherche reproductible est la pratique consistant à mener et à publier des analyses statistiques de manière à ce que d'autres, disposant des mêmes données et du même code, puissent régénérer exactement les résultats rapportés.
Definition
La recherche reproductible est un ensemble de pratiques garantissant que les résultats computationnels d'une analyse statistique peuvent être régénérés à partir des données et du code originaux, en liant ensemble les données, le code d'analyse, l'environnement de calcul et la narration.
Scope
Ce sujet couvre la programmation lettrée (literate programming) qui tisse ensemble le code, les résultats et la narration, les documents dynamiques et les carnets (notebooks) qui la mettent en œuvre, le contrôle de version et la capture d'environnement, le partage des données et du code selon des principes tels que FAIR, et la distinction entre la reproductibilité et l'objectif plus difficile de la réplicabilité. L'accent est mis sur la reproductibilité computationnelle d'une analyse.
Core questions
- Que signifie la reproductibilité pour une analyse computationnelle ?
- Comment la programmation lettrée et les documents dynamiques lient-ils le code aux résultats ?
- Comment le contrôle de version et la capture d'environnement préservent-ils une analyse ?
- Comment les principes de partage des données tels que FAIR soutiennent-ils la réutilisation et la vérification ?
Key concepts
- Programmation lettrée
- Documents dynamiques
- Contrôle de version
- Capture d'environnement
- Principes FAIR des données
- Reproductibilité versus réplicabilité
Key theories
- Programmation lettrée et documents dynamiques
- L'entrelacement du code d'analyse avec du texte explicatif et la régénération des figures et des tableaux directement à partir de ce code, comme dans la programmation lettrée et les carnets (notebooks) modernes, garantissent que les résultats rapportés correspondent toujours aux calculs qui les ont produits.
- Données et environnements trouvables et accessibles
- Le partage des données et du code selon des principes tels que FAIR, associé à la capture des environnements de calcul et de l'historique des versions, permet à d'autres de localiser, d'exécuter et de vérifier une analyse plutôt que de simplement lire ses conclusions.
Clinical relevance
Les flux de travail reproductibles permettent aux collaborateurs, aux évaluateurs et aux régulateurs de vérifier les résultats statistiques, de détecter les erreurs et de s'appuyer sur des travaux antérieurs ; face aux préoccupations concernant une crise de la reproductibilité dans toutes les sciences, ces pratiques constituent une garantie pratique pour la crédibilité des analyses de données.
History
Claerbout a été le pionnier des documents computationnels reproductibles en géophysique, la programmation lettrée (literate programming) de Knuth a fourni l'idée sous-jacente, et des statisticiens tels que Gentleman ont formalisé l'analyse reproductible ; les outils de documents dynamiques et les principes FAIR ont ensuite généralisé ces pratiques.
Debates
- Reproductibilité versus réplicabilité
- La régénération des mêmes résultats à partir des mêmes données et du même code (reproductibilité) est distincte de l'obtention de résultats cohérents dans une nouvelle étude (réplicabilité) ; il existe une discussion continue sur la terminologie et sur la mesure dans laquelle chacun garantit la validité scientifique.
Key figures
- Donald Knuth
- Robert Gentleman
- Duncan Temple Lang
- Jon Claerbout
Related topics
Seminal works
- knuth1984
- gentleman2007
Frequently asked questions
- La reproductibilité est-elle la même chose que l'obtention de la même conclusion scientifique dans une nouvelle expérience ?
- Non. La reproductibilité signifie la régénération des mêmes résultats à partir des mêmes données et du même code. L'obtention d'un résultat cohérent dans une nouvelle étude avec de nouvelles données est la réplicabilité, une norme distincte et généralement plus difficile à atteindre.
- Quels outils soutiennent la recherche reproductible ?
- Les systèmes de documents dynamiques et les carnets (notebooks) qui exécutent du code pour produire des figures et des tableaux, le contrôle de version pour suivre les modifications, et les outils de capture d'environnement qui enregistrent les versions logicielles, rendent ensemble une analyse reproductible par d'autres.