Cadre de test d'hypothèses
Le cadre de test d'hypothèses est une procédure structurée permettant de déterminer si les données d'échantillon sont compatibles avec une affirmation spécifiée concernant une population. Il oppose une hypothèse nule – généralement une affirmation d'absence d'effet ou de différence – à une hypothèse alternative, calcule une statistique de test et une valeur p associée, et utilise un niveau de signification prédéfini pour juger si les preuves contre l'hypothèse nule sont suffisamment solides pour agir. C'est la procédure de décision la plus largement utilisée, et la plus débattue, dans la recherche quantitative en santé.
Definition
Le test d'hypothèse statistique est une procédure qui utilise une statistique de test calculée à partir de données d'échantillon pour évaluer la compatibilité des données avec une hypothèse nule énoncée, rejetant l'hypothèse nule en faveur d'une alternative lorsque le résultat est suffisamment improbable sous l'hypothèse nule à un niveau de signification pré-spécifié.
Scope
Ce sujet couvre la logique des hypothèses nule et alternative, le rôle de la statistique de test et de la valeur p, la signification du niveau de signification, et les principales critiques des tests de signification mécaniques. Il s'agit d'une méthodologie de référence pour la conception et l'évaluation des études, et non d'une règle de décision clinique.
Core questions
- Quelle hypothèse nule est testée, et contre quelle alternative ?
- Dans quelle mesure les données observées sont-elles surprenantes si l'hypothèse nule était vraie ?
- Quel niveau de signification régit la décision, et pourquoi ?
- Que nous autorise réellement à conclure le rejet – ou le non-rejet – de l'hypothèse nule ?
Key concepts
- Hypothèse nule
- Hypothèse alternative
- Statistique de test
- Valeur p
- Niveau de signification (alpha)
- Région de rejet
- Tests unilatéraux et bilatéraux
- Signification statistique versus signification pratique
Key theories
- Tests de Neyman-Pearson
- Présente le test comme un choix entre deux hypothèses avec des taux d'erreur à long terme contrôlés, définissant le niveau de signification (taux d'erreur de type I) à l'avance et recherchant le test qui maximise la puissance contre l'alternative.
Mechanisms
Un test commence par l'énoncé d'une hypothèse nule et d'une alternative, puis par la synthèse des données dans une statistique de test dont la distribution sous l'hypothèse nule est connue. La valeur p est la probabilité, calculée sous l'hypothèse nule, d'obtenir un résultat au moins aussi extrême que celui observé ; une petite valeur p indique que les données seraient inhabituelles si l'hypothèse nule était vraie. Si la valeur p est inférieure au niveau de signification pré-spécifié, l'hypothèse nule est rejetée. Il est crucial de noter que la valeur p n'est pas la probabilité que l'hypothèse nule soit vraie, et le fait de ne pas la rejeter n'est pas une preuve que l'hypothèse nule est correcte. La signification statistique n'implique pas non plus nécessairement un effet significatif (au sens pratique), c'est pourquoi le cadre est interprété conjointement avec les estimations d'effet et les intervalles de confiance.
Clinical relevance
Les tests d'hypothèses sous-tendent les conclusions principales de la plupart des essais et études observationnelles, de sorte que comprendre ce qu'un résultat significatif ou non significatif signifie et ne signifie pas est essentiel pour l'évaluation des preuves. Une mauvaise interprétation d'une valeur p peut conduire à sur- ou sous-estimer les résultats. Cette entrée décrit la procédure inférentielle et ne constitue pas une base pour des décisions diagnostiques ou thérapeutiques individuelles.
Evidence & guidelines
Les préoccupations concernant l'utilisation mécanique des seuils de signification ont conduit à la déclaration de l'American Statistical Association en 2016 clarifiant l'interprétation correcte des valeurs p, ainsi qu'au guide de Greenland et ses collègues sur les erreurs d'interprétation courantes. Certains méthodologistes ont proposé d'abaisser le seuil conventionnel pour les affirmations de nouvelles découvertes, tandis que d'autres s'opposent à tout seuil fixe – des débats qui restent non résolus.
History
Le cadre fusionne les tests de signification et les valeurs p de Fisher avec les tests décisionnels de Neyman et Pearson, formalisés en 1933, qui ont introduit des taux d'erreur fixes et le test le plus puissant. L'approche hybride devenue pratique courante dans les manuels a suscité des critiques tout au long du XXe siècle, s'intensifiant dans les années 2010 au milieu des préoccupations concernant la reproductibilité, ce qui a conduit à des déclarations de prudence formelles et à des propositions de redéfinir ou d'abandonner les seuils de signification fixes.
Debates
- Le statut du seuil de signification de 0,05
- Les critiques soutiennent qu'un seuil conventionnel fixe encourage des conclusions dichotomiques, parfois trompeuses ; les propositions vont de l'abaissement du seuil pour les nouvelles affirmations à l'abandon des seuils nets en faveur d'une interprétation continue des preuves.
Key figures
- Ronald A. Fisher
- Jerzy Neyman
- Egon Pearson
- Sander Greenland
- Ronald L. Wasserstein
Related topics
Seminal works
- neyman-pearson-1933
- wasserstein-lazar-2016
Frequently asked questions
- Une valeur p indique-t-elle la probabilité que l'hypothèse nule soit vraie ?
- Non. La valeur p est la probabilité d'obtenir des données au moins aussi extrêmes que celles observées en supposant que l'hypothèse nule est vraie ; elle ne donne pas la probabilité que l'hypothèse nule elle-même soit vraie ou fausse.
- Le fait de ne pas rejeter l'hypothèse nule prouve-t-il qu'il n'y a pas d'effet ?
- Non. Un résultat non significatif signifie que les données n'ont pas fourni suffisamment de preuves contre l'hypothèse nule, ce qui peut se produire simplement parce que l'étude était trop petite ; l'absence de preuve n'est pas une preuve d'absence.