Un seul outil d'évaluation critique est-il le meilleur pour chaque étude ?

Non. Parce que différents devis d'étude sont sujets à différents biais, la plupart des évaluations sont effectuées avec des outils spécifiques au devis d'étude, et une revue systématique n'a trouvé aucun instrument étalon-or unique fonctionnant pour tous les types d'études.

Pourquoi de nombreux domaines se sont-ils éloignés des scores de qualité ?

Les scores de qualité sommaires combinent des éléments avec des pondérations arbitraires et peuvent classer les études de manière trompeuse. Les outils basés sur des domaines, tels que RoB 2 et QUADAS-2, fournissent plutôt un jugement transparent pour chaque type de biais, ce qui est plus défendable et reproductible.

Outils et listes de contrôle d'évaluation critique

Les outils d'évaluation critique sont des instruments structurés — listes de contrôle, échelles et cadres de questions signalétiques — qui guident un évaluateur à travers la validité, les résultats et l'applicabilité d'une étude de manière explicite et reproductible. En transformant le jugement d'expert en un ensemble défini de questions, ils rendent l'évaluation plus transparente, plus cohérente entre les évaluateurs et plus facile à rapporter.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

Un outil d'évaluation critique est un ensemble prédéfini d'éléments ou de domaines, souvent formulé sous forme de questions, qu'un évaluateur applique à une étude individuelle pour porter un jugement explicite, basé sur des critères, concernant son risque de biais, l'interprétabilité de ses résultats et son applicabilité.

Scope

Ce sujet couvre les familles d'instruments d'évaluation et la logique qui les sous-tend : les listes de contrôle génériques (telles que la série CASP et les Guides des utilisateurs), les outils d'évaluation du risque de biais spécifiques au devis d'étude (tels que RoB 2 pour les essais randomisés et QUADAS-2 pour les études de précision diagnostique), et la différence entre les listes de contrôle simples, les échelles de qualité sommaires et les outils de jugement basés sur des domaines. Il est à vocation de référence et éducative et ne préconise aucun outil unique pour les décisions cliniques.

Core questions

Quels types d'instruments d'évaluation existent, et en quoi les listes de contrôle, les échelles et les outils basés sur des domaines diffèrent-ils ?
Pourquoi la plupart des outils d'évaluation sont-ils spécifiques au devis d'étude plutôt qu'universels ?
Quelle est la différence entre un score de qualité sommaire et un jugement du risque de biais basé sur des domaines ?
Dans quelle mesure le choix de l'outil affecte-t-il l'évaluation de la même étude ?

Key concepts

Liste de contrôle d'évaluation générique (CASP, Guides des utilisateurs)
Outil d'évaluation du risque de biais spécifique au devis d'étude (RoB 2, QUADAS-2)
Questions signalétiques
Jugement basé sur les domaines versus score de qualité sommaire
Fiabilité inter-évaluateurs de l'évaluation
Reproductibilité des jugements d'évaluation

Mechanisms

Les outils d'évaluation opérationnalisent la logique générique de validité-résultats-applicabilité de la médecine fondée sur les preuves en éléments concrets adaptés à un devis d'étude particulier. Les listes de contrôle génériques telles que CASP et les Guides des utilisateurs du JAMA guident le lecteur à travers les trois mêmes questions pour tout article (Guyatt 1993 ; Greenhalgh 1997). Les outils modernes basés sur des domaines vont plus loin en regroupant les éléments en domaines de biais — par exemple, RoB 2 évalue les essais randomisés à travers des domaines tels que le processus de randomisation, les écarts par rapport aux interventions prévues, les données de résultats manquantes, la mesure du résultat et la sélection du résultat rapporté, atteignant un jugement par domaine et un jugement global au moyen de questions signalétiques (Sterne 2019). QUADAS-2 applique la même architecture basée sur les domaines et les questions signalétiques aux études de précision diagnostique (Whiting 2011). Le passage des échelles numériques sommaires au jugement basé sur les domaines reflète les preuves selon lesquelles une pondération arbitraire des éléments des listes de contrôle peut induire en erreur, et qu'un raisonnement transparent par domaine est plus défendable.

Clinical relevance

Ces outils sont utilisés par les cliniciens, les étudiants et les réviseurs systématiques pour rendre l'évaluation des études individuelles explicite et vérifiable. Ils décrivent comment la fiabilité de la recherche est évaluée ; ils caractérisent les preuves et ne constituent pas en eux-mêmes une base pour diagnostiquer ou traiter un patient individuel.

Evidence & guidelines

Une revue systématique de plus d'une centaine d'outils d'évaluation a révélé une hétérogénéité substantielle de contenu et aucun étalon-or validé unique pour aucun devis d'étude, soulignant que le choix de l'outil est en soi une décision méthodologique (Katrak 2004). La pratique contemporaine privilégie les instruments spécifiques au devis d'étude et basés sur des domaines — RoB 2 pour les essais randomisés et QUADAS-2 pour les études de précision diagnostique sont largement approuvés dans les directives de Cochrane et d'autres revues systématiques (Sterne 2019 ; Whiting 2011) — et décourage la conversion de ces jugements en un score de qualité sommaire unique.

History

Les premiers outils d'évaluation étaient des guides de lecture narratifs ; les Guides des utilisateurs de McMaster des années 1990 et les listes de contrôle CASP qui ont suivi ont fourni aux cliniciens des ensembles de questions explicites et spécifiques au type d'étude (Guyatt 1993 ; Greenhalgh 1997). À mesure que la revue systématique a mûri, le domaine est passé des listes de contrôle simples et des échelles de qualité numériques aux outils d'évaluation du risque de biais basés sur des domaines, exemplifiés par QUADAS-2 pour les études diagnostiques (Whiting 2011) et le RoB 2 révisé pour les essais randomisés (Sterne 2019), reflétant les preuves accumulées selon lesquelles les scores sommaires pouvaient être peu fiables.

Debates

Scores de qualité versus jugement basé sur les domaines: La condensation de nombreux éléments d'évaluation en un score de qualité numérique unique dépend d'une pondération arbitraire et peut produire des classements trompeurs ; le consensus méthodologique actuel privilégie les jugements transparents du risque de biais par domaine plutôt que les échelles sommaires.
Absence d'un outil étalon-or universel: La prolifération d'outils au contenu divergent et l'absence d'instrument de référence validé pour tout devis d'étude signifie que la même étude peut être évaluée différemment selon l'outil, ce qui soulève des préoccupations quant à la reproductibilité.

Key figures

Julian Higgins
Jonathan Sterne
Penny Whiting
Gordon Guyatt
Trisha Greenhalgh

Seminal works

katrak-2004
sterne-2019-rob2
whiting-2011-quadas2

Frequently asked questions

Un seul outil d'évaluation critique est-il le meilleur pour chaque étude ?: Non. Parce que différents devis d'étude sont sujets à différents biais, la plupart des évaluations sont effectuées avec des outils spécifiques au devis d'étude, et une revue systématique n'a trouvé aucun instrument étalon-or unique fonctionnant pour tous les types d'études.
Pourquoi de nombreux domaines se sont-ils éloignés des scores de qualité ?: Les scores de qualité sommaires combinent des éléments avec des pondérations arbitraires et peuvent classer les études de manière trompeuse. Les outils basés sur des domaines, tels que RoB 2 et QUADAS-2, fournissent plutôt un jugement transparent pour chaque type de biais, ce qui est plus défendable et reproductible.