Analyse des données catégorielles
L'analyse des données catégorielles est la branche de la biostatistique qui s'intéresse aux données se répartissant en catégories discrètes plutôt qu'en valeurs numériques continues — par exemple, la présence ou l'absence d'une maladie, la nature bénigne ou maligne d'une tumeur, ou l'assignation d'un patient à l'un des plusieurs bras de traitement. Son objet central est le tableau de contingence des effectifs, et ses méthodes permettent de tester et de quantifier les associations entre variables catégorielles tout en contrôlant l'influence d'autres variables.
Definition
L'analyse des données catégorielles désigne l'ensemble des méthodes statistiques utilisées pour décrire, tester et modéliser les associations entre des variables dont les valeurs correspondent à des effectifs au sein de catégories discrètes, ordonnées ou non ordonnées, généralement présentées sous forme de tableaux de contingence de fréquences.
Scope
Ce domaine vise à familiariser le lecteur avec les concepts fondamentaux qui sont abordés dans les pages thématiques suivantes : la manière dont les observations catégorielles sont organisées en tableaux de contingence, la façon dont l'association au sein d'un tableau est testée (tests du chi-carré et tests exacts), la manière dont une association est résumée par une mesure d'effet (rapports de risques et rapports de cotes), et la gestion d'une variable catégorielle de confusion par stratification (méthodes de Mantel-Haenszel). Ces approches sont présentées comme des outils méthodologiques pour la lecture et la production de la recherche en santé, et non comme des recommandations cliniques.
Sub-topics
Core questions
- Existe-t-il une association entre deux variables catégorielles, ou sont-elles indépendantes ?
- Quelle est l'ampleur de l'association, exprimée sous forme de rapport ou de différence de risques ou de cotes ?
- Une association apparente persiste-t-elle après stratification sur une troisième variable catégorielle, ou est-elle confondue ou modifiée par celle-ci ?
- Lorsque les effectifs des cellules sont faibles, quelle procédure exacte remplace l'approximation pour grands échantillons ?
Key concepts
- Tableau de contingence des effectifs
- Indépendance des variables catégorielles
- Test du chi-carré d'association
- Tests exacts pour les tableaux creux
- Mesures d'effet : rapport de risques et rapport de cotes
- Stratification et l'estimateur de Mantel-Haenszel
- Confusion et modification d'effet à travers les strates
- Modèles log-linéaires et logistiques pour les tableaux
Mechanisms
Les observations catégorielles sont classées de manière croisée dans un tableau dont les cellules contiennent les fréquences. Un test d'association compare les effectifs de cellules observés à ceux qui seraient attendus si les variables de ligne et de colonne étaient indépendantes : la statistique du chi-carré de Pearson, justifiée asymptotiquement par la clarification de Fisher concernant ses degrés de liberté, somme les différences standardisées au carré, tandis que les tests exacts énumèrent la distribution conditionnelle des tableaux lorsque les effectifs sont trop faibles pour l'approximation. La force de l'association est ensuite résumée par une mesure d'effet dérivée du tableau — un rapport de risques ou un rapport de cotes. Lorsqu'une troisième variable est susceptible de créer une confusion dans l'association, les données sont divisées en strates définies par cette variable, et une estimation combinée est calculée à travers ces strates ; la procédure de Mantel-Haenszel fournit un tel test stratifié et une estimation synthétique. Ces principes se généralisent aux modèles de régression log-linéaire et logistique, qui permettent de gérer simultanément plusieurs prédicteurs catégoriels.
Clinical relevance
La majeure partie des données probantes en sciences de la santé, qu'elles soient diagnostiques, pronostiques ou relatives aux facteurs de risque, est présentée sous forme d'associations entre variables catégorielles — par exemple, exposé versus non exposé, événement versus absence d'événement. Les méthodes de ce domaine sont donc fondamentales pour la génération et l'évaluation de ces preuves. Elles décrivent comment les associations sont mesurées et testées ; elles constituent des outils d'interprétation de la recherche et non une base pour des décisions diagnostiques ou thérapeutiques individuelles.
Epidemiology
Les méthodes basées sur les tableaux de contingence constituent l'outil quotidien de l'épidémiologie : les études de cohorte, cas-témoins et transversales se réduisent toutes, dans leur forme la plus simple, à un tableau 2x2 croisant l'exposition et le résultat. L'analyse stratifiée (Mantel-Haenszel) représente l'approche non-modèle classique pour gérer la confusion avant l'application de la régression. Ces mêmes méthodes sont également utilisées dans les essais cliniques rapportant des critères de jugement binaires et dans l'évaluation des tests diagnostiques.
History
Ce domaine a vu le jour avec la statistique du chi-carré de Karl Pearson au début du XXe siècle, suivie par la correction de Fisher en 1922 concernant ses degrés de liberté pour les tableaux de contingence, puis par le test exact de Fisher pour les petits échantillons. L'épidémiologie du milieu du siècle a apporté le cadre des mesures d'effet — notamment l'argument du rapport de cotes de Cornfield et l'estimateur stratifié de Mantel-Haenszel en 1959. La fin du XXe siècle a ensuite unifié ces méthodes au sein du cadre des modèles linéaires généralisés, tel que synthétisé dans l'ouvrage de référence d'Agresti.
Key figures
- Karl Pearson
- Ronald A. Fisher
- Jerome Cornfield
- Nathan Mantel
- William Haenszel
- Alan Agresti
- Joseph Fleiss
Related topics
Seminal works
- fisher-1922
- mantel-haenszel-1959
- agresti-2013
Frequently asked questions
- Qu'est-ce qui rend les données « catégorielles » ?
- Les données sont considérées comme catégorielles lorsque chaque observation appartient à l'une des classes discrètes d'un ensemble — par exemple, malade/sain ou bras de traitement A/B/C — plutôt que de correspondre à une valeur numérique mesurée ; l'analyse s'effectue alors sur les effectifs de chaque classe.
- En quoi ce domaine diffère-t-il de la régression pour les résultats continus ?
- Ici, le résultat est une catégorie ou un effectif, et non une mesure continue. Par conséquent, les méthodes se concentrent sur les tableaux de contingence, les rapports de risques et de cotes, ainsi que sur des modèles tels que la régression logistique et log-linéaire, plutôt que sur les moyennes et la régression linéaire ordinaire.