Discrimination logistique
La discrimination logistique classe les observations en modélisant directement la probabilité a posteriori de chaque classe comme une fonction logistique des caractéristiques.
Definition
La discrimination logistique est une approche de classification qui modélise la probabilité conditionnelle d'appartenance à une classe, étant donné les caractéristiques, via une fonction de lien logistique (ou softmax), en ajustant le modèle par maximum de vraisemblance sans supposer de distribution pour les caractéristiques.
Scope
Ce sujet couvre les modèles logistiques binaires et multinomiaux en tant que classifieurs discriminants, l'estimation par maximum de vraisemblance de leurs coefficients, la linéarité des log-odds et de la frontière de décision résultantes, le contraste avec l'analyse discriminante générative, et l'interprétation des coefficients comme des effets sur les log-odds.
Core questions
- Comment les probabilités d'appartenance à une classe peuvent-elles être modélisées directement à partir des caractéristiques ?
- Quelle est la forme de la frontière de décision impliquée par le modèle logistique ?
- En quoi la discrimination logistique diffère-t-elle de l'analyse discriminante gaussienne ?
- Comment les coefficients estimés sont-ils interprétés ?
Key theories
- Modélisation directe des probabilités a posteriori
- La discrimination logistique spécifie les log-odds d'appartenance à une classe comme une fonction linéaire des caractéristiques et les estime par maximum de vraisemblance, sans faire d'hypothèse sur la distribution marginale des caractéristiques.
- Correspondance générative-discriminante
- Dans le cas de classes gaussiennes à covariance égale, les log-odds a posteriori sont exactement linéaires ; ainsi, la régression logistique et l'analyse discriminante linéaire postulent la même forme de frontière mais l'estiment sous des hypothèses et des vraisemblances différentes.
Clinical relevance
La discrimination logistique compte parmi les classifieurs les plus largement utilisés en recherche appliquée car elle fournit des probabilités de classe calibrées et des coefficients interprétables, et elle est robuste aux écarts par rapport à la normalité des caractéristiques.
History
Le modèle logistique pour les résultats binaires a été développé dans les statistiques du milieu du XXe siècle et adapté au contexte de la classification en tant que discrimination logistique, offrant un pendant discriminant à la tradition de l'analyse discriminante générative.
Debates
- Estimation discriminante versus générative
- La discrimination logistique optimise la vraisemblance conditionnelle et tend à être plus robuste à une spécification erronée de la distribution des caractéristiques, tandis que l'analyse discriminante générative peut être plus efficace lorsque ses hypothèses gaussiennes sont vérifiées.
Key figures
- David Cox
- Geoffrey McLachlan
Related topics
Seminal works
- hastie2009
- mclachlan1992
- johnson2007
Frequently asked questions
- La discrimination logistique suppose-t-elle que les caractéristiques sont normalement distribuées ?
- Non. Elle modélise la probabilité conditionnelle de la classe étant donné les caractéristiques et ne fait aucune hypothèse de distribution sur les caractéristiques elles-mêmes, ce qui est l'une des raisons de sa robustesse.
- Comment la discrimination logistique est-elle étendue à plus de deux classes ?
- Par le modèle logistique multinomial (softmax), qui spécifie la probabilité de chaque classe par rapport à une ligne de base comme une exponentielle normalisée de combinaisons linéaires de caractéristiques.