Réduction de dimension
La réduction de dimension regroupe les méthodes multivariées qui synthétisent de nombreuses variables corrélées en un petit nombre de quantités dérivées, en préservant autant de structure que possible tout en facilitant l'interprétation et la visualisation.
Definition
La réduction de dimension est la construction d'une représentation de données multivariées de dimension inférieure qui conserve un critère d'information choisi, tel que la variance, l'erreur de reconstruction, la distance par paires ou la corrélation inter-ensembles.
Scope
Ce domaine couvre les techniques qui projettent des observations de haute dimension dans un espace de dimension inférieure. Il comprend les projections linéaires maximisant la variance (analyse en composantes principales), les modèles à facteurs latents pour la covariance partagée (analyse factorielle), les plongements préservant les distances (mise à l'échelle multidimensionnelle), et les méthodes qui réduisent conjointement deux ensembles de variables en maximisant la corrélation croisée (analyse canonique des corrélations). L'accent est mis sur les approches linéaires et classiques qui constituent le fondement de la discipline ; l'apprentissage non linéaire de variétés (manifold learning) est traité comme une extension.
Sub-topics
Core questions
- Comment un grand ensemble de mesures corrélées peut-il être remplacé par quelques variables dérivées non corrélées avec une perte minimale d'informations ?
- Quand la préservation de la variance, la préservation de la distance ou l'explication par des facteurs latents devrait-elle être le critère de réduction ?
- Combien de dimensions sont nécessaires pour représenter adéquatement les données ?
- Comment les représentations réduites soutiennent-elles la visualisation, le débruitage et la modélisation ultérieure ?
Key theories
- Projection linéaire maximisant la variance
- Les axes principaux dominants sont les directions orthonormées qui capturent successivement la variance maximale, équivalentes aux vecteurs propres de la matrice de covariance et à la meilleure approximation des données par moindres carrés de rang faible.
- Modèle à facteurs communs latents
- Les corrélations observées entre les variables sont expliquées par un nombre plus restreint de facteurs communs inobservés, plus une unicité spécifique à chaque variable, décomposant la structure de covariance en parties partagées et uniques.
Clinical relevance
La réduction de dimension est à la base de l'analyse exploratoire des données, de la visualisation des données, du débruitage de signaux, de la compression et du prétraitement des caractéristiques pour la régression et la classification dans des domaines allant de la génomique à l'économétrie et à l'analyse d'images.
History
La perspective de maximisation de la variance a vu le jour avec la formulation géométrique par Pearson en 1901 des lignes et plans de meilleur ajustement, et a été développée en la méthode statistique moderne des composantes principales par Hotelling en 1933. L'analyse factorielle s'est développée en parallèle à partir de la psychométrie, suivie par la mise à l'échelle basée sur les distances et la corrélation canonique, se consolidant dans le traitement unifié de la réduction de dimension que l'on trouve dans les textes multivariés du milieu du XXe siècle.
Key figures
- Karl Pearson
- Harold Hotelling
Related topics
Seminal works
- pearson1901
- mardia1979
- johnson2007
Frequently asked questions
- Quelle est la différence entre la réduction de dimension et la sélection de variables ?
- La sélection de variables conserve un sous-ensemble des variables originales, tandis que la réduction de dimension construit généralement de nouvelles variables dérivées (telles que des composantes ou des facteurs) qui sont des combinaisons de toutes les variables originales.
- La réduction de dimension est-elle toujours linéaire ?
- Non. Les méthodes classiques fondamentales sont linéaires, mais les mêmes objectifs sont poursuivis par des techniques d'apprentissage non linéaire de variétés (manifold learning) et de plongement ; les méthodes linéaires restent fondamentales et interprétables.