Algèbre linéaire numérique pour les statistiques
L'algèbre linéaire numérique pour les statistiques est l'étude de la manière dont les calculs matriciels sous-jacents à la régression, à l'analyse multivariée et à l'estimation de la covariance sont effectués avec précision et efficacité en précision finie.
Definition
L'algèbre linéaire numérique pour les statistiques est l'application et l'analyse d'algorithmes matriciels en précision finie aux problèmes d'algèbre linéaire des statistiques, principalement les moindres carrés, le calcul de covariance et la résolution de systèmes linéaires découlant de l'estimation.
Scope
Ce sujet aborde la résolution des problèmes de moindres carrés et des équations normales, le conditionnement des matrices de conception et ses conséquences statistiques, l'utilisation de méthodes orthogonales pour la stabilité, ainsi que le traitement efficace des matrices de covariance et de conception de grande taille ou structurées. Il s'agit de la spécialisation statistique de l'algèbre linéaire computationnelle ; les décompositions matricielles elles-mêmes sont traitées dans un sujet connexe.
Core questions
- Comment les estimations par moindres carrés sont-elles calculées avec précision lorsque les prédicteurs sont presque colinéaires ?
- Pourquoi les équations normales sont-elles numériquement inférieures aux approches orthogonales ?
- Comment le conditionnement de la matrice de conception affecte-t-il les coefficients estimés ?
- Comment les matrices statistiques de grande taille et structurées sont-elles calculées efficacement ?
Key concepts
- Équations normales
- Nombre de conditionnement
- Colinéarité
- Orthogonalisation
- Stabilité rétrograde
Key theories
- Moindres carrés stables
- La résolution des moindres carrés par factorisation orthogonale évite de former les équations normales, dont le conditionnement est le carré de celui du problème original, préservant ainsi la précision lorsque les prédicteurs sont corrélés.
- Conditionnement et colinéarité
- La quasi-colinéarité augmente le nombre de conditionnement de la matrice de conception, amplifiant l'erreur d'arrondi et la variance des coefficients estimés, ce qui relie directement une propriété numérique à l'instabilité statistique.
Clinical relevance
Un calcul matriciel précis détermine si les coefficients de régression, les ajustements par moindres carrés généralisés et les matrices de covariance sont fiables ; la reconnaissance d'un mauvais conditionnement explique une instabilité autrement déroutante dans les estimations et oriente les remèdes tels que le centrage, la mise à l'échelle ou la régularisation.
History
Le développement, au milieu du XXe siècle, d'algorithmes matriciels numériquement stables par Wilkinson, Golub et d'autres a été progressivement adopté par les statisticiens, qui ont reconnu que l'approche de la régression par les équations normales était numériquement fragile et ont adopté des alternatives orthogonales.
Key figures
- Gene Golub
- Charles Van Loan
- Kenneth Lange
- James Wilkinson
Related topics
Seminal works
- golub2013
- lange2010
Frequently asked questions
- Pourquoi les équations normales sont-elles déconseillées pour les moindres carrés ?
- La formation des équations normales élève au carré le nombre de conditionnement du problème, de sorte que l'erreur d'arrondi est amplifiée lorsque les prédicteurs sont corrélés. La factorisation orthogonale résout le même problème de moindres carrés sans cette perte de précision.
- Que dit le nombre de conditionnement à un statisticien ?
- Il mesure à quel point de petites perturbations dans les données peuvent modifier la solution. Un nombre de conditionnement élevé, généralement dû à des prédicteurs colinéaires, avertit que les estimations des coefficients sont numériquement et statistiquement instables.