Clasificación y Análisis Discriminante
La clasificación y el análisis discriminante comprenden los métodos multivariados que asignan observaciones a grupos predefinidos utilizando características medidas y una muestra de casos etiquetados.
Definition
El análisis discriminante y la clasificación son la construcción de reglas que asignan una observación multivariada a uno de varios grupos conocidos con el fin de minimizar un costo esperado o un error de clasificación errónea.
Scope
Esta área cubre la clasificación supervisada de observaciones multivariadas. Incluye el discriminante lineal de Fisher y su interpretación de modelo gaussiano, el análisis discriminante cuadrático para covarianzas de grupo desiguales, la discriminación logística como un modelo directo de probabilidades de pertenencia a clases, y métodos basados en márgenes como las máquinas de vectores de soporte. El enfoque se centra en la construcción, geometría y evaluación de los límites de decisión.
Sub-topics
Core questions
- ¿Cómo se debe asignar una observación a uno de varios grupos conocidos a partir de sus características medidas?
- ¿Qué límite de decisión minimiza el costo esperado de clasificación errónea?
- ¿Cuándo son adecuados los límites lineales y cuándo se necesitan límites cuadráticos o no lineales?
- ¿Cómo se estima el rendimiento del clasificador sin sesgo optimista?
Key theories
- Clasificación óptima de Bayes
- Asignar cada observación al grupo con la probabilidad posterior más alta minimiza el error de clasificación errónea esperado; los métodos discriminantes paramétricos estiman estas probabilidades posteriores bajo supuestos de distribución.
- Discriminante lineal de Fisher
- Fisher buscó la combinación lineal de características que separa al máximo las medias de los grupos en relación con la dispersión dentro del grupo, produciendo una dirección discriminante que, bajo covarianzas gaussianas iguales, coincide con la regla de Bayes.
Clinical relevance
Los métodos de clasificación se utilizan dondequiera que los casos deban clasificarse en categorías conocidas a partir de mediciones multivariadas, incluyendo el diagnóstico médico, la calificación crediticia, la identificación de especies y el mapeo de la cubierta terrestre por teledetección.
History
El campo comenzó con el discriminante lineal de Fisher de 1936 aplicado a mediciones taxonómicas. Le siguieron formulaciones probabilísticas y gaussianas, la discriminación logística proporcionó un modelo directo de probabilidades de clase, y el desarrollo a finales del siglo XX de métodos basados en márgenes y en núcleos extendió la clasificación a entornos de alta dimensión y no lineales.
Debates
- Clasificación generativa versus discriminativa
- Los métodos generativos, como el análisis discriminante, modelan la distribución de características dentro de cada clase, mientras que los métodos discriminativos, como la regresión logística y las máquinas de vectores de soporte, modelan directamente el límite o la probabilidad de clase; sus méritos relativos dependen del tamaño de la muestra y de qué tan bien se cumplen los supuestos de distribución.
Key figures
- Ronald A. Fisher
- Vladimir Vapnik
Related topics
Seminal works
- fisher1936
- hastie2009
- johnson2007
Frequently asked questions
- ¿En qué se diferencia la clasificación de la agrupación (clustering)?
- La clasificación es supervisada: los grupos se conocen de antemano y se dispone de una muestra de entrenamiento etiquetada. La agrupación (clustering) no es supervisada y descubre agrupaciones sin etiquetas predefinidas.
- ¿Por qué estimar el error en datos retenidos (held-out data)?
- El error medido en los mismos datos utilizados para ajustar un clasificador tiene un sesgo optimista, por lo que se necesitan estimaciones fuera de la muestra de la validación cruzada o de un conjunto de prueba para evaluar el verdadero rendimiento predictivo.