Análisis de Datos Categóricos
El análisis de datos categóricos es la rama de la bioestadística que se ocupa de los datos que se clasifican en categorías discretas en lugar de tomar valores numéricos continuos — por ejemplo, una enfermedad presente o ausente, un tumor benigno o maligno, o un paciente asignado a uno de varios grupos de tratamiento. Su objeto central es la tabla de contingencia de recuentos, y sus métodos prueban y cuantifican las asociaciones entre variables categóricas mientras se controlan otras.
Definition
El análisis de datos categóricos es el conjunto de métodos estadísticos para describir, probar y modelar asociaciones entre variables cuyos valores son recuentos dentro de categorías discretas no ordenadas u ordenadas, típicamente organizadas como tablas de contingencia de frecuencias.
Scope
Esta área orienta al lector hacia las ideas centrales que se repiten en las páginas temáticas siguientes: cómo se organizan las observaciones categóricas en tablas de contingencia, cómo se prueba la asociación en una tabla (pruebas de chi-cuadrado y exactas), cómo se resume una asociación mediante una medida de efecto (razones de riesgo y razones de probabilidades), y cómo se maneja una variable categórica de confusión mediante la estratificación (métodos de Mantel-Haenszel). Se enmarcan como herramientas metodológicas para leer y producir investigación en salud, no como guía clínica.
Sub-topics
Core questions
- ¿Existe una asociación entre dos variables categóricas, o son independientes?
- ¿Qué tan grande es la asociación, expresada como una razón o diferencia de riesgos o probabilidades?
- ¿Persiste una asociación aparente después de estratificar por una tercera variable categórica, o es confundida o modificada por ella?
- Cuando los recuentos de celdas son pequeños, ¿qué procedimiento exacto reemplaza la aproximación de muestra grande?
Key concepts
- Tabla de contingencia de recuentos
- Independencia de variables categóricas
- Prueba de chi-cuadrado de asociación
- Pruebas exactas para tablas dispersas
- Medidas de efecto: razón de riesgo y razón de probabilidades
- Estratificación y el estimador de Mantel-Haenszel
- Confusión y modificación del efecto a través de los estratos
- Modelos log-lineales y logísticos para tablas
Mechanisms
Las observaciones categóricas se clasifican de forma cruzada en una tabla cuyas celdas contienen frecuencias. Una prueba de asociación compara los recuentos de celdas observados con los esperados si las variables de fila y columna fueran independientes: la estadística de chi-cuadrado de Pearson, justificada asintóticamente por la clarificación de Fisher de sus grados de libertad, suma las diferencias estandarizadas al cuadrado, mientras que las pruebas exactas enumeran la distribución condicional de las tablas cuando los recuentos son demasiado pequeños para la aproximación. La fuerza de la asociación se resume luego mediante una medida de efecto derivada de la tabla — una razón de riesgo o una razón de probabilidades. Cuando una tercera variable amenaza con confundir la asociación, los datos se dividen en estratos definidos por esa variable y se forma una estimación combinada a través de los estratos; el procedimiento de Mantel-Haenszel proporciona dicha prueba estratificada y estimación resumida. Estos elementos se generalizan en modelos de regresión log-lineal y logística que manejan varios predictores categóricos a la vez.
Clinical relevance
La mayoría de la evidencia diagnóstica, pronóstica y de factores de riesgo en las ciencias de la salud se reporta como asociaciones entre variables categóricas — expuesto versus no expuesto, evento versus no evento — por lo que los métodos en esta área subyacen a cómo se genera y evalúa esa evidencia. Describen cómo se miden y prueban las asociaciones; son herramientas para interpretar la investigación y no una base para decisiones diagnósticas o de tratamiento individuales.
Epidemiology
Los métodos de tablas de contingencia son la maquinaria cotidiana de la epidemiología: los estudios de cohortes, casos y controles, y transversales se reducen, en su forma más simple, a una tabla de dos por dos de exposición versus resultado, y el análisis estratificado (Mantel-Haenszel) es el enfoque clásico no-modelo para la confusión antes de la regresión. Los mismos métodos se repiten en ensayos clínicos que reportan puntos finales binarios y en la evaluación de pruebas diagnósticas.
History
El campo comenzó con la estadística de chi-cuadrado de Karl Pearson a principios del siglo XX y la corrección de Fisher de 1922 de sus grados de libertad para tablas de contingencia, seguida por la prueba exacta de Fisher para muestras pequeñas. La epidemiología de mediados de siglo proporcionó el marco de la medida de efecto — el argumento de la razón de probabilidades de Cornfield y el estimador estratificado de Mantel-Haenszel de 1959 — y finales del siglo XX unificaron estos métodos dentro del marco del modelo lineal generalizado, sintetizado en el tratamiento de Agresti en su libro de texto.
Key figures
- Karl Pearson
- Ronald A. Fisher
- Jerome Cornfield
- Nathan Mantel
- William Haenszel
- Alan Agresti
- Joseph Fleiss
Related topics
Seminal works
- fisher-1922
- mantel-haenszel-1959
- agresti-2013
Frequently asked questions
- ¿Qué hace que los datos sean “categóricos”?
- Los datos son categóricos cuando cada observación cae en una de un conjunto de clases discretas — como enfermo/sano o grupo de tratamiento A/B/C — en lugar de tomar un valor numérico medido; el análisis trabaja con los recuentos en cada clase.
- ¿En qué se diferencia esta área de la regresión para resultados continuos?
- El resultado aquí es una categoría o un recuento, no una medición continua, por lo que los métodos se centran en tablas de contingencia, razones de riesgos y probabilidades, y modelos como la regresión logística y log-lineal en lugar de en medias y regresión lineal ordinaria.