¿Qué hace que los datos sean “categóricos”?

Los datos son categóricos cuando cada observación cae en una de un conjunto de clases discretas — como enfermo/sano o grupo de tratamiento A/B/C — en lugar de tomar un valor numérico medido; el análisis trabaja con los recuentos en cada clase.

¿En qué se diferencia esta área de la regresión para resultados continuos?

El resultado aquí es una categoría o un recuento, no una medición continua, por lo que los métodos se centran en tablas de contingencia, razones de riesgos y probabilidades, y modelos como la regresión logística y log-lineal en lugar de en medias y regresión lineal ordinaria.

Análisis de Datos Categóricos

El análisis de datos categóricos es la rama de la bioestadística que se ocupa de los datos que se clasifican en categorías discretas en lugar de tomar valores numéricos continuos — por ejemplo, una enfermedad presente o ausente, un tumor benigno o maligno, o un paciente asignado a uno de varios grupos de tratamiento. Su objeto central es la tabla de contingencia de recuentos, y sus métodos prueban y cuantifican las asociaciones entre variables categóricas mientras se controlan otras.

Encontrar tema con PaperMindPróximamenteFind papers & topics

Tools & resources

Descargar diapositivas

Learn & explore

VídeoPróximamente

Definition

El análisis de datos categóricos es el conjunto de métodos estadísticos para describir, probar y modelar asociaciones entre variables cuyos valores son recuentos dentro de categorías discretas no ordenadas u ordenadas, típicamente organizadas como tablas de contingencia de frecuencias.

Scope

Esta área orienta al lector hacia las ideas centrales que se repiten en las páginas temáticas siguientes: cómo se organizan las observaciones categóricas en tablas de contingencia, cómo se prueba la asociación en una tabla (pruebas de chi-cuadrado y exactas), cómo se resume una asociación mediante una medida de efecto (razones de riesgo y razones de probabilidades), y cómo se maneja una variable categórica de confusión mediante la estratificación (métodos de Mantel-Haenszel). Se enmarcan como herramientas metodológicas para leer y producir investigación en salud, no como guía clínica.

Sub-topics

Core questions

¿Existe una asociación entre dos variables categóricas, o son independientes?
¿Qué tan grande es la asociación, expresada como una razón o diferencia de riesgos o probabilidades?
¿Persiste una asociación aparente después de estratificar por una tercera variable categórica, o es confundida o modificada por ella?
Cuando los recuentos de celdas son pequeños, ¿qué procedimiento exacto reemplaza la aproximación de muestra grande?

Key concepts

Tabla de contingencia de recuentos
Independencia de variables categóricas
Prueba de chi-cuadrado de asociación
Pruebas exactas para tablas dispersas
Medidas de efecto: razón de riesgo y razón de probabilidades
Estratificación y el estimador de Mantel-Haenszel
Confusión y modificación del efecto a través de los estratos
Modelos log-lineales y logísticos para tablas

Mechanisms

Las observaciones categóricas se clasifican de forma cruzada en una tabla cuyas celdas contienen frecuencias. Una prueba de asociación compara los recuentos de celdas observados con los esperados si las variables de fila y columna fueran independientes: la estadística de chi-cuadrado de Pearson, justificada asintóticamente por la clarificación de Fisher de sus grados de libertad, suma las diferencias estandarizadas al cuadrado, mientras que las pruebas exactas enumeran la distribución condicional de las tablas cuando los recuentos son demasiado pequeños para la aproximación. La fuerza de la asociación se resume luego mediante una medida de efecto derivada de la tabla — una razón de riesgo o una razón de probabilidades. Cuando una tercera variable amenaza con confundir la asociación, los datos se dividen en estratos definidos por esa variable y se forma una estimación combinada a través de los estratos; el procedimiento de Mantel-Haenszel proporciona dicha prueba estratificada y estimación resumida. Estos elementos se generalizan en modelos de regresión log-lineal y logística que manejan varios predictores categóricos a la vez.

Clinical relevance

La mayoría de la evidencia diagnóstica, pronóstica y de factores de riesgo en las ciencias de la salud se reporta como asociaciones entre variables categóricas — expuesto versus no expuesto, evento versus no evento — por lo que los métodos en esta área subyacen a cómo se genera y evalúa esa evidencia. Describen cómo se miden y prueban las asociaciones; son herramientas para interpretar la investigación y no una base para decisiones diagnósticas o de tratamiento individuales.

Epidemiology

Los métodos de tablas de contingencia son la maquinaria cotidiana de la epidemiología: los estudios de cohortes, casos y controles, y transversales se reducen, en su forma más simple, a una tabla de dos por dos de exposición versus resultado, y el análisis estratificado (Mantel-Haenszel) es el enfoque clásico no-modelo para la confusión antes de la regresión. Los mismos métodos se repiten en ensayos clínicos que reportan puntos finales binarios y en la evaluación de pruebas diagnósticas.

History

El campo comenzó con la estadística de chi-cuadrado de Karl Pearson a principios del siglo XX y la corrección de Fisher de 1922 de sus grados de libertad para tablas de contingencia, seguida por la prueba exacta de Fisher para muestras pequeñas. La epidemiología de mediados de siglo proporcionó el marco de la medida de efecto — el argumento de la razón de probabilidades de Cornfield y el estimador estratificado de Mantel-Haenszel de 1959 — y finales del siglo XX unificaron estos métodos dentro del marco del modelo lineal generalizado, sintetizado en el tratamiento de Agresti en su libro de texto.

Key figures

Karl Pearson
Ronald A. Fisher
Jerome Cornfield
Nathan Mantel
William Haenszel
Alan Agresti
Joseph Fleiss

Seminal works

fisher-1922
mantel-haenszel-1959
agresti-2013

Frequently asked questions

¿Qué hace que los datos sean “categóricos”?: Los datos son categóricos cuando cada observación cae en una de un conjunto de clases discretas — como enfermo/sano o grupo de tratamiento A/B/C — en lugar de tomar un valor numérico medido; el análisis trabaja con los recuentos en cada clase.
¿En qué se diferencia esta área de la regresión para resultados continuos?: El resultado aquí es una categoría o un recuento, no una medición continua, por lo que los métodos se centran en tablas de contingencia, razones de riesgos y probabilidades, y modelos como la regresión logística y log-lineal en lugar de en medias y regresión lineal ordinaria.