ScholarGate
Assistente

Análise de Dados Categóricos

A análise de dados categóricos é o ramo da bioestatística que se ocupa de dados que se enquadram em categorias discretas, em vez de assumirem valores numéricos contínuos — uma doença estar presente ou ausente, um tumor ser benigno ou maligno, um paciente ser atribuído a um de vários braços de tratamento. O seu objeto central é a tabela de contingência de contagens, e os seus métodos testam e quantificam associações entre variáveis categóricas, controlando outras.

Encontrar tema com PaperMindEm breveFind papers & topics
Tools & resources
Baixar slides
Learn & explore
VídeoEm breve

Definition

A análise de dados categóricos é o conjunto de métodos estatísticos para descrever, testar e modelar associações entre variáveis cujos valores são contagens dentro de categorias discretas não ordenadas ou ordenadas, tipicamente organizadas como tabelas de contingência de frequências.

Scope

Esta área orienta o leitor para as ideias centrais que se repetem nas páginas de tópicos abaixo: como as observações categóricas são organizadas em tabelas de contingência, como a associação numa tabela é testada (testes qui-quadrado e exatos), como uma associação é resumida por uma medida de efeito (razões de risco e razões de chances) e como uma variável categórica de confusão é tratada por estratificação (métodos de Mantel-Haenszel). Enquadra estes como ferramentas metodológicas para ler e produzir pesquisa em saúde, não como orientação clínica.

Sub-topics

Core questions

  • Existe uma associação entre duas variáveis categóricas, ou elas são independentes?
  • Qual a magnitude da associação, expressa como uma razão ou diferença de riscos ou chances?
  • Uma associação aparente persiste após a estratificação por uma terceira variável categórica, ou é confundida ou modificada por ela?
  • Quando as contagens de células são pequenas, qual procedimento exato substitui a aproximação de grandes amostras?

Key concepts

  • Tabela de contingência de contagens
  • Independência de variáveis categóricas
  • Teste qui-quadrado de associação
  • Testes exatos para tabelas esparsas
  • Medidas de efeito: razão de risco e razão de chances
  • Estratificação e o estimador de Mantel-Haenszel
  • Confusão e modificação de efeito entre estratos
  • Modelos log-lineares e logísticos para tabelas

Mechanisms

Observações categóricas são classificadas cruzadamente numa tabela cujas células contêm frequências. Um teste de associação compara as contagens de células observadas com as esperadas se as variáveis de linha e coluna fossem independentes: a estatística qui-quadrado de Pearson, justificada assintoticamente pela clarificação de Fisher dos seus graus de liberdade, soma as diferenças padronizadas ao quadrado, enquanto os testes exatos enumeram a distribuição condicional das tabelas quando as contagens são demasiado pequenas para a aproximação. A força da associação é então resumida por uma medida de efeito derivada da tabela — uma razão de risco ou uma razão de chances. Quando uma terceira variável ameaça confundir a associação, os dados são divididos em estratos definidos por essa variável e uma estimativa agrupada é formada entre os estratos; o procedimento de Mantel-Haenszel fornece tal teste estratificado e estimativa sumária. Estas peças generalizam-se em modelos log-lineares e de regressão logística que lidam com vários preditores categóricos de uma só vez.

Clinical relevance

A maioria das evidências diagnósticas, prognósticas e de fatores de risco nas ciências da saúde é relatada como associações entre variáveis categóricas — exposto versus não exposto, evento versus não evento — portanto, os métodos nesta área fundamentam como essa evidência é gerada e avaliada. Eles descrevem como as associações são medidas e testadas; são ferramentas para interpretar a pesquisa e não uma base para decisões individuais de diagnóstico ou tratamento.

Epidemiology

Os métodos de tabela de contingência são a maquinaria diária da epidemiologia: estudos de coorte, caso-controle e transversais reduzem-se, na sua forma mais simples, a uma tabela dois por dois de exposição versus desfecho, e a análise estratificada (Mantel-Haenszel) é a abordagem clássica não-modelo para confusão antes da regressão. Os mesmos métodos recorrem em ensaios clínicos que relatam desfechos binários e na avaliação de testes diagnósticos.

History

O campo começou com a estatística qui-quadrado de Karl Pearson na virada do século XX e a correção de Fisher de 1922 dos seus graus de liberdade para tabelas de contingência, seguida pelo teste exato de Fisher para pequenas amostras. A epidemiologia de meados do século forneceu a estrutura da medida de efeito — o argumento da razão de chances de Cornfield e o estimador estratificado de Mantel-Haenszel de 1959 — e o final do século XX unificou esses métodos dentro da estrutura do modelo linear generalizado, sintetizado no tratamento de livro-texto de Agresti.

Key figures

  • Karl Pearson
  • Ronald A. Fisher
  • Jerome Cornfield
  • Nathan Mantel
  • William Haenszel
  • Alan Agresti
  • Joseph Fleiss

Related topics

Seminal works

  • fisher-1922
  • mantel-haenszel-1959
  • agresti-2013

Frequently asked questions

O que torna os dados “categóricos”?
Os dados são categóricos quando cada observação se enquadra numa de um conjunto de classes discretas — como doente/saudável ou braço de tratamento A/B/C — em vez de assumir um valor numérico medido; a análise trabalha com as contagens em cada classe.
Como esta área difere da regressão para desfechos contínuos?
O desfecho aqui é uma categoria ou uma contagem, não uma medida contínua, então os métodos se concentram em tabelas de contingência, razões de riscos e chances, e modelos como regressão logística e log-linear, em vez de médias e regressão linear ordinária.

Methods for this concept

Related concepts