Descrição de Dados e Estatísticas Descritivas
A descrição de dados e as estatísticas descritivas são a parte da bioestatística que se ocupa de organizar, condensar e apresentar um conjunto de observações para que as suas características essenciais possam ser apreendidas rapidamente. Antes de qualquer inferência ser tentada, os investigadores descrevem como os dados estão distribuídos, onde estão centrados, quão amplamente se dispersam e que forma assumem, utilizando resumos numéricos e representações gráficas.
Definition
A descrição de dados e as estatísticas descritivas compreendem os métodos numéricos e gráficos utilizados para caracterizar a localização central, a dispersão, a forma distribucional e a estrutura de um conjunto de dados, antes e independentemente da generalização inferencial para uma população.
Scope
Esta área orienta o leitor para o lado descritivo da bioestatística: estatística descritiva como um todo, a distribuição e normalidade dos dados, medidas de tendência central, medidas de variabilidade e visualização de dados. É uma visão geral de referência sobre como os dados de saúde são resumidos, não uma prescrição para análise ou ação clínica.
Sub-topics
Core questions
- Onde está o centro dos dados, e qual medida de localização o representa melhor?
- Quanto as observações variam, e como essa dispersão é quantificada?
- Qual é a forma da distribuição, e é aproximadamente normal?
- Como os dados podem ser exibidos para que seu padrão, assimetria e valores atípicos sejam visíveis?
Key concepts
- Estatística descritiva versus inferencial
- Medidas de tendência central (média, mediana, moda)
- Medidas de variabilidade (amplitude, variância, desvio padrão, intervalo interquartil)
- Forma distribucional, assimetria e curtose
- Normalidade e sua avaliação
- Resumos gráficos (histogramas, box plots, gráficos de dispersão)
- Análise exploratória de dados
Mechanisms
A descrição procede pela redução de muitas observações a algumas quantidades e imagens informativas. Uma medida de localização (média, mediana ou moda) resume onde os dados se situam; uma medida de dispersão (desvio padrão, intervalo interquartil, amplitude) resume o quão longe se dispersam em torno dessa localização; e o emparelhamento de localização com dispersão é escolhido para corresponder à forma da distribuição, com a mediana e o intervalo interquartil preferidos para dados assimétricos e a média e o desvio padrão para dados aproximadamente simétricos. Representações gráficas como histogramas e box plots revelam forma, assimetria e valores atípicos que números únicos podem ocultar, e juntas estas ferramentas formam a fase exploratória que precede a inferência formal.
Clinical relevance
Quase todos os estudos clínicos, auditorias e relatórios de vigilância começam com resumos descritivos dos seus participantes e medições, pelo que a compreensão destes resumos é fundamental para a leitura da literatura das ciências da saúde. Esta área descreve como os dados são caracterizados e destina-se a servir de base para a avaliação de evidências, não como base para decisões individuais de diagnóstico ou tratamento.
Epidemiology
O resumo descritivo é o primeiro passo analítico na pesquisa epidemiológica e clínica, utilizado para caracterizar populações de estudo, tabelas de base e a distribuição de exposições e resultados antes que as associações sejam estimadas. A escolha das medidas de resumo e das representações afeta diretamente a transparência com que os dados de um estudo são comunicados.
History
A sumarização numérica de dados tem raízes profundas na astronomia e nas estatísticas vitais dos séculos XVIII e XIX, mas o moderno conjunto de ferramentas descritivas foi consolidado no século XX. A Análise Exploratória de Dados (1977) de John Tukey reformulou a descrição como uma atividade investigativa por si só e popularizou representações como o box plot, enquanto educadores de estatística nas ciências da saúde codificaram subsequentemente os resumos padrão agora relatados em periódicos médicos.
Debates
- Quando a média e o desvio padrão devem ceder lugar à mediana e ao intervalo interquartil?
- Como a média e o desvio padrão são influenciados pela assimetria e pelos valores atípicos, existe uma recomendação de longa data para resumir dados não normais com a mediana e o intervalo interquartil; o limiar prático para a mudança depende da forma da distribuição e do tamanho da amostra.
Key figures
- John W. Tukey
- William S. Cleveland
- Douglas G. Altman
- J. Martin Bland
Related topics
Seminal works
- tukey-1977
- gupta-2019
Frequently asked questions
- Qual é a diferença entre estatística descritiva e inferencial?
- A estatística descritiva resume e exibe os dados realmente coletados, enquanto a estatística inferencial usa esses dados para fazer generalizações sobre uma população mais ampla. A descrição vem primeiro e não faz nenhuma afirmação probabilística além da amostra em questão.
- Por que descrever os dados antes de realizar testes?
- Os resumos e gráficos revelam a forma da distribuição, a dispersão e quaisquer valores atípicos ou erros, o que determina se análises posteriores são apropriadas e como seus resultados devem ser interpretados.