Por que a normalidade é importante?

Muitos resumos comuns (média, desvio padrão) e testes (teste t, ANOVA) assumem dados aproximadamente normais; quando essa suposição falha, essas medidas podem enganar e alternativas não paramétricas ou transformadas podem ser mais apropriadas.

Um teste de Shapiro-Wilk significativo é razão suficiente para abandonar um método paramétrico?

Não por si só. O teste torna-se muito sensível em amostras grandes e com baixo poder em amostras pequenas, portanto, a magnitude do desvio, a forma observada em um gráfico Q-Q e a robustez da análise planejada devem ser todas consideradas.

Distribuição de Dados e Normalidade

A distribuição de uma variável descreve como seus valores se espalham pelo intervalo de possibilidades, e muitos métodos descritivos e inferenciais dependem da aparência dessa distribuição. A normalidade — se os dados seguem a distribuição normal simétrica em forma de sino — é a suposição distribucional mais frequentemente examinada na pesquisa em saúde, pois governa a escolha entre resumos e testes paramétricos e não paramétricos.

Encontrar tema com PaperMindEm breveFind papers & topics

Tools & resources

Baixar slides

Learn & explore

VídeoEm breve

Definition

Uma distribuição estatística descreve a frequência relativa ou a probabilidade dos possíveis valores de uma variável; a normalidade refere-se à conformidade com a distribuição Gaussiana (normal), uma forma simétrica em forma de sino avaliada graficamente e com testes formais para decidir se os métodos paramétricos são apropriados.

Scope

Esta entrada aborda a forma distribucional (simetria, assimetria, curtose), a distribuição normal e por que ela é importante, e como a normalidade é avaliada por meio de inspeção gráfica e testes formais. É uma referência metodológica e não fornece orientação clínica.

Core questions

Qual a forma da distribuição da variável, e é simétrica ou assimétrica?
A suposição de normalidade é razoável para esta variável?
Quais ferramentas gráficas e formais avaliam melhor a normalidade, e como elas se comportam com amostras pequenas ou grandes?

Key concepts

Distribuição normal (Gaussiana)
Assimetria e curtose
Avaliação gráfica (histograma, gráfico Q-Q)
Teste de Shapiro-Wilk
Teste de Kolmogorov-Smirnov
Escolha paramétrica versus não paramétrica
Sensibilidade dos testes de normalidade ao tamanho da amostra

Key theories

Teorema do limite central: O teorema do limite central afirma que, para uma amostra suficientemente grande, a distribuição amostral da média se aproxima de uma distribuição normal, independentemente da forma da variável subjacente. É a razão pela qual os métodos da teoria normal frequentemente permanecem úteis para médias, mesmo quando os dados brutos não são normais.

Mechanisms

A normalidade é avaliada de duas maneiras complementares. Métodos gráficos — o histograma e o gráfico quantil-quantil (Q-Q) — mostram diretamente desvios como assimetria, caudas pesadas ou bimodalidade. Testes formais, dos quais o teste de Shapiro-Wilk é um dos mais amplamente utilizados, retornam uma probabilidade de observar os dados sob um modelo normal. Como esses testes ganham poder com o tamanho da amostra, eles tendem a sinalizar desvios triviais em amostras grandes e a perder desvios significativos em amostras pequenas, portanto, a inspeção gráfica e as consequências práticas da não-normalidade são ponderadas juntamente com qualquer resultado de teste. Quando a quantidade de interesse é uma média, o teorema do limite central frequentemente justifica métodos de teoria normal mesmo para dados brutos não normais.

Clinical relevance

Se um biomarcador, tempo de internação ou pontuação é tratado como normal determina como ele é resumido e analisado em toda a literatura clínica, portanto, julgar a normalidade faz parte da avaliação dos métodos de um estudo. Esta entrada descreve a avaliação das suposições distribucionais e não é uma base para decisões individuais de diagnóstico ou tratamento.

Epidemiology

Muitas medidas biológicas e clínicas são assimétricas à direita (por exemplo, níveis hormonais, custos e tempos de espera), portanto, a normalidade não pode ser assumida e é rotineiramente verificada. A decisão molda se os resultados são relatados com médias e desvios padrão ou com medianas e intervalos, e se testes paramétricos ou não paramétricos são usados.

History

A distribuição normal foi desenvolvida nos séculos XVIII e XIX no trabalho de de Moivre, Laplace e Gauss, e tornou-se central para a estatística através da teoria dos erros e do teorema do limite central. Ferramentas formais para verificar a suposição seguiram no século XX, com o teste de análise de variância para normalidade de Shapiro e Wilk de 1965 tornando-se um procedimento padrão em trabalhos aplicados.

Debates

A normalidade deve ser julgada por testes formais ou por inspeção gráfica?: Os testes formais de normalidade são sensíveis ao tamanho da amostra — rejeitando desvios triviais em amostras grandes e falhando em detectar desvios importantes em amostras pequenas — portanto, muitos metodologistas recomendam que a avaliação gráfica e a robustez prática da análise planejada guiem a decisão, em vez de apenas o p-valor de um teste.

Key figures

Samuel S. Shapiro
Martin B. Wilk
Carl Friedrich Gauss

Seminal works

shapiro-wilk-1965
kwak-2017
ghasemi-2012

Frequently asked questions

Por que a normalidade é importante?: Muitos resumos comuns (média, desvio padrão) e testes (teste t, ANOVA) assumem dados aproximadamente normais; quando essa suposição falha, essas medidas podem enganar e alternativas não paramétricas ou transformadas podem ser mais apropriadas.
Um teste de Shapiro-Wilk significativo é razão suficiente para abandonar um método paramétrico?: Não por si só. O teste torna-se muito sensível em amostras grandes e com baixo poder em amostras pequenas, portanto, a magnitude do desvio, a forma observada em um gráfico Q-Q e a robustez da análise planejada devem ser todas consideradas.