Distribuição de Dados e Normalidade
A distribuição de uma variável descreve como seus valores se espalham pelo intervalo de possibilidades, e muitos métodos descritivos e inferenciais dependem da aparência dessa distribuição. A normalidade — se os dados seguem a distribuição normal simétrica em forma de sino — é a suposição distribucional mais frequentemente examinada na pesquisa em saúde, pois governa a escolha entre resumos e testes paramétricos e não paramétricos.
Definition
Uma distribuição estatística descreve a frequência relativa ou a probabilidade dos possíveis valores de uma variável; a normalidade refere-se à conformidade com a distribuição Gaussiana (normal), uma forma simétrica em forma de sino avaliada graficamente e com testes formais para decidir se os métodos paramétricos são apropriados.
Scope
Esta entrada aborda a forma distribucional (simetria, assimetria, curtose), a distribuição normal e por que ela é importante, e como a normalidade é avaliada por meio de inspeção gráfica e testes formais. É uma referência metodológica e não fornece orientação clínica.
Core questions
- Qual a forma da distribuição da variável, e é simétrica ou assimétrica?
- A suposição de normalidade é razoável para esta variável?
- Quais ferramentas gráficas e formais avaliam melhor a normalidade, e como elas se comportam com amostras pequenas ou grandes?
Key concepts
- Distribuição normal (Gaussiana)
- Assimetria e curtose
- Avaliação gráfica (histograma, gráfico Q-Q)
- Teste de Shapiro-Wilk
- Teste de Kolmogorov-Smirnov
- Escolha paramétrica versus não paramétrica
- Sensibilidade dos testes de normalidade ao tamanho da amostra
Key theories
- Teorema do limite central
- O teorema do limite central afirma que, para uma amostra suficientemente grande, a distribuição amostral da média se aproxima de uma distribuição normal, independentemente da forma da variável subjacente. É a razão pela qual os métodos da teoria normal frequentemente permanecem úteis para médias, mesmo quando os dados brutos não são normais.
Mechanisms
A normalidade é avaliada de duas maneiras complementares. Métodos gráficos — o histograma e o gráfico quantil-quantil (Q-Q) — mostram diretamente desvios como assimetria, caudas pesadas ou bimodalidade. Testes formais, dos quais o teste de Shapiro-Wilk é um dos mais amplamente utilizados, retornam uma probabilidade de observar os dados sob um modelo normal. Como esses testes ganham poder com o tamanho da amostra, eles tendem a sinalizar desvios triviais em amostras grandes e a perder desvios significativos em amostras pequenas, portanto, a inspeção gráfica e as consequências práticas da não-normalidade são ponderadas juntamente com qualquer resultado de teste. Quando a quantidade de interesse é uma média, o teorema do limite central frequentemente justifica métodos de teoria normal mesmo para dados brutos não normais.
Clinical relevance
Se um biomarcador, tempo de internação ou pontuação é tratado como normal determina como ele é resumido e analisado em toda a literatura clínica, portanto, julgar a normalidade faz parte da avaliação dos métodos de um estudo. Esta entrada descreve a avaliação das suposições distribucionais e não é uma base para decisões individuais de diagnóstico ou tratamento.
Epidemiology
Muitas medidas biológicas e clínicas são assimétricas à direita (por exemplo, níveis hormonais, custos e tempos de espera), portanto, a normalidade não pode ser assumida e é rotineiramente verificada. A decisão molda se os resultados são relatados com médias e desvios padrão ou com medianas e intervalos, e se testes paramétricos ou não paramétricos são usados.
History
A distribuição normal foi desenvolvida nos séculos XVIII e XIX no trabalho de de Moivre, Laplace e Gauss, e tornou-se central para a estatística através da teoria dos erros e do teorema do limite central. Ferramentas formais para verificar a suposição seguiram no século XX, com o teste de análise de variância para normalidade de Shapiro e Wilk de 1965 tornando-se um procedimento padrão em trabalhos aplicados.
Debates
- A normalidade deve ser julgada por testes formais ou por inspeção gráfica?
- Os testes formais de normalidade são sensíveis ao tamanho da amostra — rejeitando desvios triviais em amostras grandes e falhando em detectar desvios importantes em amostras pequenas — portanto, muitos metodologistas recomendam que a avaliação gráfica e a robustez prática da análise planejada guiem a decisão, em vez de apenas o p-valor de um teste.
Key figures
- Samuel S. Shapiro
- Martin B. Wilk
- Carl Friedrich Gauss
Related topics
Seminal works
- shapiro-wilk-1965
- kwak-2017
- ghasemi-2012
Frequently asked questions
- Por que a normalidade é importante?
- Muitos resumos comuns (média, desvio padrão) e testes (teste t, ANOVA) assumem dados aproximadamente normais; quando essa suposição falha, essas medidas podem enganar e alternativas não paramétricas ou transformadas podem ser mais apropriadas.
- Um teste de Shapiro-Wilk significativo é razão suficiente para abandonar um método paramétrico?
- Não por si só. O teste torna-se muito sensível em amostras grandes e com baixo poder em amostras pequenas, portanto, a magnitude do desvio, a forma observada em um gráfico Q-Q e a robustez da análise planejada devem ser todas consideradas.