ScholarGate
Asistan

Veri Dağılımı ve Normallik

Bir değişkenin dağılımı, değerlerinin olası aralık boyunca nasıl yayıldığını tanımlamaktadır ve birçok betimsel ve çıkarımsal yöntem, bu dağılımın neye benzediğine bağlıdır. Verilerin simetrik, çan eğrisi şeklindeki normal dağılımı takip edip etmediği olan normallik, sağlık araştırmalarında en sık incelenen dağılımsal varsayımdır, çünkü parametrik ve parametrik olmayan özetler ve testler arasındaki seçimi belirlemektedir.

PaperMind ile konu bulYakındaMakale ve konu bul
Tools & resources
Slaytları indir
Learn & explore
VideoYakında

Tanım

İstatistiksel bir dağılım, bir değişkenin olası değerlerinin göreceli sıklığını veya olasılığını tanımlamaktadır; normallik ise, parametrik yöntemlerin uygun olup olmadığına karar vermek için grafiksel olarak ve formal testlerle değerlendirilen simetrik, çan eğrisi şeklindeki Gauss (normal) dağılımına uygunluğu ifade etmektedir.

Kapsam

Bu madde, dağılım şeklini (simetri, çarpıklık (skewness), basıklık (kurtosis)), normal dağılımı ve neden önemli olduğunu, ayrıca normalliğin grafiksel inceleme ve formal testler aracılığıyla nasıl değerlendirildiğini kapsamaktadır. Bu, metodolojik bir referanstır ve klinik rehberlik sağlamamaktadır.

Temel sorular

  • Değişkenin dağılımı hangi şekli almaktadır ve simetrik mi yoksa çarpık mı (skewed)?
  • Bu değişken için normallik varsayımı makul müdür?
  • Normalliği en iyi hangi grafiksel ve formal araçlar değerlendirmektedir ve küçük veya büyük örneklemlerle nasıl davranmaktadırlar?

Anahtar kavramlar

  • Normal (Gauss) dağılım
  • Çarpıklık (Skewness) ve basıklık (kurtosis)
  • Grafiksel değerlendirme (histogram, Q-Q grafiği)
  • Shapiro-Wilk testi
  • Kolmogorov-Smirnov testi
  • Parametrik ve parametrik olmayan seçim
  • Normallik testlerinin örneklem büyüklüğüne duyarlılığı

Temel kuramlar

Merkezi limit teoremi
Merkezi limit teoremi, yeterince büyük bir örneklem için, ortalamanın örneklem dağılımının, temel değişkenin şeklinden bağımsız olarak normal bir dağılıma yaklaştığını belirtmektedir. Ham veriler normal olmasa bile normal-teori yöntemlerinin ortalamalar için sıklıkla kullanılabilir kalmasının nedeni budur.

Mekanizmalar

Normallik iki tamamlayıcı yolla değerlendirilmektedir. Grafiksel yöntemler — histogram ve kantil-kantil (Q-Q) grafiği — çarpıklık, kalın kuyruklar veya bimodallik gibi sapmaları doğrudan göstermektedir. Shapiro-Wilk testi en yaygın kullanılanlardan biri olan formal testler ise, verileri normal bir model altında gözlemleme olasılığını vermektedir. Bu testler örneklem büyüklüğü ile güç kazandığından, büyük örneklemlerde önemsiz sapmaları işaretleme eğiliminde olmakta ve küçük örneklemlerde anlamlı sapmaları gözden kaçırabilmektedir; bu nedenle, herhangi bir test sonucunun yanı sıra grafiksel inceleme ve normallik dışı durumun pratik sonuçları da dikkate alınmaktadır. İlgilenilen nicelik bir ortalama olduğunda, merkezi limit teoremi, normal olmayan ham veriler için bile normal-teori yöntemlerini sıklıkla haklı çıkarmaktadır.

Klinik önem

Bir biyobelirtecin, hastanede kalış süresinin veya bir skorun normal kabul edilip edilmemesi, klinik literatür boyunca nasıl özetlendiğini ve analiz edildiğini belirlemektedir; bu nedenle normalliği değerlendirmek, bir çalışmanın yöntemlerini takdir etmenin bir parçasıdır. Bu madde, dağılımsal varsayımların değerlendirilmesini tanımlamaktadır ve bireysel tanı veya tedavi kararları için bir temel oluşturmamaktadır.

Epidemiyoloji

Birçok biyolojik ve klinik ölçüm sağa çarpık (örneğin, hormon seviyeleri, maliyetler ve bekleme süreleri) olduğundan, normallik varsayılamaz ve rutin olarak kontrol edilmektedir. Bu karar, sonuçların ortalamalar ve standart sapmalarla mı yoksa medyanlar ve aralıklarla mı rapor edildiğini ve parametrik mi yoksa parametrik olmayan testlerin mi kullanıldığını şekillendirmektedir.

Tarihçe

Normal dağılım, on sekizinci ve on dokuzuncu yüzyıllarda de Moivre, Laplace ve Gauss'un çalışmalarıyla geliştirilmiş ve hata teorisi ile merkezi limit teoremi aracılığıyla istatistiğin merkezi bir unsuru haline gelmiştir. Varsayımı kontrol etmek için formal araçlar yirminci yüzyılda ortaya çıkmış, Shapiro ve Wilk'in 1965 tarihli normallik için varyans analizi testi uygulamalı çalışmalarda standart bir prosedür haline gelmiştir.

Tartışmalar

Normallik formal testlerle mi yoksa grafiksel incelemeyle mi değerlendirilmelidir?
Formal normallik testleri örneklem büyüklüğüne duyarlıdır — büyük örneklemlerde önemsiz sapmaları reddetmekte ve küçük örneklemlerde önemli sapmaları tespit edememektedir — bu nedenle birçok metodolog, kararın yalnızca bir testin p-değeri yerine grafiksel değerlendirme ve planlanan analizin pratik sağlamlığı tarafından yönlendirilmesini önermektedir.

Öne çıkan isimler

  • Samuel S. Shapiro
  • Martin B. Wilk
  • Carl Friedrich Gauss

İlgili konular

Temel eserler

  • shapiro-wilk-1965
  • kwak-2017
  • ghasemi-2012

Sıkça sorulan sorular

Normallik neden önemlidir?
Birçok yaygın özet (ortalama, standart sapma) ve test (t-testi, ANOVA) yaklaşık olarak normal veriler varsaymaktadır; bu varsayım başarısız olduğunda, bu ölçümler yanıltıcı olabilmekte ve parametrik olmayan veya dönüştürülmüş alternatifler daha uygun olabilmektedir.
Anlamlı bir Shapiro-Wilk testi, parametrik bir yöntemden vazgeçmek için yeterli bir neden midir?
Tek başına yeterli değildir. Test, büyük örneklemlerde çok hassas hale gelmekte ve küçük örneklemlerde gücü azalmaktadır; bu nedenle, sapmanın boyutu, bir Q-Q grafiğinde görülen şekil ve planlanan analizin sağlamlığı (robustness) hep birlikte dikkate alınmalıdır.

Bu kavram için yöntemler

İlgili kavramlar