Veri Tanımlaması ve Özet İstatistikler
Veri tanımlaması ve özet istatistikler, biyoistatistiğin, bir dizi gözlemi düzenleme, yoğunlaştırma ve sunma ile ilgilenen bölümüdür; böylece temel özelliklerinin bir bakışta kavranabilmesini sağlamaktadır. Herhangi bir çıkarım yapılmadan önce, araştırmacılar, sayısal özetler ve grafiksel gösterimler kullanarak verilerin nasıl dağıldığını, nerede merkezlendiğini, ne kadar geniş yayıldığını ve hangi şekli aldığını tanımlamaktadır.
Tanım
Veri tanımlaması ve özet istatistikler, bir veri kümesinin merkezi konumunu, yayılımını, dağılım şeklini ve yapısını, bir popülasyona çıkarımsal genelleme yapılmasından önce ve bundan bağımsız olarak karakterize etmek için kullanılan sayısal ve grafiksel yöntemleri içermektedir.
Kapsam
Bu alan, okuyucuyu biyoistatistiğin betimleyici yönüne yönlendirmektedir: bir bütün olarak betimleyici istatistikler, verilerin dağılımı ve normalliği, merkezi eğilim ölçüleri, değişkenlik ölçüleri ve veri görselleştirme. Bu, sağlık verilerinin nasıl özetlendiğine dair bir referans genel bakış niteliğindedir; analiz veya klinik eylem için bir reçete değildir.
Alt konular
Temel sorular
- Verinin merkezi neresidir ve hangi konum ölçüsü onu en iyi temsil etmektedir?
- Gözlemler ne kadar değişkenlik göstermektedir ve bu yayılım nasıl nicelleştirilmektedir?
- Dağılımın şekli nedir ve yaklaşık olarak normal midir?
- Veriler, deseni, çarpıklığı ve aykırı değerleri görünür olacak şekilde nasıl görüntülenebilmektedir?
Anahtar kavramlar
- Betimleyici ve çıkarımsal istatistikler
- Merkezi eğilim ölçüleri (ortalama, medyan, mod)
- Değişkenlik ölçüleri (açıklık, varyans, standart sapma, çeyrekler arası açıklık)
- Dağılım şekli, çarpıklık ve basıklık (kurtosis)
- Normallik ve değerlendirilmesi
- Grafiksel özetler (histogramlar, kutu grafikleri, saçılım grafikleri)
- Keşifsel veri analizi
Mekanizmalar
Tanımlama, birçok gözlemi birkaç bilgilendirici niceliğe ve resme indirgeyerek ilerlemektedir. Bir konum ölçüsü (ortalama, medyan veya mod), verilerin nerede konumlandığını özetlemektedir; bir yayılım ölçüsü (standart sapma, çeyrekler arası açıklık, açıklık), o konum etrafında ne kadar yayıldıklarını özetlemektedir; ve konum ile yayılımın eşleştirilmesi, dağılımın şekline uyacak şekilde seçilmektedir; çarpık veriler için medyan ve çeyrekler arası açıklık tercih edilirken, yaklaşık olarak simetrik veriler için ortalama ve standart sapma kullanılmaktadır. Histogramlar ve kutu grafikleri gibi grafiksel gösterimler, tek sayıların gizleyebileceği şekli, çarpıklığı ve aykırı değerleri ortaya koymaktadır ve bu araçlar birlikte, resmi çıkarımdan önce gelen keşif aşamasını oluşturmaktadır.
Klinik önem
Hemen hemen her klinik çalışma, denetim ve sürveyans raporu, katılımcılarının ve ölçümlerinin betimleyici özetleriyle başlamaktadır; bu nedenle bu özetleri anlamak, sağlık bilimleri literatürünü okumak için temel niteliktedir. Bu alan, verilerin nasıl karakterize edildiğini tanımlamakta ve kanıt değerlendirmesi için bir arka plan olarak tasarlanmaktadır; bireysel tanı veya tedavi kararları için bir temel olarak değil.
Epidemiyoloji
Betimleyici özet, epidemiyolojik ve klinik araştırmalardaki ilk analitik adımdır; ilişkiler tahmin edilmeden önce çalışma popülasyonlarını, başlangıç tablolarını ve maruziyetler (exposure) ile sonuçların dağılımını karakterize etmek için kullanılmaktadır. Özet ölçüleri ve gösterimlerin seçimi, bir çalışmanın verilerinin ne kadar şeffaf bir şekilde iletildiğini doğrudan etkilemektedir.
Tarihçe
Verilerin sayısal olarak özetlenmesi, on sekizinci ve on dokuzuncu yüzyıl astronomi ve vital istatistiklerinde derin köklere sahiptir; ancak modern betimleyici araç seti yirminci yüzyılda pekiştirilmiştir. John Tukey'nin Keşifsel Veri Analizi (Exploratory Data Analysis) (1977) adlı eseri, betimlemeyi başlı başına bir araştırma faaliyeti olarak yeniden çerçevelemiş ve kutu grafiği gibi gösterimleri yaygınlaştırmıştır; sağlık bilimlerindeki istatistik eğitimcileri ise daha sonra tıp dergilerinde raporlanan standart özetleri kodlamıştır.
Tartışmalar
- Ortalama ve standart sapma ne zaman medyan ve çeyrekler arası açıklığa bırakılmalıdır?
- Ortalama ve standart sapma, çarpıklık ve aykırı değerlerden etkilendiği için, normal olmayan verileri medyan ve çeyrekler arası açıklık ile özetlemeye yönelik uzun süredir devam eden bir öneri bulunmaktadır; geçiş için pratik eşik, dağılım şekline ve örneklem büyüklüğüne bağlıdır.
Öne çıkan isimler
- John W. Tukey
- William S. Cleveland
- Douglas G. Altman
- J. Martin Bland
İlgili konular
Temel eserler
- tukey-1977
- gupta-2019
Sıkça sorulan sorular
- Betimleyici ve çıkarımsal istatistikler arasındaki fark nedir?
- Betimleyici istatistikler, fiilen toplanan verileri özetlemekte ve görüntülemektedir; oysa çıkarımsal istatistikler, bu verileri daha geniş bir popülasyon hakkında genellemeler yapmak için kullanmaktadır. Betimleme önce gelmekte ve eldeki örneklem ötesinde herhangi bir olasılıksal iddiada bulunmamaktadır.
- Testler yapılmadan önce veriler neden tanımlanmalıdır?
- Özetler ve grafikler, dağılımın şeklini, yayılımını ve herhangi bir aykırı değeri veya hatayı ortaya koymaktadır; bu da sonraki analizlerin uygun olup olmadığını ve sonuçlarının nasıl yorumlanması gerektiğini belirlemektedir.