Veri Görselleştirme
Veri görselleştirme, verilerin grafiksel olarak sunulmasıdır; böylece örüntüleri, dağılımları ve ilişkileri doğrudan algılanabilmektedir. İyi seçilmiş görselleştirmeler — histogramlar, kutu grafikleri (box plot), saçılım grafikleri (scatter plot) ve diğerleri — sayısal özetlerin tek başına gizleyebileceği çarpıklık (skew), kümelenme (clustering) ve aykırı değerler (outliers) gibi özellikleri ortaya çıkarmaktadır; bu da grafikleri veri tanımlama ve keşfetmenin ayrılmaz bir parçası haline getirmektedir.
Tanım
Veri görselleştirme, verileri ve istatistiksel özetleri grafiksel olarak temsil etme pratiğidir — histogramlar, kutu grafikleri (box plot) ve saçılım grafikleri (scatter plot) gibi çizimler aracılığıyla — dağılım şeklini, karşılaştırmayı ve ilişkiyi görsel olarak belirgin hale getirmek amacıyla yapılmaktadır.
Kapsam
Bu madde, verilerin özetlenmesinde grafiksel sunumun rolünü, sağlık bilimlerinde kullanılan başlıca grafik türlerini ve bazı görselleştirmeleri diğerlerinden daha okunabilir kılan grafiksel algı ilkelerini kapsamaktadır. Bu, metodolojik bir referanstır ve klinik rehberlik sağlamamaktadır.
Temel sorular
- Söz konusu verinin özelliğini — dağılım, karşılaştırma veya ilişki — en iyi hangi görselleştirme ortaya koymaktadır?
- Grafiksel algı ilkeleri, hangi kodlamaların doğru okunmasını nasıl etkilemektedir?
- Bir grafik nasıl yanıltıcı olabilir ve bu nasıl önlenebilir?
Anahtar kavramlar
- Histogram
- Kutu Grafiği (Box Plot)
- Saçılım Grafiği (Scatter Plot)
- Çubuk Grafiği ve Frekans Görselleştirmesi
- Grafiksel Algı ve Kodlama Doğruluğu
- Keşifsel Veri Analizi
- Yanıltıcı Grafikler
Temel kuramlar
- Grafiksel Algı
- Cleveland ve McGill'in grafiksel algı kuramı, görsel kodlamaları (konum, uzunluk, açı, alan, renk) insanların bunları ne kadar doğru çözdüğüne göre sıralamaktadır; nokta ve saçılım grafikleri (scatter plot) gibi konum tabanlı görselleştirmelerin, pasta grafikleri (pie chart) gibi alan veya açı tabanlı olanlara tercih edilmesi için ampirik bir temel sağlamaktadır.
Mekanizmalar
Farklı görselleştirmeler farklı özellikleri ortaya koymaktadır. Bir histogram, tek bir dağılımın şeklini — merkezini, yayılımını, çarpıklığını (skew) ve modunu (modality) — göstermektedir. Bir kutu grafiği (box plot), medyanı, çeyreklikleri (quartiles) ve aykırı değerleri (outliers) kompakt bir şekilde özetleyerek, bir değişkenin gruplar arasındaki dağılımını karşılaştırmak için etkili bir yöntem sunmaktadır. Bir saçılım grafiği (scatter plot), iki sürekli değişken arasındaki ilişkiyi ortaya koymaktadır. Herhangi bir görselleştirmenin etkinliği, grafiksel algıya dayanmaktadır: ampirik çalışmalar, gözün bazı kodlamaları (ortak bir ölçek üzerindeki konum) diğerlerinden (açı, alan, renk doygunluğu) çok daha doğru bir şekilde çözdüğünü göstermektedir; bu nedenle konum tabanlı çizimler genellikle tercih edilmekte ve pasta grafikleri (pie chart) ile üç boyutlu efektler gibi görselleştirmeler önerilmemektedir. Sağlam tasarım aynı zamanda okuyucuyu yanlış bir izlenime yönlendirebilecek bozulmalardan — kesilmiş veya tutarsız eksenler, aşırı süsleme — kaçınmaktadır.
Klinik önem
Grafikler, klinik makalelerde ve sunumlarda mesajın büyük bir kısmını taşımaktadır ve bunları eleştirel bir şekilde okuma — ve yanıltıcı olanları tanıma — yeteneği, kanıtları değerlendirmenin bir parçasıdır. Bu madde, bu amaçla grafiksel sunum ilkelerini tanımlamaktadır ve bireysel tanı veya tedavi kararları için bir temel oluşturmamaktadır.
Epidemiyoloji
Grafiksel sunum, sağlık araştırmalarının her aşamasında kullanılmaktadır; ham verileri keşfetmekten ve dağılım varsayımlarını kontrol etmekten, bulguları klinik ve halka açık kitlelere iletmeye kadar. Görselleştirmelerin seçimi ve dürüstlüğü, çalışma sonuçlarının ne kadar açık ve doğru anlaşıldığını doğrudan etkilemektedir.
Tarihçe
İstatistiksel grafikler, çizgi, çubuk ve pasta grafiklerini tanıtan William Playfair'in ve sıhhi reformu savunmak için grafikleri kullanan Florence Nightingale'in on sekizinci yüzyıl sonu ve on dokuzuncu yüzyıl çalışmalarına dayanmaktadır. Modern dönem, kutu grafiği (box plot) gibi görselleştirmeleri tanıtan ve popülerleştiren John Tukey'nin keşifsel veri analizi (1977), Cleveland ve McGill'in grafiksel algı üzerine ampirik çalışması ve Edward Tufte'nin nicel bilginin dürüst ve verimli sunumu için ilkeleri tarafından şekillendirilmiştir.
Tartışmalar
- Doğru okuma için hangi görselleştirmeler tercih edilmelidir?
- Grafiksel algı üzerine yapılan araştırmalar, bir ölçek üzerindeki konumla kodlanan niceliklerin, açı veya alanla kodlananlardan daha doğru değerlendirildiğini göstermektedir; bu da nokta, çubuk ve saçılım grafikleri (scatter plot) gibi görselleştirmeleri tercih etme ve pasta grafikleri (pie chart) ile üç boyutlu süslemelerden kaçınma yönündeki köklü tavsiyelerin temelini oluşturmaktadır.
Öne çıkan isimler
- John W. Tukey
- William S. Cleveland
- Edward R. Tufte
İlgili konular
Temel eserler
- tukey-1977
- cleveland-1984
- tufte-2001
- mcgill-1978
Sıkça sorulan sorular
- Özet istatistikler zaten rapor edilmişken neden bir grafik kullanılmaktadır?
- Grafikler, ortalama ve standart sapma gibi tek sayıların gizleyebileceği çarpıklık (skew), çoklu zirveler, aykırı değerler (outliers) ve değişkenler arasındaki ilişkiler gibi özellikleri ortaya koymaktadır; bu nedenle sayısal özetleri tamamlamakta, yerini almamaktadır.
- Bir grafiği diğerinden daha doğru okunabilir kılan nedir?
- İnsanlar, ortak bir ölçek üzerindeki konumu açı, alan veya renkten daha doğru bir şekilde çözmektedir. Bu nedenle, nokta ve saçılım grafikleri (scatter plot) gibi konuma dayalı görselleştirmeler, pasta grafikleri (pie chart) veya üç boyutlu grafiklerden genellikle daha güvenilir bir şekilde okunmaktadır.