Verileri “kategorik” yapan nedir?

Veriler, her bir gözlemin ölçülen sayısal bir değer almak yerine, hastalıklı/sağlıklı veya tedavi kolu A/B/C gibi bir dizi ayrık sınıftan birine düşmesi durumunda kategoriktir; analiz, her sınıftaki sayımlarla çalışmaktadır.

Bu alan, sürekli sonuçlar için regresyondan nasıl farklılaşmaktadır?

Buradaki sonuç, sürekli bir ölçüm değil, bir kategori veya bir sayım olduğundan, yöntemler ortalamalar ve sıradan doğrusal regresyon yerine çapraz tablolar (contingency table), risk ve olasılık oranları ile lojistik ve log-lineer regresyon gibi modellere odaklanmaktadır.

Kategorik Veri Analizi

Kategorik veri analizi, sürekli sayısal değerler almak yerine ayrık kategorilere ayrılan verilerle — bir hastalığın var veya yok olması, bir tümörün iyi huylu veya kötü huylu olması, bir hastanın çeşitli tedavi kollarına atanması gibi durumlar — ilgilenen biyoistatistik dalıdır. Merkezi nesnesi, sayımların çapraz tablolarıdır (contingency table) ve yöntemleri, diğer değişkenleri kontrol ederken kategorik değişkenler arasındaki ilişkileri test etmekte ve nicel olarak belirlemektedir.

PaperMind ile konu bulYakındaMakale ve konu bul

Tools & resources

Slaytları indir

Learn & explore

VideoYakında

Tanım

Kategorik veri analizi, değerleri sıralı veya sırasız ayrık kategorilerdeki sayımlar olan ve genellikle frekansların çapraz tabloları (contingency table) olarak düzenlenmekte olan değişkenler arasındaki ilişkileri tanımlamak, test etmek ve modellemek için kullanılan istatistiksel yöntemler bütünüdür.

Kapsam

Bu alan, okuyucuyu, altındaki konu sayfalarında tekrar eden temel fikirlere yönlendirmektedir: kategorik gözlemlerin çapraz tablolara (contingency table) nasıl düzenlendiği, bir tablodaki ilişkinin nasıl test edildiği (ki-kare ve kesin testler), bir ilişkinin bir etki ölçüsü (risk oranları ve olasılık oranları) ile nasıl özetlendiği ve karıştırıcı bir kategorik değişkenin tabakalama (stratification) (Mantel-Haenszel yöntemleri) ile nasıl ele alındığı. Bu alanı, sağlık araştırmalarını okumak ve üretmek için metodolojik araçlar olarak çerçevelemekte, klinik rehberlik olarak sunmamaktadır.

Alt konular

Temel sorular

İki kategorik değişken arasında bir ilişki var mıdır, yoksa bağımsız mıdırlar?
Risklerin veya olasılıkların oranı veya farkı olarak ifade edilen ilişki ne kadar büyüktür?
Görünen bir ilişki, üçüncü bir kategorik değişken üzerinde tabakalama yapıldıktan sonra devam etmekte midir, yoksa bu değişken tarafından karıştırıcı etki (confounding) yaratılmakta veya modifiye edilmekte midir?
Hücre sayımları küçük olduğunda, büyük örneklem yaklaşımının yerini hangi kesin prosedür almaktadır?

Anahtar kavramlar

Sayımların çapraz tablosu (contingency table)
Kategorik değişkenlerin bağımsızlığı
İlişki için ki-kare testi
Seyrek tablolar için kesin testler
Etki ölçüleri: risk oranı ve olasılık oranı
Tabakalama (stratification) ve Mantel-Haenszel tahmincisi
Tabakalar arası karıştırıcı etki (confounding) ve etki modifikasyonu
Tablolar için log-lineer ve lojistik modeller

Mekanizmalar

Kategorik gözlemler, hücrelerinde frekansları barındıran bir tabloya çapraz sınıflandırılmaktadır. Bir ilişki testi, gözlemlenen hücre sayımlarını, satır ve sütun değişkenlerinin bağımsız olması durumunda beklenenlerle karşılaştırmaktadır: Pearson'ın ki-kare istatistiği, Fisher'ın serbestlik derecelerine ilişkin açıklamasının asimptotik olarak doğrulanmasıyla, karelenmiş standartlaştırılmış farkları toplamaktadır; kesin testler ise, sayımlar yaklaşım için çok küçük olduğunda tabloların koşullu dağılımını listelemektedir. İlişkinin gücü daha sonra tablodan türetilen bir etki ölçüsü — bir risk oranı veya bir olasılık oranı — ile özetlenmektedir. Üçüncü bir değişken ilişkinin karıştırıcı etki (confounding) yaratma tehdidi oluşturduğunda, veriler bu değişken tarafından tanımlanan tabakalara ayrılmakta ve tabakalar arasında bir havuzlanmış tahmin oluşturulmaktadır; Mantel-Haenszel prosedürü, bu tür tabakalı bir test ve özet tahmin sağlamaktadır. Bu unsurlar, aynı anda birden fazla kategorik yordayıcıyı ele alan log-lineer ve lojistik regresyon modellerine genelleşmektedir.

Klinik önem

Sağlık bilimlerindeki çoğu tanısal, prognostik ve risk faktörü kanıtı, kategorik değişkenler arasındaki ilişkiler — maruz kalanlara karşı maruz kalmayanlar, olay olanlara karşı olay olmayanlar — olarak rapor edilmektedir; bu nedenle bu alandaki yöntemler, bu kanıtın nasıl üretildiğinin ve değerlendirildiğinin temelini oluşturmaktadır. İlişkilerin nasıl ölçüldüğünü ve test edildiğini açıklamaktadırlar; araştırmayı yorumlamak için araçlardır ve bireysel tanı veya tedavi kararları için bir temel oluşturmamaktadırlar.

Epidemiyoloji

Çapraz tablo (contingency table) yöntemleri, epidemiyolojinin günlük işleyişini oluşturmaktadır: kohort, vaka-kontrol ve kesitsel çalışmaların hepsi, en basit haliyle, maruziyetin sonuca karşı ikiye iki bir tablosuna indirgenmektedir ve tabakalı (Mantel-Haenszel) analiz, regresyon öncesi karıştırıcı etki (confounding) için klasik model dışı yaklaşımdır. Aynı yöntemler, ikili son noktaları rapor eden klinik çalışmalarda ve tanı testi değerlendirmesinde de tekrarlanmaktadır.

Tarihçe

Bu alan, yirminci yüzyılın başında Karl Pearson'ın ki-kare istatistiği ve Fisher'ın 1922'de çapraz tablolar (contingency table) için serbestlik derecelerine yaptığı düzeltme ile başlamıştır; bunu küçük örneklemler için Fisher'ın kesin testi izlemiştir. Yüzyıl ortası epidemiyolojisi, etki ölçüsü çerçevesini — Cornfield'ın olasılık oranı argümanı ve 1959'daki Mantel-Haenszel tabakalı tahmincisi — sağlamıştır ve yirminci yüzyılın sonları, bu yöntemleri genelleştirilmiş doğrusal model çerçevesi içinde birleştirmiş, Agresti'nin ders kitabı yaklaşımında sentezlemiştir.

Öne çıkan isimler

Karl Pearson
Ronald A. Fisher
Jerome Cornfield
Nathan Mantel
William Haenszel
Alan Agresti
Joseph Fleiss

İlgili konular

Temel eserler

fisher-1922
mantel-haenszel-1959
agresti-2013

Sıkça sorulan sorular

Verileri “kategorik” yapan nedir?: Veriler, her bir gözlemin ölçülen sayısal bir değer almak yerine, hastalıklı/sağlıklı veya tedavi kolu A/B/C gibi bir dizi ayrık sınıftan birine düşmesi durumunda kategoriktir; analiz, her sınıftaki sayımlarla çalışmaktadır.
Bu alan, sürekli sonuçlar için regresyondan nasıl farklılaşmaktadır?: Buradaki sonuç, sürekli bir ölçüm değil, bir kategori veya bir sayım olduğundan, yöntemler ortalamalar ve sıradan doğrusal regresyon yerine çapraz tablolar (contingency table), risk ve olasılık oranları ile lojistik ve log-lineer regresyon gibi modellere odaklanmaktadır.