İstatistiksel Hipotez Testi
Hipotez testi, her bir hata türünün olasılığını kontrol ederken, verilerden elde edilen bir popülasyon hakkındaki rakip ifadeler arasında karar verme kuramıdır.
Tanım
İstatistiksel bir hipotez testi, doğru bir sıfır hipotezini yanlışlıkla reddetme olasılığının seçilen bir anlamlılık düzeyiyle sınırlandırılması amacıyla tasarlanmış, örneklem verilerini kullanarak bir sıfır hipotezini bir alternatifi lehine reddedip reddetmeyeceğine karar veren bir kuraldır.
Kapsam
Bu alan, sıfır ve alternatif hipotezlerin formülasyonunu, iki hata türünü ve bir testin büyüklüğünü (size) ve gücünü (power), basit hipotezlerin en güçlü testi için Neyman-Pearson lemmasını, monoton olabilirlik oranı ve tekdüze en güçlü testleri, yansız (unbiased) ve değişmez (invariant) testleri, olabilirlik oranı testini ve onun geniş örneklemli ki-kare dağılımını, p-değerlerini ve yorumlarını ve aynı anda birçok hipotezi test etme sorununu kapsamaktadır.
Alt konular
Temel sorular
- Bir testin büyüklüğü (size) ve gücü (power) nasıl tanımlanır ve iki hata türü arasında nasıl bir denge kurulur?
- İki basit hipotez arasında karar vermek için en güçlü test hangisidir?
- Tek taraflı bir alternatif için tekdüze en güçlü test ne zaman mevcuttur?
- Birçok hipotez aynı anda test edildiğinde anlamlılık nasıl kontrol edilmelidir?
Temel kuramlar
- Neyman-Pearson lemmasi
- İki basit hipotez için belirli bir büyüklükteki tüm testler arasında, oranın bir eşiği aştığında reddeden olabilirlik oranı testi en güçlü olanıdır.
- Tekdüze en güçlü ve yansız testler
- Monoton olabilirlik oranına sahip aileler için tek bir test, tek taraftaki her alternatife karşı en güçlüdür; böyle bir testin mevcut olmadığı durumlarda, optimallik yansız veya değişmez sınıflar içinde aranmaktadır.
- Olabilirlik oranı testleri
- Genelleştirilmiş olabilirlik oranı istatistiği, sıfır hipotezi ve tam model altındaki maksimize edilmiş olabilirlikleri karşılaştırmaktadır; düzenlilik koşulları altında logaritması asimptotik olarak ki-kare dağılımına sahiptir ve genel amaçlı bir test sağlamaktadır.
Klinik önem
Hipotez testleri, klinik araştırmaların, A/B testlerinin, kalite kontrolün ve sinyal tespitinin değerlendirilmesinin temelini oluşturmaktadır; bu alanlarda yanlış pozitif oranlarını kontrol etmek ve yeterli gücü sağlamak, hangi müdahalelerin, ürünlerin veya keşiflerin gerçek olarak kabul edildiğini doğrudan etkilemektedir.
Tarihçe
Fisher, 1920'lerde anlamlılık testini ve p-değerlerini geliştirmiştir. Neyman ve Pearson, 1933'te iki hipotez, hatalar ve güçten oluşan karar-kuramsal çerçeveyi tanıtmış; Lehmann'ın yüzyıl ortası çalışmaları, Romano ile devam ederek testlerin optimallik kuramını düzenlemiştir.
Tartışmalar
- Fisherci anlamlılık ve Neyman-Pearson kararları
- Fisher, p-değerini sıfır hipotezine karşı sürekli bir kanıt ölçüsü olarak görmüştür; Neyman ve Pearson ise testi sabit hata oranlarına sahip bir karar verme çerçevesi olarak ele almıştır; bu iki felsefe pratikte sıklıkla harmanlanmakta ve aralarındaki fark tartışmalı kalmaktadır.
Öne çıkan isimler
- Jerzy Neyman
- Egon Pearson
- Ronald A. Fisher
- Erich L. Lehmann
İlgili konular
Temel eserler
- lehmannRomano2005
Sıkça sorulan sorular
- Tip I ve Tip II hata arasındaki fark nedir?
- Tip I hata, doğru bir sıfır hipotezini reddetmek, yani yanlış pozitif bir sonuçtur; Tip II hata ise yanlış bir sıfır hipotezini reddedememek, yani yanlış negatif bir sonuçtur. Anlamlılık düzeyi birinci hatayı sınırlar ve güç, ikincinin olasılığının bir eksiğine eşittir.
- Küçük bir p-değeri alternatif hipotezi kanıtlar mı?
- Hayır. Küçük bir p-değeri, verilerin sıfır hipotezi altında olası olmadığını gösterir; bu, sıfır hipotezine karşı bir kanıttır, sıfırın yanlış olma olasılığı değildir ve tek başına pratik önemi ortaya koymaz.