Hipotez Testi Çerçevesi
Hipotez testi çerçevesi, örnek verilerin bir popülasyon hakkındaki belirli bir iddia ile uyumlu olup olmadığına karar vermek için yapılandırılmış bir prosedürdür. Genellikle bir etki veya fark olmadığını belirten bir sıfır hipotezini bir alternatif hipoteze karşı konumlandırmakta, bir test istatistiği ve ilişkili bir p-değeri hesaplamakta ve sıfır hipotezine karşı kanıtın harekete geçmek için yeterince güçlü olup olmadığını değerlendirmek üzere önceden belirlenmiş bir anlamlılık düzeyi kullanmaktadır. Kantitatif sağlık araştırmalarında en yaygın kullanılan ve en çok tartışılan karar prosedürüdür.
Tanım
İstatistiksel hipotez testi, örnek verilerden hesaplanan bir test istatistiğini kullanarak verilerin belirtilen bir sıfır hipoteziyle uyumluluğunu değerlendiren bir prosedürdür; sonuç, önceden belirlenmiş bir anlamlılık düzeyinde sıfır hipotezi altında yeterince olası olmadığında sıfır hipotezini bir alternatif lehine reddetmektedir.
Kapsam
Bu konu, sıfır ve alternatif hipotezlerin mantığını, test istatistiği ve p-değerinin rolünü, anlamlılık düzeyinin anlamını ve mekanik anlamlılık testinin başlıca eleştirilerini kapsamaktadır. Çalışmaları tasarlamak ve değerlendirmek için bir referans metodolojisidir, klinik bir karar kuralı değildir.
Temel sorular
- Hangi sıfır hipotezi test edilmektedir ve hangi alternatife karşı?
- Sıfır hipotezi doğru olsaydı, gözlemlenen veriler ne kadar şaşırtıcı olurdu?
- Kararı hangi anlamlılık düzeyi yönetmektedir ve neden?
- Sıfır hipotezini reddetmek – veya reddedememek – aslında bize ne sonuç çıkarmaya izin vermektedir?
Anahtar kavramlar
- Sıfır hipotezi
- Alternatif hipotez
- Test istatistiği
- P değeri
- Anlamlılık düzeyi (alfa)
- Reddetme bölgesi
- Tek ve çift yönlü testler
- İstatistiksel ve pratik anlamlılık
Temel kuramlar
- Neyman-Pearson testi
- Testi, kontrollü uzun vadeli hata oranlarına sahip iki hipotez arasında bir seçim olarak ele almakta, anlamlılık düzeyini (Tip I hata oranı) önceden tanımlamakta ve alternatife karşı gücü maksimize eden testi aramaktadır.
Mekanizmalar
Bir test, bir sıfır hipotezi ve bir alternatif hipotez belirterek başlar, ardından verileri, sıfır hipotezi altında dağılımı bilinen bir test istatistiğinde özetlemektedir. p-değeri, sıfır hipotezi altında hesaplanan, gözlemlenenden en az o kadar aşırı bir sonucun olasılığıdır; küçük bir p-değeri, sıfır hipotezi doğru olsaydı verilerin olağandışı olacağını göstermektedir. Eğer p-değeri önceden belirlenmiş anlamlılık düzeyinin altına düşerse, sıfır hipotezi reddedilmektedir. Önemli olarak, p-değeri sıfır hipotezinin doğru olma olasılığı değildir ve reddedilememesi sıfır hipotezinin doğru olduğunun kanıtı değildir. İstatistiksel anlamlılık aynı zamanda anlamlı bir etki anlamına gelmek zorunda değildir, bu nedenle çerçeve, etki tahminleri ve güven aralıkları ile birlikte değerlendirilmektedir.
Klinik önem
Hipotez testleri, çoğu deneme ve gözlemsel çalışmanın ana sonuçlarının temelini oluşturmaktadır, bu nedenle anlamlı veya anlamsız bir sonucun ne anlama geldiğini ve ne anlama gelmediğini anlamak, kanıt değerlendirmesi için merkezi bir öneme sahiptir. Bir p-değerini yanlış yorumlamak, bulguların abartılmasına veya hafife alınmasına yol açabilmektedir. Bu madde, çıkarımsal prosedürü tanımlamaktadır ve bireysel tanı veya tedavi kararları için bir temel teşkil etmemektedir.
Kanıt ve kılavuzlar
Anlamlılık eşiklerinin mekanik kullanımına ilişkin endişeler, Amerikan İstatistik Derneği'nin p-değerlerinin doğru yorumlanmasını açıklayan 2016 tarihli bildirisini ve Greenland ve arkadaşlarının yaygın yanlış yorumlamalara ilişkin rehberini tetiklemiştir. Bazı metodologlar, yeni keşif iddiaları için geleneksel eşiğin düşürülmesini önermişlerdir, bazıları ise herhangi bir sabit eşiğe karşı çıkmaktadır – bu tartışmalar çözüme kavuşmamıştır.
Tarihçe
Çerçeve, Fisher'ın anlamlılık testini ve p-değerlerini, 1933'te resmileştirilen, sabit hata oranlarını ve en güçlü testi tanıtan Neyman ve Pearson'ın karar-teorik testiyle birleştirmektedir. Standart ders kitabı uygulaması haline gelen bu melez yaklaşım, yirminci yüzyıl boyunca eleştirilere maruz kalmış, 2010'larda tekrarlanabilirlik (reproducibility) endişeleri arasında yoğunlaşmış, bu da resmi uyarı bildirimlerine ve sabit anlamlılık eşiklerini yeniden tanımlama veya terk etme önerilerine yol açmıştır.
Tartışmalar
- 0.05 anlamlılık eşiğinin durumu
- Eleştirmenler, sabit bir geleneksel eşiğin ikili, bazen yanıltıcı sonuçları teşvik ettiğini savunmaktadır; öneriler, yeni iddialar için eşiğin düşürülmesinden, kanıtın sürekli yorumlanması lehine kesin eşiklerin terk edilmesine kadar değişmektedir.
Öne çıkan isimler
- Ronald A. Fisher
- Jerzy Neyman
- Egon Pearson
- Sander Greenland
- Ronald L. Wasserstein
İlgili konular
Temel eserler
- neyman-pearson-1933
- wasserstein-lazar-2016
Sıkça sorulan sorular
- Bir p-değeri bana sıfır hipotezinin doğru olma olasılığını söyler mi?
- Hayır. p-değeri, sıfır hipotezinin doğru olduğu varsayımıyla gözlemlenenden en az o kadar aşırı verilerin olasılığıdır; sıfır hipotezinin kendisinin doğru veya yanlış olma olasılığını vermemektedir.
- Sıfır hipotezini reddedememek, hiçbir etki olmadığını kanıtlar mı?
- Hayır. Anlamsız bir sonuç, verilerin sıfır hipotezine karşı yeterli kanıt sağlamadığı anlamına gelmektedir ki bu durum, çalışmanın yeterince küçük olmasından kaynaklanabilmektedir; kanıtın yokluğu, yokluğun kanıtı değildir.