آزمون فرضیه آماری
آزمون فرضیه، نظریهای برای تصمیمگیری بین گزارههای رقیب درباره یک جامعه آماری بر اساس دادهها است، در حالی که احتمال هر نوع خطا کنترل میشود.
Definition
آزمون فرضیه آماری، قاعدهای است که از دادههای نمونه برای تصمیمگیری در مورد رد فرضیه صفر به نفع یک فرضیه جایگزین استفاده میکند، به گونهای طراحی شده که احتمال رد نادرست یک فرضیه صفر صحیح، توسط یک سطح معنیداری انتخاب شده محدود شود.
Scope
این حوزه شامل تدوین فرضیههای صفر و جایگزین، دو نوع خطا و اندازه و توان یک آزمون، لم نیمن-پیرسون برای قدرتمندترین آزمون فرضیههای ساده، نسبت درستنمایی یکنواخت و آزمونهای یکنواخت قدرتمند، آزمونهای نااریب و ناوردا، آزمون نسبت درستنمایی و توزیع مجذور کای آن در نمونههای بزرگ، مقادیر p و تفسیر آنها، و مشکل آزمون همزمان چندین فرضیه است.
Sub-topics
Core questions
- اندازه و توان یک آزمون چگونه تعریف میشوند و چگونه بین دو نوع خطا تعادل برقرار میشود؟
- کدام آزمون برای تصمیمگیری بین دو فرضیه ساده قدرتمندترین است؟
- چه زمانی یک آزمون یکنواخت قدرتمند برای یک جایگزین یکطرفه وجود دارد؟
- چگونه باید معنیداری را هنگام آزمون همزمان چندین فرضیه کنترل کرد؟
Key theories
- لم نیمن-پیرسون
- در میان تمام آزمونهای با اندازه معین برای دو فرضیه ساده، آزمون نسبت درستنمایی که در صورت تجاوز نسبت از یک آستانه رد میشود، قدرتمندترین است.
- آزمونهای یکنواخت قدرتمند و نااریب
- برای خانوادههایی با نسبت درستنمایی یکنواخت، یک آزمون واحد در برابر هر جایگزین در یک طرف قدرتمندترین است؛ هنگامی که چنین آزمونی وجود ندارد، بهینگی در میان کلاسهای نااریب یا ناوردا جستجو میشود.
- آزمونهای نسبت درستنمایی
- آماره نسبت درستنمایی تعمیمیافته، درستنماییهای حداکثر شده را تحت فرضیه صفر و مدل کامل مقایسه میکند؛ تحت شرایط منظم، لگاریتم آن به طور مجانبی دارای توزیع مجذور کای است که یک آزمون عمومی را ارائه میدهد.
Clinical relevance
آزمونهای فرضیه زیربنای ارزیابی کارآزماییهای بالینی، آزمونهای A/B، کنترل کیفیت و تشخیص سیگنال هستند، جایی که کنترل نرخهای مثبت کاذب و اطمینان از توان کافی، مستقیماً بر پذیرش مداخلات، محصولات یا اکتشافات به عنوان واقعی تأثیر میگذارد.
History
فیشر در دهه ۱۹۲۰ آزمون معنیداری و مقادیر p را توسعه داد. نیمن و پیرسون چارچوب تصمیمگیری نظری دو فرضیه، خطاها و توان را در سال ۱۹۳۳ معرفی کردند، و کار لمان در اواسط قرن، که با رومانو ادامه یافت، نظریه بهینگی آزمونها را سازماندهی کرد.
Debates
- معنیداری فیشری در مقابل تصمیمات نیمن-پیرسون
- فیشر مقدار p را به عنوان یک معیار پیوسته از شواهد علیه فرضیه صفر میدید، در حالی که نیمن و پیرسون آزمون را به عنوان یک تصمیم با نرخ خطای ثابت تعریف کردند؛ این دو فلسفه اغلب در عمل با هم ترکیب میشوند و تفاوت همچنان مورد بحث است.
Key figures
- Jerzy Neyman
- Egon Pearson
- Ronald A. Fisher
- Erich L. Lehmann
Related topics
Seminal works
- lehmannRomano2005
Frequently asked questions
- تفاوت بین خطای نوع اول و خطای نوع دوم چیست؟
- خطای نوع اول، رد یک فرضیه صفر صحیح است (مثبت کاذب)؛ خطای نوع دوم، عدم رد یک فرضیه صفر غلط است (منفی کاذب). سطح معنیداری، خطای نوع اول را محدود میکند و توان برابر با یک منهای احتمال خطای نوع دوم است.
- آیا یک مقدار p کوچک، فرضیه جایگزین را اثبات میکند؟
- خیر. یک مقدار p کوچک نشان میدهد که دادهها تحت فرضیه صفر بعید هستند؛ این شواهدی علیه فرضیه صفر است، نه احتمالی مبنی بر غلط بودن فرضیه صفر، و به خودی خود اهمیت عملی را اثبات نمیکند.