تفاوت بین خطای نوع اول و خطای نوع دوم چیست؟

خطای نوع اول، رد یک فرضیه صفر صحیح است (مثبت کاذب)؛ خطای نوع دوم، عدم رد یک فرضیه صفر غلط است (منفی کاذب). سطح معنیداری، خطای نوع اول را محدود میکند و توان برابر با یک منهای احتمال خطای نوع دوم است.

آیا یک مقدار p کوچک، فرضیه جایگزین را اثبات میکند؟

خیر. یک مقدار p کوچک نشان میدهد که دادهها تحت فرضیه صفر بعید هستند؛ این شواهدی علیه فرضیه صفر است، نه احتمالی مبنی بر غلط بودن فرضیه صفر، و به خودی خود اهمیت عملی را اثبات نمیکند.

آزمون فرضیه آماری

آزمون فرضیه، نظریه‌ای برای تصمیم‌گیری بین گزاره‌های رقیب درباره یک جامعه آماری بر اساس داده‌ها است، در حالی که احتمال هر نوع خطا کنترل می‌شود.

یافتن موضوع با PaperMindبه‌زودیFind papers & topics

Tools & resources

دریافت اسلایدها

Learn & explore

ویدیوبه‌زودی

Definition

آزمون فرضیه آماری، قاعده‌ای است که از داده‌های نمونه برای تصمیم‌گیری در مورد رد فرضیه صفر به نفع یک فرضیه جایگزین استفاده می‌کند، به گونه‌ای طراحی شده که احتمال رد نادرست یک فرضیه صفر صحیح، توسط یک سطح معنی‌داری انتخاب شده محدود شود.

Scope

این حوزه شامل تدوین فرضیه‌های صفر و جایگزین، دو نوع خطا و اندازه و توان یک آزمون، لم نیمن-پیرسون برای قدرتمندترین آزمون فرضیه‌های ساده، نسبت درست‌نمایی یکنواخت و آزمون‌های یکنواخت قدرتمند، آزمون‌های نااریب و ناوردا، آزمون نسبت درست‌نمایی و توزیع مجذور کای آن در نمونه‌های بزرگ، مقادیر p و تفسیر آن‌ها، و مشکل آزمون همزمان چندین فرضیه است.

Sub-topics

Core questions

اندازه و توان یک آزمون چگونه تعریف می‌شوند و چگونه بین دو نوع خطا تعادل برقرار می‌شود؟
کدام آزمون برای تصمیم‌گیری بین دو فرضیه ساده قدرتمندترین است؟
چه زمانی یک آزمون یکنواخت قدرتمند برای یک جایگزین یک‌طرفه وجود دارد؟
چگونه باید معنی‌داری را هنگام آزمون همزمان چندین فرضیه کنترل کرد؟

Key theories

لم نیمن-پیرسون: در میان تمام آزمون‌های با اندازه معین برای دو فرضیه ساده، آزمون نسبت درست‌نمایی که در صورت تجاوز نسبت از یک آستانه رد می‌شود، قدرتمندترین است.
آزمون‌های یکنواخت قدرتمند و نااریب: برای خانواده‌هایی با نسبت درست‌نمایی یکنواخت، یک آزمون واحد در برابر هر جایگزین در یک طرف قدرتمندترین است؛ هنگامی که چنین آزمونی وجود ندارد، بهینگی در میان کلاس‌های نااریب یا ناوردا جستجو می‌شود.
آزمون‌های نسبت درست‌نمایی: آماره نسبت درست‌نمایی تعمیم‌یافته، درست‌نمایی‌های حداکثر شده را تحت فرضیه صفر و مدل کامل مقایسه می‌کند؛ تحت شرایط منظم، لگاریتم آن به طور مجانبی دارای توزیع مجذور کای است که یک آزمون عمومی را ارائه می‌دهد.

Clinical relevance

آزمون‌های فرضیه زیربنای ارزیابی کارآزمایی‌های بالینی، آزمون‌های A/B، کنترل کیفیت و تشخیص سیگنال هستند، جایی که کنترل نرخ‌های مثبت کاذب و اطمینان از توان کافی، مستقیماً بر پذیرش مداخلات، محصولات یا اکتشافات به عنوان واقعی تأثیر می‌گذارد.

History

فیشر در دهه ۱۹۲۰ آزمون معنی‌داری و مقادیر p را توسعه داد. نیمن و پیرسون چارچوب تصمیم‌گیری نظری دو فرضیه، خطاها و توان را در سال ۱۹۳۳ معرفی کردند، و کار لمان در اواسط قرن، که با رومانو ادامه یافت، نظریه بهینگی آزمون‌ها را سازماندهی کرد.

Debates

معنی‌داری فیشری در مقابل تصمیمات نیمن-پیرسون: فیشر مقدار p را به عنوان یک معیار پیوسته از شواهد علیه فرضیه صفر می‌دید، در حالی که نیمن و پیرسون آزمون را به عنوان یک تصمیم با نرخ خطای ثابت تعریف کردند؛ این دو فلسفه اغلب در عمل با هم ترکیب می‌شوند و تفاوت همچنان مورد بحث است.

Key figures

Jerzy Neyman
Egon Pearson
Ronald A. Fisher
Erich L. Lehmann

Seminal works

lehmannRomano2005

Frequently asked questions

تفاوت بین خطای نوع اول و خطای نوع دوم چیست؟: خطای نوع اول، رد یک فرضیه صفر صحیح است (مثبت کاذب)؛ خطای نوع دوم، عدم رد یک فرضیه صفر غلط است (منفی کاذب). سطح معنی‌داری، خطای نوع اول را محدود می‌کند و توان برابر با یک منهای احتمال خطای نوع دوم است.
آیا یک مقدار p کوچک، فرضیه جایگزین را اثبات می‌کند؟: خیر. یک مقدار p کوچک نشان می‌دهد که داده‌ها تحت فرضیه صفر بعید هستند؛ این شواهدی علیه فرضیه صفر است، نه احتمالی مبنی بر غلط بودن فرضیه صفر، و به خودی خود اهمیت عملی را اثبات نمی‌کند.