إطار اختبار الفرضيات
إطار اختبار الفرضيات هو إجراء منظم لاتخاذ قرار بشأن ما إذا كانت بيانات العينة متوافقة مع ادعاء محدد حول مجتمع إحصائي. إنه يضع فرضية العدم - وهي عادةً بيان بعدم وجود تأثير أو عدم وجود فرق - في مقابل فرضية بديلة، ويحسب إحصائية اختبار وقيمة احتمالية (p-value) مرتبطة بها، ويستخدم مستوى دلالة محدد مسبقًا للحكم على ما إذا كانت الأدلة ضد فرضية العدم قوية بما يكفي للتصرف بناءً عليها. إنه الإجراء الأكثر استخدامًا والأكثر إثارة للجدل في أبحاث الصحة الكمية.
Definition
اختبار الفرضيات الإحصائية هو إجراء يستخدم إحصائية اختبار محسوبة من بيانات العينة لتقييم توافق البيانات مع فرضية عدم معلنة، ويرفض فرضية العدم لصالح فرضية بديلة عندما تكون النتيجة غير محتملة بشكل كافٍ في ظل فرضية العدم عند مستوى دلالة محدد مسبقًا.
Scope
يغطي هذا الموضوع منطق فرضيات العدم والفرضيات البديلة، ودور إحصائية الاختبار والقيمة الاحتمالية (p-value)، ومعنى مستوى الدلالة، والانتقادات الرئيسية لاختبار الدلالة الميكانيكي. إنها منهجية مرجعية لتصميم وتقييم الدراسات، وليست قاعدة قرار سريرية.
Core questions
- ما هي فرضية العدم التي يتم اختبارها، وضد أي بديل؟
- ما مدى غرابة البيانات المرصودة إذا كانت فرضية العدم صحيحة؟
- ما هو مستوى الدلالة الذي يحكم القرار، ولماذا؟
- ماذا يبيح لنا رفض - أو عدم رفض - فرضية العدم أن نستنتج؟
Key concepts
- فرضية العدم
- الفرضية البديلة
- إحصائية الاختبار
- القيمة الاحتمالية (P value)
- مستوى الدلالة (ألفا)
- منطقة الرفض
- الاختبارات أحادية وثنائية الطرف
- الدلالة الإحصائية مقابل الدلالة العملية
Key theories
- اختبار نيمان-بيرسون
- يصوغ الاختبار كاختيار بين فرضيتين بمعدلات خطأ طويلة الأمد متحكم بها، ويحدد مستوى الدلالة (معدل الخطأ من النوع الأول) مسبقًا ويسعى إلى الاختبار الذي يزيد من القوة ضد الفرضية البديلة.
Mechanisms
يبدأ الاختبار ببيان فرضية العدم وفرضية بديلة، ثم يلخص البيانات في إحصائية اختبار يكون توزيعها في ظل فرضية العدم معروفًا. القيمة الاحتمالية (p-value) هي الاحتمال، المحسوب في ظل فرضية العدم، لنتيجة متطرفة على الأقل مثل النتيجة المرصودة؛ تشير القيمة الاحتمالية الصغيرة إلى أن البيانات ستكون غير عادية إذا كانت فرضية العدم صحيحة. إذا انخفضت القيمة الاحتمالية عن مستوى الدلالة المحدد مسبقًا، يتم رفض فرضية العدم. الأهم من ذلك، أن القيمة الاحتمالية ليست احتمال أن تكون فرضية العدم صحيحة، وعدم الرفض ليس دليلاً على أن فرضية العدم صحيحة. كما أن الدلالة الإحصائية لا تعني بالضرورة تأثيرًا ذا مغزى، ولهذا السبب يُقرأ الإطار جنبًا إلى جنب مع تقديرات التأثير وفترات الثقة.
Clinical relevance
تكمن اختبارات الفرضيات وراء الاستنتاجات الرئيسية لمعظم التجارب والدراسات الرصدية، لذا فإن فهم ما تعنيه النتيجة ذات الدلالة أو غير ذات الدلالة وما لا تعنيه أمر أساسي لتقييم الأدلة. قد يؤدي سوء قراءة القيمة الاحتمالية (p-value) إلى المبالغة في النتائج أو التقليل من شأنها. يصف هذا المدخل الإجراء الاستدلالي وليس أساسًا لقرارات التشخيص أو العلاج الفردية.
Evidence & guidelines
أثار القلق بشأن الاستخدام الميكانيكي لعتبات الدلالة بيان الجمعية الإحصائية الأمريكية لعام 2016 الذي يوضح التفسير الصحيح للقيم الاحتمالية (p-values)، ودليل جرينلاند وزملاؤه للتفسيرات الخاطئة الشائعة. اقترح بعض المنهجيين خفض العتبة التقليدية للمطالبات بالاكتشافات الجديدة، بينما يعارض آخرون أي عتبة ثابتة - وهي نقاشات لا تزال دون حل.
History
يدمج الإطار اختبار الدلالة والقيم الاحتمالية (p-values) لفيشر مع اختبار نيمان-بيرسون القائم على نظرية القرار، والذي تم إضفاء الطابع الرسمي عليه في عام 1933، والذي قدم معدلات خطأ ثابتة والاختبار الأكثر قوة. وقد أثار هذا الهجين الذي أصبح ممارسة قياسية في الكتب المدرسية انتقادات طوال القرن العشرين، وتكثفت في العقد الثاني من القرن الحادي والعشرين وسط مخاوف بشأن قابلية الاستنساخ، مما أدى إلى بيانات تحذيرية رسمية ومقترحات لإعادة تعريف أو التخلي عن عتبات الدلالة الثابتة.
Debates
- وضع عتبة الدلالة 0.05
- يرى النقاد أن العتبة التقليدية الثابتة تشجع على استنتاجات ثنائية، ومضللة أحيانًا؛ وتتراوح المقترحات من خفض العتبة للمطالبات الجديدة إلى التخلي عن العتبات الواضحة لصالح التفسير المستمر للأدلة.
Key figures
- Ronald A. Fisher
- Jerzy Neyman
- Egon Pearson
- Sander Greenland
- Ronald L. Wasserstein
Related topics
Seminal works
- neyman-pearson-1933
- wasserstein-lazar-2016
Frequently asked questions
- هل تخبرني القيمة الاحتمالية (p-value) باحتمالية أن تكون فرضية العدم صحيحة؟
- لا. القيمة الاحتمالية هي احتمال الحصول على بيانات متطرفة على الأقل مثل البيانات المرصودة بافتراض أن فرضية العدم صحيحة؛ إنها لا تعطي احتمال أن تكون فرضية العدم نفسها صحيحة أو خاطئة.
- هل عدم رفض فرضية العدم يثبت عدم وجود تأثير؟
- لا. النتيجة غير ذات الدلالة تعني أن البيانات لم تقدم أدلة كافية ضد فرضية العدم، وهو ما يمكن أن يحدث ببساطة لأن الدراسة كانت صغيرة جدًا؛ فغياب الدليل ليس دليلاً على الغياب.