تقييم اختبارات الفرز والتشخيص
تقييم اختبارات الفرز والتشخيص هو فرع من علم الأوبئة يحدد كمياً مدى قدرة الاختبار على تمييز الأشخاص المصابين بحالة مستهدفة عن غير المصابين بها. ويوفر المقاييس — الحساسية، والنوعية، والقيم التنبؤية، ونسب الاحتمال، ومنحنى خاصية تشغيل المستقبل (ROC) — المستخدمة للحكم على الاختبار مقابل معيار مرجعي وتوقع كيفية أدائه عند تطبيقه على السكان.
Definition
تقييم اختبارات الفرز والتشخيص هو القياس المنهجي لقدرة الاختبار على تصنيف الأفراد حسب حالتهم المرضية الحقيقية، ويُعبّر عنه من خلال مؤشرات الدقة المحسوبة من جدول تقاطعي لنتائج الاختبار مقابل معيار مرجعي.
Scope
يوجه هذا المجال القارئ إلى مقاييس الدقة الأساسية المستمدة من مقارنة الاختبار بمعيار مرجعي ("ذهبي")، والتمييز بين خصائص الاختبار الجوهرية والأداء التنبؤي المعتمد على السكان، ودور انتشار المرض، ومعايير الإبلاغ لدراسات دقة التشخيص. إنها نظرة عامة منهجية، وليست إرشادات سريرية، ولا توصي بأي اختبار أو عتبة محددة لفرد معين.
Sub-topics
Core questions
- كم مرة يحدد الاختبار بشكل صحيح الأشخاص المصابين بالحالة، والأشخاص غير المصابين بها؟
- بالنظر إلى نتيجة إيجابية أو سلبية، ما مدى احتمالية وجود الحالة أو عدم وجودها بالفعل؟
- كيف يغير انتشار الحالة في السكان القيمة العملية للاختبار؟
- كيف ينبغي اختيار والإبلاغ عن الموازنة بين اكتشاف الحالات الحقيقية وتجنب الإنذارات الكاذبة؟
Key concepts
- المعيار المرجعي (الذهبي)
- الحساسية والنوعية
- القيمة التنبؤية الإيجابية والسلبية
- نسب الاحتمال
- انتشار المرض واحتمالية ما قبل الاختبار
- منحنى خاصية تشغيل المستقبل (ROC)
- عتبة التشخيص ونقطة القطع
- تحيز الطيف والتحقق
Mechanisms
يبدأ تقييم الاختبار بتصنيف نتيجة اختبار كل فرد (إيجابية أو سلبية) مقابل الحالة المرضية الحقيقية التي يحددها معيار مرجعي، مما ينتج عنه الخلايا الأربع لجدول 2x2 (الإيجابيات الحقيقية، الإيجابيات الكاذبة، السلبيات الكاذبة، السلبيات الحقيقية). تُقرأ الحساسية والنوعية عبر أعمدة الحالة المرضية المعروفة، وهما، من حيث المبدأ، خصائص للاختبار لا تعتمد على مدى شيوع الحالة. تُقرأ القيم التنبؤية عبر صفوف نتائج الاختبار وبالتالي تعتمد على الانتشار، لأن نفس الاختبار المطبق حيث يكون المرض نادرًا ينتج عنه المزيد من الإيجابيات الكاذبة مقارنة بالإيجابيات الحقيقية. تجمع نسب الاحتمال بين الحساسية والنوعية في عوامل تُحدّث الاحتمالات قبل الاختبار إلى احتمالات بعد الاختبار. عندما ينتج الاختبار قياسًا مستمرًا أو ترتيبيًا، فإن تحريك عتبة القرار يوازن بين الحساسية والنوعية؛ ورسم هذا التوازن عبر جميع العتبات ينتج منحنى خاصية تشغيل المستقبل (ROC)، الذي يلخص مساحته التمييز بشكل مستقل عن أي نقطة قطع واحدة.
Clinical relevance
هذه المقاييس هي اللغة المشتركة لتقييم ما إذا كان اختبار الفرز أو التشخيص مناسبًا للغرض ومقارنة الاختبارات المتنافسة على قدم المساواة. فهمها أمر أساسي للتقييم النقدي للأدبيات التشخيصية؛ يشرح هذا المجال كيفية توليد وتفسير الأدلة التشخيصية ولا يشكل أساسًا لقرارات التشخيص أو العلاج الفردية.
Epidemiology
تدعم مقاييس الدقة القرارات المتعلقة ببرامج الفرز السكاني، حيث تحدد عواقب الإيجابيات الكاذبة والسلبيات الكاذبة على نطاق واسع، جنبًا إلى جنب مع انتشار المرض، ما إذا كان الفرز يحقق فائدة أكبر من الضرر. وقد طُورت معايير الإبلاغ مثل STARD لتحسين اكتمال وشفافية دراسات دقة التشخيص، وتُعد تحيزات الطيف والتحقق تهديدات معترف بها لصحة الدقة المبلغ عنها.
Evidence & guidelines
يقدم بيان STARD قائمة مرجعية للإبلاغ الشفاف عن دراسات دقة التشخيص وهو معتمد على نطاق واسع من قبل المجلات الطبية الحيوية.
History
نما التقييم الرسمي للاختبارات التشخيصية من العمل في منتصف القرن العشرين على اكتشاف الإشارة واتخاذ القرارات السريرية، وتطور بشكل أكبر مع الاعتراف في السبعينيات بأن تصميم الدراسة المتحيز يمكن أن يضخم الدقة الظاهرية. وقد شاعت مقاييس الدقة المتاحة في الأدبيات الطبية خلال التسعينيات، وتم توحيد معايير الإبلاغ في بيان STARD في العقد الأول من القرن الحادي والعشرين وتم تحديثها في عام 2015.
Debates
- لماذا يمكن لاختبار يبدو دقيقًا للغاية أن يضلل في الفرز؟
- نظرًا لأن القيم التنبؤية تعتمد على الانتشار، فإن الاختبار ذو الحساسية والنوعية العاليتين لا يزال بإمكانه توليد العديد من الإيجابيات الكاذبة عند تطبيقه على مجموعة سكانية ذات انتشار منخفض، وهو مصدر متكرر لسوء التفسير.
- إلى أي مدى تشوه تحيزات تصميم الدراسة الدقة المبلغ عنها؟
- يمكن أن يؤدي تحيز الطيف وتحيز التحقق إلى تضخيم كبير في الحساسية والنوعية المقاسة، لذا يجب تفسير الدقة المبلغ عنها في ضوء كيفية اختيار الحالات والمجموعات الضابطة وكيفية تطبيق المعيار المرجعي.
Key figures
- Douglas Altman
- Jonathan Deeks
- David Grimes
- Kenneth Schulz
- Patrick Bossuyt
Related topics
Seminal works
- ransohoff-feinstein-1978
- altman-bland-1994a
- altman-bland-1994b
- bossuyt-2015
Frequently asked questions
- ما الفرق بين اختبار الفرز واختبار التشخيص؟
- يُطبق اختبار الفرز على الأشخاص الأصحاء ظاهريًا لتحديد أولئك الأكثر عرضة للإصابة بحالة ما، وعادة ما يفضل الحساسية، بينما يُستخدم اختبار التشخيص لتأكيد أو استبعاد المرض لدى الأشخاص المشتبه في إصابتهم به؛ وكلاهما يُقيّم بنفس مقاييس الدقة مقابل معيار مرجعي.
- لماذا يهم الانتشار في فائدة الاختبار؟
- تصف الحساسية والنوعية الاختبار نفسه، لكن فرصة أن تكون النتيجة الإيجابية صحيحة (القيمة التنبؤية الإيجابية) تنخفض كلما أصبح المرض أندر، لذا يمكن أن يكون نفس الاختبار مفيدًا في عيادة ذات انتشار عالٍ ومضللاً في بيئة فحص ذات انتشار منخفض.