البيانات المفقودة والتناقص
البيانات المفقودة هي قيم كان من المفترض جمعها ولكن لم يتم الحصول عليها، والتناقص هو فقدان المشاركين على مدار الدراسة، غالبًا بسبب الانسحاب أو فقدان المتابعة. كلاهما يقلل من المعلومات المتاحة، والأخطر من ذلك، يمكن أن يؤدي إلى تحيز النتائج عندما تكون فرصة فقدان قيمة ما مرتبطة بما كانت ستكون عليه تلك القيمة. إن توقع وتقليل الفقدان في مرحلة التصميم، والتعامل معه بشكل مناسب في التحليل، أمران ضروريان للحفاظ على صلاحية الدراسة.
Definition
البيانات المفقودة هي ملاحظات مقصودة لم يتم تسجيلها، والتناقص هو فقدان المشاركين المسجلين أثناء الدراسة؛ ويعتمد تأثيرهما على آلية الفقدان، بدءًا من المفقودة تمامًا بشكل عشوائي (غير مرتبطة بأي بيانات) مروراً بالمفقودة بشكل عشوائي (يمكن تفسيرها بالبيانات المرصودة) وصولاً إلى المفقودة ليس بشكل عشوائي (مرتبطة بالقيمة غير المرصودة نفسها).
Scope
يغطي المدخل أنواع الفقدان (مفقودة تمامًا بشكل عشوائي، مفقودة بشكل عشوائي، ومفقودة ليس بشكل عشوائي)، وعواقب التناقص على التحيز والقوة، واستراتيجيات الوقاية المضمنة في التصميم والتنفيذ، وطرق المعالجة المبدئية مثل الاستيفاء المتعدد (multiple imputation) ونهج النية في العلاج (intention-to-treat). يتم تأطيره كمرجع منهجي ولا يقدم تعليمات سريرية.
Key concepts
- مفقودة تمامًا بشكل عشوائي (MCAR)
- مفقودة بشكل عشوائي (MAR)
- مفقودة ليس بشكل عشوائي (MNAR)
- فقدان المتابعة والانسحاب
- الاستيفاء المتعدد
- تحليل النية في العلاج
- تحليل الحالات الكاملة وتحيزاته
- تحليل الحساسية لافتراضات الفقدان
Mechanisms
يعتمد التهديد من البيانات المفقودة على سبب فقدان القيم. إذا كان الفقدان غير مرتبط بأي بيانات (MCAR)، فإن التحليلات البسيطة تفقد الدقة ولكنها تظل غير متحيزة؛ وإذا كان يمكن تفسيره بالكامل بواسطة المتغيرات المرصودة (MAR)، فإن طرقًا مثل الاستيفاء المتعدد يمكن أن تستعيد تقديرات صحيحة عن طريق نمذجة القيم المفقودة من القيم المرصودة؛ وإذا كان يعتمد على القيمة غير المرصودة نفسها (MNAR)، فلا توجد طريقة يمكن أن تضمن نتيجة غير متحيزة وتعتمد الاستنتاجات على افتراضات غير قابلة للاختبار. التناقص المرتبط بالعلاج أو التكهن يمكن أن يكسر التوازن الذي أحدثه التوزيع العشوائي، وهذا هو السبب في أن تحليل النية في العلاج يبقي المشاركين في مجموعاتهم المخصصة ولماذا يتم التأكيد على الوقاية بدلاً من الإصلاح بعد فوات الأوان. تفحص تحليلات الحساسية كيف تتغير الاستنتاجات في ظل افتراضات مختلفة حول الفقدان.
Clinical relevance
يعد تقييم مقدار البيانات المفقودة، وسبب فقدانها، وكيفية التعامل معها جزءًا من الحكم على مدى موثوقية نتائج الدراسة، لأن التناقص المرتفع أو التفاضلي يمكن أن يبالغ في تأثير ما أو يخفيه. يصف هذا المدخل منهجية البحث للتقييم وليس مصدرًا لإرشادات التشخيص أو العلاج.
Evidence & guidelines
أكد فريق خبراء اجتمع لإدارة الغذاء والدواء الأمريكية على منع فقدان البيانات من خلال تصميم التجربة وإجرائها وحذر من الاعتماد على أي حل تحليلي واحد. تصف الإرشادات المنهجية الاستيفاء المتعدد (multiple imputation) بموجب افتراض الفقدان العشوائي (missing-at-random) ومزالقه، وإطار النية في العلاج (intention-to-treat) للتجارب ذات النتائج المفقودة؛ تتطلب معايير الإبلاغ مثل CONSORT مخطط تدفق المشاركين الذي يوثق الخسائر. تظهر الاستبيانات أن النية في العلاج غالبًا ما تُعرّف وتُطبق بشكل غير متسق في الممارسة العملية.
History
تشكل الإطار الحديث من خلال صياغة روبن لآليات الفقدان في السبعينيات وعمله اللاحق مع ليتل وروبن على التحليل الإحصائي للبيانات المفقودة، والذي قدم الاستيفاء المتعدد. مع نضوج التجارب العشوائية، أصبح مبدأ النية في العلاج محوريًا للتعامل مع الانسحاب دون كسر العشوائية. أعاد تقرير للمجلس القومي للبحوث الأمريكي عام 2010 والفريق المرتبط به بتكليف من إدارة الغذاء والدواء لاحقًا تأطير البيانات المفقودة على أنها مشكلة وقاية بالدرجة الأولى من خلال التصميم بدلاً من التصحيح الإحصائي اللاحق.
Debates
- هل يمكن للاستيفاء المتعدد إنقاذ دراسة بها بيانات مفقودة كبيرة؟
- يعطي الاستيفاء المتعدد استدلالًا صحيحًا عندما تكون البيانات مفقودة بشكل عشوائي، لكن صحته تعتمد على افتراض لا يمكن التحقق منه من البيانات؛ عندما تكون البيانات مفقودة ليس بشكل عشوائي، يمكن أن يضلل، لذا فهو أداة يجب استخدامها مع تحليل الحساسية بدلاً من أن يكون حلاً مضمونًا.
- كيف يجب أن يتعامل مبدأ النية في العلاج مع النتائج المفقودة؟
- يحافظ مبدأ النية في العلاج على المشاركين في مجموعاتهم العشوائية للحفاظ على التوازن، ولكن عندما تكون النتائج مفقودة، لا يمكن تطبيقه دون افتراضات حول القيم المفقودة؛ لا يزال كيفية الجمع بين المبدأ والاستيفاء وتحليل الحساسية يمثل تحديًا عمليًا.
Key figures
- Roderick Little
- Donald Rubin
- Ian White
- Jonathan Sterne
- Douglas Altman
Related topics
Seminal works
- little-2012-prevention
- sterne-2009-mi
- white-2011-itt
Frequently asked questions
- لماذا يعتبر سبب فقدان البيانات أكثر أهمية من مقدار البيانات المفقودة؟
- حتى كمية متواضعة من البيانات المفقودة يمكن أن تحيز النتائج إذا كانت فرصة الفقدان تعتمد على القيمة غير المرصودة، بينما البيانات المفقودة لأسباب غير مرتبطة بالقيمة تكلف الدقة بشكل أساسي؛ تحدد الآلية، وليس الكمية فقط، ما إذا كان التحيز ينشأ ومقداره.
- ما هو تحليل النية في العلاج ولماذا هو مهم للتناقص؟
- يحلل مبدأ النية في العلاج المشاركين في المجموعات التي تم توزيعهم عليها عشوائيًا، بغض النظر عما حدث بعد ذلك، مما يحافظ على التوازن الذي أحدثه التوزيع العشوائي؛ وهو مهم للتناقص لأن استبعاد المتسربين أو تحليل فقط أولئك الذين أكملوا العلاج يمكن أن يعيد إدخال الالتباس الذي أزاله التوزيع العشوائي.