التحقق المتقاطع وإعادة أخذ العينات
يقوم التحقق المتقاطع وإعادة أخذ العينات بتقدير خطأ التعميم للنموذج عن طريق تقسيم البيانات المتاحة أو إعادة أخذ العينات منها بشكل متكرر، مما يتيح الاستفادة الفعالة من مجموعات البيانات المحدودة.
Definition
يقدر التحقق المتقاطع خطأ التعميم عن طريق تقسيم البيانات إلى طيات، والتدريب على بعض الطيات والاختبار على الطية المحتجزة، ثم حساب المتوسط عبر الدورات؛ أما إعادة أخذ العينات بشكل أوسع، بما في ذلك طريقة التمهيد (bootstrap)، فتقوم بسحب مجموعات فرعية من البيانات بشكل متكرر لتقدير أداء وإمكانية تغير إجراء التعلم.
Scope
يغطي هذا الموضوع طرق إعادة استخدام البيانات لتقييم النماذج: تقسيم التدريب والاختبار، والتحقق المتقاطع k-طي، والتحقق المتقاطع بترك واحد خارجًا، والتحقق المتقاطع الطبقي والمتداخل للضبط، وطريقة التمهيد (bootstrap) لتقدير عدم اليقين. كما يتناول التحيز والتباين لهذه المقدرات والمزالق مثل تسرب البيانات التي قد تبطلها.
Core questions
- كيف يقدر التحقق المتقاطع k-طي خطأ التعميم؟
- ما هي مفاضلات التحيز والتباين لأعداد الطيات المختلفة؟
- كيف يحافظ التحقق المتقاطع المتداخل على فصل الضبط والتقييم؟
- كيف تقدر طريقة التمهيد (bootstrap) تباين التقدير؟
Key theories
- التحقق المتقاطع k-طي
- يؤدي تقسيم البيانات إلى k طية وتدوير الطية المحتجزة إلى تقدير لخطأ التعميم يستخدم جميع البيانات للتدريب والاختبار، مما يوازن بين الحساب وتقدير أكثر موثوقية.
- التحقق المتقاطع المتداخل
- عند ضبط المعلمات الفائقة، تقوم حلقة تحقق متقاطع داخلية باختيارها وتقوم حلقة خارجية بتقييم الأداء، مما يمنع التحيز المتفائل الذي ينشأ عن الضبط والتقييم على نفس البيانات.
- طريقة التمهيد (bootstrap)
- تُقدر إعادة أخذ عينات البيانات مع الإحلال عدة مرات توزيع العينات لإحصائية أو أداء النموذج، مما يوفر فترات ثقة وتقديرات للخطأ دون افتراضات توزيعية.
Clinical relevance
يُعد التحقق المتقاطع الأداة المعيارية لتقدير أداء النموذج واختيار النماذج عندما تكون البيانات محدودة، وتُستخدم طريقة التمهيد (bootstrap) على نطاق واسع لتحديد عدم اليقين؛ ويُعد سوء تطبيقها، على سبيل المثال عن طريق تسريب معلومات الاختبار إلى التدريب أو الضبط على بيانات التقييم، سببًا متكررًا وخطيرًا للمبالغة في النتائج.
History
تطور التحقق المتقاطع كطريقة رسمية لتقدير خطأ التنبؤ بواسطة ستون وجايسر في السبعينيات. قدم إيفرون طريقة التمهيد (bootstrap) في عام 1979، وأصبحت طرق إعادة أخذ العينات هذه معًا لا غنى عنها للتقييم وتقدير عدم اليقين في الإحصاءات والتعلم الآلي.
Key figures
- Mervyn Stone
- Bradley Efron
- Robert Tibshirani
Related topics
Seminal works
- hastie2009
- efron1993
- murphy2012
Frequently asked questions
- ماذا يفعل التحقق المتقاطع k-طي؟
- يقسم البيانات إلى k أجزاء متساوية، ثم يدرب النموذج k مرة، وفي كل مرة يحتفظ بجزء مختلف للاختبار ويستخدم الباقي للتدريب. يعطي متوسط نتائج الاختبارات الـ k تقديرًا لكيفية أداء النموذج على البيانات غير المرئية.
- لماذا يكون التحقق المتقاطع المتداخل ضروريًا أحيانًا؟
- إذا قمت بضبط المعلمات الفائقة وقياس الأداء بنفس التحقق المتقاطع، فإن التقدير يكون متفائلاً لأن الخيارات تم تكييفها مع تلك البيانات. يستخدم التحقق المتقاطع المتداخل حلقة داخلية للضبط وحلقة خارجية للتقييم، مما يحافظ على فصل الاثنين.