التحقق المتقاطع
يقدر التحقق المتقاطع مدى جودة تنبؤ النموذج بالبيانات الجديدة عن طريق ملاءمته بشكل متكرر على جزء من العينة وقياس خطأه على الجزء المتبقي المحتجز.
Definition
التحقق المتقاطع هو إجراء إعادة أخذ عينات يقدر خطأ التنبؤ خارج العينة لنموذج ما عن طريق تقسيم البيانات إلى مجموعات فرعية متكاملة، والملاءمة على بعض المجموعات الفرعية وتقييم خطأ التنبؤ على المجموعات الأخرى، والمتوسط على الأقسام.
Scope
يغطي هذا الموضوع التحقق المتقاطع بطريقة اترك-واحداً والتحقق المتقاطع بطريقة k-طي، ومخططات مجموعة التحقق والتحقق المتقاطع المتكرر، واستخداماتها لاختيار النموذج واختيار معلمة الضبط، والمفاضلة بين التحيز والتباين في تقدير الخطأ، والمزالق مثل تسرب المعلومات وتفاؤل الخطأ داخل العينة. ويتم التأكيد على دوره في التقييم القائم على إعادة أخذ العينات.
Core questions
- كيف يقدر احتجاز البيانات والتنبؤ بها خطأ التعميم؟
- ما هي المفاضلات التي تميز التحقق المتقاطع بطريقة اترك-واحداً عن التحقق المتقاطع بطريقة k-طي؟
- كيف يُستخدم التحقق المتقاطع لاختيار النماذج وضبط المعلمات الفائقة؟
- ما هي الممارسات، مثل تجنب تسرب المعلومات، اللازمة للحصول على تقديرات صحيحة؟
Key concepts
- تقسيم k-طي
- التحقق المتقاطع بطريقة اترك-واحداً
- مجموعة التحقق
- خطأ التعميم
- اختيار النموذج
- تسرب المعلومات
Key theories
- التقييم بالتحقق المتقاطع
- الملاءمة على جزء واحد من البيانات والتقييم على جزء منفصل يعطي تقديرًا لخطأ التنبؤ، والذي، عند متوسطه على الطيات، يقارب خطأ النموذج على البيانات المستقبلية المستقلة.
- التحيز والتباين في تقدير الخطأ
- التحقق المتقاطع بطريقة اترك-واحداً غير متحيز تقريبًا ولكنه قد يكون له تباين عالٍ، بينما التحقق المتقاطع بطريقة k-طي مع k معتدل يوازن بين تحيز صعودي صغير وتباين أقل، مما يوجه الاختيار الشائع لخمس أو عشر طيات.
Clinical relevance
التحقق المتقاطع هو الأداة القياسية للاختيار بين النماذج، وضبط التنظيم وغيره من المعلمات الفائقة، والإبلاغ عن أداء تنبؤي صادق؛ وهو أمر أساسي للتعلم الإحصائي وممارسة التعلم الآلي عبر العلوم القائمة على البيانات.
History
تم إضفاء الطابع الرسمي على أفكار التحقق المتقاطع من قبل ستون وجيسر في عام 1974 كطريقة مبدئية لتقييم واختيار النماذج التنبؤية؛ وقد أدى النمو الهائل للتعلم الإحصائي والآلي إلى جعل التحقق المتقاطع بطريقة k-طي افتراضيًا روتينيًا لتقييم النموذج.
Debates
- التحيز والتباين في تقدير التحقق المتقاطع
- هناك نقاش مستمر حول عدد الطيات التي يجب استخدامها وكيفية الحصول على تقديرات صحيحة لعدم اليقين لخطأ التحقق المتقاطع، نظرًا لتداخل الطيات وارتباط تقديرات الخطأ الناتجة.
Key figures
- Mervyn Stone
- Seymour Geisser
- Trevor Hastie
- Robert Tibshirani
Related topics
Seminal works
- stone1974
- hastie2009
Frequently asked questions
- لماذا لا نقوم فقط بقياس الخطأ على البيانات المستخدمة لملاءمة النموذج؟
- الخطأ داخل العينة متفائل لأن النموذج قد تم ضبطه على تلك البيانات بالذات، لذلك فإنه يقلل من تقدير الخطأ على البيانات الجديدة. يقوم التحقق المتقاطع بتقييم التنبؤات على البيانات التي لم يرها النموذج أثناء الملاءمة، مما يعطي تقديرًا أكثر صدقًا.
- كم عدد الطيات التي يجب أن أستخدمها؟
- تعد خمس أو عشر طيات خيارات شائعة توازن بين التحيز والتباين وتحافظ على سهولة الحساب. يستخدم اترك-واحداً عددًا من الطيات يساوي عدد الملاحظات، مما يعطي تحيزًا منخفضًا ولكن تباينًا أعلى وتكلفة أكبر.