لماذا لا نقوم فقط بقياس الخطأ على البيانات المستخدمة لملاءمة النموذج؟

الخطأ داخل العينة متفائل لأن النموذج قد تم ضبطه على تلك البيانات بالذات، لذلك فإنه يقلل من تقدير الخطأ على البيانات الجديدة. يقوم التحقق المتقاطع بتقييم التنبؤات على البيانات التي لم يرها النموذج أثناء الملاءمة، مما يعطي تقديرًا أكثر صدقًا.

كم عدد الطيات التي يجب أن أستخدمها؟

تعد خمس أو عشر طيات خيارات شائعة توازن بين التحيز والتباين وتحافظ على سهولة الحساب. يستخدم اترك-واحداً عددًا من الطيات يساوي عدد الملاحظات، مما يعطي تحيزًا منخفضًا ولكن تباينًا أعلى وتكلفة أكبر.

التحقق المتقاطع

يقدر التحقق المتقاطع مدى جودة تنبؤ النموذج بالبيانات الجديدة عن طريق ملاءمته بشكل متكرر على جزء من العينة وقياس خطأه على الجزء المتبقي المحتجز.

اعثر على موضوع باستخدام PaperMindقريبًاFind papers & topics

Tools & resources

تنزيل الشرائح

Learn & explore

فيديوقريبًا

Definition

التحقق المتقاطع هو إجراء إعادة أخذ عينات يقدر خطأ التنبؤ خارج العينة لنموذج ما عن طريق تقسيم البيانات إلى مجموعات فرعية متكاملة، والملاءمة على بعض المجموعات الفرعية وتقييم خطأ التنبؤ على المجموعات الأخرى، والمتوسط على الأقسام.

Scope

يغطي هذا الموضوع التحقق المتقاطع بطريقة اترك-واحداً والتحقق المتقاطع بطريقة k-طي، ومخططات مجموعة التحقق والتحقق المتقاطع المتكرر، واستخداماتها لاختيار النموذج واختيار معلمة الضبط، والمفاضلة بين التحيز والتباين في تقدير الخطأ، والمزالق مثل تسرب المعلومات وتفاؤل الخطأ داخل العينة. ويتم التأكيد على دوره في التقييم القائم على إعادة أخذ العينات.

Core questions

كيف يقدر احتجاز البيانات والتنبؤ بها خطأ التعميم؟
ما هي المفاضلات التي تميز التحقق المتقاطع بطريقة اترك-واحداً عن التحقق المتقاطع بطريقة k-طي؟
كيف يُستخدم التحقق المتقاطع لاختيار النماذج وضبط المعلمات الفائقة؟
ما هي الممارسات، مثل تجنب تسرب المعلومات، اللازمة للحصول على تقديرات صحيحة؟

Key concepts

تقسيم k-طي
التحقق المتقاطع بطريقة اترك-واحداً
مجموعة التحقق
خطأ التعميم
اختيار النموذج
تسرب المعلومات

Key theories

التقييم بالتحقق المتقاطع: الملاءمة على جزء واحد من البيانات والتقييم على جزء منفصل يعطي تقديرًا لخطأ التنبؤ، والذي، عند متوسطه على الطيات، يقارب خطأ النموذج على البيانات المستقبلية المستقلة.
التحيز والتباين في تقدير الخطأ: التحقق المتقاطع بطريقة اترك-واحداً غير متحيز تقريبًا ولكنه قد يكون له تباين عالٍ، بينما التحقق المتقاطع بطريقة k-طي مع k معتدل يوازن بين تحيز صعودي صغير وتباين أقل، مما يوجه الاختيار الشائع لخمس أو عشر طيات.

Clinical relevance

التحقق المتقاطع هو الأداة القياسية للاختيار بين النماذج، وضبط التنظيم وغيره من المعلمات الفائقة، والإبلاغ عن أداء تنبؤي صادق؛ وهو أمر أساسي للتعلم الإحصائي وممارسة التعلم الآلي عبر العلوم القائمة على البيانات.

History

تم إضفاء الطابع الرسمي على أفكار التحقق المتقاطع من قبل ستون وجيسر في عام 1974 كطريقة مبدئية لتقييم واختيار النماذج التنبؤية؛ وقد أدى النمو الهائل للتعلم الإحصائي والآلي إلى جعل التحقق المتقاطع بطريقة k-طي افتراضيًا روتينيًا لتقييم النموذج.

Debates

التحيز والتباين في تقدير التحقق المتقاطع: هناك نقاش مستمر حول عدد الطيات التي يجب استخدامها وكيفية الحصول على تقديرات صحيحة لعدم اليقين لخطأ التحقق المتقاطع، نظرًا لتداخل الطيات وارتباط تقديرات الخطأ الناتجة.

Key figures

Mervyn Stone
Seymour Geisser
Trevor Hastie
Robert Tibshirani

Seminal works

stone1974
hastie2009

Frequently asked questions

لماذا لا نقوم فقط بقياس الخطأ على البيانات المستخدمة لملاءمة النموذج؟: الخطأ داخل العينة متفائل لأن النموذج قد تم ضبطه على تلك البيانات بالذات، لذلك فإنه يقلل من تقدير الخطأ على البيانات الجديدة. يقوم التحقق المتقاطع بتقييم التنبؤات على البيانات التي لم يرها النموذج أثناء الملاءمة، مما يعطي تقديرًا أكثر صدقًا.
كم عدد الطيات التي يجب أن أستخدمها؟: تعد خمس أو عشر طيات خيارات شائعة توازن بين التحيز والتباين وتحافظ على سهولة الحساب. يستخدم اترك-واحداً عددًا من الطيات يساوي عدد الملاحظات، مما يعطي تحيزًا منخفضًا ولكن تباينًا أعلى وتكلفة أكبر.