تقييم النموذج واختياره
تقييم النموذج واختياره هما الطريقتان المستخدمتان لتقدير مدى تعميم النموذج واختيار الأفضل من بين النماذج والإعدادات المتنافسة.
Definition
تقييم النموذج هو تقدير الأداء المتوقع للنموذج على بيانات غير مرئية، واختيار النموذج هو استخدام هذه التقديرات للاختيار بين النماذج أو الميزات أو إعدادات المعلمات الفائقة؛ وكلاهما يعتمد على فصل البيانات المستخدمة للتدريب عن البيانات المستخدمة للتقييم للحصول على تقديرات صادقة للتعميم.
Scope
يغطي هذا المجال المنهجية التجريبية للتعلم الآلي: تقدير خطأ التعميم عن طريق حجز البيانات وعن طريق التحقق المتقاطع، ومقاييس الأداء للتصنيف والانحدار، والبحث عن المعلمات الفائقة الجيدة، والتحكم في تعقيد النموذج من خلال التنظيم (regularization). ويتناول كيفية تجنب التحيز المتفائل الناتج عن التقييم على بيانات التدريب وكيفية مقارنة النماذج بشكل عادل.
Sub-topics
Core questions
- كيف يمكن تقدير خطأ التعميم دون تفاؤل مفرط؟
- ما هي المقاييس التي تلتقط الأداء بشكل صحيح لمهمة معينة؟
- كيف يتم اختيار المعلمات الفائقة دون تلويث التقييم؟
- كيف يتم ضبط تعقيد النموذج ليناسب البيانات المتاحة؟
Key theories
- التقدير الصادق للخطأ
- يعد تقدير الأداء على البيانات غير المستخدمة للتدريب، من خلال مجموعات الاختبار المحجوزة أو التحقق المتقاطع، أمرًا ضروريًا لأن الخطأ المقاس على بيانات التدريب متحيز بشكل متفائل.
- اختيار النموذج والتحكم في التعقيد
- يتطلب الاختيار بين النماذج الموازنة بين الملاءمة والتعقيد، باستخدام تقديرات التحقق أو معايير المعلومات لاختيار النموذج الذي يُتوقع أن يعمم بشكل أفضل.
- فصل الاختيار والتقييم
- يجب ضبط المعلمات الفائقة على بيانات التحقق التي تُبقى منفصلة عن مجموعة الاختبار النهائية، لأن إعادة استخدام بيانات الاختبار للاختيار ينتج عنها تقديرات أداء متفائلة بشكل مفرط.
Clinical relevance
المنهجية السليمة للتقييم هي ما يجعل نتائج التعلم الآلي جديرة بالثقة؛ فالفشل مثل الاختبار على بيانات التدريب، أو الضبط على مجموعة الاختبار، أو اختيار مقاييس مضللة هي أسباب شائعة لنماذج تبدو ممتازة في التطوير ولكنها تفشل عند النشر، مما يجعل هذا المجال ضروريًا للممارسة المسؤولة.
History
تم إضفاء الطابع الرسمي على التحقق المتقاطع (cross-validation) من قبل ستون وآخرين في السبعينيات كوسيلة لتقدير خطأ التنبؤ، وقدمت معايير المعلومات مثل معيار أكايكي والمعيار البايزي قواعد لاختيار النموذج تستند إلى الاحتمالية. ومع نضوج التعلم الآلي، أصبحت بروتوكولات التدريب والتحقق والاختبار الصارمة ومجموعة واسعة من مقاييس الأداء ممارسة معيارية.
Debates
- اختيار المقياس الصحيح
- يمكن أن يؤدي رقم دقة واحد إلى التضليل في المشكلات غير المتوازنة أو الحساسة للتكلفة، مما يثير النقاش حول أي المقاييس تعكس الأهداف الواقعية بشكل أفضل وكيفية الإبلاغ عن الأداء بصدق.
Key figures
- Trevor Hastie
- Robert Tibshirani
- Mervyn Stone
Related topics
Seminal works
- hastie2009
- bishop2006
- murphy2012
Frequently asked questions
- لماذا لا نقيس الأداء على بيانات التدريب؟
- يمكن للنموذج أن يتناسب مع بيانات التدريب الخاصة به بشكل وثيق، بما في ذلك الضوضاء، لذا فإن خطأ التدريب يقلل من تقدير الخطأ على البيانات الجديدة. يتطلب التقييم الصادق بيانات لم يرها النموذج من قبل، يتم الحصول عليها من خلال مجموعة اختبار محجوزة أو التحقق المتقاطع.
- ما الفرق بين مجموعة التحقق ومجموعة الاختبار؟
- تُستخدم مجموعة التحقق أثناء التطوير لضبط المعلمات الفائقة واختيار النماذج، بينما تُحجز مجموعة الاختبار لتقييم نهائي واحد. إبقاؤهما منفصلتين يمنع الخيارات المتخذة أثناء الضبط من تضخيم الأداء المبلغ عنه.