مقاييس الأداء
تقيس مقاييس الأداء مدى جودة تنبؤ النموذج، حيث تلتقط المقاييس المختلفة جوانب مختلفة من الدقة والتكاليف المختلفة للأخطاء.
Definition
مقياس الأداء هو ملخص رقمي لمدى تطابق تنبؤات النموذج مع الأهداف الحقيقية على بيانات التقييم؛ ويعتمد المقياس المناسب على نوع المهمة، وتوازن الفئات، والتكاليف النسبية لأنواع الأخطاء المختلفة.
Scope
يغطي هذا الموضوع المقاييس المستخدمة للحكم على أداء النموذج: للتصنيف، الدقة (accuracy)، التحديد (precision)، الاستدعاء (recall)، مقياس F (F-measure)، ومنحنى خاصية تشغيل المستقبل (receiver operating characteristic curve) ومساحته؛ للانحدار، متوسط الخطأ التربيعي والمطلق (mean squared and absolute error) ومعامل التحديد (coefficient of determination)؛ وقواعد التسجيل الاحتمالية مثل خسارة السجل (log loss). ويتناول اختيار المقياس في ظل عدم توازن الفئات وتكاليف الخطأ غير المتماثلة.
Core questions
- أي مقياس يعكس الهدف الحقيقي لمهمة معينة؟
- كيف تتبادل الدقة والاستدعاء، ومتى يكون كل منهما مهمًا؟
- لماذا يمكن أن تكون الدقة مضللة في البيانات غير المتوازنة؟
- كيف يتم تسجيل التنبؤات الاحتمالية؟
Key theories
- مقاييس مصفوفة الارتباك
- من عدد الإيجابيات والسوالب الحقيقية والخاطئة تأتي الدقة، التحديد، الاستدعاء، ومقياس F، والتي تكشف عن المفاضلات التي يمكن أن يخفيها رقم دقة واحد.
- التقييم المستقل عن العتبة
- يلخص منحنى خاصية تشغيل المستقبل ومساحته أداء المصنف عبر جميع عتبات القرار، وهو مفيد عندما لا تكون نقطة التشغيل ثابتة مسبقًا.
- قواعد التسجيل الصحيحة
- تكافئ قواعد التسجيل مثل خسارة السجل تقديرات الاحتمالية المعايرة جيدًا ويتم تقليلها عن طريق الإبلاغ عن الاحتمالات الحقيقية، مما يشجع على التنبؤ الاحتمالي الصادق.
Clinical relevance
يعد اختيار مقياس الأداء الصحيح أمرًا بالغ الأهمية لأن النموذج الذي يتم تحسينه أو الحكم عليه بمقياس خاطئ قد يؤدي أداءً ضعيفًا فيما يهم حقًا؛ في الإعدادات غير المتوازنة أو الحساسة للتكلفة مثل اكتشاف الاحتيال أو الأمراض، تكون الدقة الساذجة مضللة بشكل خاص، ويجب أن تعكس المقاييس العواقب الحقيقية للأخطاء.
History
نشأت العديد من المقاييس خارج التعلم الآلي، مع التحديد والاستدعاء من استرجاع المعلومات، ومنحنى خاصية تشغيل المستقبل من نظرية اكتشاف الإشارة. ومع تطبيق التعلم الآلي على المشكلات غير المتوازنة وذات المخاطر العالية، أصبح الاختيار الدقيق للمقاييس والإبلاغ عن مقاييس تكميلية متعددة منهجية قياسية.
Key figures
- Trevor Hastie
- Tom Fawcett
- Christopher Bishop
Related topics
Seminal works
- hastie2009
- bishop2006
- murphy2012
Frequently asked questions
- لماذا يمكن أن تكون الدقة مضللة؟
- إذا كانت إحدى الفئات أكثر شيوعًا بكثير من الأخرى، فإن النموذج الذي يتنبأ دائمًا بالفئة الأغلبية يمكن أن يتمتع بدقة عالية بينما يكون عديم الفائدة للفئة النادرة. تكشف مقاييس مثل التحديد والاستدعاء والمساحة تحت منحنى خاصية تشغيل المستقبل هذا النوع من الفشل.
- ما الفرق بين التحديد والاستدعاء؟
- التحديد هو نسبة الإيجابيات المتوقعة التي هي إيجابية حقًا، ويقيس مدى موثوقية التنبؤات الإيجابية. الاستدعاء هو نسبة الإيجابيات الفعلية التي يجدها النموذج، ويقيس عدد الحالات الحقيقية التي يلتقطها. غالبًا ما يأتي تحسين أحدهما على حساب الآخر.