لماذا لا نكتفي بالإبلاغ عن الدقة (accuracy)؟

يمكن أن تكون الدقة مضللة عندما تكون الفئات غير متوازنة أو عندما تكون الإيجابيات الكاذبة والسلبيات الكاذبة مهمة بشكل مختلف. توفر الدقة (precision) والاستدعاء (recall) ومقياس F صورة أكثر إفادة لمعظم مهام اللغة.

التقييم والترميز

منهجية قياس أنظمة معالجة اللغة: بناء المدونات المرمّزة، وتحديد كمية الاتفاق بين المرمّزين، وتسجيل مخرجات النظام باستخدام مقاييس تسمح بالمقارنة العادلة.

اعثر على موضوع باستخدام PaperMindقريبًاFind papers & topics

Tools & resources

تنزيل الشرائح

Learn & explore

فيديوقريبًا

Definition

التقييم والترميز هو مجموعة الممارسات لإنتاج بيانات موثوقة ومصنفة ولقياس مدى جودة الأنظمة الحاسوبية في إعادة إنتاج أو التنبؤ بهذه التصنيفات.

Scope

يغطي البنية التحتية التجريبية للغويات الحاسوبية — مخططات وإرشادات الترميز اليدوي، إحصائيات اتفاق المرمّزين مثل Kappa، تقسيم التدريب/التطوير/الاختبار، ومقاييس التقييم بما في ذلك الدقة (precision)، والاستدعاء (recall)، ومقياس F، والدقة (accuracy)، والنتائج الخاصة بالمهام مثل BLEU. يتناول مخاوف الصلاحية وقابلية التكرار ولكنه لا يتناول تصميم الأنظمة الفرعية الفردية.

Core questions

كيف نقيس ما إذا كان المرمّزون متفقين، ولماذا يعتبر الاتفاق المصحح بالصدفة مهمًا؟
ما هي المقاييس المناسبة لمهام التصنيف، وتصنيف التسلسل، والتوليد؟
كيف تحمي تقسيمات التدريب/التطوير/الاختبار من الإفراط في التخصيص (overfitting) والنتائج المبالغ فيها؟
ما الذي يجعل التقييم قابلاً للتكرار والمقارنة عبر الدراسات؟

Key concepts

اتفاق المرمّزين البيني
إحصائية كابا
الدقة والاستدعاء
مقياس F
تقسيم التدريب/التطوير/الاختبار
BLEU
إرشادات الترميز
المعيار الذهبي

Key theories

الاتفاق المصحح بالصدفة: يجب قياس موثوقية الترميز بمعاملات مثل كابا كوهين أو فليس التي تطرح الاتفاق المتوقع بالصدفة، وليس نسبة الاتفاق الخام.
التقييم التلقائي لتداخل n-gram: يمكن تقريب جودة التوليد بتكلفة منخفضة عن طريق مقارنة مخرجات النظام بالمراجع عبر تداخل n-gram، كما هو الحال في BLEU، مما يتيح التكرار السريع على الرغم من القيود المعروفة.

History

مع انتشار الأساليب القائمة على المدونات في التسعينيات، احتاج المجال إلى معايير مشتركة لتصنيف البيانات وتقييم الأنظمة. تم تكييف إحصائيات الاتفاق المستعارة من تحليل المحتوى لتناسب الترميز اللغوي، وقد تم مسحها بشكل موثوق من قبل Artstein و Poesio، بينما جعلت مقاييس مثل BLEU (2002) التقييم التلقائي للتوليد ممكنًا وشكلت ثقافة المهام المشتركة.

Debates

هل تقيس المقاييس التلقائية الجودة؟: ترتبط مقاييس مثل BLEU بشكل فضفاض فقط بالأحكام البشرية، خاصة للتوليد السلس، مما يغذي جدلاً مستمرًا حول متى تكون النتائج التلقائية جديرة بالثقة ومتى يكون التقييم البشري ضروريًا.

Key figures

Ron Artstein
Massimo Poesio
Kishore Papineni

Seminal works

artstein2008
papineni2002

Frequently asked questions

لماذا لا نكتفي بالإبلاغ عن الدقة (accuracy)؟: يمكن أن تكون الدقة مضللة عندما تكون الفئات غير متوازنة أو عندما تكون الإيجابيات الكاذبة والسلبيات الكاذبة مهمة بشكل مختلف. توفر الدقة (precision) والاستدعاء (recall) ومقياس F صورة أكثر إفادة لمعظم مهام اللغة.