ScholarGate
المساعد

التقييم والترميز

منهجية قياس أنظمة معالجة اللغة: بناء المدونات المرمّزة، وتحديد كمية الاتفاق بين المرمّزين، وتسجيل مخرجات النظام باستخدام مقاييس تسمح بالمقارنة العادلة.

اعثر على موضوع باستخدام PaperMindقريبًاFind papers & topics
Tools & resources
تنزيل الشرائح
Learn & explore
فيديوقريبًا

Definition

التقييم والترميز هو مجموعة الممارسات لإنتاج بيانات موثوقة ومصنفة ولقياس مدى جودة الأنظمة الحاسوبية في إعادة إنتاج أو التنبؤ بهذه التصنيفات.

Scope

يغطي البنية التحتية التجريبية للغويات الحاسوبية — مخططات وإرشادات الترميز اليدوي، إحصائيات اتفاق المرمّزين مثل Kappa، تقسيم التدريب/التطوير/الاختبار، ومقاييس التقييم بما في ذلك الدقة (precision)، والاستدعاء (recall)، ومقياس F، والدقة (accuracy)، والنتائج الخاصة بالمهام مثل BLEU. يتناول مخاوف الصلاحية وقابلية التكرار ولكنه لا يتناول تصميم الأنظمة الفرعية الفردية.

Core questions

  • كيف نقيس ما إذا كان المرمّزون متفقين، ولماذا يعتبر الاتفاق المصحح بالصدفة مهمًا؟
  • ما هي المقاييس المناسبة لمهام التصنيف، وتصنيف التسلسل، والتوليد؟
  • كيف تحمي تقسيمات التدريب/التطوير/الاختبار من الإفراط في التخصيص (overfitting) والنتائج المبالغ فيها؟
  • ما الذي يجعل التقييم قابلاً للتكرار والمقارنة عبر الدراسات؟

Key concepts

  • اتفاق المرمّزين البيني
  • إحصائية كابا
  • الدقة والاستدعاء
  • مقياس F
  • تقسيم التدريب/التطوير/الاختبار
  • BLEU
  • إرشادات الترميز
  • المعيار الذهبي

Key theories

الاتفاق المصحح بالصدفة
يجب قياس موثوقية الترميز بمعاملات مثل كابا كوهين أو فليس التي تطرح الاتفاق المتوقع بالصدفة، وليس نسبة الاتفاق الخام.
التقييم التلقائي لتداخل n-gram
يمكن تقريب جودة التوليد بتكلفة منخفضة عن طريق مقارنة مخرجات النظام بالمراجع عبر تداخل n-gram، كما هو الحال في BLEU، مما يتيح التكرار السريع على الرغم من القيود المعروفة.

History

مع انتشار الأساليب القائمة على المدونات في التسعينيات، احتاج المجال إلى معايير مشتركة لتصنيف البيانات وتقييم الأنظمة. تم تكييف إحصائيات الاتفاق المستعارة من تحليل المحتوى لتناسب الترميز اللغوي، وقد تم مسحها بشكل موثوق من قبل Artstein و Poesio، بينما جعلت مقاييس مثل BLEU (2002) التقييم التلقائي للتوليد ممكنًا وشكلت ثقافة المهام المشتركة.

Debates

هل تقيس المقاييس التلقائية الجودة؟
ترتبط مقاييس مثل BLEU بشكل فضفاض فقط بالأحكام البشرية، خاصة للتوليد السلس، مما يغذي جدلاً مستمرًا حول متى تكون النتائج التلقائية جديرة بالثقة ومتى يكون التقييم البشري ضروريًا.

Key figures

  • Ron Artstein
  • Massimo Poesio
  • Kishore Papineni

Related topics

Seminal works

  • artstein2008
  • papineni2002

Frequently asked questions

لماذا لا نكتفي بالإبلاغ عن الدقة (accuracy)؟
يمكن أن تكون الدقة مضللة عندما تكون الفئات غير متوازنة أو عندما تكون الإيجابيات الكاذبة والسلبيات الكاذبة مهمة بشكل مختلف. توفر الدقة (precision) والاستدعاء (recall) ومقياس F صورة أكثر إفادة لمعظم مهام اللغة.

Methods for this concept

Related concepts