چرا فقط دقت (accuracy) را گزارش نکنیم؟

دقت میتواند گمراهکننده باشد زمانی که کلاسها نامتوازن هستند یا زمانی که هم مثبت کاذب و هم منفی کاذب به طور متفاوتی اهمیت دارند. دقت (precision)، بازیابی (recall) و معیار F (F-measure) تصویر آموزندهتری را برای اکثر وظایف زبانی ارائه میدهند.

ارزیابی و حاشیه‌نویسی

روش‌شناسی اندازه‌گیری سیستم‌های پردازش زبان: ساخت پیکره‌های حاشیه‌نویسی شده، کمی‌سازی توافق بین حاشیه‌نویسان، و امتیازدهی به خروجی سیستم با معیارهایی که امکان مقایسه عادلانه را فراهم می‌کنند.

یافتن موضوع با PaperMindبه‌زودیFind papers & topics

Tools & resources

دریافت اسلایدها

Learn & explore

ویدیوبه‌زودی

Definition

ارزیابی و حاشیه‌نویسی مجموعه‌ای از رویه‌ها برای تولید داده‌های برچسب‌گذاری شده قابل اعتماد و برای اندازه‌گیری میزان بازتولید یا پیش‌بینی آن برچسب‌ها توسط سیستم‌های محاسباتی است.

Scope

زیرساخت تجربی زبان‌شناسی محاسباتی را پوشش می‌دهد — طرح‌ها و دستورالعمل‌های حاشیه‌نویسی دستی، آمارهای توافق بین حاشیه‌نویسان مانند کاپا، تقسیم‌بندی آموزش/توسعه/آزمایش، و معیارهای ارزیابی شامل دقت (precision)، بازیابی (recall)، معیار F (F-measure)، صحت (accuracy)، و امتیازات خاص وظیفه مانند BLEU. این بخش به نگرانی‌های اعتبار و قابلیت بازتولید می‌پردازد اما به طراحی سیستم‌های پایین‌دستی منفرد خیر.

Core questions

چگونه می‌توانیم میزان توافق حاشیه‌نویسان را اندازه‌گیری کنیم، و چرا توافق تصحیح‌شده بر اساس شانس اهمیت دارد؟
کدام معیارها برای وظایف طبقه‌بندی، برچسب‌گذاری توالی، و تولید مناسب هستند؟
چگونه تقسیم‌بندی آموزش/توسعه/آزمایش از بیش‌برازش (overfitting) و نتایج متورم جلوگیری می‌کند؟
چه چیزی یک ارزیابی را در مطالعات مختلف قابل بازتولید و مقایسه می‌سازد؟

Key concepts

توافق بین حاشیه‌نویسان
آمار کاپا
دقت و بازیابی
معیار F
تقسیم‌بندی آموزش/توسعه/آزمایش
BLEU
دستورالعمل‌های حاشیه‌نویسی
استاندارد طلایی

Key theories

توافق تصحیح‌شده بر اساس شانس: قابلیت اطمینان حاشیه‌نویسی باید با ضرایبی مانند کاپای کوهن یا فلیس اندازه‌گیری شود که توافق مورد انتظار بر اساس شانس را کسر می‌کنند، نه درصد توافق خام.
ارزیابی خودکار همپوشانی n-گرم: کیفیت تولید را می‌توان با مقایسه خروجی سیستم با مراجع از طریق همپوشانی n-گرم، مانند BLEU، به طور ارزان تخمین زد، که امکان تکرار سریع را با وجود محدودیت‌های شناخته شده فراهم می‌کند.

History

با گسترش روش‌های مبتنی بر پیکره در دهه 1990، این حوزه به استانداردهای مشترک برای برچسب‌گذاری داده‌ها و امتیازدهی به سیستم‌ها نیاز داشت. آمارهای توافق برگرفته از تحلیل محتوا با اقتباس برای حاشیه‌نویسی زبانی، به طور معتبر توسط آرتشتاین و پوزیو بررسی شد، در حالی که معیارهایی مانند BLEU (2002) ارزیابی خودکار تولید را قابل انجام ساخت و فرهنگ وظایف مشترک را شکل داد.

Debates

آیا معیارهای خودکار کیفیت را اندازه‌گیری می‌کنند؟: معیارهایی مانند BLEU تنها به طور ضعیفی با قضاوت‌های انسانی همبستگی دارند، به ویژه برای تولید روان، که بحث مداومی را در مورد زمان قابل اعتماد بودن امتیازات خودکار در مقابل زمان نیاز به ارزیابی انسانی دامن می‌زند.

Key figures

Ron Artstein
Massimo Poesio
Kishore Papineni

Seminal works

artstein2008
papineni2002

Frequently asked questions

چرا فقط دقت (accuracy) را گزارش نکنیم؟: دقت می‌تواند گمراه‌کننده باشد زمانی که کلاس‌ها نامتوازن هستند یا زمانی که هم مثبت کاذب و هم منفی کاذب به طور متفاوتی اهمیت دارند. دقت (precision)، بازیابی (recall) و معیار F (F-measure) تصویر آموزنده‌تری را برای اکثر وظایف زبانی ارائه می‌دهند.