ارزیابی و حاشیهنویسی
روششناسی اندازهگیری سیستمهای پردازش زبان: ساخت پیکرههای حاشیهنویسی شده، کمیسازی توافق بین حاشیهنویسان، و امتیازدهی به خروجی سیستم با معیارهایی که امکان مقایسه عادلانه را فراهم میکنند.
Definition
ارزیابی و حاشیهنویسی مجموعهای از رویهها برای تولید دادههای برچسبگذاری شده قابل اعتماد و برای اندازهگیری میزان بازتولید یا پیشبینی آن برچسبها توسط سیستمهای محاسباتی است.
Scope
زیرساخت تجربی زبانشناسی محاسباتی را پوشش میدهد — طرحها و دستورالعملهای حاشیهنویسی دستی، آمارهای توافق بین حاشیهنویسان مانند کاپا، تقسیمبندی آموزش/توسعه/آزمایش، و معیارهای ارزیابی شامل دقت (precision)، بازیابی (recall)، معیار F (F-measure)، صحت (accuracy)، و امتیازات خاص وظیفه مانند BLEU. این بخش به نگرانیهای اعتبار و قابلیت بازتولید میپردازد اما به طراحی سیستمهای پاییندستی منفرد خیر.
Core questions
- چگونه میتوانیم میزان توافق حاشیهنویسان را اندازهگیری کنیم، و چرا توافق تصحیحشده بر اساس شانس اهمیت دارد؟
- کدام معیارها برای وظایف طبقهبندی، برچسبگذاری توالی، و تولید مناسب هستند؟
- چگونه تقسیمبندی آموزش/توسعه/آزمایش از بیشبرازش (overfitting) و نتایج متورم جلوگیری میکند؟
- چه چیزی یک ارزیابی را در مطالعات مختلف قابل بازتولید و مقایسه میسازد؟
Key concepts
- توافق بین حاشیهنویسان
- آمار کاپا
- دقت و بازیابی
- معیار F
- تقسیمبندی آموزش/توسعه/آزمایش
- BLEU
- دستورالعملهای حاشیهنویسی
- استاندارد طلایی
Key theories
- توافق تصحیحشده بر اساس شانس
- قابلیت اطمینان حاشیهنویسی باید با ضرایبی مانند کاپای کوهن یا فلیس اندازهگیری شود که توافق مورد انتظار بر اساس شانس را کسر میکنند، نه درصد توافق خام.
- ارزیابی خودکار همپوشانی n-گرم
- کیفیت تولید را میتوان با مقایسه خروجی سیستم با مراجع از طریق همپوشانی n-گرم، مانند BLEU، به طور ارزان تخمین زد، که امکان تکرار سریع را با وجود محدودیتهای شناخته شده فراهم میکند.
History
با گسترش روشهای مبتنی بر پیکره در دهه 1990، این حوزه به استانداردهای مشترک برای برچسبگذاری دادهها و امتیازدهی به سیستمها نیاز داشت. آمارهای توافق برگرفته از تحلیل محتوا با اقتباس برای حاشیهنویسی زبانی، به طور معتبر توسط آرتشتاین و پوزیو بررسی شد، در حالی که معیارهایی مانند BLEU (2002) ارزیابی خودکار تولید را قابل انجام ساخت و فرهنگ وظایف مشترک را شکل داد.
Debates
- آیا معیارهای خودکار کیفیت را اندازهگیری میکنند؟
- معیارهایی مانند BLEU تنها به طور ضعیفی با قضاوتهای انسانی همبستگی دارند، به ویژه برای تولید روان، که بحث مداومی را در مورد زمان قابل اعتماد بودن امتیازات خودکار در مقابل زمان نیاز به ارزیابی انسانی دامن میزند.
Key figures
- Ron Artstein
- Massimo Poesio
- Kishore Papineni
Related topics
Seminal works
- artstein2008
- papineni2002
Frequently asked questions
- چرا فقط دقت (accuracy) را گزارش نکنیم؟
- دقت میتواند گمراهکننده باشد زمانی که کلاسها نامتوازن هستند یا زمانی که هم مثبت کاذب و هم منفی کاذب به طور متفاوتی اهمیت دارند. دقت (precision)، بازیابی (recall) و معیار F (F-measure) تصویر آموزندهتری را برای اکثر وظایف زبانی ارائه میدهند.