केवल सटीकता की रिपोर्ट क्यों नहीं करते?

जब कक्षाएं असंतुलित होती हैं या जब गलत सकारात्मक और गलत नकारात्मक दोनों अलग-अलग मायने रखते हैं तो सटीकता भ्रामक हो सकती है। परिशुद्धता, रिकॉल और एफ-माप अधिकांश भाषा कार्यों के लिए अधिक जानकारीपूर्ण तस्वीर प्रदान करते हैं।

मूल्यांकन और एनोटेशन

भाषा-प्रसंस्करण प्रणालियों को मापने की कार्यप्रणाली: एनोटेटेड कॉर्पोरा का निर्माण, एनोटेटरों के बीच समझौते का परिमाणीकरण, और निष्पक्ष तुलना की अनुमति देने वाले मेट्रिक्स के साथ सिस्टम आउटपुट का स्कोरिंग।

PaperMind से विषय खोजेंजल्द हीFind papers & topics

Tools & resources

स्लाइड डाउनलोड करें

Learn & explore

वीडियोजल्द ही

Definition

मूल्यांकन और एनोटेशन विश्वसनीय लेबल किए गए डेटा का उत्पादन करने और यह मापने के लिए प्रथाओं का एक समूह है कि कम्प्यूटेशनल सिस्टम उन लेबलों को कितनी अच्छी तरह पुनरुत्पादित या भविष्यवाणी करते हैं।

Scope

इसमें कम्प्यूटेशनल भाषाविज्ञान का अनुभवजन्य बुनियादी ढाँचा शामिल है — मैनुअल एनोटेशन योजनाएँ और दिशानिर्देश, अंतर-एनोटेटर समझौते के आँकड़े जैसे कप्पा, ट्रेन/विकास/परीक्षण विभाजन, और मूल्यांकन मेट्रिक्स जिनमें परिशुद्धता (precision), रिकॉल (recall), एफ-माप (F-measure), सटीकता (accuracy), और BLEU जैसे कार्य-विशिष्ट स्कोर शामिल हैं। यह वैधता और पुनरुत्पादन संबंधी चिंताओं को संबोधित करता है, लेकिन व्यक्तिगत डाउनस्ट्रीम सिस्टम के डिज़ाइन को नहीं।

Core questions

हम कैसे मापते हैं कि एनोटेटर सहमत हैं, और संयोग-सुधारित समझौता क्यों मायने रखता है?
वर्गीकरण, अनुक्रम लेबलिंग और पीढ़ी के कार्यों के लिए कौन से मेट्रिक्स उपयुक्त हैं?
ट्रेन/विकास/परीक्षण विभाजन ओवरफिटिंग और बढ़ी हुई परिणामों से कैसे बचाव करते हैं?
अध्ययनों में मूल्यांकन को पुनरुत्पादन योग्य और तुलनीय क्या बनाता है?

Key concepts

अंतर-एनोटेटर समझौता
कप्पा सांख्यिकी
परिशुद्धता और रिकॉल
एफ-माप
ट्रेन/विकास/परीक्षण विभाजन
BLEU
एनोटेशन दिशानिर्देश
स्वर्ण मानक

Key theories

संयोग-सुधारित समझौता: एनोटेशन की विश्वसनीयता को कोहेन के या फ्लेइस के कप्पा जैसे गुणांकों के साथ मापा जाना चाहिए जो संयोग से अपेक्षित समझौते को घटाते हैं, न कि कच्चे प्रतिशत समझौते को।
स्वचालित n-ग्राम-ओवरलैप मूल्यांकन: BLEU की तरह, n-ग्राम ओवरलैप के माध्यम से सिस्टम आउटपुट की संदर्भों से तुलना करके पीढ़ी की गुणवत्ता का अनुमान सस्ते में लगाया जा सकता है, जिससे ज्ञात सीमाओं के बावजूद तेजी से पुनरावृति संभव हो पाती है।

History

1990 के दशक में जैसे-जैसे कॉर्पस-आधारित तरीके फैले, क्षेत्र को डेटा को लेबल करने और सिस्टम को स्कोर करने के लिए साझा मानकों की आवश्यकता हुई। सामग्री विश्लेषण से उधार लिए गए समझौते के आँकड़ों को भाषाई एनोटेशन के लिए अनुकूलित किया गया, जिसका आर्टस्टीन और पोएसियो द्वारा आधिकारिक रूप से सर्वेक्षण किया गया, जबकि BLEU (2002) जैसे मेट्रिक्स ने पीढ़ी के स्वचालित मूल्यांकन को व्यावहारिक बनाया और साझा-कार्य संस्कृति को आकार दिया।

Debates

क्या स्वचालित मेट्रिक्स गुणवत्ता को मापते हैं?: BLEU जैसे मेट्रिक्स मानव निर्णयों के साथ केवल शिथिल रूप से सहसंबंधित होते हैं, विशेष रूप से धाराप्रवाह पीढ़ी के लिए, जिससे इस बारे में निरंतर बहस होती रहती है कि स्वचालित स्कोर कब विश्वसनीय होते हैं और कब मानव मूल्यांकन की आवश्यकता होती है।

Key figures

Ron Artstein
Massimo Poesio
Kishore Papineni

Seminal works

artstein2008
papineni2002

Frequently asked questions

केवल सटीकता की रिपोर्ट क्यों नहीं करते?: जब कक्षाएं असंतुलित होती हैं या जब गलत सकारात्मक और गलत नकारात्मक दोनों अलग-अलग मायने रखते हैं तो सटीकता भ्रामक हो सकती है। परिशुद्धता, रिकॉल और एफ-माप अधिकांश भाषा कार्यों के लिए अधिक जानकारीपूर्ण तस्वीर प्रदान करते हैं।