ScholarGate
सहायक

मूल्यांकन और एनोटेशन

भाषा-प्रसंस्करण प्रणालियों को मापने की कार्यप्रणाली: एनोटेटेड कॉर्पोरा का निर्माण, एनोटेटरों के बीच समझौते का परिमाणीकरण, और निष्पक्ष तुलना की अनुमति देने वाले मेट्रिक्स के साथ सिस्टम आउटपुट का स्कोरिंग।

PaperMind से विषय खोजेंजल्द हीFind papers & topics
Tools & resources
स्लाइड डाउनलोड करें
Learn & explore
वीडियोजल्द ही

Definition

मूल्यांकन और एनोटेशन विश्वसनीय लेबल किए गए डेटा का उत्पादन करने और यह मापने के लिए प्रथाओं का एक समूह है कि कम्प्यूटेशनल सिस्टम उन लेबलों को कितनी अच्छी तरह पुनरुत्पादित या भविष्यवाणी करते हैं।

Scope

इसमें कम्प्यूटेशनल भाषाविज्ञान का अनुभवजन्य बुनियादी ढाँचा शामिल है — मैनुअल एनोटेशन योजनाएँ और दिशानिर्देश, अंतर-एनोटेटर समझौते के आँकड़े जैसे कप्पा, ट्रेन/विकास/परीक्षण विभाजन, और मूल्यांकन मेट्रिक्स जिनमें परिशुद्धता (precision), रिकॉल (recall), एफ-माप (F-measure), सटीकता (accuracy), और BLEU जैसे कार्य-विशिष्ट स्कोर शामिल हैं। यह वैधता और पुनरुत्पादन संबंधी चिंताओं को संबोधित करता है, लेकिन व्यक्तिगत डाउनस्ट्रीम सिस्टम के डिज़ाइन को नहीं।

Core questions

  • हम कैसे मापते हैं कि एनोटेटर सहमत हैं, और संयोग-सुधारित समझौता क्यों मायने रखता है?
  • वर्गीकरण, अनुक्रम लेबलिंग और पीढ़ी के कार्यों के लिए कौन से मेट्रिक्स उपयुक्त हैं?
  • ट्रेन/विकास/परीक्षण विभाजन ओवरफिटिंग और बढ़ी हुई परिणामों से कैसे बचाव करते हैं?
  • अध्ययनों में मूल्यांकन को पुनरुत्पादन योग्य और तुलनीय क्या बनाता है?

Key concepts

  • अंतर-एनोटेटर समझौता
  • कप्पा सांख्यिकी
  • परिशुद्धता और रिकॉल
  • एफ-माप
  • ट्रेन/विकास/परीक्षण विभाजन
  • BLEU
  • एनोटेशन दिशानिर्देश
  • स्वर्ण मानक

Key theories

संयोग-सुधारित समझौता
एनोटेशन की विश्वसनीयता को कोहेन के या फ्लेइस के कप्पा जैसे गुणांकों के साथ मापा जाना चाहिए जो संयोग से अपेक्षित समझौते को घटाते हैं, न कि कच्चे प्रतिशत समझौते को।
स्वचालित n-ग्राम-ओवरलैप मूल्यांकन
BLEU की तरह, n-ग्राम ओवरलैप के माध्यम से सिस्टम आउटपुट की संदर्भों से तुलना करके पीढ़ी की गुणवत्ता का अनुमान सस्ते में लगाया जा सकता है, जिससे ज्ञात सीमाओं के बावजूद तेजी से पुनरावृति संभव हो पाती है।

History

1990 के दशक में जैसे-जैसे कॉर्पस-आधारित तरीके फैले, क्षेत्र को डेटा को लेबल करने और सिस्टम को स्कोर करने के लिए साझा मानकों की आवश्यकता हुई। सामग्री विश्लेषण से उधार लिए गए समझौते के आँकड़ों को भाषाई एनोटेशन के लिए अनुकूलित किया गया, जिसका आर्टस्टीन और पोएसियो द्वारा आधिकारिक रूप से सर्वेक्षण किया गया, जबकि BLEU (2002) जैसे मेट्रिक्स ने पीढ़ी के स्वचालित मूल्यांकन को व्यावहारिक बनाया और साझा-कार्य संस्कृति को आकार दिया।

Debates

क्या स्वचालित मेट्रिक्स गुणवत्ता को मापते हैं?
BLEU जैसे मेट्रिक्स मानव निर्णयों के साथ केवल शिथिल रूप से सहसंबंधित होते हैं, विशेष रूप से धाराप्रवाह पीढ़ी के लिए, जिससे इस बारे में निरंतर बहस होती रहती है कि स्वचालित स्कोर कब विश्वसनीय होते हैं और कब मानव मूल्यांकन की आवश्यकता होती है।

Key figures

  • Ron Artstein
  • Massimo Poesio
  • Kishore Papineni

Related topics

Seminal works

  • artstein2008
  • papineni2002

Frequently asked questions

केवल सटीकता की रिपोर्ट क्यों नहीं करते?
जब कक्षाएं असंतुलित होती हैं या जब गलत सकारात्मक और गलत नकारात्मक दोनों अलग-अलग मायने रखते हैं तो सटीकता भ्रामक हो सकती है। परिशुद्धता, रिकॉल और एफ-माप अधिकांश भाषा कार्यों के लिए अधिक जानकारीपूर्ण तस्वीर प्रदान करते हैं।

Methods for this concept

Related concepts