मूल्यांकन और एनोटेशन
भाषा-प्रसंस्करण प्रणालियों को मापने की कार्यप्रणाली: एनोटेटेड कॉर्पोरा का निर्माण, एनोटेटरों के बीच समझौते का परिमाणीकरण, और निष्पक्ष तुलना की अनुमति देने वाले मेट्रिक्स के साथ सिस्टम आउटपुट का स्कोरिंग।
Definition
मूल्यांकन और एनोटेशन विश्वसनीय लेबल किए गए डेटा का उत्पादन करने और यह मापने के लिए प्रथाओं का एक समूह है कि कम्प्यूटेशनल सिस्टम उन लेबलों को कितनी अच्छी तरह पुनरुत्पादित या भविष्यवाणी करते हैं।
Scope
इसमें कम्प्यूटेशनल भाषाविज्ञान का अनुभवजन्य बुनियादी ढाँचा शामिल है — मैनुअल एनोटेशन योजनाएँ और दिशानिर्देश, अंतर-एनोटेटर समझौते के आँकड़े जैसे कप्पा, ट्रेन/विकास/परीक्षण विभाजन, और मूल्यांकन मेट्रिक्स जिनमें परिशुद्धता (precision), रिकॉल (recall), एफ-माप (F-measure), सटीकता (accuracy), और BLEU जैसे कार्य-विशिष्ट स्कोर शामिल हैं। यह वैधता और पुनरुत्पादन संबंधी चिंताओं को संबोधित करता है, लेकिन व्यक्तिगत डाउनस्ट्रीम सिस्टम के डिज़ाइन को नहीं।
Core questions
- हम कैसे मापते हैं कि एनोटेटर सहमत हैं, और संयोग-सुधारित समझौता क्यों मायने रखता है?
- वर्गीकरण, अनुक्रम लेबलिंग और पीढ़ी के कार्यों के लिए कौन से मेट्रिक्स उपयुक्त हैं?
- ट्रेन/विकास/परीक्षण विभाजन ओवरफिटिंग और बढ़ी हुई परिणामों से कैसे बचाव करते हैं?
- अध्ययनों में मूल्यांकन को पुनरुत्पादन योग्य और तुलनीय क्या बनाता है?
Key concepts
- अंतर-एनोटेटर समझौता
- कप्पा सांख्यिकी
- परिशुद्धता और रिकॉल
- एफ-माप
- ट्रेन/विकास/परीक्षण विभाजन
- BLEU
- एनोटेशन दिशानिर्देश
- स्वर्ण मानक
Key theories
- संयोग-सुधारित समझौता
- एनोटेशन की विश्वसनीयता को कोहेन के या फ्लेइस के कप्पा जैसे गुणांकों के साथ मापा जाना चाहिए जो संयोग से अपेक्षित समझौते को घटाते हैं, न कि कच्चे प्रतिशत समझौते को।
- स्वचालित n-ग्राम-ओवरलैप मूल्यांकन
- BLEU की तरह, n-ग्राम ओवरलैप के माध्यम से सिस्टम आउटपुट की संदर्भों से तुलना करके पीढ़ी की गुणवत्ता का अनुमान सस्ते में लगाया जा सकता है, जिससे ज्ञात सीमाओं के बावजूद तेजी से पुनरावृति संभव हो पाती है।
History
1990 के दशक में जैसे-जैसे कॉर्पस-आधारित तरीके फैले, क्षेत्र को डेटा को लेबल करने और सिस्टम को स्कोर करने के लिए साझा मानकों की आवश्यकता हुई। सामग्री विश्लेषण से उधार लिए गए समझौते के आँकड़ों को भाषाई एनोटेशन के लिए अनुकूलित किया गया, जिसका आर्टस्टीन और पोएसियो द्वारा आधिकारिक रूप से सर्वेक्षण किया गया, जबकि BLEU (2002) जैसे मेट्रिक्स ने पीढ़ी के स्वचालित मूल्यांकन को व्यावहारिक बनाया और साझा-कार्य संस्कृति को आकार दिया।
Debates
- क्या स्वचालित मेट्रिक्स गुणवत्ता को मापते हैं?
- BLEU जैसे मेट्रिक्स मानव निर्णयों के साथ केवल शिथिल रूप से सहसंबंधित होते हैं, विशेष रूप से धाराप्रवाह पीढ़ी के लिए, जिससे इस बारे में निरंतर बहस होती रहती है कि स्वचालित स्कोर कब विश्वसनीय होते हैं और कब मानव मूल्यांकन की आवश्यकता होती है।
Key figures
- Ron Artstein
- Massimo Poesio
- Kishore Papineni
Related topics
Seminal works
- artstein2008
- papineni2002
Frequently asked questions
- केवल सटीकता की रिपोर्ट क्यों नहीं करते?
- जब कक्षाएं असंतुलित होती हैं या जब गलत सकारात्मक और गलत नकारात्मक दोनों अलग-अलग मायने रखते हैं तो सटीकता भ्रामक हो सकती है। परिशुद्धता, रिकॉल और एफ-माप अधिकांश भाषा कार्यों के लिए अधिक जानकारीपूर्ण तस्वीर प्रदान करते हैं।