ScholarGate
सहायक

पार्ट-ऑफ-स्पीच टैगिंग और सीक्वेंस लेबलिंग

एक वाक्य में प्रत्येक टोकन को एक लेबल असाइन करना — उसकी पार्ट-ऑफ-स्पीच, नामित-इकाई प्रकार, या चंक टैग — छिपे हुए मार्कोव मॉडल और कंडीशनल रैंडम फील्ड जैसे संभाव्य अनुक्रम मॉडल का उपयोग करके।

PaperMind से विषय खोजेंजल्द हीFind papers & topics
Tools & resources
स्लाइड डाउनलोड करें
Learn & explore
वीडियोजल्द ही

Definition

सीक्वेंस लेबलिंग इनपुट अनुक्रम के प्रत्येक तत्व को एक श्रेणीबद्ध लेबल असाइन करने का कार्य है, जिसमें पार्ट-ऑफ-स्पीच टैगिंग इसका प्रामाणिक उदाहरण है।

Scope

उथले विश्लेषण के लिए केंद्रीय अनुक्रम-लेबलिंग कार्यों को शामिल करता है: पार्ट-ऑफ-स्पीच टैगिंग, नामित-इकाई पहचान, और चंकिंग। इसमें मानक मॉडल — छिपे हुए मार्कोव मॉडल, अधिकतम-एन्ट्रॉपी मार्कोव मॉडल, कंडीशनल रैंडम फील्ड, और न्यूरल सीक्वेंस टैगर — और टैगसेट जैसे पेन ट्रीबैंक और यूनिवर्सल पीओएस शामिल हैं। पूर्ण पार्सिंग को संबंधित विषयों में शामिल किया गया है।

Core questions

  • छिपे हुए मार्कोव मॉडल सबसे संभावित टैग अनुक्रम को कैसे असाइन करते हैं?
  • कंडीशनल रैंडम फील्ड स्थानीय रूप से सामान्यीकृत मॉडल से बेहतर प्रदर्शन क्यों करते हैं?
  • टैगसेट को विभिन्न भाषाओं में कैसे डिज़ाइन और मानकीकृत किया जाता है?
  • सीक्वेंस लेबलिंग डाउनस्ट्रीम पार्सिंग और एक्सट्रैक्शन का समर्थन कैसे करती है?

Key concepts

  • पार्ट-ऑफ-स्पीच टैग
  • छिपा हुआ मार्कोव मॉडल
  • विटरबी एल्गोरिथम
  • कंडीशनल रैंडम फील्ड
  • नामित-इकाई पहचान
  • चंकिंग
  • टैगसेट
  • बीआईओ एन्कोडिंग

Key theories

छिपा हुआ मार्कोव मॉडल टैगिंग
एक टैग अनुक्रम को एक मार्कोव श्रृंखला के रूप में मॉडल करना जो देखे गए शब्दों को उत्सर्जित करता है, जिसमें विटरबी एल्गोरिथम सबसे संभावित टैग अनुक्रम को कुशलता से पुनर्प्राप्त करता है।
कंडीशनल रैंडम फील्ड
सीक्वेंस लेबलिंग के लिए विश्व स्तर पर सामान्यीकृत विवेचनात्मक मॉडल जो पूरे इनपुट पर निर्भर करते हैं और स्थानीय रूप से सामान्यीकृत मॉडल के लेबल पूर्वाग्रह से बचते हैं।

History

पीओएस टैगिंग सांख्यिकीय एनएलपी की प्रारंभिक सफलता थी जब पेन ट्रीबैंक (1993) ने बड़े एनोटेटेड डेटा प्रदान किए। छिपे हुए मार्कोव मॉडल टैगर ने लगभग 2001 में विवेचनात्मक अधिकतम-एन्ट्रॉपी और कंडीशनल-रैंडम-फील्ड मॉडल को रास्ता दिया, जिन्हें 2010 के दशक में न्यूरल सीक्वेंस लेबलर्स में समाहित कर लिया गया।

Debates

जेनरेटिव बनाम विवेचनात्मक अनुक्रम मॉडल
क्या शब्दों और टैग के संयुक्त वितरण को मॉडल करना है (एचएमएम) या सीधे इनपुट पर लेबल को कंडीशन करना है (सीआरएफ); जब समृद्ध सुविधाएँ उपलब्ध होती हैं तो विवेचनात्मक मॉडल आमतौर पर सटीकता में जीतते हैं।

Key figures

  • Mitchell Marcus
  • John Lafferty
  • Andrew McCallum
  • Fernando Pereira

Related topics

Seminal works

  • marcus1993
  • lafferty2001

Frequently asked questions

पार्ट-ऑफ-स्पीच टैगिंग तुच्छ क्यों नहीं है?
कई शब्द अस्पष्ट होते हैं — 'बुक' एक संज्ञा या एक क्रिया हो सकता है — इसलिए सही टैग संदर्भ पर निर्भर करता है। सीक्वेंस मॉडल आसपास के शब्दों और टैग को संयुक्त रूप से विचार करके इसे हल करते हैं।

Methods for this concept

Related concepts