पार्ट-ऑफ-स्पीच टैगिंग और सीक्वेंस लेबलिंग
एक वाक्य में प्रत्येक टोकन को एक लेबल असाइन करना — उसकी पार्ट-ऑफ-स्पीच, नामित-इकाई प्रकार, या चंक टैग — छिपे हुए मार्कोव मॉडल और कंडीशनल रैंडम फील्ड जैसे संभाव्य अनुक्रम मॉडल का उपयोग करके।
Definition
सीक्वेंस लेबलिंग इनपुट अनुक्रम के प्रत्येक तत्व को एक श्रेणीबद्ध लेबल असाइन करने का कार्य है, जिसमें पार्ट-ऑफ-स्पीच टैगिंग इसका प्रामाणिक उदाहरण है।
Scope
उथले विश्लेषण के लिए केंद्रीय अनुक्रम-लेबलिंग कार्यों को शामिल करता है: पार्ट-ऑफ-स्पीच टैगिंग, नामित-इकाई पहचान, और चंकिंग। इसमें मानक मॉडल — छिपे हुए मार्कोव मॉडल, अधिकतम-एन्ट्रॉपी मार्कोव मॉडल, कंडीशनल रैंडम फील्ड, और न्यूरल सीक्वेंस टैगर — और टैगसेट जैसे पेन ट्रीबैंक और यूनिवर्सल पीओएस शामिल हैं। पूर्ण पार्सिंग को संबंधित विषयों में शामिल किया गया है।
Core questions
- छिपे हुए मार्कोव मॉडल सबसे संभावित टैग अनुक्रम को कैसे असाइन करते हैं?
- कंडीशनल रैंडम फील्ड स्थानीय रूप से सामान्यीकृत मॉडल से बेहतर प्रदर्शन क्यों करते हैं?
- टैगसेट को विभिन्न भाषाओं में कैसे डिज़ाइन और मानकीकृत किया जाता है?
- सीक्वेंस लेबलिंग डाउनस्ट्रीम पार्सिंग और एक्सट्रैक्शन का समर्थन कैसे करती है?
Key concepts
- पार्ट-ऑफ-स्पीच टैग
- छिपा हुआ मार्कोव मॉडल
- विटरबी एल्गोरिथम
- कंडीशनल रैंडम फील्ड
- नामित-इकाई पहचान
- चंकिंग
- टैगसेट
- बीआईओ एन्कोडिंग
Key theories
- छिपा हुआ मार्कोव मॉडल टैगिंग
- एक टैग अनुक्रम को एक मार्कोव श्रृंखला के रूप में मॉडल करना जो देखे गए शब्दों को उत्सर्जित करता है, जिसमें विटरबी एल्गोरिथम सबसे संभावित टैग अनुक्रम को कुशलता से पुनर्प्राप्त करता है।
- कंडीशनल रैंडम फील्ड
- सीक्वेंस लेबलिंग के लिए विश्व स्तर पर सामान्यीकृत विवेचनात्मक मॉडल जो पूरे इनपुट पर निर्भर करते हैं और स्थानीय रूप से सामान्यीकृत मॉडल के लेबल पूर्वाग्रह से बचते हैं।
History
पीओएस टैगिंग सांख्यिकीय एनएलपी की प्रारंभिक सफलता थी जब पेन ट्रीबैंक (1993) ने बड़े एनोटेटेड डेटा प्रदान किए। छिपे हुए मार्कोव मॉडल टैगर ने लगभग 2001 में विवेचनात्मक अधिकतम-एन्ट्रॉपी और कंडीशनल-रैंडम-फील्ड मॉडल को रास्ता दिया, जिन्हें 2010 के दशक में न्यूरल सीक्वेंस लेबलर्स में समाहित कर लिया गया।
Debates
- जेनरेटिव बनाम विवेचनात्मक अनुक्रम मॉडल
- क्या शब्दों और टैग के संयुक्त वितरण को मॉडल करना है (एचएमएम) या सीधे इनपुट पर लेबल को कंडीशन करना है (सीआरएफ); जब समृद्ध सुविधाएँ उपलब्ध होती हैं तो विवेचनात्मक मॉडल आमतौर पर सटीकता में जीतते हैं।
Key figures
- Mitchell Marcus
- John Lafferty
- Andrew McCallum
- Fernando Pereira
Related topics
Seminal works
- marcus1993
- lafferty2001
Frequently asked questions
- पार्ट-ऑफ-स्पीच टैगिंग तुच्छ क्यों नहीं है?
- कई शब्द अस्पष्ट होते हैं — 'बुक' एक संज्ञा या एक क्रिया हो सकता है — इसलिए सही टैग संदर्भ पर निर्भर करता है। सीक्वेंस मॉडल आसपास के शब्दों और टैग को संयुक्त रूप से विचार करके इसे हल करते हैं।