सिंटैक्टिक पार्सिंग
सिंटैक्टिक पार्सिंग वाक्य की व्याकरणिक संरचना को पुनर्प्राप्त करने का कार्य है, इसे एक घटक वृक्ष या एक निर्भरता संरचना प्रदान करना जो यह दर्शाता है कि शब्द कैसे संयोजित होते हैं और संबंधित होते हैं।
Definition
सिंटैक्टिक पार्सिंग एक वाक्य को उसकी व्याकरणिक संरचना के प्रतिनिधित्व से जोड़ती है—आमतौर पर एक घटक (वाक्यांश-संरचना) वृक्ष या एक निर्भरता ग्राफ—एक व्याकरण या एनोटेटेड डेटा से सीखे गए मॉडल के अनुसार।
Scope
यह विषय वाक्य संरचना के विश्लेषण को शामिल करता है: संदर्भ-मुक्त और समृद्ध व्याकरण, घटक पार्सिंग (वाक्यांश-संरचना वृक्ष) और निर्भरता पार्सिंग (प्रमुख-निर्भर संबंध), क्लासिक चार्ट-पार्सिंग एल्गोरिदम जैसे CKY और अर्ली, और ट्रीबैंक पर प्रशिक्षित संभाव्य और डेटा-संचालित पार्सिंग। यह बताता है कि सिंटैक्टिक अस्पष्टता को कैसे दर्शाया और हल किया जाता है। अर्थ की गणना के लिए सिंटैक्टिक संरचना के डाउनस्ट्रीम उपयोग को कम्प्यूटेशनल सिमेंटिक्स के तहत कवर किया गया है।
Core questions
- एक वाक्य की व्याकरणिक संरचना को कैसे दर्शाया जाता है, घटकों के रूप में या निर्भरताओं के रूप में?
- चार्ट-पार्सिंग एल्गोरिदम एक वाक्य के कई संभावित विश्लेषणों का कुशलता से अन्वेषण कैसे करते हैं?
- सिंटैक्टिक अस्पष्टता को कैसे संभाला जाता है, और संभाव्य मॉडल पार्स के बीच कैसे चुनाव करते हैं?
- एनोटेटेड कॉर्पोरा (ट्रीबैंक) का उपयोग करके पार्सर्स को कैसे प्रशिक्षित और मूल्यांकन किया जाता है?
Key concepts
- घटक (वाक्यांश-संरचना) वृक्ष
- निर्भरता संरचनाएं
- संदर्भ-मुक्त व्याकरण
- CKY और अर्ली पार्सिंग
- संभाव्य संदर्भ-मुक्त व्याकरण
- सिंटैक्टिक अस्पष्टता
- ट्रीबैंक
- पार्ट-ऑफ-स्पीच टैग
Key theories
- संदर्भ-मुक्त व्याकरण और चार्ट पार्सिंग
- संदर्भ-मुक्त व्याकरण वाक्यांश संरचना को मॉडल करते हैं, और CKY और अर्ली एल्गोरिदम जैसे डायनामिक-प्रोग्रामिंग चार्ट पार्सर्स उप-विस्तार के विश्लेषणों का पुन: उपयोग करके बहुपद समय में सभी वैध पार्स को पुनर्प्राप्त करते हैं।
- संभाव्य पार्सिंग
- व्याकरण नियमों को संभावनाएं निर्दिष्ट करना (जैसा कि संभाव्य संदर्भ-मुक्त व्याकरणों में होता है) एक पार्सर को प्रतिस्पर्धी विश्लेषणों को रैंक करने और सबसे संभावित संरचना का चयन करने देता है, जो प्राकृतिक-भाषा सिंटैक्स की व्यापक अस्पष्टता को संबोधित करता है।
- ट्रीबैंक और डेटा-संचालित पार्सिंग
- पेन ट्रीबैंक जैसे बड़े एनोटेटेड कॉर्पोरा ने प्रशिक्षण और मूल्यांकन डेटा प्रदान किया जिसने पार्सिंग को एक डेटा-संचालित कार्य में बदल दिया, जिससे मानव-एनोटेटेड संरचनाओं से सीखे गए सांख्यिकीय और बाद में तंत्रिका पार्सर्स सक्षम हुए।
Clinical relevance
सिंटैक्टिक पार्सिंग व्याकरण जाँच, सूचना निष्कर्षण, प्रश्नोत्तर और मशीन अनुवाद का समर्थन करती है, यह उजागर करके कि शब्द कैसे समूहित होते हैं और संबंधित होते हैं; विशेष रूप से निर्भरता संरचना का व्यापक रूप से डाउनस्ट्रीम सिमेंटिक और निष्कर्षण प्रणालियों के इनपुट के रूप में उपयोग किया जाता है।
History
पार्सिंग चॉम्स्की के औपचारिक व्याकरणों पर आधारित थी; CKY (1960 के दशक) और अर्ली (1970) एल्गोरिदम ने कुशल संदर्भ-मुक्त पार्सिंग प्रदान की। पेन ट्रीबैंक (1993) ने सांख्यिकीय पार्सिंग को उत्प्रेरित किया, और संभाव्य और बाद में तंत्रिका पार्सर्स ने वास्तविक पाठ पर सटीकता और मजबूती में उत्तरोत्तर सुधार किया।
Key figures
- Noam Chomsky
- Tadao Kasami
- Jay Earley
- Mitchell P. Marcus
- Christopher D. Manning
Related topics
Seminal works
- marcus1993
- jurafsky2023
Frequently asked questions
- घटक और निर्भरता पार्सिंग में क्या अंतर है?
- घटक पार्सिंग शब्दों को नेस्टेड वाक्यांशों (जैसे संज्ञा वाक्यांश और क्रिया वाक्यांश) में समूहित करती है, जिससे घटकों का एक वृक्ष बनता है। निर्भरता पार्सिंग इसके बजाय प्रत्येक शब्द को उस शब्द से जोड़ती है जिस पर वह निर्भर करता है (उसका प्रमुख), जिससे व्याकरणिक संबंधों का एक ग्राफ बनता है। दोनों सिंटैक्टिक संरचना को कैप्चर करते हैं लेकिन विभिन्न पहलुओं पर जोर देते हैं।
- व्याकरणों के अच्छी तरह से परिभाषित होने के बावजूद पार्सिंग कठिन क्यों है?
- प्राकृतिक-भाषा के वाक्य अत्यधिक अस्पष्ट होते हैं: एक ही वाक्य में कई व्याकरणिक रूप से वैध संरचनाएं हो सकती हैं, और वाक्य की लंबाई के साथ यह संख्या तेजी से बढ़ सकती है। इच्छित विश्लेषण का चयन करने के लिए केवल व्याकरण ही नहीं, बल्कि सांख्यिकीय या सीखे हुए वरीयताओं की आवश्यकता होती है, जो पार्सिंग को चुनौतीपूर्ण बनाता है।