ScholarGate
सहायक

सिंटैक्टिक पार्सिंग

सिंटैक्टिक पार्सिंग वाक्य की व्याकरणिक संरचना को पुनर्प्राप्त करने का कार्य है, इसे एक घटक वृक्ष या एक निर्भरता संरचना प्रदान करना जो यह दर्शाता है कि शब्द कैसे संयोजित होते हैं और संबंधित होते हैं।

PaperMind से विषय खोजेंजल्द हीFind papers & topics
Tools & resources
स्लाइड डाउनलोड करें
Learn & explore
वीडियोजल्द ही

Definition

सिंटैक्टिक पार्सिंग एक वाक्य को उसकी व्याकरणिक संरचना के प्रतिनिधित्व से जोड़ती है—आमतौर पर एक घटक (वाक्यांश-संरचना) वृक्ष या एक निर्भरता ग्राफ—एक व्याकरण या एनोटेटेड डेटा से सीखे गए मॉडल के अनुसार।

Scope

यह विषय वाक्य संरचना के विश्लेषण को शामिल करता है: संदर्भ-मुक्त और समृद्ध व्याकरण, घटक पार्सिंग (वाक्यांश-संरचना वृक्ष) और निर्भरता पार्सिंग (प्रमुख-निर्भर संबंध), क्लासिक चार्ट-पार्सिंग एल्गोरिदम जैसे CKY और अर्ली, और ट्रीबैंक पर प्रशिक्षित संभाव्य और डेटा-संचालित पार्सिंग। यह बताता है कि सिंटैक्टिक अस्पष्टता को कैसे दर्शाया और हल किया जाता है। अर्थ की गणना के लिए सिंटैक्टिक संरचना के डाउनस्ट्रीम उपयोग को कम्प्यूटेशनल सिमेंटिक्स के तहत कवर किया गया है।

Core questions

  • एक वाक्य की व्याकरणिक संरचना को कैसे दर्शाया जाता है, घटकों के रूप में या निर्भरताओं के रूप में?
  • चार्ट-पार्सिंग एल्गोरिदम एक वाक्य के कई संभावित विश्लेषणों का कुशलता से अन्वेषण कैसे करते हैं?
  • सिंटैक्टिक अस्पष्टता को कैसे संभाला जाता है, और संभाव्य मॉडल पार्स के बीच कैसे चुनाव करते हैं?
  • एनोटेटेड कॉर्पोरा (ट्रीबैंक) का उपयोग करके पार्सर्स को कैसे प्रशिक्षित और मूल्यांकन किया जाता है?

Key concepts

  • घटक (वाक्यांश-संरचना) वृक्ष
  • निर्भरता संरचनाएं
  • संदर्भ-मुक्त व्याकरण
  • CKY और अर्ली पार्सिंग
  • संभाव्य संदर्भ-मुक्त व्याकरण
  • सिंटैक्टिक अस्पष्टता
  • ट्रीबैंक
  • पार्ट-ऑफ-स्पीच टैग

Key theories

संदर्भ-मुक्त व्याकरण और चार्ट पार्सिंग
संदर्भ-मुक्त व्याकरण वाक्यांश संरचना को मॉडल करते हैं, और CKY और अर्ली एल्गोरिदम जैसे डायनामिक-प्रोग्रामिंग चार्ट पार्सर्स उप-विस्तार के विश्लेषणों का पुन: उपयोग करके बहुपद समय में सभी वैध पार्स को पुनर्प्राप्त करते हैं।
संभाव्य पार्सिंग
व्याकरण नियमों को संभावनाएं निर्दिष्ट करना (जैसा कि संभाव्य संदर्भ-मुक्त व्याकरणों में होता है) एक पार्सर को प्रतिस्पर्धी विश्लेषणों को रैंक करने और सबसे संभावित संरचना का चयन करने देता है, जो प्राकृतिक-भाषा सिंटैक्स की व्यापक अस्पष्टता को संबोधित करता है।
ट्रीबैंक और डेटा-संचालित पार्सिंग
पेन ट्रीबैंक जैसे बड़े एनोटेटेड कॉर्पोरा ने प्रशिक्षण और मूल्यांकन डेटा प्रदान किया जिसने पार्सिंग को एक डेटा-संचालित कार्य में बदल दिया, जिससे मानव-एनोटेटेड संरचनाओं से सीखे गए सांख्यिकीय और बाद में तंत्रिका पार्सर्स सक्षम हुए।

Clinical relevance

सिंटैक्टिक पार्सिंग व्याकरण जाँच, सूचना निष्कर्षण, प्रश्नोत्तर और मशीन अनुवाद का समर्थन करती है, यह उजागर करके कि शब्द कैसे समूहित होते हैं और संबंधित होते हैं; विशेष रूप से निर्भरता संरचना का व्यापक रूप से डाउनस्ट्रीम सिमेंटिक और निष्कर्षण प्रणालियों के इनपुट के रूप में उपयोग किया जाता है।

History

पार्सिंग चॉम्स्की के औपचारिक व्याकरणों पर आधारित थी; CKY (1960 के दशक) और अर्ली (1970) एल्गोरिदम ने कुशल संदर्भ-मुक्त पार्सिंग प्रदान की। पेन ट्रीबैंक (1993) ने सांख्यिकीय पार्सिंग को उत्प्रेरित किया, और संभाव्य और बाद में तंत्रिका पार्सर्स ने वास्तविक पाठ पर सटीकता और मजबूती में उत्तरोत्तर सुधार किया।

Key figures

  • Noam Chomsky
  • Tadao Kasami
  • Jay Earley
  • Mitchell P. Marcus
  • Christopher D. Manning

Related topics

Seminal works

  • marcus1993
  • jurafsky2023

Frequently asked questions

घटक और निर्भरता पार्सिंग में क्या अंतर है?
घटक पार्सिंग शब्दों को नेस्टेड वाक्यांशों (जैसे संज्ञा वाक्यांश और क्रिया वाक्यांश) में समूहित करती है, जिससे घटकों का एक वृक्ष बनता है। निर्भरता पार्सिंग इसके बजाय प्रत्येक शब्द को उस शब्द से जोड़ती है जिस पर वह निर्भर करता है (उसका प्रमुख), जिससे व्याकरणिक संबंधों का एक ग्राफ बनता है। दोनों सिंटैक्टिक संरचना को कैप्चर करते हैं लेकिन विभिन्न पहलुओं पर जोर देते हैं।
व्याकरणों के अच्छी तरह से परिभाषित होने के बावजूद पार्सिंग कठिन क्यों है?
प्राकृतिक-भाषा के वाक्य अत्यधिक अस्पष्ट होते हैं: एक ही वाक्य में कई व्याकरणिक रूप से वैध संरचनाएं हो सकती हैं, और वाक्य की लंबाई के साथ यह संख्या तेजी से बढ़ सकती है। इच्छित विश्लेषण का चयन करने के लिए केवल व्याकरण ही नहीं, बल्कि सांख्यिकीय या सीखे हुए वरीयताओं की आवश्यकता होती है, जो पार्सिंग को चुनौतीपूर्ण बनाता है।

Methods for this concept

Related concepts