लेक्सिकल और कॉर्पस संसाधन
डेटा और ज्ञान आधार जिन पर अनुभवजन्य कम्प्यूटेशनल भाषाविज्ञान निर्भर करता है: टेक्स्ट कॉर्पोरा, लेक्सिकल डेटाबेस और ऑन्टोलॉजी, शब्द संरचना के कम्प्यूटेशनल उपचार, और समृद्ध रूप से एनोटेटेड ट्रीबैंक।
Definition
लेक्सिकल और कॉर्पस संसाधन भाषा डेटा के संरचित संग्रह हैं — टेक्स्ट, लेक्सिकॉन और एनोटेशन — जो अनुभवजन्य विश्लेषण और भाषा-प्रसंस्करण प्रणालियों के प्रशिक्षण का समर्थन करने के लिए बनाए गए हैं।
Scope
भाषा संसाधनों के निर्माण, क्यूरेशन और उपयोग को शामिल करता है — संतुलित और वेब कॉर्पोरा, लेक्सिकल-सिमेंटिक डेटाबेस जैसे वर्डनेट, कम्प्यूटेशनल मॉर्फोलॉजी और लेक्सिकॉन, और एनोटेटेड ट्रीबैंक। यह कॉर्पस डिज़ाइन, प्रतिनिधित्व, एनोटेशन मानकों और सिस्टम को प्रशिक्षित करने और उनका मूल्यांकन करने में संसाधनों की भूमिका पर केंद्रित है। इन संसाधनों का उपभोग करने वाले एल्गोरिथम मॉडलिंग को अन्य क्षेत्रों में शामिल किया गया है।
Sub-topics
Core questions
- कॉर्पोरा को प्रतिनिधि और संतुलित बनाने के लिए कैसे डिज़ाइन किया जाता है?
- शब्दों के अर्थों को मशीन-पठनीय लेक्सिकल डेटाबेस में कैसे व्यवस्थित किया जा सकता है?
- मॉर्फोलॉजिकल रूप से समृद्ध भाषाओं में शब्द संरचना को कम्प्यूटेशनल रूप से कैसे दर्शाया जाता है?
- एनोटेटेड ट्रीबैंक डेटा-संचालित भाषाविज्ञान के लिए केंद्रीय क्यों हैं?
Key concepts
- कॉर्पस
- प्रतिनिधित्व
- लेक्सिकल डेटाबेस
- वर्डनेट
- सिनसेट
- मॉर्फोलॉजिकल लेक्सिकॉन
- ट्रीबैंक
- एनोटेशन मानक
Key theories
- कॉर्पस-आधारित अनुभववाद
- कार्यप्रणालीगत स्थिति कि भाषाई सामान्यीकरण और सिस्टम पैरामीटर केवल आत्मनिरीक्षण के बजाय प्रमाणित उपयोग के बड़े नमूनों पर आधारित होने चाहिए।
- लेक्सिकल-सिमेंटिक नेटवर्क
- लेक्सिकॉन को इंद्रियों के एक ग्राफ के रूप में व्यवस्थित करना जो पर्यायवाची और हाइपरनिमी जैसे संबंधों से जुड़े होते हैं, जैसा कि वर्डनेट में है, जो अस्पष्टता से लेकर सिमेंटिक समानता तक के कार्यों का समर्थन करता है।
History
1990 के दशक में अनुभवजन्य तरीकों में बदलाव ने कॉर्पोरा और लेक्सिकल संसाधनों को मौलिक बना दिया। वर्डनेट ने एक पुन: प्रयोज्य लेक्सिकल-सिमेंटिक डेटाबेस प्रदान किया, ब्रिटिश नेशनल कॉर्पस जैसे संतुलित कॉर्पोरा ने डिज़ाइन मानक स्थापित किए, और किलगारिफ़ और ग्रेफेनस्टेट के काम ने वेब को भाषाई अध्ययन के लिए एक विशाल कॉर्पस के रूप में वैध बनाया।
Debates
- संतुलित कॉर्पोरा बनाम कॉर्पस के रूप में वेब
- क्या सावधानीपूर्वक संतुलित कॉर्पोरा या अव्यवस्थित लेकिन विशाल वेब भाषाई जांच के लिए बेहतर सेवा प्रदान करते हैं; क्षेत्र तेजी से दोनों का उपयोग करता है, पैमाने के मुकाबले प्रतिनिधित्व को महत्व देता है।
Key figures
- Christiane Fellbaum
- Adam Kilgarriff
- Christopher Manning
- George Miller
Related topics
Seminal works
- fellbaum1998
- kilgarriff2003
- manning1999
Frequently asked questions
- एक अच्छा कॉर्पस क्या बनाता है?
- एक अच्छा कॉर्पस विश्वसनीय आंकड़ों के लिए पर्याप्त बड़ा होता है और अध्ययन की जा रही भाषा की विविधता का प्रतिनिधि होता है, जिसमें उसके स्रोतों, नमूने और किसी भी एनोटेशन का स्पष्ट दस्तावेज़ीकरण होता है ताकि परिणामों की व्याख्या और पुनरुत्पादन किया जा सके।