कॉर्पस भाषाविज्ञान और वेब कॉर्पोरा
प्रामाणिक पाठ के बड़े नमूनों के माध्यम से भाषा का अध्ययन: कॉर्पोरा का निर्माण और क्वेरी करना, सह-स्थानों और आवृत्तियों को मापना, और एक विशाल भाषाई संसाधन के रूप में वेब का उपयोग करना।
Definition
कॉर्पस भाषाविज्ञान स्वाभाविक रूप से होने वाले पाठ के व्यवस्थित संग्रह के आधार पर भाषा का अनुभवजन्य अध्ययन है, जिसका विश्लेषण आवृत्ति, कॉनकॉर्डेंस और साहचर्य उपायों के साथ किया जाता है।
Scope
पाठ कॉर्पोरा के डिज़ाइन, संकलन और विश्लेषण को शामिल करता है — नमूनाकरण और संतुलन, कॉनकॉर्डेंसिंग और कीवर्ड विश्लेषण, आवृत्ति और सह-स्थान सांख्यिकी जैसे पारस्परिक जानकारी, और कॉर्पस के रूप में वेब का उपयोग। यह वर्णनात्मक कॉर्पस भाषाविज्ञान और कम्प्यूटेशनल प्रणालियों के लिए डेटा की आपूर्ति दोनों को संबोधित करता है। एनोटेशन योजनाएं और ट्रीबैंक एक संबंधित विषय में शामिल हैं।
Core questions
- भाषा की विविधता का निष्पक्ष रूप से प्रतिनिधित्व करने के लिए कॉर्पोरा का नमूना कैसे लिया जाता है?
- पारस्परिक जानकारी जैसे साहचर्य उपाय सह-स्थानों को कैसे प्रकट करते हैं?
- कॉर्पस के रूप में वेब का उपयोग करने के क्या लाभ और नुकसान हैं?
- कॉनकॉर्डेंस भाषाई और शब्दकोश विश्लेषण का समर्थन कैसे करते हैं?
Key concepts
- कॉर्पस डिज़ाइन
- कॉनकॉर्डेंस
- सह-स्थान
- बिंदुवार पारस्परिक जानकारी
- आवृत्ति वितरण
- कीवर्ड विश्लेषण
- कॉर्पस के रूप में वेब
- संतुलित कॉर्पस
Key theories
- सह-स्थान के लिए साहचर्य उपाय
- शब्द युग्मों का पता लगाने के लिए बिंदुवार पारस्परिक जानकारी जैसे आँकड़ों का उपयोग करना जो संयोग से अधिक बार सह-घटित होते हैं, सह-स्थानों को प्रकट करते हैं और शब्दकोश विज्ञान का समर्थन करते हैं।
- कॉर्पस के रूप में वेब
- वेब को एक विशाल, यद्यपि अनियंत्रित, कॉर्पस के रूप में मानना, दुर्लभ घटनाओं और कम-संसाधन वाली किस्मों के अध्ययन को सक्षम करना जबकि प्रतिनिधित्व के प्रश्न उठाना।
History
कॉर्पस भाषाविज्ञान सिनक्लेयर की शब्दकोश परियोजनाओं और संतुलित कॉर्पोरा के निर्माण से विकसित हुआ, जबकि चर्च और हैंक्स का 1989 का पारस्परिक जानकारी पर काम सांख्यिकीय साहचर्य उपायों को मुख्यधारा में लाया। किलगारिफ़ और ग्रेफेनस्टेट ने बाद में वेब को एक वैध, यद्यपि शोरगुल वाला, अभूतपूर्व पैमाने का कॉर्पस के रूप में स्थापित किया।
Debates
- वेब डेटा की प्रतिनिधित्व क्षमता
- वेब कॉर्पोरा विशाल हैं लेकिन असंतुलित और विशेषता बताना मुश्किल है, जिससे इस बात पर बहस छिड़ गई है कि उनसे निकाले गए निष्कर्ष एक भाषा के रूप में कितनी दूर तक सामान्यीकृत होते हैं।
Key figures
- Adam Kilgarriff
- Kenneth Church
- Patrick Hanks
- John Sinclair
Related topics
Seminal works
- church1989
- kilgarriff2003
Frequently asked questions
- सह-स्थान क्या है?
- सह-स्थान शब्दों का एक युग्म या समूह है जो संयोग से अधिक बार एक साथ घटित होता है, जैसे 'स्ट्रांग टी' (strong tea) बजाय 'पावरफुल टी' (powerful tea) के। साहचर्य उपाय उन्हें स्वचालित रूप से पता लगाने में मदद करते हैं।