कॉर्पस निर्माण और क्यूरेशन
प्रत्येक अभिकलनात्मक पठन एक कॉर्पस पर निर्भर करता है, और कोई भी कॉर्पस तटस्थ नहीं होता है। क्या शामिल करना है, ग्रंथों को कैसे साफ और संरचित करना है, और कौन सा मेटाडेटा संलग्न करना है, इसके बारे में चुनाव हर परिणाम को आकार देते हैं जो बाद में आता है - जिससे कॉर्पस निर्माण अपने आप में एक विद्वत्तापूर्ण कार्य बन जाता है।
Definition
अभिकलनात्मक विश्लेषण के लिए उपयोग किए जाने वाले पाठ संग्रहों का सैद्धांतिक संयोजन, प्रसंस्करण, दस्तावेज़ीकरण और रखरखाव, साथ ही उन संग्रहों को कैसे चुना और आकार दिया जाता है, इस पर महत्वपूर्ण ध्यान।
Scope
अभिकलनात्मक विश्लेषण के लिए पाठ्य कॉर्पोरा के निर्माण और प्रबंधन को शामिल करता है: चयन और नमूनाकरण, सफाई और सामान्यीकरण, ऑप्टिकल कैरेक्टर रिकॉग्निशन और प्रतिलेखन, मेटाडेटा, और दस्तावेज़ीकरण। इसमें प्रतिनिधित्व, पूर्वाग्रह और मानविकी डेटासेट की निर्मित प्रकृति पर महत्वपूर्ण प्रतिबिंब शामिल है। यहाँ इसे डिजिटल-मानविकी परिप्रेक्ष्य से देखा गया है न कि कॉर्पस भाषाविज्ञान के रूप में।
Core questions
- किसी कॉर्पस के लिए साहित्य या इतिहास के एक निकाय का प्रतिनिधित्व करने का क्या अर्थ है?
- सफाई, ओसीआर और सामान्यीकरण के निर्णय डाउनस्ट्रीम विश्लेषण को कैसे प्रभावित करते हैं?
- एक पुन: प्रयोज्य कॉर्पस को किस मेटाडेटा और दस्तावेज़ीकरण की आवश्यकता है?
- उपलब्ध डिजिटल संग्रहों से किसके ग्रंथ गायब हैं, और क्यों?
Key concepts
- नमूनाकरण
- प्रतिनिधित्व
- ओसीआर
- सामान्यीकरण
- उत्पत्ति
- दस्तावेज़ीकरण
Key theories
- डेटा निर्मित होता है, दिया नहीं जाता
- गिटेलमैन और योगदानकर्ताओं ने तर्क दिया कि डेटा हमेशा बनाया जाता है - चयनित, साफ किया गया, तैयार किया गया - इसलिए 'कच्चा डेटा' एक गलत नाम है और प्रत्येक डेटासेट अपने निर्माण की धारणाओं को वहन करता है।
- प्रतिनिधित्व और साहित्यिक कॉर्पस
- अंडरवुड ने चर्चा की कि डिजिटल संग्रहों की संरचना और पूर्वाग्रह साहित्यिक परिवर्तन के बारे में दावों को कैसे आकार देते हैं, जिससे नमूनाकरण और उत्पत्ति केंद्रीय पद्धतिगत चिंताएं बन जाती हैं।
- विद्वत्तापूर्ण तर्कों के रूप में संग्रह
- बोडे ने तर्क दिया कि अभिकलनात्मक साहित्यिक इतिहास के अंतर्निहित डिजिटल संग्रह स्वयं व्याख्यात्मक निर्माण हैं, और विद्वानों को यह बताना चाहिए कि एक संग्रह का निर्माण कैसे किया गया था।
History
जैसे-जैसे अभिकलनात्मक पाठ विश्लेषण बढ़ा, विद्वानों ने तेजी से यह पहचानना शुरू किया कि परिणाम उनके पीछे के कॉर्पोरा पर निर्भर करते हैं। गिटेलमैन के 2013 के खंड ने तटस्थ डेटा के विचार को चुनौती दी; बोडे (2018) और अंडरवुड (2019) ने साहित्यिक संग्रहों के निर्माण और पूर्वाग्रह को स्पष्ट किया, जिससे कॉर्पस क्यूरेशन एक पद्धतिगत और महत्वपूर्ण चिंता बन गया।
Debates
- प्रतिनिधित्व बनाम उपलब्धता
- कॉर्पोरा अक्सर जो कुछ भी डिजिटाइज़ किया गया है, उससे बनाए जाते हैं, जो कुछ भाषाओं, अवधियों और विहित कार्यों की ओर झुका होता है, जिससे यह सवाल उठता है कि निष्कर्ष कितनी दूर तक सामान्यीकृत हो सकते हैं।
Key figures
- Ted Underwood
- Katherine Bode
- Lisa Gitelman
Related topics
Seminal works
- gitelman2013
- bode2018
- underwood2019
Frequently asked questions
- मैं ग्रंथों का एक बड़ा ढेर डाउनलोड करके उनका विश्लेषण क्यों नहीं कर सकता?
- क्योंकि उस ढेर की संरचना आपके परिणामों को निर्धारित करती है। उपलब्ध संग्रह असमान हैं और जो कुछ भी डिजिटाइज़ किया गया है, उसकी ओर पक्षपाती हैं, और असंशोधित ओसीआर त्रुटियां पैदा करता है। चयन, उत्पत्ति और प्रसंस्करण का दस्तावेज़ीकरण किसी भी अभिकलनात्मक निष्कर्ष की व्याख्या और उस पर भरोसा करने के लिए आवश्यक है।