मैं ग्रंथों का एक बड़ा ढेर डाउनलोड करके उनका विश्लेषण क्यों नहीं कर सकता?

क्योंकि उस ढेर की संरचना आपके परिणामों को निर्धारित करती है। उपलब्ध संग्रह असमान हैं और जो कुछ भी डिजिटाइज़ किया गया है, उसकी ओर पक्षपाती हैं, और असंशोधित ओसीआर त्रुटियां पैदा करता है। चयन, उत्पत्ति और प्रसंस्करण का दस्तावेज़ीकरण किसी भी अभिकलनात्मक निष्कर्ष की व्याख्या और उस पर भरोसा करने के लिए आवश्यक है।

कॉर्पस निर्माण और क्यूरेशन

प्रत्येक अभिकलनात्मक पठन एक कॉर्पस पर निर्भर करता है, और कोई भी कॉर्पस तटस्थ नहीं होता है। क्या शामिल करना है, ग्रंथों को कैसे साफ और संरचित करना है, और कौन सा मेटाडेटा संलग्न करना है, इसके बारे में चुनाव हर परिणाम को आकार देते हैं जो बाद में आता है - जिससे कॉर्पस निर्माण अपने आप में एक विद्वत्तापूर्ण कार्य बन जाता है।

PaperMind से विषय खोजेंजल्द हीFind papers & topics

Tools & resources

स्लाइड डाउनलोड करें

Learn & explore

वीडियोजल्द ही

Definition

अभिकलनात्मक विश्लेषण के लिए उपयोग किए जाने वाले पाठ संग्रहों का सैद्धांतिक संयोजन, प्रसंस्करण, दस्तावेज़ीकरण और रखरखाव, साथ ही उन संग्रहों को कैसे चुना और आकार दिया जाता है, इस पर महत्वपूर्ण ध्यान।

Scope

अभिकलनात्मक विश्लेषण के लिए पाठ्य कॉर्पोरा के निर्माण और प्रबंधन को शामिल करता है: चयन और नमूनाकरण, सफाई और सामान्यीकरण, ऑप्टिकल कैरेक्टर रिकॉग्निशन और प्रतिलेखन, मेटाडेटा, और दस्तावेज़ीकरण। इसमें प्रतिनिधित्व, पूर्वाग्रह और मानविकी डेटासेट की निर्मित प्रकृति पर महत्वपूर्ण प्रतिबिंब शामिल है। यहाँ इसे डिजिटल-मानविकी परिप्रेक्ष्य से देखा गया है न कि कॉर्पस भाषाविज्ञान के रूप में।

Core questions

किसी कॉर्पस के लिए साहित्य या इतिहास के एक निकाय का प्रतिनिधित्व करने का क्या अर्थ है?
सफाई, ओसीआर और सामान्यीकरण के निर्णय डाउनस्ट्रीम विश्लेषण को कैसे प्रभावित करते हैं?
एक पुन: प्रयोज्य कॉर्पस को किस मेटाडेटा और दस्तावेज़ीकरण की आवश्यकता है?
उपलब्ध डिजिटल संग्रहों से किसके ग्रंथ गायब हैं, और क्यों?

Key concepts

नमूनाकरण
प्रतिनिधित्व
ओसीआर
सामान्यीकरण
उत्पत्ति
दस्तावेज़ीकरण

Key theories

डेटा निर्मित होता है, दिया नहीं जाता: गिटेलमैन और योगदानकर्ताओं ने तर्क दिया कि डेटा हमेशा बनाया जाता है - चयनित, साफ किया गया, तैयार किया गया - इसलिए 'कच्चा डेटा' एक गलत नाम है और प्रत्येक डेटासेट अपने निर्माण की धारणाओं को वहन करता है।
प्रतिनिधित्व और साहित्यिक कॉर्पस: अंडरवुड ने चर्चा की कि डिजिटल संग्रहों की संरचना और पूर्वाग्रह साहित्यिक परिवर्तन के बारे में दावों को कैसे आकार देते हैं, जिससे नमूनाकरण और उत्पत्ति केंद्रीय पद्धतिगत चिंताएं बन जाती हैं।
विद्वत्तापूर्ण तर्कों के रूप में संग्रह: बोडे ने तर्क दिया कि अभिकलनात्मक साहित्यिक इतिहास के अंतर्निहित डिजिटल संग्रह स्वयं व्याख्यात्मक निर्माण हैं, और विद्वानों को यह बताना चाहिए कि एक संग्रह का निर्माण कैसे किया गया था।

History

जैसे-जैसे अभिकलनात्मक पाठ विश्लेषण बढ़ा, विद्वानों ने तेजी से यह पहचानना शुरू किया कि परिणाम उनके पीछे के कॉर्पोरा पर निर्भर करते हैं। गिटेलमैन के 2013 के खंड ने तटस्थ डेटा के विचार को चुनौती दी; बोडे (2018) और अंडरवुड (2019) ने साहित्यिक संग्रहों के निर्माण और पूर्वाग्रह को स्पष्ट किया, जिससे कॉर्पस क्यूरेशन एक पद्धतिगत और महत्वपूर्ण चिंता बन गया।

Debates

प्रतिनिधित्व बनाम उपलब्धता: कॉर्पोरा अक्सर जो कुछ भी डिजिटाइज़ किया गया है, उससे बनाए जाते हैं, जो कुछ भाषाओं, अवधियों और विहित कार्यों की ओर झुका होता है, जिससे यह सवाल उठता है कि निष्कर्ष कितनी दूर तक सामान्यीकृत हो सकते हैं।

Key figures

Ted Underwood
Katherine Bode
Lisa Gitelman

Seminal works

gitelman2013
bode2018
underwood2019

Frequently asked questions

मैं ग्रंथों का एक बड़ा ढेर डाउनलोड करके उनका विश्लेषण क्यों नहीं कर सकता?: क्योंकि उस ढेर की संरचना आपके परिणामों को निर्धारित करती है। उपलब्ध संग्रह असमान हैं और जो कुछ भी डिजिटाइज़ किया गया है, उसकी ओर पक्षपाती हैं, और असंशोधित ओसीआर त्रुटियां पैदा करता है। चयन, उत्पत्ति और प्रसंस्करण का दस्तावेज़ीकरण किसी भी अभिकलनात्मक निष्कर्ष की व्याख्या और उस पर भरोसा करने के लिए आवश्यक है।