ScholarGate
सहायक

कॉर्पस निर्माण और क्यूरेशन

प्रत्येक अभिकलनात्मक पठन एक कॉर्पस पर निर्भर करता है, और कोई भी कॉर्पस तटस्थ नहीं होता है। क्या शामिल करना है, ग्रंथों को कैसे साफ और संरचित करना है, और कौन सा मेटाडेटा संलग्न करना है, इसके बारे में चुनाव हर परिणाम को आकार देते हैं जो बाद में आता है - जिससे कॉर्पस निर्माण अपने आप में एक विद्वत्तापूर्ण कार्य बन जाता है।

PaperMind से विषय खोजेंजल्द हीFind papers & topics
Tools & resources
स्लाइड डाउनलोड करें
Learn & explore
वीडियोजल्द ही

Definition

अभिकलनात्मक विश्लेषण के लिए उपयोग किए जाने वाले पाठ संग्रहों का सैद्धांतिक संयोजन, प्रसंस्करण, दस्तावेज़ीकरण और रखरखाव, साथ ही उन संग्रहों को कैसे चुना और आकार दिया जाता है, इस पर महत्वपूर्ण ध्यान।

Scope

अभिकलनात्मक विश्लेषण के लिए पाठ्य कॉर्पोरा के निर्माण और प्रबंधन को शामिल करता है: चयन और नमूनाकरण, सफाई और सामान्यीकरण, ऑप्टिकल कैरेक्टर रिकॉग्निशन और प्रतिलेखन, मेटाडेटा, और दस्तावेज़ीकरण। इसमें प्रतिनिधित्व, पूर्वाग्रह और मानविकी डेटासेट की निर्मित प्रकृति पर महत्वपूर्ण प्रतिबिंब शामिल है। यहाँ इसे डिजिटल-मानविकी परिप्रेक्ष्य से देखा गया है न कि कॉर्पस भाषाविज्ञान के रूप में।

Core questions

  • किसी कॉर्पस के लिए साहित्य या इतिहास के एक निकाय का प्रतिनिधित्व करने का क्या अर्थ है?
  • सफाई, ओसीआर और सामान्यीकरण के निर्णय डाउनस्ट्रीम विश्लेषण को कैसे प्रभावित करते हैं?
  • एक पुन: प्रयोज्य कॉर्पस को किस मेटाडेटा और दस्तावेज़ीकरण की आवश्यकता है?
  • उपलब्ध डिजिटल संग्रहों से किसके ग्रंथ गायब हैं, और क्यों?

Key concepts

  • नमूनाकरण
  • प्रतिनिधित्व
  • ओसीआर
  • सामान्यीकरण
  • उत्पत्ति
  • दस्तावेज़ीकरण

Key theories

डेटा निर्मित होता है, दिया नहीं जाता
गिटेलमैन और योगदानकर्ताओं ने तर्क दिया कि डेटा हमेशा बनाया जाता है - चयनित, साफ किया गया, तैयार किया गया - इसलिए 'कच्चा डेटा' एक गलत नाम है और प्रत्येक डेटासेट अपने निर्माण की धारणाओं को वहन करता है।
प्रतिनिधित्व और साहित्यिक कॉर्पस
अंडरवुड ने चर्चा की कि डिजिटल संग्रहों की संरचना और पूर्वाग्रह साहित्यिक परिवर्तन के बारे में दावों को कैसे आकार देते हैं, जिससे नमूनाकरण और उत्पत्ति केंद्रीय पद्धतिगत चिंताएं बन जाती हैं।
विद्वत्तापूर्ण तर्कों के रूप में संग्रह
बोडे ने तर्क दिया कि अभिकलनात्मक साहित्यिक इतिहास के अंतर्निहित डिजिटल संग्रह स्वयं व्याख्यात्मक निर्माण हैं, और विद्वानों को यह बताना चाहिए कि एक संग्रह का निर्माण कैसे किया गया था।

History

जैसे-जैसे अभिकलनात्मक पाठ विश्लेषण बढ़ा, विद्वानों ने तेजी से यह पहचानना शुरू किया कि परिणाम उनके पीछे के कॉर्पोरा पर निर्भर करते हैं। गिटेलमैन के 2013 के खंड ने तटस्थ डेटा के विचार को चुनौती दी; बोडे (2018) और अंडरवुड (2019) ने साहित्यिक संग्रहों के निर्माण और पूर्वाग्रह को स्पष्ट किया, जिससे कॉर्पस क्यूरेशन एक पद्धतिगत और महत्वपूर्ण चिंता बन गया।

Debates

प्रतिनिधित्व बनाम उपलब्धता
कॉर्पोरा अक्सर जो कुछ भी डिजिटाइज़ किया गया है, उससे बनाए जाते हैं, जो कुछ भाषाओं, अवधियों और विहित कार्यों की ओर झुका होता है, जिससे यह सवाल उठता है कि निष्कर्ष कितनी दूर तक सामान्यीकृत हो सकते हैं।

Key figures

  • Ted Underwood
  • Katherine Bode
  • Lisa Gitelman

Related topics

Seminal works

  • gitelman2013
  • bode2018
  • underwood2019

Frequently asked questions

मैं ग्रंथों का एक बड़ा ढेर डाउनलोड करके उनका विश्लेषण क्यों नहीं कर सकता?
क्योंकि उस ढेर की संरचना आपके परिणामों को निर्धारित करती है। उपलब्ध संग्रह असमान हैं और जो कुछ भी डिजिटाइज़ किया गया है, उसकी ओर पक्षपाती हैं, और असंशोधित ओसीआर त्रुटियां पैदा करता है। चयन, उत्पत्ति और प्रसंस्करण का दस्तावेज़ीकरण किसी भी अभिकलनात्मक निष्कर्ष की व्याख्या और उस पर भरोसा करने के लिए आवश्यक है।

Methods for this concept

Related concepts