क्या एक विषय मॉडल मुझे बताता है कि एक कॉर्पस किस बारे में है?

अपने आप में नहीं। यह सह-घटित होने वाले शब्दों के समूह उत्पन्न करता है जो विषयों के अनुरूप हो सकते हैं लेकिन प्रीप्रोसेसिंग और चुने हुए विषयों की संख्या के प्रति संवेदनशील होते हैं। आउटपुट व्याख्या के लिए एक प्रारंभिक बिंदु है, न कि एक वस्तुनिष्ठ सारांश, और इसे ग्रंथों के विरुद्ध मान्य किया जाना चाहिए।

विषय मॉडलिंग और टेक्स्ट माइनिंग

विषय मॉडलिंग एक कॉर्पस को वैसे पढ़ता है जैसे कोई सरसरी निगाह से पढ़ने वाला पढ़ता है, इसके शब्दों को सह-घटित होने वाले शब्दों के आवर्ती समूहों में छाँटता है जो अक्सर विषयों जैसे दिखते हैं। यह और संबंधित टेक्स्ट-माइनिंग विधियाँ विद्वानों को विशाल संग्रहों का सर्वेक्षण करने देती हैं, लेकिन उनके द्वारा सामने लाए गए पैटर्न की सावधानीपूर्वक व्याख्या की जानी चाहिए।

PaperMind से विषय खोजेंजल्द हीFind papers & topics

Tools & resources

स्लाइड डाउनलोड करें

Learn & explore

वीडियोजल्द ही

Definition

बड़े मानविकी कॉर्पोरा में अव्यक्त विषयगत और शाब्दिक संरचना की खोज के लिए अनसुपरवाइज्ड सांख्यिकीय विधियों — विशेष रूप से संभाव्य विषय मॉडल — और संबंधित टेक्स्ट-माइनिंग तकनीकों का उपयोग।

Scope

बड़े पाठ संग्रहों में संरचना की खोज के लिए अनसुपरवाइज्ड विधियों को शामिल करता है, विशेष रूप से संभाव्य विषय मॉडल जैसे कि लेटेंट डिरिचलेट एलोकेशन, और पैटर्न और प्रवृत्तियों को निकालने के लिए व्यापक टेक्स्ट-माइनिंग तकनीकें। इसमें यह भी शामिल है कि मानवतावादी इन विधियों का उपयोग, व्याख्या और आलोचना कैसे करते हैं। इंजीनियरिंग क्षेत्र के रूप में प्राकृतिक भाषा प्रसंस्करण से भिन्न; यहाँ जोर मानवीय व्याख्या पर है।

Core questions

विषय मॉडल द्वारा उत्पादित समूह क्या हैं, और क्या वे वास्तव में विषय हैं?
विषयों की संख्या और मॉडल मापदंडों का चयन कैसे किया जाना चाहिए?
विषय-मॉडल आउटपुट को कैसे मान्य और जिम्मेदारी से व्याख्या किया जा सकता है?
टेक्स्ट-माइनिंग पैटर्न एक कॉर्पस के बारे में क्या दावा करने का लाइसेंस देते हैं?

Key concepts

लेटेंट डिरिचलेट एलोकेशन (Latent Dirichlet Allocation)
लेटेंट विषय (Latent topic)
दस्तावेज़-विषय वितरण (Document-topic distribution)
अनसुपरवाइज्ड लर्निंग (Unsupervised learning)
मॉडल व्याख्या (Model interpretation)

Key theories

लेटेंट डिरिचलेट एलोकेशन (Latent Dirichlet Allocation): ब्लेई, एनजी और जॉर्डन ने एलडीए (LDA) को पेश किया, एक जनरेटिव संभाव्य मॉडल जो दस्तावेजों को अव्यक्त विषयों के मिश्रण के रूप में प्रस्तुत करता है, प्रत्येक शब्दों पर एक वितरण है।
खोज के रूप में संभाव्य विषय मॉडल: ब्लेई ने विषय मॉडल को बड़े अभिलेखागार की खोज और आयोजन के लिए उपकरणों के रूप में तैयार किया, बिना पर्यवेक्षण के विषयगत संरचना को सामने लाते हुए।
व्याख्यात्मक निर्माण के रूप में विषय: जॉकर जैसे मानवविदों ने साहित्यिक कॉर्पोरा पर विषय मॉडलिंग लागू किया, जबकि श्मिट जैसे आलोचकों ने चेतावनी दी कि विषय सांख्यिकीय कलाकृतियाँ हैं जिनके लिए सावधानीपूर्वक, संशयवादी व्याख्या की आवश्यकता होती है।

History

एलडीए (LDA) को 2003 में पेश किया गया था और इसे विज्ञानों में तेजी से अपनाया गया। लगभग 2010 में, मानवविदों ने साहित्यिक और ऐतिहासिक कॉर्पोरा पर विषय मॉडलिंग लागू करना शुरू किया; जॉकर का मैक्रोएनालिसिस (2013) एक प्रमुख उदाहरण है, जबकि श्मिट की 2012 की आलोचना और अन्य कार्यों ने मॉडल आउटपुट की जिम्मेदारी से व्याख्या कैसे की जाए, इस प्रश्न पर जोर दिया।

Debates

क्या विषय सार्थक हैं या कलाकृतियाँ?: क्या विषय मॉडल द्वारा उत्पादित शब्द समूह व्याख्या योग्य विषयों के अनुरूप हैं या पैरामीटर विकल्पों और प्रीप्रोसेसिंग द्वारा आकारित सांख्यिकीय कलाकृतियाँ हैं।

Key figures

David Blei
Matthew L. Jockers
Benjamin Schmidt

Seminal works

blei2003
blei2012
jockers2013
schmidt2012

Frequently asked questions

क्या एक विषय मॉडल मुझे बताता है कि एक कॉर्पस किस बारे में है?: अपने आप में नहीं। यह सह-घटित होने वाले शब्दों के समूह उत्पन्न करता है जो विषयों के अनुरूप हो सकते हैं लेकिन प्रीप्रोसेसिंग और चुने हुए विषयों की संख्या के प्रति संवेदनशील होते हैं। आउटपुट व्याख्या के लिए एक प्रारंभिक बिंदु है, न कि एक वस्तुनिष्ठ सारांश, और इसे ग्रंथों के विरुद्ध मान्य किया जाना चाहिए।