ScholarGate
सहायक

विषय मॉडलिंग और टेक्स्ट माइनिंग

विषय मॉडलिंग एक कॉर्पस को वैसे पढ़ता है जैसे कोई सरसरी निगाह से पढ़ने वाला पढ़ता है, इसके शब्दों को सह-घटित होने वाले शब्दों के आवर्ती समूहों में छाँटता है जो अक्सर विषयों जैसे दिखते हैं। यह और संबंधित टेक्स्ट-माइनिंग विधियाँ विद्वानों को विशाल संग्रहों का सर्वेक्षण करने देती हैं, लेकिन उनके द्वारा सामने लाए गए पैटर्न की सावधानीपूर्वक व्याख्या की जानी चाहिए।

PaperMind से विषय खोजेंजल्द हीFind papers & topics
Tools & resources
स्लाइड डाउनलोड करें
Learn & explore
वीडियोजल्द ही

Definition

बड़े मानविकी कॉर्पोरा में अव्यक्त विषयगत और शाब्दिक संरचना की खोज के लिए अनसुपरवाइज्ड सांख्यिकीय विधियों — विशेष रूप से संभाव्य विषय मॉडल — और संबंधित टेक्स्ट-माइनिंग तकनीकों का उपयोग।

Scope

बड़े पाठ संग्रहों में संरचना की खोज के लिए अनसुपरवाइज्ड विधियों को शामिल करता है, विशेष रूप से संभाव्य विषय मॉडल जैसे कि लेटेंट डिरिचलेट एलोकेशन, और पैटर्न और प्रवृत्तियों को निकालने के लिए व्यापक टेक्स्ट-माइनिंग तकनीकें। इसमें यह भी शामिल है कि मानवतावादी इन विधियों का उपयोग, व्याख्या और आलोचना कैसे करते हैं। इंजीनियरिंग क्षेत्र के रूप में प्राकृतिक भाषा प्रसंस्करण से भिन्न; यहाँ जोर मानवीय व्याख्या पर है।

Core questions

  • विषय मॉडल द्वारा उत्पादित समूह क्या हैं, और क्या वे वास्तव में विषय हैं?
  • विषयों की संख्या और मॉडल मापदंडों का चयन कैसे किया जाना चाहिए?
  • विषय-मॉडल आउटपुट को कैसे मान्य और जिम्मेदारी से व्याख्या किया जा सकता है?
  • टेक्स्ट-माइनिंग पैटर्न एक कॉर्पस के बारे में क्या दावा करने का लाइसेंस देते हैं?

Key concepts

  • लेटेंट डिरिचलेट एलोकेशन (Latent Dirichlet Allocation)
  • लेटेंट विषय (Latent topic)
  • दस्तावेज़-विषय वितरण (Document-topic distribution)
  • अनसुपरवाइज्ड लर्निंग (Unsupervised learning)
  • मॉडल व्याख्या (Model interpretation)

Key theories

लेटेंट डिरिचलेट एलोकेशन (Latent Dirichlet Allocation)
ब्लेई, एनजी और जॉर्डन ने एलडीए (LDA) को पेश किया, एक जनरेटिव संभाव्य मॉडल जो दस्तावेजों को अव्यक्त विषयों के मिश्रण के रूप में प्रस्तुत करता है, प्रत्येक शब्दों पर एक वितरण है।
खोज के रूप में संभाव्य विषय मॉडल
ब्लेई ने विषय मॉडल को बड़े अभिलेखागार की खोज और आयोजन के लिए उपकरणों के रूप में तैयार किया, बिना पर्यवेक्षण के विषयगत संरचना को सामने लाते हुए।
व्याख्यात्मक निर्माण के रूप में विषय
जॉकर जैसे मानवविदों ने साहित्यिक कॉर्पोरा पर विषय मॉडलिंग लागू किया, जबकि श्मिट जैसे आलोचकों ने चेतावनी दी कि विषय सांख्यिकीय कलाकृतियाँ हैं जिनके लिए सावधानीपूर्वक, संशयवादी व्याख्या की आवश्यकता होती है।

History

एलडीए (LDA) को 2003 में पेश किया गया था और इसे विज्ञानों में तेजी से अपनाया गया। लगभग 2010 में, मानवविदों ने साहित्यिक और ऐतिहासिक कॉर्पोरा पर विषय मॉडलिंग लागू करना शुरू किया; जॉकर का मैक्रोएनालिसिस (2013) एक प्रमुख उदाहरण है, जबकि श्मिट की 2012 की आलोचना और अन्य कार्यों ने मॉडल आउटपुट की जिम्मेदारी से व्याख्या कैसे की जाए, इस प्रश्न पर जोर दिया।

Debates

क्या विषय सार्थक हैं या कलाकृतियाँ?
क्या विषय मॉडल द्वारा उत्पादित शब्द समूह व्याख्या योग्य विषयों के अनुरूप हैं या पैरामीटर विकल्पों और प्रीप्रोसेसिंग द्वारा आकारित सांख्यिकीय कलाकृतियाँ हैं।

Key figures

  • David Blei
  • Matthew L. Jockers
  • Benjamin Schmidt

Related topics

Seminal works

  • blei2003
  • blei2012
  • jockers2013
  • schmidt2012

Frequently asked questions

क्या एक विषय मॉडल मुझे बताता है कि एक कॉर्पस किस बारे में है?
अपने आप में नहीं। यह सह-घटित होने वाले शब्दों के समूह उत्पन्न करता है जो विषयों के अनुरूप हो सकते हैं लेकिन प्रीप्रोसेसिंग और चुने हुए विषयों की संख्या के प्रति संवेदनशील होते हैं। आउटपुट व्याख्या के लिए एक प्रारंभिक बिंदु है, न कि एक वस्तुनिष्ठ सारांश, और इसे ग्रंथों के विरुद्ध मान्य किया जाना चाहिए।

Methods for this concept

Related concepts