विषय मॉडलिंग और टेक्स्ट माइनिंग
विषय मॉडलिंग एक कॉर्पस को वैसे पढ़ता है जैसे कोई सरसरी निगाह से पढ़ने वाला पढ़ता है, इसके शब्दों को सह-घटित होने वाले शब्दों के आवर्ती समूहों में छाँटता है जो अक्सर विषयों जैसे दिखते हैं। यह और संबंधित टेक्स्ट-माइनिंग विधियाँ विद्वानों को विशाल संग्रहों का सर्वेक्षण करने देती हैं, लेकिन उनके द्वारा सामने लाए गए पैटर्न की सावधानीपूर्वक व्याख्या की जानी चाहिए।
Definition
बड़े मानविकी कॉर्पोरा में अव्यक्त विषयगत और शाब्दिक संरचना की खोज के लिए अनसुपरवाइज्ड सांख्यिकीय विधियों — विशेष रूप से संभाव्य विषय मॉडल — और संबंधित टेक्स्ट-माइनिंग तकनीकों का उपयोग।
Scope
बड़े पाठ संग्रहों में संरचना की खोज के लिए अनसुपरवाइज्ड विधियों को शामिल करता है, विशेष रूप से संभाव्य विषय मॉडल जैसे कि लेटेंट डिरिचलेट एलोकेशन, और पैटर्न और प्रवृत्तियों को निकालने के लिए व्यापक टेक्स्ट-माइनिंग तकनीकें। इसमें यह भी शामिल है कि मानवतावादी इन विधियों का उपयोग, व्याख्या और आलोचना कैसे करते हैं। इंजीनियरिंग क्षेत्र के रूप में प्राकृतिक भाषा प्रसंस्करण से भिन्न; यहाँ जोर मानवीय व्याख्या पर है।
Core questions
- विषय मॉडल द्वारा उत्पादित समूह क्या हैं, और क्या वे वास्तव में विषय हैं?
- विषयों की संख्या और मॉडल मापदंडों का चयन कैसे किया जाना चाहिए?
- विषय-मॉडल आउटपुट को कैसे मान्य और जिम्मेदारी से व्याख्या किया जा सकता है?
- टेक्स्ट-माइनिंग पैटर्न एक कॉर्पस के बारे में क्या दावा करने का लाइसेंस देते हैं?
Key concepts
- लेटेंट डिरिचलेट एलोकेशन (Latent Dirichlet Allocation)
- लेटेंट विषय (Latent topic)
- दस्तावेज़-विषय वितरण (Document-topic distribution)
- अनसुपरवाइज्ड लर्निंग (Unsupervised learning)
- मॉडल व्याख्या (Model interpretation)
Key theories
- लेटेंट डिरिचलेट एलोकेशन (Latent Dirichlet Allocation)
- ब्लेई, एनजी और जॉर्डन ने एलडीए (LDA) को पेश किया, एक जनरेटिव संभाव्य मॉडल जो दस्तावेजों को अव्यक्त विषयों के मिश्रण के रूप में प्रस्तुत करता है, प्रत्येक शब्दों पर एक वितरण है।
- खोज के रूप में संभाव्य विषय मॉडल
- ब्लेई ने विषय मॉडल को बड़े अभिलेखागार की खोज और आयोजन के लिए उपकरणों के रूप में तैयार किया, बिना पर्यवेक्षण के विषयगत संरचना को सामने लाते हुए।
- व्याख्यात्मक निर्माण के रूप में विषय
- जॉकर जैसे मानवविदों ने साहित्यिक कॉर्पोरा पर विषय मॉडलिंग लागू किया, जबकि श्मिट जैसे आलोचकों ने चेतावनी दी कि विषय सांख्यिकीय कलाकृतियाँ हैं जिनके लिए सावधानीपूर्वक, संशयवादी व्याख्या की आवश्यकता होती है।
History
एलडीए (LDA) को 2003 में पेश किया गया था और इसे विज्ञानों में तेजी से अपनाया गया। लगभग 2010 में, मानवविदों ने साहित्यिक और ऐतिहासिक कॉर्पोरा पर विषय मॉडलिंग लागू करना शुरू किया; जॉकर का मैक्रोएनालिसिस (2013) एक प्रमुख उदाहरण है, जबकि श्मिट की 2012 की आलोचना और अन्य कार्यों ने मॉडल आउटपुट की जिम्मेदारी से व्याख्या कैसे की जाए, इस प्रश्न पर जोर दिया।
Debates
- क्या विषय सार्थक हैं या कलाकृतियाँ?
- क्या विषय मॉडल द्वारा उत्पादित शब्द समूह व्याख्या योग्य विषयों के अनुरूप हैं या पैरामीटर विकल्पों और प्रीप्रोसेसिंग द्वारा आकारित सांख्यिकीय कलाकृतियाँ हैं।
Key figures
- David Blei
- Matthew L. Jockers
- Benjamin Schmidt
Related topics
Seminal works
- blei2003
- blei2012
- jockers2013
- schmidt2012
Frequently asked questions
- क्या एक विषय मॉडल मुझे बताता है कि एक कॉर्पस किस बारे में है?
- अपने आप में नहीं। यह सह-घटित होने वाले शब्दों के समूह उत्पन्न करता है जो विषयों के अनुरूप हो सकते हैं लेकिन प्रीप्रोसेसिंग और चुने हुए विषयों की संख्या के प्रति संवेदनशील होते हैं। आउटपुट व्याख्या के लिए एक प्रारंभिक बिंदु है, न कि एक वस्तुनिष्ठ सारांश, और इसे ग्रंथों के विरुद्ध मान्य किया जाना चाहिए।