पाठ समूहन
पाठ समूहन दस्तावेजों को पूर्वनिर्धारित श्रेणियों के बिना समान सामग्री के समूहों में वर्गीकृत करता है, जिससे संग्रह में संरचना का पता चलता है और ब्राउज़िंग तथा पुनर्प्राप्ति में सहायता मिलती है।
Definition
पाठ समूहन एक दस्तावेज़ संग्रह का अपर्यवेक्षित विभाजन है, जिसमें एक समूह के भीतर के दस्तावेज़ अन्य समूहों के दस्तावेज़ों की तुलना में एक-दूसरे से अधिक समान होते हैं, जिसमें दस्तावेज़ अभ्यावेदन पर एक समानता माप का उपयोग किया जाता है और कोई पूर्वनिर्धारित लेबल नहीं होते हैं।
Scope
यह विषय दस्तावेजों के अपर्यवेक्षित समूहन को शामिल करता है: दस्तावेज़ सदिशों पर k-मीन्स जैसी सपाट विभाजन विधियाँ, पदानुक्रमित एग्लोमेरेटिव समूहन, इसमें शामिल समानता माप और मानदंड फलन, और आंतरिक रूप से तथा बाहरी लेबलों के विरुद्ध दोनों तरह से क्लस्टर गुणवत्ता का मूल्यांकन। यह पुनर्प्राप्ति-विशिष्ट प्रेरणाओं को भी शामिल करता है, विशेष रूप से क्लस्टर परिकल्पना और खोज-परिणाम समूहन। यह समूहन को सूचना पुनर्प्राप्ति के लिए एक सेवा के रूप में मानता है, जो पर्यवेक्षित वर्गीकरण और अव्यक्त विषय मॉडल से भिन्न है।
Core questions
- समूहन के लिए दस्तावेजों के बीच समानता को कैसे मापा जाता है?
- k-मीन्स जैसी सपाट विधियाँ पदानुक्रमित एग्लोमेरेटिव समूहन से कैसे भिन्न हैं?
- क्लस्टरों की संख्या का चयन कैसे किया जाता है?
- ग्राउंड-ट्रुथ लेबलों के बिना क्लस्टर गुणवत्ता का मूल्यांकन कैसे किया जाता है?
- क्लस्टर परिकल्पना पुनर्प्राप्ति के लिए क्या निहितार्थ रखती है?
Key concepts
- अपर्यवेक्षित समूहन
- दस्तावेज़ समानता (कोसाइन)
- k-मीन्स समूहन
- पदानुक्रमित एग्लोमेरेटिव समूहन
- मानदंड फलन
- क्लस्टर परिकल्पना
- आंतरिक और बाहरी क्लस्टर मूल्यांकन
- खोज-परिणाम समूहन
Key theories
- क्लस्टर परिकल्पना
- एक ही क्वेरी के लिए प्रासंगिक दस्तावेज़ एक-दूसरे के समान होते हैं, इसलिए समूहन प्रासंगिक दस्तावेजों को एक साथ समूहित कर सकता है, जिससे क्लस्टर-आधारित पुनर्प्राप्ति और परिणाम संगठन को प्रेरणा मिलती है।
- सपाट और पदानुक्रमित समूहन
- k-मीन्स जैसी सपाट विधियाँ एक मानदंड फलन को अनुकूलित करके दस्तावेजों को चुनी हुई संख्या में क्लस्टरों में विभाजित करती हैं, जबकि पदानुक्रमित एग्लोमेरेटिव विधियाँ क्लस्टरों का एक नेस्टेड ट्री बनाती हैं, जिसमें मानदंड का चुनाव दस्तावेज़-समूहन गुणवत्ता को दृढ़ता से प्रभावित करता है।
Clinical relevance
समूहन बड़े दस्तावेज़ सेटों की खोज और उन्हें व्यवस्थित करने में सहायता करता है: उपविषय द्वारा खोज परिणामों का समूहन, समाचारों का डुप्लीकेशन हटाना और उन्हें व्यवस्थित करना, डिजिटल पुस्तकालयों की संरचना करना, और अन्वेषी खोज के लिए अवलोकन प्रदान करना। क्लस्टर परिकल्पना दस्तावेज़ समानता का लाभ उठाने वाली पुनर्प्राप्ति विधियों को भी सूचित करती है।
History
समूहन को पुनर्प्राप्ति में जल्दी लागू किया गया था, जिसमें वैन रिज्सबर्गेन ने 1970 के दशक में क्लस्टर-आधारित पुनर्प्राप्ति के लिए एक तर्क के रूप में क्लस्टर परिकल्पना को स्पष्ट किया था। जैसे-जैसे संग्रह बढ़े, k-मीन्स और द्विभाजित वेरिएंट जैसी स्केलेबल विधियाँ और समूहन मानदंडों की सावधानीपूर्वक तुलना मानक बन गई, और वेब खोज आउटपुट को व्यवस्थित करने के तरीके के रूप में परिणाम समूहन उभरा।
Key figures
- C. J. van Rijsbergen
- George Karypis
- Christopher Manning
Related topics
Seminal works
- vanrijsbergen1979
- manning2008
- zhao2004
Frequently asked questions
- क्लस्टर परिकल्पना क्या है?
- क्लस्टर परिकल्पना कहती है कि एक ही सूचना आवश्यकता के लिए प्रासंगिक दस्तावेज़ एक-दूसरे के समान होते हैं। यदि यह सच है, तो समान दस्तावेजों को समूहित करने से प्रासंगिक दस्तावेज़ एक साथ आते हैं, जिसका उपयोग पुनर्प्राप्ति परिणामों को बेहतर बनाने या व्यवस्थित करने के लिए किया जा सकता है।
- जब कोई लेबल न हों तो आप समूहन का मूल्यांकन कैसे करते हैं?
- आंतरिक माप सीधे डेटा से क्लस्टर सामंजस्य और अलगाव का आकलन करते हैं, जबकि बाहरी माप ज्ञात वर्गीकरण के विरुद्ध क्लस्टरों की तुलना करते हैं जब कोई उपलब्ध होता है। दोनों का उपयोग किया जाता है, क्योंकि समूहन अपर्यवेक्षित होता है और 'शुद्धता' इच्छित उद्देश्य पर निर्भर करती है।