ScholarGate
सहायक

पाठ समूहन

पाठ समूहन दस्तावेजों को पूर्वनिर्धारित श्रेणियों के बिना समान सामग्री के समूहों में वर्गीकृत करता है, जिससे संग्रह में संरचना का पता चलता है और ब्राउज़िंग तथा पुनर्प्राप्ति में सहायता मिलती है।

PaperMind से विषय खोजेंजल्द हीFind papers & topics
Tools & resources
स्लाइड डाउनलोड करें
Learn & explore
वीडियोजल्द ही

Definition

पाठ समूहन एक दस्तावेज़ संग्रह का अपर्यवेक्षित विभाजन है, जिसमें एक समूह के भीतर के दस्तावेज़ अन्य समूहों के दस्तावेज़ों की तुलना में एक-दूसरे से अधिक समान होते हैं, जिसमें दस्तावेज़ अभ्यावेदन पर एक समानता माप का उपयोग किया जाता है और कोई पूर्वनिर्धारित लेबल नहीं होते हैं।

Scope

यह विषय दस्तावेजों के अपर्यवेक्षित समूहन को शामिल करता है: दस्तावेज़ सदिशों पर k-मीन्स जैसी सपाट विभाजन विधियाँ, पदानुक्रमित एग्लोमेरेटिव समूहन, इसमें शामिल समानता माप और मानदंड फलन, और आंतरिक रूप से तथा बाहरी लेबलों के विरुद्ध दोनों तरह से क्लस्टर गुणवत्ता का मूल्यांकन। यह पुनर्प्राप्ति-विशिष्ट प्रेरणाओं को भी शामिल करता है, विशेष रूप से क्लस्टर परिकल्पना और खोज-परिणाम समूहन। यह समूहन को सूचना पुनर्प्राप्ति के लिए एक सेवा के रूप में मानता है, जो पर्यवेक्षित वर्गीकरण और अव्यक्त विषय मॉडल से भिन्न है।

Core questions

  • समूहन के लिए दस्तावेजों के बीच समानता को कैसे मापा जाता है?
  • k-मीन्स जैसी सपाट विधियाँ पदानुक्रमित एग्लोमेरेटिव समूहन से कैसे भिन्न हैं?
  • क्लस्टरों की संख्या का चयन कैसे किया जाता है?
  • ग्राउंड-ट्रुथ लेबलों के बिना क्लस्टर गुणवत्ता का मूल्यांकन कैसे किया जाता है?
  • क्लस्टर परिकल्पना पुनर्प्राप्ति के लिए क्या निहितार्थ रखती है?

Key concepts

  • अपर्यवेक्षित समूहन
  • दस्तावेज़ समानता (कोसाइन)
  • k-मीन्स समूहन
  • पदानुक्रमित एग्लोमेरेटिव समूहन
  • मानदंड फलन
  • क्लस्टर परिकल्पना
  • आंतरिक और बाहरी क्लस्टर मूल्यांकन
  • खोज-परिणाम समूहन

Key theories

क्लस्टर परिकल्पना
एक ही क्वेरी के लिए प्रासंगिक दस्तावेज़ एक-दूसरे के समान होते हैं, इसलिए समूहन प्रासंगिक दस्तावेजों को एक साथ समूहित कर सकता है, जिससे क्लस्टर-आधारित पुनर्प्राप्ति और परिणाम संगठन को प्रेरणा मिलती है।
सपाट और पदानुक्रमित समूहन
k-मीन्स जैसी सपाट विधियाँ एक मानदंड फलन को अनुकूलित करके दस्तावेजों को चुनी हुई संख्या में क्लस्टरों में विभाजित करती हैं, जबकि पदानुक्रमित एग्लोमेरेटिव विधियाँ क्लस्टरों का एक नेस्टेड ट्री बनाती हैं, जिसमें मानदंड का चुनाव दस्तावेज़-समूहन गुणवत्ता को दृढ़ता से प्रभावित करता है।

Clinical relevance

समूहन बड़े दस्तावेज़ सेटों की खोज और उन्हें व्यवस्थित करने में सहायता करता है: उपविषय द्वारा खोज परिणामों का समूहन, समाचारों का डुप्लीकेशन हटाना और उन्हें व्यवस्थित करना, डिजिटल पुस्तकालयों की संरचना करना, और अन्वेषी खोज के लिए अवलोकन प्रदान करना। क्लस्टर परिकल्पना दस्तावेज़ समानता का लाभ उठाने वाली पुनर्प्राप्ति विधियों को भी सूचित करती है।

History

समूहन को पुनर्प्राप्ति में जल्दी लागू किया गया था, जिसमें वैन रिज्सबर्गेन ने 1970 के दशक में क्लस्टर-आधारित पुनर्प्राप्ति के लिए एक तर्क के रूप में क्लस्टर परिकल्पना को स्पष्ट किया था। जैसे-जैसे संग्रह बढ़े, k-मीन्स और द्विभाजित वेरिएंट जैसी स्केलेबल विधियाँ और समूहन मानदंडों की सावधानीपूर्वक तुलना मानक बन गई, और वेब खोज आउटपुट को व्यवस्थित करने के तरीके के रूप में परिणाम समूहन उभरा।

Key figures

  • C. J. van Rijsbergen
  • George Karypis
  • Christopher Manning

Related topics

Seminal works

  • vanrijsbergen1979
  • manning2008
  • zhao2004

Frequently asked questions

क्लस्टर परिकल्पना क्या है?
क्लस्टर परिकल्पना कहती है कि एक ही सूचना आवश्यकता के लिए प्रासंगिक दस्तावेज़ एक-दूसरे के समान होते हैं। यदि यह सच है, तो समान दस्तावेजों को समूहित करने से प्रासंगिक दस्तावेज़ एक साथ आते हैं, जिसका उपयोग पुनर्प्राप्ति परिणामों को बेहतर बनाने या व्यवस्थित करने के लिए किया जा सकता है।
जब कोई लेबल न हों तो आप समूहन का मूल्यांकन कैसे करते हैं?
आंतरिक माप सीधे डेटा से क्लस्टर सामंजस्य और अलगाव का आकलन करते हैं, जबकि बाहरी माप ज्ञात वर्गीकरण के विरुद्ध क्लस्टरों की तुलना करते हैं जब कोई उपलब्ध होता है। दोनों का उपयोग किया जाता है, क्योंकि समूहन अपर्यवेक्षित होता है और 'शुद्धता' इच्छित उद्देश्य पर निर्भर करती है।

Methods for this concept

Related concepts