पाठ वर्गीकरण और पाठ क्लस्टरिंग में क्या अंतर है?

वर्गीकरण नियंत्रित होता है: यह लेबल किए गए प्रशिक्षण उदाहरणों का उपयोग करके दस्तावेज़ों को पूर्वनिर्धारित श्रेणियों में असाइन करता है। क्लस्टरिंग अनियंत्रित होता है: यह पूर्वनिर्धारित श्रेणियों के बिना समानता के आधार पर दस्तावेज़ों को समूहित करता है, ज्ञात लेबलों के अनुरूप होने के बजाय संरचना की खोज करता है।

पुनर्प्राप्ति के लिए अव्यक्त विषय मॉडल क्यों उपयोगी हैं?

विषय और अव्यक्त-अर्थ संबंधी मॉडल दस्तावेज़ों को सटीक शब्दों के बजाय अंतर्निहित विषयों द्वारा दर्शाते हैं, जो उन प्रश्नों और दस्तावेज़ों का मिलान करने में मदद करता है जो एक ही अवधारणा के लिए अलग-अलग शब्दावली का उपयोग करते हैं और विषय के अनुसार संग्रह को ब्राउज़ करने में सहायता करता है।

पाठ प्रतिनिधित्व और वर्गीकरण

पाठ प्रतिनिधित्व और वर्गीकरण में यह शामिल है कि दस्तावेज़ों को विशेषताओं में कैसे बदला जाता है और वे प्रतिनिधित्व श्रेणियों, समानता और अव्यक्त विषयों द्वारा संग्रहों को व्यवस्थित करने में कैसे सहायता करते हैं।

PaperMind से विषय खोजेंजल्द हीFind papers & topics

Tools & resources

स्लाइड डाउनलोड करें

Learn & explore

वीडियोजल्द ही

Definition

पाठ प्रतिनिधित्व और वर्गीकरण दस्तावेज़ों को विशेषता प्रतिनिधित्व में बदलने और उन प्रतिनिधित्वों को असाइन करने, समूहित करने या प्रोजेक्ट करने के तरीकों का एक समूह है, जिसमें ज्ञात वर्गों में नियंत्रित वर्गीकरण, अनियंत्रित क्लस्टरिंग, और अव्यक्त विषय या अर्थ संबंधी मॉडलिंग शामिल है, जो पुनर्प्राप्ति और संग्रह संगठन के लिए उपयोगी है।

Scope

यह क्षेत्र पुनर्प्राप्ति के लिए पाठ के प्रतिनिधित्व और दस्तावेज़ संग्रहों के अनियंत्रित और नियंत्रित संगठन को शामिल करता है: दस्तावेज़ प्रतिनिधित्व और पद भारण, पूर्वनिर्धारित श्रेणियों में स्वचालित पाठ वर्गीकरण, खोजे गए समूहों में पाठ क्लस्टरिंग, और अव्यक्त-अर्थ संबंधी और विषय मॉडल जो छिपी हुई संरचना को उजागर करते हैं। यह प्रतिनिधित्व और संगठन को इस तरह से मानता है कि वे सूचना पुनर्प्राप्ति का समर्थन करते हैं, मशीन लर्निंग पर आधारित होते हुए भी इन विधियों के पुनर्प्राप्ति-उन्मुख उपयोग पर ध्यान केंद्रित करते हैं, न कि सामान्य-उद्देश्यीय मशीन लर्निंग सिद्धांत पर।

Sub-topics

Core questions

दस्तावेज़ों को विशेषताओं में कैसे परिवर्तित किया जाता है, और पदों को कैसे भारित किया जाता है?
दस्तावेज़ों को पूर्वनिर्धारित श्रेणियों में स्वचालित रूप से कैसे क्रमबद्ध किया जा सकता है?
पूर्वनिर्धारित लेबल के बिना किसी संग्रह को समूहों में कैसे समूहित किया जा सकता है?
अव्यक्त विषय और अर्थ संबंधी मॉडल पाठ में छिपी हुई संरचना को कैसे प्रकट करते हैं?
ये प्रतिनिधित्व पुनर्प्राप्ति, ब्राउज़िंग और फ़िल्टरिंग में कैसे सुधार करते हैं?

Key concepts

दस्तावेज़ प्रतिनिधित्व
पद भारण (tf-idf)
पाठ वर्गीकरण / श्रेणीकरण
पाठ क्लस्टरिंग
अव्यक्त अर्थ संबंधी विश्लेषण
विषय मॉडल
विशेषता चयन
शब्दावली बेमेल

Key theories

वेक्टर प्रतिनिधित्व और पद भारण: दस्तावेज़ों को भारित विशेषता वैक्टर के रूप में दर्शाना, आमतौर पर tf-idf-शैली के भार वाले पदों के साथ, सामान्य आधार प्रदान करता है जिस पर वर्गीकरण, क्लस्टरिंग और समानता गणना सभी संचालित होते हैं।
नियंत्रित पाठ श्रेणीकरण: लेबल किए गए उदाहरणों को देखते हुए, मशीन-लर्निंग क्लासिफायरियर दस्तावेज़ों को पूर्वनिर्धारित श्रेणियों में असाइन कर सकते हैं, जिसमें विशेषताओं और सीखने वाले का चुनाव सटीकता निर्धारित करता है, जैसा कि पाठ-श्रेणीकरण साहित्य में व्यवस्थित किया गया है।
अव्यक्त अर्थ संबंधी और विषय संरचना: अव्यक्त अर्थ संबंधी विश्लेषण और अव्यक्त डिरिचलेट आवंटन जैसी विधियाँ दस्तावेज़ों को निम्न-आयामी स्थानों या विषय वितरणों में प्रोजेक्ट करती हैं, जो अर्थ संबंधी संबंधों को कैप्चर करती हैं और शब्दावली बेमेल को कम करती हैं।

Clinical relevance

ये विधियाँ स्पैम फ़िल्टरिंग, विषय-आधारित रूटिंग और फ़िल्टरिंग, फ़ैसेटेड ब्राउज़िंग, डुप्लीकेशन हटाने और खोज-परिणाम संगठन को शक्ति प्रदान करती हैं, और विषय तथा अर्थ संबंधी मॉडल अन्वेषी खोज और अनुशंसा का समर्थन करते हैं। दस्तावेज़ प्रतिनिधित्व आधुनिक पुनर्प्राप्ति में विरल पद वैक्टर से सघन सीखे हुए एम्बेडिंग की ओर बढ़ने का भी आधार है।

History

पाठ वर्गीकरण 1980 के दशक में नियम-आधारित प्रणालियों से बढ़कर 1990 के दशक में एक मशीन-लर्निंग अनुशासन बन गया, जिसे सेबेस्टियानी के 2002 के सर्वेक्षण में समेकित किया गया। अव्यक्त अर्थ संबंधी विश्लेषण (1990) ने पुनर्प्राप्ति के लिए आयामी कमी (dimensionality reduction) की शुरुआत की, और अव्यक्त डिरिचलेट आवंटन (2003) ने संभाव्य विषय मॉडलिंग (probabilistic topic modeling) की स्थापना की, दोनों ने पाठ में अर्थ संबंधी संरचना को कैसे दर्शाया जाता है, इसे आकार दिया।

Key figures

Fabrizio Sebastiani
Susan Dumais
David Blei
Christopher Manning

Seminal works

manning2008
sebastiani2002
deerwester1990
blei2003

Frequently asked questions

पाठ वर्गीकरण और पाठ क्लस्टरिंग में क्या अंतर है?: वर्गीकरण नियंत्रित होता है: यह लेबल किए गए प्रशिक्षण उदाहरणों का उपयोग करके दस्तावेज़ों को पूर्वनिर्धारित श्रेणियों में असाइन करता है। क्लस्टरिंग अनियंत्रित होता है: यह पूर्वनिर्धारित श्रेणियों के बिना समानता के आधार पर दस्तावेज़ों को समूहित करता है, ज्ञात लेबलों के अनुरूप होने के बजाय संरचना की खोज करता है।
पुनर्प्राप्ति के लिए अव्यक्त विषय मॉडल क्यों उपयोगी हैं?: विषय और अव्यक्त-अर्थ संबंधी मॉडल दस्तावेज़ों को सटीक शब्दों के बजाय अंतर्निहित विषयों द्वारा दर्शाते हैं, जो उन प्रश्नों और दस्तावेज़ों का मिलान करने में मदद करता है जो एक ही अवधारणा के लिए अलग-अलग शब्दावली का उपयोग करते हैं और विषय के अनुसार संग्रह को ब्राउज़ करने में सहायता करता है।