पाठ प्रतिनिधित्व और वर्गीकरण
पाठ प्रतिनिधित्व और वर्गीकरण में यह शामिल है कि दस्तावेज़ों को विशेषताओं में कैसे बदला जाता है और वे प्रतिनिधित्व श्रेणियों, समानता और अव्यक्त विषयों द्वारा संग्रहों को व्यवस्थित करने में कैसे सहायता करते हैं।
Definition
पाठ प्रतिनिधित्व और वर्गीकरण दस्तावेज़ों को विशेषता प्रतिनिधित्व में बदलने और उन प्रतिनिधित्वों को असाइन करने, समूहित करने या प्रोजेक्ट करने के तरीकों का एक समूह है, जिसमें ज्ञात वर्गों में नियंत्रित वर्गीकरण, अनियंत्रित क्लस्टरिंग, और अव्यक्त विषय या अर्थ संबंधी मॉडलिंग शामिल है, जो पुनर्प्राप्ति और संग्रह संगठन के लिए उपयोगी है।
Scope
यह क्षेत्र पुनर्प्राप्ति के लिए पाठ के प्रतिनिधित्व और दस्तावेज़ संग्रहों के अनियंत्रित और नियंत्रित संगठन को शामिल करता है: दस्तावेज़ प्रतिनिधित्व और पद भारण, पूर्वनिर्धारित श्रेणियों में स्वचालित पाठ वर्गीकरण, खोजे गए समूहों में पाठ क्लस्टरिंग, और अव्यक्त-अर्थ संबंधी और विषय मॉडल जो छिपी हुई संरचना को उजागर करते हैं। यह प्रतिनिधित्व और संगठन को इस तरह से मानता है कि वे सूचना पुनर्प्राप्ति का समर्थन करते हैं, मशीन लर्निंग पर आधारित होते हुए भी इन विधियों के पुनर्प्राप्ति-उन्मुख उपयोग पर ध्यान केंद्रित करते हैं, न कि सामान्य-उद्देश्यीय मशीन लर्निंग सिद्धांत पर।
Sub-topics
Core questions
- दस्तावेज़ों को विशेषताओं में कैसे परिवर्तित किया जाता है, और पदों को कैसे भारित किया जाता है?
- दस्तावेज़ों को पूर्वनिर्धारित श्रेणियों में स्वचालित रूप से कैसे क्रमबद्ध किया जा सकता है?
- पूर्वनिर्धारित लेबल के बिना किसी संग्रह को समूहों में कैसे समूहित किया जा सकता है?
- अव्यक्त विषय और अर्थ संबंधी मॉडल पाठ में छिपी हुई संरचना को कैसे प्रकट करते हैं?
- ये प्रतिनिधित्व पुनर्प्राप्ति, ब्राउज़िंग और फ़िल्टरिंग में कैसे सुधार करते हैं?
Key concepts
- दस्तावेज़ प्रतिनिधित्व
- पद भारण (tf-idf)
- पाठ वर्गीकरण / श्रेणीकरण
- पाठ क्लस्टरिंग
- अव्यक्त अर्थ संबंधी विश्लेषण
- विषय मॉडल
- विशेषता चयन
- शब्दावली बेमेल
Key theories
- वेक्टर प्रतिनिधित्व और पद भारण
- दस्तावेज़ों को भारित विशेषता वैक्टर के रूप में दर्शाना, आमतौर पर tf-idf-शैली के भार वाले पदों के साथ, सामान्य आधार प्रदान करता है जिस पर वर्गीकरण, क्लस्टरिंग और समानता गणना सभी संचालित होते हैं।
- नियंत्रित पाठ श्रेणीकरण
- लेबल किए गए उदाहरणों को देखते हुए, मशीन-लर्निंग क्लासिफायरियर दस्तावेज़ों को पूर्वनिर्धारित श्रेणियों में असाइन कर सकते हैं, जिसमें विशेषताओं और सीखने वाले का चुनाव सटीकता निर्धारित करता है, जैसा कि पाठ-श्रेणीकरण साहित्य में व्यवस्थित किया गया है।
- अव्यक्त अर्थ संबंधी और विषय संरचना
- अव्यक्त अर्थ संबंधी विश्लेषण और अव्यक्त डिरिचलेट आवंटन जैसी विधियाँ दस्तावेज़ों को निम्न-आयामी स्थानों या विषय वितरणों में प्रोजेक्ट करती हैं, जो अर्थ संबंधी संबंधों को कैप्चर करती हैं और शब्दावली बेमेल को कम करती हैं।
Clinical relevance
ये विधियाँ स्पैम फ़िल्टरिंग, विषय-आधारित रूटिंग और फ़िल्टरिंग, फ़ैसेटेड ब्राउज़िंग, डुप्लीकेशन हटाने और खोज-परिणाम संगठन को शक्ति प्रदान करती हैं, और विषय तथा अर्थ संबंधी मॉडल अन्वेषी खोज और अनुशंसा का समर्थन करते हैं। दस्तावेज़ प्रतिनिधित्व आधुनिक पुनर्प्राप्ति में विरल पद वैक्टर से सघन सीखे हुए एम्बेडिंग की ओर बढ़ने का भी आधार है।
History
पाठ वर्गीकरण 1980 के दशक में नियम-आधारित प्रणालियों से बढ़कर 1990 के दशक में एक मशीन-लर्निंग अनुशासन बन गया, जिसे सेबेस्टियानी के 2002 के सर्वेक्षण में समेकित किया गया। अव्यक्त अर्थ संबंधी विश्लेषण (1990) ने पुनर्प्राप्ति के लिए आयामी कमी (dimensionality reduction) की शुरुआत की, और अव्यक्त डिरिचलेट आवंटन (2003) ने संभाव्य विषय मॉडलिंग (probabilistic topic modeling) की स्थापना की, दोनों ने पाठ में अर्थ संबंधी संरचना को कैसे दर्शाया जाता है, इसे आकार दिया।
Key figures
- Fabrizio Sebastiani
- Susan Dumais
- David Blei
- Christopher Manning
Related topics
Seminal works
- manning2008
- sebastiani2002
- deerwester1990
- blei2003
Frequently asked questions
- पाठ वर्गीकरण और पाठ क्लस्टरिंग में क्या अंतर है?
- वर्गीकरण नियंत्रित होता है: यह लेबल किए गए प्रशिक्षण उदाहरणों का उपयोग करके दस्तावेज़ों को पूर्वनिर्धारित श्रेणियों में असाइन करता है। क्लस्टरिंग अनियंत्रित होता है: यह पूर्वनिर्धारित श्रेणियों के बिना समानता के आधार पर दस्तावेज़ों को समूहित करता है, ज्ञात लेबलों के अनुरूप होने के बजाय संरचना की खोज करता है।
- पुनर्प्राप्ति के लिए अव्यक्त विषय मॉडल क्यों उपयोगी हैं?
- विषय और अव्यक्त-अर्थ संबंधी मॉडल दस्तावेज़ों को सटीक शब्दों के बजाय अंतर्निहित विषयों द्वारा दर्शाते हैं, जो उन प्रश्नों और दस्तावेज़ों का मिलान करने में मदद करता है जो एक ही अवधारणा के लिए अलग-अलग शब्दावली का उपयोग करते हैं और विषय के अनुसार संग्रह को ब्राउज़ करने में सहायता करता है।