ScholarGate
सहायक

पाठ प्रतिनिधित्व और वर्गीकरण

पाठ प्रतिनिधित्व और वर्गीकरण में यह शामिल है कि दस्तावेज़ों को विशेषताओं में कैसे बदला जाता है और वे प्रतिनिधित्व श्रेणियों, समानता और अव्यक्त विषयों द्वारा संग्रहों को व्यवस्थित करने में कैसे सहायता करते हैं।

PaperMind से विषय खोजेंजल्द हीFind papers & topics
Tools & resources
स्लाइड डाउनलोड करें
Learn & explore
वीडियोजल्द ही

Definition

पाठ प्रतिनिधित्व और वर्गीकरण दस्तावेज़ों को विशेषता प्रतिनिधित्व में बदलने और उन प्रतिनिधित्वों को असाइन करने, समूहित करने या प्रोजेक्ट करने के तरीकों का एक समूह है, जिसमें ज्ञात वर्गों में नियंत्रित वर्गीकरण, अनियंत्रित क्लस्टरिंग, और अव्यक्त विषय या अर्थ संबंधी मॉडलिंग शामिल है, जो पुनर्प्राप्ति और संग्रह संगठन के लिए उपयोगी है।

Scope

यह क्षेत्र पुनर्प्राप्ति के लिए पाठ के प्रतिनिधित्व और दस्तावेज़ संग्रहों के अनियंत्रित और नियंत्रित संगठन को शामिल करता है: दस्तावेज़ प्रतिनिधित्व और पद भारण, पूर्वनिर्धारित श्रेणियों में स्वचालित पाठ वर्गीकरण, खोजे गए समूहों में पाठ क्लस्टरिंग, और अव्यक्त-अर्थ संबंधी और विषय मॉडल जो छिपी हुई संरचना को उजागर करते हैं। यह प्रतिनिधित्व और संगठन को इस तरह से मानता है कि वे सूचना पुनर्प्राप्ति का समर्थन करते हैं, मशीन लर्निंग पर आधारित होते हुए भी इन विधियों के पुनर्प्राप्ति-उन्मुख उपयोग पर ध्यान केंद्रित करते हैं, न कि सामान्य-उद्देश्यीय मशीन लर्निंग सिद्धांत पर।

Sub-topics

Core questions

  • दस्तावेज़ों को विशेषताओं में कैसे परिवर्तित किया जाता है, और पदों को कैसे भारित किया जाता है?
  • दस्तावेज़ों को पूर्वनिर्धारित श्रेणियों में स्वचालित रूप से कैसे क्रमबद्ध किया जा सकता है?
  • पूर्वनिर्धारित लेबल के बिना किसी संग्रह को समूहों में कैसे समूहित किया जा सकता है?
  • अव्यक्त विषय और अर्थ संबंधी मॉडल पाठ में छिपी हुई संरचना को कैसे प्रकट करते हैं?
  • ये प्रतिनिधित्व पुनर्प्राप्ति, ब्राउज़िंग और फ़िल्टरिंग में कैसे सुधार करते हैं?

Key concepts

  • दस्तावेज़ प्रतिनिधित्व
  • पद भारण (tf-idf)
  • पाठ वर्गीकरण / श्रेणीकरण
  • पाठ क्लस्टरिंग
  • अव्यक्त अर्थ संबंधी विश्लेषण
  • विषय मॉडल
  • विशेषता चयन
  • शब्दावली बेमेल

Key theories

वेक्टर प्रतिनिधित्व और पद भारण
दस्तावेज़ों को भारित विशेषता वैक्टर के रूप में दर्शाना, आमतौर पर tf-idf-शैली के भार वाले पदों के साथ, सामान्य आधार प्रदान करता है जिस पर वर्गीकरण, क्लस्टरिंग और समानता गणना सभी संचालित होते हैं।
नियंत्रित पाठ श्रेणीकरण
लेबल किए गए उदाहरणों को देखते हुए, मशीन-लर्निंग क्लासिफायरियर दस्तावेज़ों को पूर्वनिर्धारित श्रेणियों में असाइन कर सकते हैं, जिसमें विशेषताओं और सीखने वाले का चुनाव सटीकता निर्धारित करता है, जैसा कि पाठ-श्रेणीकरण साहित्य में व्यवस्थित किया गया है।
अव्यक्त अर्थ संबंधी और विषय संरचना
अव्यक्त अर्थ संबंधी विश्लेषण और अव्यक्त डिरिचलेट आवंटन जैसी विधियाँ दस्तावेज़ों को निम्न-आयामी स्थानों या विषय वितरणों में प्रोजेक्ट करती हैं, जो अर्थ संबंधी संबंधों को कैप्चर करती हैं और शब्दावली बेमेल को कम करती हैं।

Clinical relevance

ये विधियाँ स्पैम फ़िल्टरिंग, विषय-आधारित रूटिंग और फ़िल्टरिंग, फ़ैसेटेड ब्राउज़िंग, डुप्लीकेशन हटाने और खोज-परिणाम संगठन को शक्ति प्रदान करती हैं, और विषय तथा अर्थ संबंधी मॉडल अन्वेषी खोज और अनुशंसा का समर्थन करते हैं। दस्तावेज़ प्रतिनिधित्व आधुनिक पुनर्प्राप्ति में विरल पद वैक्टर से सघन सीखे हुए एम्बेडिंग की ओर बढ़ने का भी आधार है।

History

पाठ वर्गीकरण 1980 के दशक में नियम-आधारित प्रणालियों से बढ़कर 1990 के दशक में एक मशीन-लर्निंग अनुशासन बन गया, जिसे सेबेस्टियानी के 2002 के सर्वेक्षण में समेकित किया गया। अव्यक्त अर्थ संबंधी विश्लेषण (1990) ने पुनर्प्राप्ति के लिए आयामी कमी (dimensionality reduction) की शुरुआत की, और अव्यक्त डिरिचलेट आवंटन (2003) ने संभाव्य विषय मॉडलिंग (probabilistic topic modeling) की स्थापना की, दोनों ने पाठ में अर्थ संबंधी संरचना को कैसे दर्शाया जाता है, इसे आकार दिया।

Key figures

  • Fabrizio Sebastiani
  • Susan Dumais
  • David Blei
  • Christopher Manning

Related topics

Seminal works

  • manning2008
  • sebastiani2002
  • deerwester1990
  • blei2003

Frequently asked questions

पाठ वर्गीकरण और पाठ क्लस्टरिंग में क्या अंतर है?
वर्गीकरण नियंत्रित होता है: यह लेबल किए गए प्रशिक्षण उदाहरणों का उपयोग करके दस्तावेज़ों को पूर्वनिर्धारित श्रेणियों में असाइन करता है। क्लस्टरिंग अनियंत्रित होता है: यह पूर्वनिर्धारित श्रेणियों के बिना समानता के आधार पर दस्तावेज़ों को समूहित करता है, ज्ञात लेबलों के अनुरूप होने के बजाय संरचना की खोज करता है।
पुनर्प्राप्ति के लिए अव्यक्त विषय मॉडल क्यों उपयोगी हैं?
विषय और अव्यक्त-अर्थ संबंधी मॉडल दस्तावेज़ों को सटीक शब्दों के बजाय अंतर्निहित विषयों द्वारा दर्शाते हैं, जो उन प्रश्नों और दस्तावेज़ों का मिलान करने में मदद करता है जो एक ही अवधारणा के लिए अलग-अलग शब्दावली का उपयोग करते हैं और विषय के अनुसार संग्रह को ब्राउज़ करने में सहायता करता है।

Methods for this concept

Related concepts