ScholarGate
सहायक

अव्यक्त अर्थ संबंधी और विषय मॉडल

अव्यक्त अर्थ संबंधी और विषय मॉडल दस्तावेज़ों को सतही शब्दों के बजाय छिपी हुई थीमों द्वारा दर्शाते हैं, जिससे अर्थ संबंधी संबंध स्थापित होते हैं और प्रश्नों तथा दस्तावेज़ों के बीच शब्दावली बेमेल को कम किया जा सकता है।

PaperMind से विषय खोजेंजल्द हीFind papers & topics
Tools & resources
स्लाइड डाउनलोड करें
Learn & explore
वीडियोजल्द ही

Definition

अव्यक्त अर्थ संबंधी और विषय मॉडल आयामीता-कमी (dimensionality-reduction) और जनरेटिव विधियाँ हैं जो दस्तावेज़ों को कम संख्या में अव्यक्त आयामों या विषयों के संयोजन के रूप में दर्शाते हैं, जो पद-दस्तावेज़ मैट्रिक्स में सह-घटना संरचना से प्राप्त होते हैं, ताकि अर्थ संबंधी संबंधित पद और दस्तावेज़ एक साथ निकट हों।

Scope

यह विषय पाठ में अव्यक्त संरचना को उजागर करने वाली विधियों को शामिल करता है: पद-दस्तावेज़ मैट्रिक्स के खंडित एकल मान अपघटन (truncated singular value decomposition) के माध्यम से अव्यक्त अर्थ संबंधी विश्लेषण (जिसे अव्यक्त अर्थ संबंधी अनुक्रमण भी कहा जाता है), संभाव्य अव्यक्त अर्थ संबंधी अनुक्रमण, और अव्यक्त डिरिचलेट आवंटन (latent Dirichlet allocation) तथा संबंधित संभाव्य विषय मॉडल। यह बताता है कि ये अनुमान पर्यायवाची और अर्थ संबंधी समानता को कैसे पकड़ते हैं, विषयों की व्याख्या कैसे की जाती है, और ये निरूपण पुनर्प्राप्ति और ब्राउज़िंग का समर्थन कैसे करते हैं। यह सामान्य मैट्रिक्स-कारककरण और तंत्रिका-एम्बेडिंग विधियों को उनके अर्थ संबंधी पाठ निरूपण के रूप में उपयोग से परे बाहर करता है।

Core questions

  • खंडित एकल मान अपघटन एक अव्यक्त अर्थ संबंधी स्थान कैसे उत्पन्न करता है?
  • अव्यक्त निरूपण पर्यायवाची और शब्दावली बेमेल को कैसे संबोधित करते हैं?
  • एलडीए (LDA) जैसे संभाव्य विषय मॉडल विषयों से दस्तावेज़ कैसे उत्पन्न करते हैं?
  • परिणामी विषयों की व्याख्या और लेबलिंग कैसे की जाती है?
  • अव्यक्त निरूपण पुनर्प्राप्ति, ब्राउज़िंग और समानता में कैसे सुधार करते हैं?

Key concepts

  • अव्यक्त अर्थ संबंधी विश्लेषण / अनुक्रमण
  • पद-दस्तावेज़ मैट्रिक्स
  • खंडित एकल मान अपघटन
  • आयामीता में कमी
  • पर्यायवाची और अनेकार्थता
  • संभाव्य अव्यक्त अर्थ संबंधी अनुक्रमण
  • अव्यक्त डिरिचलेट आवंटन
  • विषय-शब्द और दस्तावेज़-विषय वितरण

Key theories

अव्यक्त अर्थ संबंधी विश्लेषण
पद-दस्तावेज़ मैट्रिक्स पर खंडित एकल मान अपघटन (truncated singular value decomposition) लागू करने से दस्तावेज़ों और पदों को एक निम्न-आयामी अव्यक्त स्थान में प्रक्षेपित किया जाता है जहाँ अर्थ संबंधी संबंधित आइटम निकट होते हैं, जिससे पर्यायवाची को कम किया जा सकता है और उच्च-क्रम सह-घटना को पकड़ा जा सकता है।
संभाव्य विषय मॉडल
संभाव्य अव्यक्त अर्थ संबंधी अनुक्रमण और अव्यक्त डिरिचलेट आवंटन प्रत्येक दस्तावेज़ को अव्यक्त विषयों के मिश्रण के रूप में मॉडल करते हैं, प्रत्येक शब्दों पर एक वितरण होता है, जो दस्तावेज़ सामग्री का एक जनरेटिव, व्याख्या योग्य विवरण प्रदान करता है।

Clinical relevance

अव्यक्त और विषय मॉडल अर्थ संबंधी खोज, दस्तावेज़ समानता, अनुशंसा और थीम द्वारा कॉर्पस अन्वेषण का समर्थन करते हैं, जिससे सटीक शब्दों के बजाय अवधारणाओं का मिलान करने में मदद मिलती है। वे सघन तंत्रिका एम्बेडिंग (dense neural embeddings) के वैचारिक पूर्ववर्ती हैं, जो अब बड़े पैमाने पर पुनर्प्राप्ति के लिए सीखे गए अर्थ संबंधी निरूपण प्रदान करते हैं।

History

अव्यक्त अर्थ संबंधी विश्लेषण को 1990 में मैट्रिक्स अपघटन के माध्यम से शब्दावली बेमेल को दूर करने के लिए पेश किया गया था। हॉफमैन के 1999 के संभाव्य अव्यक्त अर्थ संबंधी अनुक्रमण ने एक जनरेटिव पुनर्गठन दिया, और ब्लेई, एनजी और जॉर्डन के 2003 के अव्यक्त डिरिचलेट आवंटन ने बायेसियन विषय मॉडलिंग (Bayesian topic modeling) की स्थापना की, जो बड़े पाठ कॉर्पोरा का विश्लेषण करने के लिए एक प्रमुख उपकरण बन गया।

Key figures

  • Susan Dumais
  • Thomas Landauer
  • Thomas Hofmann
  • David Blei

Related topics

Seminal works

  • deerwester1990
  • hofmann1999
  • blei2003

Frequently asked questions

अव्यक्त अर्थ संबंधी मॉडल शब्दावली बेमेल में कैसे मदद करते हैं?
सह-घटना के आधार पर दस्तावेज़ों और पदों को एक साझा अव्यक्त स्थान में प्रक्षेपित करके, ये मॉडल पर्यायवाची और संबंधित पदों को एक साथ निकट रखते हैं। एक प्रश्न और एक प्रासंगिक दस्तावेज़ तब साझा अव्यक्त आयामों के माध्यम से मेल खा सकते हैं, भले ही वे एक ही अवधारणा के लिए अलग-अलग शब्दों का उपयोग करते हों।
अव्यक्त डिरिचलेट आवंटन वास्तव में क्या उत्पन्न करता है?
एलडीए (LDA) विषयों का एक सेट सीखता है, प्रत्येक शब्दों पर एक वितरण होता है, और प्रत्येक दस्तावेज़ को उन विषयों के मिश्रण के रूप में दर्शाता है। यह व्याख्या योग्य थीम और एक कॉम्पैक्ट दस्तावेज़ निरूपण प्रदान करता है जो बड़े संग्रहों को व्यवस्थित करने, खोजने और विश्लेषण करने के लिए उपयोगी है।

Methods for this concept

Related concepts