ScholarGate
सहायक

दस्तावेज़ प्रतिनिधित्व और भारण

दस्तावेज़ प्रतिनिधित्व कच्चे पाठ को भारित विशेषताओं के एक संरचित सेट में बदल देता है, यह तय करता है कि क्या एक पद के रूप में गिना जाता है और प्रत्येक पद को कितना योगदान देना चाहिए।

PaperMind से विषय खोजेंजल्द हीFind papers & topics
Tools & resources
स्लाइड डाउनलोड करें
Learn & explore
वीडियोजल्द ही

Definition

दस्तावेज़ प्रतिनिधित्व और भारण कच्चे दस्तावेज़ पाठ को विशेषताओं के एक वेक्टर में बदलने की प्रक्रिया है, आमतौर पर पदों में, पाठ को टोकनाइज (tokenize) और सामान्यीकृत (normalize) करके और प्रत्येक विशेषता को एक भार निर्दिष्ट करके जो दस्तावेज़ के भीतर और संग्रह में उसके महत्व को दर्शाता है।

Scope

यह विषय उन चरणों को शामिल करता है जो दस्तावेज़ों को खोज योग्य प्रतिनिधित्व में परिवर्तित करते हैं: टोकनाइजेशन (tokenization), सामान्यीकरण (normalization), स्टॉप-वर्ड (stop-word) हैंडलिंग, स्टेमिंग (stemming) और लेमेटाइजेशन (lemmatization), और बैग-ऑफ-वर्ड्स (bag-of-words) या n-ग्राम (n-gram) फीचर वैक्टर का निर्माण, साथ ही कच्चे और लॉगरिदमिक पद आवृत्ति, व्युत्क्रम दस्तावेज़ आवृत्ति (inverse document frequency), और लंबाई सामान्यीकरण (length normalization) के साथ tf-idf जैसी पद-भारण योजनाएं। यह उन विकल्पों पर विचार करता है जो पुनर्प्राप्ति (retrieval), वर्गीकरण (classification) और क्लस्टरिंग (clustering) को पोषित करने वाले प्रतिनिधित्व को आकार देते हैं, जबकि रैंकिंग मॉडल (ranking models) और अव्यक्त प्रतिनिधित्व (latent representations) को आसन्न विषयों के लिए छोड़ देते हैं।

Core questions

  • कच्चे पाठ को पदों में कैसे टोकनाइज और सामान्यीकृत किया जाता है?
  • स्टॉप-वर्ड हटाने, स्टेमिंग और लेमेटाइजेशन का क्या प्रभाव पड़ता है?
  • पद आवृत्ति अकेले एक खराब भार क्यों बनाती है, और इसे कैसे रूपांतरित किया जाता है?
  • व्युत्क्रम दस्तावेज़ आवृत्ति एक संग्रह में पद के महत्व को कैसे कैप्चर करती है?
  • लंबाई सामान्यीकरण लंबे और छोटे दस्तावेज़ों को तुलनीय कैसे रखता है?

Key concepts

  • टोकनाइजेशन और सामान्यीकरण
  • स्टॉप शब्द
  • स्टेमिंग और लेमेटाइजेशन
  • बैग-ऑफ-वर्ड्स और n-ग्राम
  • पद आवृत्ति (कच्ची और लॉग)
  • व्युत्क्रम दस्तावेज़ आवृत्ति
  • tf-idf वेरिएंट
  • लंबाई सामान्यीकरण

Key theories

बैग-ऑफ-वर्ड्स प्रतिनिधित्व
एक दस्तावेज़ को पदों के एक अव्यवस्थित मल्टीसेट (multiset) के रूप में मानना, शब्द क्रम की उपेक्षा करना, एक सरल, प्रभावी फीचर वेक्टर (feature vector) उत्पन्न करता है जो सिंटैक्स (syntax) को त्यागने के बावजूद शास्त्रीय पुनर्प्राप्ति, वर्गीकरण और क्लस्टरिंग को रेखांकित करता है।
tf-idf भारण योजनाएं
एक (अक्सर नम) पद-आवृत्ति घटक को व्युत्क्रम दस्तावेज़ आवृत्ति और लंबाई सामान्यीकरण के साथ संयोजित करने से ऐसे भार उत्पन्न होते हैं जो एक दस्तावेज़ में बार-बार आने वाले लेकिन संग्रह में दुर्लभ पदों पर जोर देते हैं, जिसमें कई प्रलेखित वेरिएंट होते हैं।

Clinical relevance

प्रतिनिधित्व और भारण के विकल्प खोज रैंकिंग से लेकर स्पैम फ़िल्टरिंग और क्लस्टरिंग तक, हर डाउनस्ट्रीम कार्य की गुणवत्ता को सीधे प्रभावित करते हैं। tf-idf प्रतिनिधित्व एक मजबूत, व्याख्या योग्य आधार रेखा बने हुए हैं, और टोकनाइजेशन और सामान्यीकरण के समान डिज़ाइन प्रश्न आधुनिक पाइपलाइनों में बने रहते हैं जो सीखे हुए एम्बेडिंग (learned embeddings) को पोषित करते हैं।

History

दस्तावेज़ प्रतिनिधित्व 1960 और 1970 के दशक में वेक्टर स्पेस मॉडल (vector space model) के साथ परिपक्व हुआ, जिसमें स्पार्क जोन्स (Spärck Jones) ने 1972 में व्युत्क्रम दस्तावेज़ आवृत्ति (inverse document frequency) की शुरुआत की और साल्टन (Salton) और बकले (Buckley) ने 1988 में पद-भारण वेरिएंट (term-weighting variants) को व्यवस्थित किया। बैग-ऑफ-वर्ड्स प्रतिनिधित्व और tf-idf दशकों तक IR और मशीन लर्निंग में पाठ प्रसंस्करण के लिए डिफ़ॉल्ट सब्सट्रेट बन गए।

Key figures

  • Gerard Salton
  • Chris Buckley
  • Karen Spärck Jones

Related topics

Seminal works

  • salton1988
  • sparckjones1972
  • manning2008

Frequently asked questions

बैग-ऑफ-वर्ड्स मॉडल क्या है?
बैग-ऑफ-वर्ड्स मॉडल एक दस्तावेज़ को उसमें निहित पदों के सेट या मल्टीसेट के रूप में दर्शाता है, शब्द क्रम और व्याकरण की उपेक्षा करता है। अनुक्रम जानकारी को त्यागने के बावजूद, यह पुनर्प्राप्ति, वर्गीकरण और क्लस्टरिंग के लिए सरल, कुशल और आश्चर्यजनक रूप से प्रभावी है।
पद आवृत्ति पर लघुगणक (logarithm) क्यों लागू किया जाता है?
एक पद जो दस बार आता है वह एक बार आने वाले पद से दस गुना अधिक महत्वपूर्ण नहीं होता है। पद आवृत्ति का लघुगणक लेने से यह प्रभाव कम हो जाता है, जिससे अतिरिक्त घटनाएँ उत्तरोत्तर कम भार जोड़ती हैं, जो यह बेहतर ढंग से दर्शाता है कि पुनरावृत्ति प्रासंगिकता से कैसे संबंधित है।

Methods for this concept

Related concepts