बैग-ऑफ-वर्ड्स मॉडल क्या है?

बैग-ऑफ-वर्ड्स मॉडल एक दस्तावेज़ को उसमें निहित पदों के सेट या मल्टीसेट के रूप में दर्शाता है, शब्द क्रम और व्याकरण की उपेक्षा करता है। अनुक्रम जानकारी को त्यागने के बावजूद, यह पुनर्प्राप्ति, वर्गीकरण और क्लस्टरिंग के लिए सरल, कुशल और आश्चर्यजनक रूप से प्रभावी है।

पद आवृत्ति पर लघुगणक (logarithm) क्यों लागू किया जाता है?

एक पद जो दस बार आता है वह एक बार आने वाले पद से दस गुना अधिक महत्वपूर्ण नहीं होता है। पद आवृत्ति का लघुगणक लेने से यह प्रभाव कम हो जाता है, जिससे अतिरिक्त घटनाएँ उत्तरोत्तर कम भार जोड़ती हैं, जो यह बेहतर ढंग से दर्शाता है कि पुनरावृत्ति प्रासंगिकता से कैसे संबंधित है।

दस्तावेज़ प्रतिनिधित्व और भारण

दस्तावेज़ प्रतिनिधित्व कच्चे पाठ को भारित विशेषताओं के एक संरचित सेट में बदल देता है, यह तय करता है कि क्या एक पद के रूप में गिना जाता है और प्रत्येक पद को कितना योगदान देना चाहिए।

PaperMind से विषय खोजेंजल्द हीFind papers & topics

Tools & resources

स्लाइड डाउनलोड करें

Learn & explore

वीडियोजल्द ही

Definition

दस्तावेज़ प्रतिनिधित्व और भारण कच्चे दस्तावेज़ पाठ को विशेषताओं के एक वेक्टर में बदलने की प्रक्रिया है, आमतौर पर पदों में, पाठ को टोकनाइज (tokenize) और सामान्यीकृत (normalize) करके और प्रत्येक विशेषता को एक भार निर्दिष्ट करके जो दस्तावेज़ के भीतर और संग्रह में उसके महत्व को दर्शाता है।

Scope

यह विषय उन चरणों को शामिल करता है जो दस्तावेज़ों को खोज योग्य प्रतिनिधित्व में परिवर्तित करते हैं: टोकनाइजेशन (tokenization), सामान्यीकरण (normalization), स्टॉप-वर्ड (stop-word) हैंडलिंग, स्टेमिंग (stemming) और लेमेटाइजेशन (lemmatization), और बैग-ऑफ-वर्ड्स (bag-of-words) या n-ग्राम (n-gram) फीचर वैक्टर का निर्माण, साथ ही कच्चे और लॉगरिदमिक पद आवृत्ति, व्युत्क्रम दस्तावेज़ आवृत्ति (inverse document frequency), और लंबाई सामान्यीकरण (length normalization) के साथ tf-idf जैसी पद-भारण योजनाएं। यह उन विकल्पों पर विचार करता है जो पुनर्प्राप्ति (retrieval), वर्गीकरण (classification) और क्लस्टरिंग (clustering) को पोषित करने वाले प्रतिनिधित्व को आकार देते हैं, जबकि रैंकिंग मॉडल (ranking models) और अव्यक्त प्रतिनिधित्व (latent representations) को आसन्न विषयों के लिए छोड़ देते हैं।

Core questions

कच्चे पाठ को पदों में कैसे टोकनाइज और सामान्यीकृत किया जाता है?
स्टॉप-वर्ड हटाने, स्टेमिंग और लेमेटाइजेशन का क्या प्रभाव पड़ता है?
पद आवृत्ति अकेले एक खराब भार क्यों बनाती है, और इसे कैसे रूपांतरित किया जाता है?
व्युत्क्रम दस्तावेज़ आवृत्ति एक संग्रह में पद के महत्व को कैसे कैप्चर करती है?
लंबाई सामान्यीकरण लंबे और छोटे दस्तावेज़ों को तुलनीय कैसे रखता है?

Key concepts

टोकनाइजेशन और सामान्यीकरण
स्टॉप शब्द
स्टेमिंग और लेमेटाइजेशन
बैग-ऑफ-वर्ड्स और n-ग्राम
पद आवृत्ति (कच्ची और लॉग)
व्युत्क्रम दस्तावेज़ आवृत्ति
tf-idf वेरिएंट
लंबाई सामान्यीकरण

Key theories

बैग-ऑफ-वर्ड्स प्रतिनिधित्व: एक दस्तावेज़ को पदों के एक अव्यवस्थित मल्टीसेट (multiset) के रूप में मानना, शब्द क्रम की उपेक्षा करना, एक सरल, प्रभावी फीचर वेक्टर (feature vector) उत्पन्न करता है जो सिंटैक्स (syntax) को त्यागने के बावजूद शास्त्रीय पुनर्प्राप्ति, वर्गीकरण और क्लस्टरिंग को रेखांकित करता है।
tf-idf भारण योजनाएं: एक (अक्सर नम) पद-आवृत्ति घटक को व्युत्क्रम दस्तावेज़ आवृत्ति और लंबाई सामान्यीकरण के साथ संयोजित करने से ऐसे भार उत्पन्न होते हैं जो एक दस्तावेज़ में बार-बार आने वाले लेकिन संग्रह में दुर्लभ पदों पर जोर देते हैं, जिसमें कई प्रलेखित वेरिएंट होते हैं।

Clinical relevance

प्रतिनिधित्व और भारण के विकल्प खोज रैंकिंग से लेकर स्पैम फ़िल्टरिंग और क्लस्टरिंग तक, हर डाउनस्ट्रीम कार्य की गुणवत्ता को सीधे प्रभावित करते हैं। tf-idf प्रतिनिधित्व एक मजबूत, व्याख्या योग्य आधार रेखा बने हुए हैं, और टोकनाइजेशन और सामान्यीकरण के समान डिज़ाइन प्रश्न आधुनिक पाइपलाइनों में बने रहते हैं जो सीखे हुए एम्बेडिंग (learned embeddings) को पोषित करते हैं।

History

दस्तावेज़ प्रतिनिधित्व 1960 और 1970 के दशक में वेक्टर स्पेस मॉडल (vector space model) के साथ परिपक्व हुआ, जिसमें स्पार्क जोन्स (Spärck Jones) ने 1972 में व्युत्क्रम दस्तावेज़ आवृत्ति (inverse document frequency) की शुरुआत की और साल्टन (Salton) और बकले (Buckley) ने 1988 में पद-भारण वेरिएंट (term-weighting variants) को व्यवस्थित किया। बैग-ऑफ-वर्ड्स प्रतिनिधित्व और tf-idf दशकों तक IR और मशीन लर्निंग में पाठ प्रसंस्करण के लिए डिफ़ॉल्ट सब्सट्रेट बन गए।

Key figures

Gerard Salton
Chris Buckley
Karen Spärck Jones

Seminal works

salton1988
sparckjones1972
manning2008

Frequently asked questions

बैग-ऑफ-वर्ड्स मॉडल क्या है?: बैग-ऑफ-वर्ड्स मॉडल एक दस्तावेज़ को उसमें निहित पदों के सेट या मल्टीसेट के रूप में दर्शाता है, शब्द क्रम और व्याकरण की उपेक्षा करता है। अनुक्रम जानकारी को त्यागने के बावजूद, यह पुनर्प्राप्ति, वर्गीकरण और क्लस्टरिंग के लिए सरल, कुशल और आश्चर्यजनक रूप से प्रभावी है।
पद आवृत्ति पर लघुगणक (logarithm) क्यों लागू किया जाता है?: एक पद जो दस बार आता है वह एक बार आने वाले पद से दस गुना अधिक महत्वपूर्ण नहीं होता है। पद आवृत्ति का लघुगणक लेने से यह प्रभाव कम हो जाता है, जिससे अतिरिक्त घटनाएँ उत्तरोत्तर कम भार जोड़ती हैं, जो यह बेहतर ढंग से दर्शाता है कि पुनरावृत्ति प्रासंगिकता से कैसे संबंधित है।