दस्तावेज़ प्रतिनिधित्व और भारण
दस्तावेज़ प्रतिनिधित्व कच्चे पाठ को भारित विशेषताओं के एक संरचित सेट में बदल देता है, यह तय करता है कि क्या एक पद के रूप में गिना जाता है और प्रत्येक पद को कितना योगदान देना चाहिए।
Definition
दस्तावेज़ प्रतिनिधित्व और भारण कच्चे दस्तावेज़ पाठ को विशेषताओं के एक वेक्टर में बदलने की प्रक्रिया है, आमतौर पर पदों में, पाठ को टोकनाइज (tokenize) और सामान्यीकृत (normalize) करके और प्रत्येक विशेषता को एक भार निर्दिष्ट करके जो दस्तावेज़ के भीतर और संग्रह में उसके महत्व को दर्शाता है।
Scope
यह विषय उन चरणों को शामिल करता है जो दस्तावेज़ों को खोज योग्य प्रतिनिधित्व में परिवर्तित करते हैं: टोकनाइजेशन (tokenization), सामान्यीकरण (normalization), स्टॉप-वर्ड (stop-word) हैंडलिंग, स्टेमिंग (stemming) और लेमेटाइजेशन (lemmatization), और बैग-ऑफ-वर्ड्स (bag-of-words) या n-ग्राम (n-gram) फीचर वैक्टर का निर्माण, साथ ही कच्चे और लॉगरिदमिक पद आवृत्ति, व्युत्क्रम दस्तावेज़ आवृत्ति (inverse document frequency), और लंबाई सामान्यीकरण (length normalization) के साथ tf-idf जैसी पद-भारण योजनाएं। यह उन विकल्पों पर विचार करता है जो पुनर्प्राप्ति (retrieval), वर्गीकरण (classification) और क्लस्टरिंग (clustering) को पोषित करने वाले प्रतिनिधित्व को आकार देते हैं, जबकि रैंकिंग मॉडल (ranking models) और अव्यक्त प्रतिनिधित्व (latent representations) को आसन्न विषयों के लिए छोड़ देते हैं।
Core questions
- कच्चे पाठ को पदों में कैसे टोकनाइज और सामान्यीकृत किया जाता है?
- स्टॉप-वर्ड हटाने, स्टेमिंग और लेमेटाइजेशन का क्या प्रभाव पड़ता है?
- पद आवृत्ति अकेले एक खराब भार क्यों बनाती है, और इसे कैसे रूपांतरित किया जाता है?
- व्युत्क्रम दस्तावेज़ आवृत्ति एक संग्रह में पद के महत्व को कैसे कैप्चर करती है?
- लंबाई सामान्यीकरण लंबे और छोटे दस्तावेज़ों को तुलनीय कैसे रखता है?
Key concepts
- टोकनाइजेशन और सामान्यीकरण
- स्टॉप शब्द
- स्टेमिंग और लेमेटाइजेशन
- बैग-ऑफ-वर्ड्स और n-ग्राम
- पद आवृत्ति (कच्ची और लॉग)
- व्युत्क्रम दस्तावेज़ आवृत्ति
- tf-idf वेरिएंट
- लंबाई सामान्यीकरण
Key theories
- बैग-ऑफ-वर्ड्स प्रतिनिधित्व
- एक दस्तावेज़ को पदों के एक अव्यवस्थित मल्टीसेट (multiset) के रूप में मानना, शब्द क्रम की उपेक्षा करना, एक सरल, प्रभावी फीचर वेक्टर (feature vector) उत्पन्न करता है जो सिंटैक्स (syntax) को त्यागने के बावजूद शास्त्रीय पुनर्प्राप्ति, वर्गीकरण और क्लस्टरिंग को रेखांकित करता है।
- tf-idf भारण योजनाएं
- एक (अक्सर नम) पद-आवृत्ति घटक को व्युत्क्रम दस्तावेज़ आवृत्ति और लंबाई सामान्यीकरण के साथ संयोजित करने से ऐसे भार उत्पन्न होते हैं जो एक दस्तावेज़ में बार-बार आने वाले लेकिन संग्रह में दुर्लभ पदों पर जोर देते हैं, जिसमें कई प्रलेखित वेरिएंट होते हैं।
Clinical relevance
प्रतिनिधित्व और भारण के विकल्प खोज रैंकिंग से लेकर स्पैम फ़िल्टरिंग और क्लस्टरिंग तक, हर डाउनस्ट्रीम कार्य की गुणवत्ता को सीधे प्रभावित करते हैं। tf-idf प्रतिनिधित्व एक मजबूत, व्याख्या योग्य आधार रेखा बने हुए हैं, और टोकनाइजेशन और सामान्यीकरण के समान डिज़ाइन प्रश्न आधुनिक पाइपलाइनों में बने रहते हैं जो सीखे हुए एम्बेडिंग (learned embeddings) को पोषित करते हैं।
History
दस्तावेज़ प्रतिनिधित्व 1960 और 1970 के दशक में वेक्टर स्पेस मॉडल (vector space model) के साथ परिपक्व हुआ, जिसमें स्पार्क जोन्स (Spärck Jones) ने 1972 में व्युत्क्रम दस्तावेज़ आवृत्ति (inverse document frequency) की शुरुआत की और साल्टन (Salton) और बकले (Buckley) ने 1988 में पद-भारण वेरिएंट (term-weighting variants) को व्यवस्थित किया। बैग-ऑफ-वर्ड्स प्रतिनिधित्व और tf-idf दशकों तक IR और मशीन लर्निंग में पाठ प्रसंस्करण के लिए डिफ़ॉल्ट सब्सट्रेट बन गए।
Key figures
- Gerard Salton
- Chris Buckley
- Karen Spärck Jones
Related topics
Seminal works
- salton1988
- sparckjones1972
- manning2008
Frequently asked questions
- बैग-ऑफ-वर्ड्स मॉडल क्या है?
- बैग-ऑफ-वर्ड्स मॉडल एक दस्तावेज़ को उसमें निहित पदों के सेट या मल्टीसेट के रूप में दर्शाता है, शब्द क्रम और व्याकरण की उपेक्षा करता है। अनुक्रम जानकारी को त्यागने के बावजूद, यह पुनर्प्राप्ति, वर्गीकरण और क्लस्टरिंग के लिए सरल, कुशल और आश्चर्यजनक रूप से प्रभावी है।
- पद आवृत्ति पर लघुगणक (logarithm) क्यों लागू किया जाता है?
- एक पद जो दस बार आता है वह एक बार आने वाले पद से दस गुना अधिक महत्वपूर्ण नहीं होता है। पद आवृत्ति का लघुगणक लेने से यह प्रभाव कम हो जाता है, जिससे अतिरिक्त घटनाएँ उत्तरोत्तर कम भार जोड़ती हैं, जो यह बेहतर ढंग से दर्शाता है कि पुनरावृत्ति प्रासंगिकता से कैसे संबंधित है।