वेब खोज और लिंक विश्लेषण
वेब खोज और लिंक विश्लेषण वर्ल्ड वाइड वेब पर पुनर्प्राप्ति (रिट्रीवल) से संबंधित हैं, जहाँ हाइपरलिंक संरचना प्रामाणिकता के अतिरिक्त प्रमाण प्रदान करती है और जहाँ रैंकिंग बड़े पैमाने पर कई विशेषताओं को जोड़ती है।
Definition
वेब खोज और लिंक विश्लेषण हाइपरलिंक्ड वेब संग्रहों पर पुनर्प्राप्ति का अध्ययन है, जो शाब्दिक प्रासंगिकता को लिंक संरचना से प्राप्त ग्राफ-आधारित प्रामाणिकता संकेतों के साथ और कई विशेषताओं पर मशीन-लर्नड रैंकिंग के साथ जोड़ता है, जो खुले वेब की माप और प्रतिकूल परिस्थितियों में होता है।
Scope
यह क्षेत्र वेब-स्केल पुनर्प्राप्ति के लिए विशिष्ट घटकों को शामिल करता है: क्रॉलिंग और वेब की लिंक संरचना, लिंक-विश्लेषण एल्गोरिदम जैसे पेज-रैंक (PageRank) और हिट्स (HITS) जो हाइपरलिंक का समर्थन के रूप में उपयोग करते हैं, रैंकिंग के लिए सीखने के तरीके (लर्निंग-टू-रैंक) जो कई रैंकिंग विशेषताओं को जोड़ते हैं, और वेब खोज रैंकिंग पाइपलाइन का डिज़ाइन। यह बताता है कि वेब की हाइपरलिंक्ड, प्रतिकूल और विशाल प्रकृति पुनर्प्राप्ति को कैसे बदलती है, जो केवल शाब्दिक साक्ष्य पर व्यक्तिगत दस्तावेजों को स्कोर करने वाले मुख्य पुनर्प्राप्ति मॉडल से भिन्न है।
Sub-topics
Core questions
- वेब को कैसे क्रॉल किया जाता है और उसके लिंक ग्राफ को कैसे कैप्चर किया जाता है?
- हाइपरलिंक संरचना किसी पृष्ठ के महत्व या प्रामाणिकता को कैसे इंगित कर सकती है?
- पेज-रैंक और हिट्स लिंक-आधारित प्रामाणिकता को मॉडल करने में कैसे भिन्न हैं?
- कई विषम रैंकिंग संकेतों को एक ही क्रम में कैसे जोड़ा जाता है?
- वेब पैमाने पर स्पैम और प्रतिकूल हेरफेर से रैंकिंग कैसे निपटती है?
Key concepts
- वेब क्रॉलिंग
- वेब लिंक ग्राफ
- पेज-रैंक
- हिट्स (हब्स और अथॉरिटीज)
- एंकर टेक्स्ट
- रैंक करना सीखना
- रैंकिंग विशेषताएँ और संकेत
- वेब स्पैम और प्रतिकूल आईआर
Key theories
- समर्थन के रूप में हाइपरलिंक
- एक पृष्ठ से दूसरे पृष्ठ का लिंक विश्वास के मत के रूप में पढ़ा जा सकता है, इसलिए लिंक ग्राफ पृष्ठ के महत्व और प्रामाणिकता के बारे में प्रमाण रखता है जिसे शुद्ध पाठ मिलान अनदेखा करता है।
- यादृच्छिक-भ्रमण प्रामाणिकता माप के रूप में पेज-रैंक
- पेज-रैंक प्रत्येक पृष्ठ को एक स्कोर प्रदान करता है जो एक यादृच्छिक सर्फर के तहत उसकी लंबी अवधि की विज़िट संभावना के बराबर होता है जो लिंक का अनुसरण करता है और कभी-कभी टेलीपोर्ट करता है, जिससे पूरे लिंक ग्राफ से प्राप्त महत्व का एक क्वेरी-स्वतंत्र माप मिलता है।
- कई विशेषताओं पर मशीन-लर्नड रैंकिंग
- वेब रैंकिंग सैकड़ों संकेतों को जोड़ती है, जिसमें शाब्दिक प्रासंगिकता, लिंक-आधारित प्रामाणिकता और व्यवहारिक विशेषताएँ शामिल हैं, लेबल किए गए डेटा से एक रैंकिंग फ़ंक्शन सीखकर, एकल हस्त-ट्यून किए गए फ़ार्मुलों की जगह लेती है।
Clinical relevance
यह क्षेत्र वाणिज्यिक वेब खोज इंजनों का आधार है, जो अरबों उपयोगकर्ताओं के लिए सार्वजनिक वेब तक पहुंच को व्यवस्थित करते हैं। लिंक विश्लेषण ने ऑनलाइन प्रामाणिकता को मापने के तरीके को नया रूप दिया, और लर्निंग-टू-रैंक पाइपलाइनें अभी भी इस बात के केंद्र में हैं कि खोज और अनुशंसा प्रणालियाँ संकेतों को रैंकिंग में कैसे जोड़ती हैं।
History
वेब आईआर (Web IR) 1990 के दशक के मध्य में उभरा क्योंकि वेब निर्देशिका-आधारित नेविगेशन से आगे निकल गया। क्लेनबर्ग का हिट्स (HITS) और ब्रिन व पेज का पेज-रैंक (PageRank), दोनों लगभग 1998 और 1999 में, ने दिखाया कि हाइपरलिंक संरचना पृष्ठों को प्रामाणिकता के आधार पर रैंक कर सकती है, और पेज-रैंक ने बड़े पैमाने पर खोज इंजनों के उदय को रेखांकित किया। 2000 के दशक के दौरान, लर्निंग-टू-रैंक विधियों ने बढ़ती हुई रैंकिंग संकेतों की संख्या को एकीकृत किया।
Key figures
- Sergey Brin
- Larry Page
- Jon Kleinberg
- Prabhakar Raghavan
Related topics
Seminal works
- brin1998
- page1999
- kleinberg1999
Frequently asked questions
- वेब को बंद संग्रह की तुलना में विभिन्न पुनर्प्राप्ति विधियों की आवश्यकता क्यों है?
- वेब विशाल है, लगातार बदल रहा है, हाइपरलिंक्ड है, और प्रतिकूल है, जिसमें पृष्ठ सक्रिय रूप से उच्च रैंक करने का प्रयास कर रहे हैं। ये स्थितियाँ क्रॉलिंग, लिंक-आधारित प्रामाणिकता संकेत, स्पैम प्रतिरोध, और बड़े पैमाने पर सीखे गए रैंकिंग को पाठ्य मिलान के ऊपर जोड़ती हैं जो बंद संग्रहों में उपयोग किया जाता है।
- क्या आधुनिक रैंकिंग को देखते हुए लिंक विश्लेषण अभी भी महत्वपूर्ण है?
- लिंक-आधारित प्रामाणिकता आधुनिक रैंकिंग में सैकड़ों संकेतों में से एक बनी हुई है, जो अब सीखे गए मॉडल और व्यवहारिक और सामग्री विशेषताओं पर बहुत अधिक निर्भर करती है। पेज-रैंक-शैली के विचार अभी भी यह बताते हैं कि महत्व ग्राफ के माध्यम से कैसे फैलता है, जिसमें अनुशंसा और उद्धरण विश्लेषण भी शामिल है।