ScholarGate
सहायक

वेब खोज और लिंक विश्लेषण

वेब खोज और लिंक विश्लेषण वर्ल्ड वाइड वेब पर पुनर्प्राप्ति (रिट्रीवल) से संबंधित हैं, जहाँ हाइपरलिंक संरचना प्रामाणिकता के अतिरिक्त प्रमाण प्रदान करती है और जहाँ रैंकिंग बड़े पैमाने पर कई विशेषताओं को जोड़ती है।

PaperMind से विषय खोजेंजल्द हीFind papers & topics
Tools & resources
स्लाइड डाउनलोड करें
Learn & explore
वीडियोजल्द ही

Definition

वेब खोज और लिंक विश्लेषण हाइपरलिंक्ड वेब संग्रहों पर पुनर्प्राप्ति का अध्ययन है, जो शाब्दिक प्रासंगिकता को लिंक संरचना से प्राप्त ग्राफ-आधारित प्रामाणिकता संकेतों के साथ और कई विशेषताओं पर मशीन-लर्नड रैंकिंग के साथ जोड़ता है, जो खुले वेब की माप और प्रतिकूल परिस्थितियों में होता है।

Scope

यह क्षेत्र वेब-स्केल पुनर्प्राप्ति के लिए विशिष्ट घटकों को शामिल करता है: क्रॉलिंग और वेब की लिंक संरचना, लिंक-विश्लेषण एल्गोरिदम जैसे पेज-रैंक (PageRank) और हिट्स (HITS) जो हाइपरलिंक का समर्थन के रूप में उपयोग करते हैं, रैंकिंग के लिए सीखने के तरीके (लर्निंग-टू-रैंक) जो कई रैंकिंग विशेषताओं को जोड़ते हैं, और वेब खोज रैंकिंग पाइपलाइन का डिज़ाइन। यह बताता है कि वेब की हाइपरलिंक्ड, प्रतिकूल और विशाल प्रकृति पुनर्प्राप्ति को कैसे बदलती है, जो केवल शाब्दिक साक्ष्य पर व्यक्तिगत दस्तावेजों को स्कोर करने वाले मुख्य पुनर्प्राप्ति मॉडल से भिन्न है।

Sub-topics

Core questions

  • वेब को कैसे क्रॉल किया जाता है और उसके लिंक ग्राफ को कैसे कैप्चर किया जाता है?
  • हाइपरलिंक संरचना किसी पृष्ठ के महत्व या प्रामाणिकता को कैसे इंगित कर सकती है?
  • पेज-रैंक और हिट्स लिंक-आधारित प्रामाणिकता को मॉडल करने में कैसे भिन्न हैं?
  • कई विषम रैंकिंग संकेतों को एक ही क्रम में कैसे जोड़ा जाता है?
  • वेब पैमाने पर स्पैम और प्रतिकूल हेरफेर से रैंकिंग कैसे निपटती है?

Key concepts

  • वेब क्रॉलिंग
  • वेब लिंक ग्राफ
  • पेज-रैंक
  • हिट्स (हब्स और अथॉरिटीज)
  • एंकर टेक्स्ट
  • रैंक करना सीखना
  • रैंकिंग विशेषताएँ और संकेत
  • वेब स्पैम और प्रतिकूल आईआर

Key theories

समर्थन के रूप में हाइपरलिंक
एक पृष्ठ से दूसरे पृष्ठ का लिंक विश्वास के मत के रूप में पढ़ा जा सकता है, इसलिए लिंक ग्राफ पृष्ठ के महत्व और प्रामाणिकता के बारे में प्रमाण रखता है जिसे शुद्ध पाठ मिलान अनदेखा करता है।
यादृच्छिक-भ्रमण प्रामाणिकता माप के रूप में पेज-रैंक
पेज-रैंक प्रत्येक पृष्ठ को एक स्कोर प्रदान करता है जो एक यादृच्छिक सर्फर के तहत उसकी लंबी अवधि की विज़िट संभावना के बराबर होता है जो लिंक का अनुसरण करता है और कभी-कभी टेलीपोर्ट करता है, जिससे पूरे लिंक ग्राफ से प्राप्त महत्व का एक क्वेरी-स्वतंत्र माप मिलता है।
कई विशेषताओं पर मशीन-लर्नड रैंकिंग
वेब रैंकिंग सैकड़ों संकेतों को जोड़ती है, जिसमें शाब्दिक प्रासंगिकता, लिंक-आधारित प्रामाणिकता और व्यवहारिक विशेषताएँ शामिल हैं, लेबल किए गए डेटा से एक रैंकिंग फ़ंक्शन सीखकर, एकल हस्त-ट्यून किए गए फ़ार्मुलों की जगह लेती है।

Clinical relevance

यह क्षेत्र वाणिज्यिक वेब खोज इंजनों का आधार है, जो अरबों उपयोगकर्ताओं के लिए सार्वजनिक वेब तक पहुंच को व्यवस्थित करते हैं। लिंक विश्लेषण ने ऑनलाइन प्रामाणिकता को मापने के तरीके को नया रूप दिया, और लर्निंग-टू-रैंक पाइपलाइनें अभी भी इस बात के केंद्र में हैं कि खोज और अनुशंसा प्रणालियाँ संकेतों को रैंकिंग में कैसे जोड़ती हैं।

History

वेब आईआर (Web IR) 1990 के दशक के मध्य में उभरा क्योंकि वेब निर्देशिका-आधारित नेविगेशन से आगे निकल गया। क्लेनबर्ग का हिट्स (HITS) और ब्रिन व पेज का पेज-रैंक (PageRank), दोनों लगभग 1998 और 1999 में, ने दिखाया कि हाइपरलिंक संरचना पृष्ठों को प्रामाणिकता के आधार पर रैंक कर सकती है, और पेज-रैंक ने बड़े पैमाने पर खोज इंजनों के उदय को रेखांकित किया। 2000 के दशक के दौरान, लर्निंग-टू-रैंक विधियों ने बढ़ती हुई रैंकिंग संकेतों की संख्या को एकीकृत किया।

Key figures

  • Sergey Brin
  • Larry Page
  • Jon Kleinberg
  • Prabhakar Raghavan

Related topics

Seminal works

  • brin1998
  • page1999
  • kleinberg1999

Frequently asked questions

वेब को बंद संग्रह की तुलना में विभिन्न पुनर्प्राप्ति विधियों की आवश्यकता क्यों है?
वेब विशाल है, लगातार बदल रहा है, हाइपरलिंक्ड है, और प्रतिकूल है, जिसमें पृष्ठ सक्रिय रूप से उच्च रैंक करने का प्रयास कर रहे हैं। ये स्थितियाँ क्रॉलिंग, लिंक-आधारित प्रामाणिकता संकेत, स्पैम प्रतिरोध, और बड़े पैमाने पर सीखे गए रैंकिंग को पाठ्य मिलान के ऊपर जोड़ती हैं जो बंद संग्रहों में उपयोग किया जाता है।
क्या आधुनिक रैंकिंग को देखते हुए लिंक विश्लेषण अभी भी महत्वपूर्ण है?
लिंक-आधारित प्रामाणिकता आधुनिक रैंकिंग में सैकड़ों संकेतों में से एक बनी हुई है, जो अब सीखे गए मॉडल और व्यवहारिक और सामग्री विशेषताओं पर बहुत अधिक निर्भर करती है। पेज-रैंक-शैली के विचार अभी भी यह बताते हैं कि महत्व ग्राफ के माध्यम से कैसे फैलता है, जिसमें अनुशंसा और उद्धरण विश्लेषण भी शामिल है।

Methods for this concept

Related concepts