ScholarGate
सहायक

वेब क्रॉलिंग और लिंक संरचना

वेब क्रॉलिंग हाइपरलिंक का अनुसरण करके वेब पेजों को खोजने और डाउनलोड करने की एक स्वचालित प्रक्रिया है, और परिणामी लिंक संरचना एक ग्राफ़ बनाती है जिसे खोज प्रणालियाँ पार करती हैं और उसका विश्लेषण करती हैं।

PaperMind से विषय खोजेंजल्द हीFind papers & topics
Tools & resources
स्लाइड डाउनलोड करें
Learn & explore
वीडियोजल्द ही

Definition

वेब क्रॉलिंग वेब का एल्गोरिथम ट्रैवर्सल है जो सीड यूआरएल से शुरू होता है और बार-बार पेज प्राप्त करता है और अधिक पेज खोजने के लिए उनके आउटगोइंग लिंक निकालता है, जबकि लिंक संरचना पेजों और उनके बीच के हाइपरलिंक द्वारा बनाए गए निर्देशित ग्राफ़ को संदर्भित करती है।

Scope

यह विषय बताता है कि क्रॉलर वेब पेजों को व्यवस्थित रूप से कैसे प्राप्त करते हैं और वेब के हाइपरलिंक ग्राफ़ की संरचना कैसे होती है। इसमें क्रॉलर आर्किटेक्चर, यूआरएल फ्रंटियर और शिष्टाचार बाधाएँ, डुप्लिकेट और निकट-डुप्लिकेट पहचान, ताजगी और पुनः क्रॉल शेड्यूलिंग, और रोबोट बहिष्करण का सम्मान करना शामिल है। इसमें वेब ग्राफ़ के अनुभवजन्य गुण भी शामिल हैं, जैसे कि इसकी व्यापक बो टाई संरचना और भारी-पूंछ वाली डिग्री वितरण, जो क्रॉलिंग और लिंक विश्लेषण दोनों को सूचित करते हैं। इसमें लिंक के रैंकिंग उपयोग को शामिल नहीं किया गया है, जिसे पेज रैंक और एचआईटीएस के तहत माना जाता है।

Core questions

  • एक क्रॉलर उन पृष्ठों को कैसे खोजता है, प्राथमिकता देता है और शेड्यूल करता है जिन्हें वह प्राप्त करता है?
  • क्रॉलिंग के दौरान शिष्टाचार, रोबोट बहिष्करण और सर्वर लोड का सम्मान कैसे किया जाता है?
  • डुप्लिकेट और निकट-डुप्लिकेट पृष्ठों का पता कैसे लगाया जाता है और उन्हें कैसे संभाला जाता है?
  • पृष्ठों के बदलने पर क्रॉल की ताजगी कैसे बनाए रखी जाती है?
  • वेब ग्राफ़ किस बड़े पैमाने की संरचना को प्रदर्शित करता है?

Key concepts

  • वेब क्रॉलर / स्पाइडर
  • यूआरएल फ्रंटियर और सीड सेट
  • क्रॉल शिष्टाचार और robots.txt
  • डुप्लिकेट और निकट-डुप्लिकेट पहचान
  • ताजगी और पुनः क्रॉल शेड्यूलिंग
  • वेब ग्राफ़
  • बो टाई संरचना
  • इन-डिग्री और आउट-डिग्री वितरण

Key theories

क्रॉलर आर्किटेक्चर और यूआरएल फ्रंटियर
एक क्रॉलर प्राप्त करने के लिए यूआरएल के एक फ्रंटियर को बनाए रखता है, प्राथमिकता और शिष्टाचार नीतियों को लागू करता है, नए लिंक निकालने के लिए प्राप्त पृष्ठों को पार्स करता है, और देखे गए पृष्ठों को ट्रैक करता है, कवरेज, ताजगी और संसाधन सीमाओं को संतुलित करता है।
मैक्रोस्कोपिक वेब ग्राफ़ संरचना
अनुभवजन्य अध्ययन बताते हैं कि वेब के लिंक ग्राफ़ में एक विशिष्ट बो टाई आकार होता है जिसमें एक बड़ा दृढ़ता से जुड़ा हुआ कोर होता है और साथ ही इन और आउट घटक होते हैं, और भारी-पूंछ वाली इन-डिग्री होती है, जो पहुंच को बाधित करती है और क्रॉलिंग रणनीति को सूचित करती है।

Clinical relevance

क्रॉलिंग हर वेब सर्च इंजन और बड़े पैमाने पर वेब एनालिटिक्स, संग्रह और डेटासेट निर्माण का डेटा-अधिग्रहण चरण है। लिंक संरचना को समझना कुशल क्रॉलिंग का मार्गदर्शन करता है, कवरेज का अनुमान लगाने में मदद करता है, और रैंकिंग में उपयोग किए जाने वाले लिंक-आधारित प्राधिकरण उपायों को रेखांकित करता है।

History

वेब क्रॉलर 1990 के दशक के मध्य में शुरुआती वेब के साथ खोज सूचकांकों को फीड करने के लिए दिखाई दिए। चो और उनके सहयोगियों ने 1998 में कुशल क्रॉलिंग और यूआरएल ऑर्डरिंग का अध्ययन किया, और 2000 के 'वेब में ग्राफ़ संरचना' अध्ययन ने वेब की बो टाई मैक्रोस्ट्रक्चर का खुलासा किया। जैसे-जैसे वेब बढ़ता गया, क्रॉलिंग ताजगी, कवरेज और शिष्टाचार पर जोर देने वाले बड़े पैमाने पर वितरित-प्रणाली अनुशासन में परिपक्व हो गई।

Key figures

  • Andrei Broder
  • Prabhakar Raghavan
  • Junghoo Cho
  • Hector García-Molina

Related topics

Seminal works

  • broder2000
  • cho1998
  • manning2008

Frequently asked questions

एक क्रॉलर में यूआरएल फ्रंटियर क्या है?
यूआरएल फ्रंटियर खोजे गए-लेकिन-अभी-तक-प्राप्त नहीं किए गए यूआरएल की कतार है। एक क्रॉलर प्राथमिकता और शिष्टाचार नीतियों के अनुसार फ्रंटियर से यूआरएल का बार-बार चयन करता है, पृष्ठों को प्राप्त करता है, नए लिंक निकालता है, और पहले से अनदेखे यूआरएल को वापस फ्रंटियर में जोड़ता है।
वेब की 'बो टाई' संरचना का क्या अर्थ है?
बड़े पैमाने के अध्ययनों में पाया गया कि वेब ग्राफ़ में एक बड़ा दृढ़ता से जुड़ा हुआ कोर होता है, पृष्ठों का एक 'इन' घटक जो कोर तक पहुंच सकता है, एक 'आउट' घटक जो इससे पहुंच योग्य है, साथ ही टेंड्रिल और डिस्कनेक्टेड भाग, एक बो टाई जैसा दिखता है। यह आकार प्रभावित करता है कि एक क्रॉलर दिए गए बीजों से किन पृष्ठों तक पहुंच सकता है।

Methods for this concept

Related concepts