ScholarGate
सहायक

वेब खोज रैंकिंग

वेब खोज रैंकिंग एक बहु-चरणीय पाइपलाइन के माध्यम से पाठ्य, लिंक-आधारित और व्यवहारिक संकेतों के संयोजन द्वारा एक क्वेरी के लिए वेब पृष्ठों को व्यवस्थित करने की एंड-टू-एंड प्रक्रिया है, जिसे हेरफेर का भी विरोध करना चाहिए।

PaperMind से विषय खोजेंजल्द हीFind papers & topics
Tools & resources
स्लाइड डाउनलोड करें
Learn & explore
वीडियोजल्द ही

Definition

वेब खोज रैंकिंग एक क्वेरी के लिए वेब पृष्ठों के क्रम में कई प्रासंगिकता और गुणवत्ता संकेतों का संयोजन है, जिसे आमतौर पर एक बहु-चरणीय पाइपलाइन के रूप में महसूस किया जाता है जो एक कुशल मॉडल के साथ एक उम्मीदवार सेट को पुनः प्राप्त करती है और फिर उसे अधिक महंगे सीखे हुए मॉडल के साथ पुनः रैंक करती है, जो सामग्री द्वारा उच्च रैंक प्राप्त करने के निरंतर प्रतिकूल दबाव में होता है।

Scope

यह विषय बताता है कि एक वेब खोज इंजन अपने अंतिम रैंक किए गए परिणाम कैसे उत्पन्न करता है: जिन संकेतों पर वह निर्भर करता है (पाठ्य प्रासंगिकता, एंकर टेक्स्ट, लिंक-आधारित अधिकार, नवीनता और व्यवहारिक डेटा), बहु-चरणीय वास्तुकला जो उम्मीदवारों को सस्ते में पुनः प्राप्त करती है और उन्हें समृद्ध मॉडल के साथ पुनः रैंक करती है, और वेब स्पैम तथा खोज-इंजन हेरफेर का प्रतिकूल आयाम। यह पुनर्प्राप्ति मॉडल, लिंक विश्लेषण और रैंकिंग सीखने को एक कार्यशील रैंकिंग पाइपलाइन में एकीकृत करता है, बजाय किसी एक घटक को अलग-थलग मानने के।

Core questions

  • किसी पृष्ठ की रैंक में कौन से संकेत योगदान करते हैं, और उन्हें कैसे संयोजित किया जाता है?
  • रैंकिंग को बहु-चरणीय पुनर्प्राप्ति-फिर-पुनर्रैंक पाइपलाइन के रूप में क्यों व्यवस्थित किया जाता है?
  • एंकर टेक्स्ट और लिंक-आधारित अधिकार ऑन-पेज टेक्स्ट को कैसे पूरक करते हैं?
  • खोज इंजन वेब स्पैम और हेरफेर का पता कैसे लगाते हैं और उन्हें पदावनत कैसे करते हैं?
  • नवीनता और उपयोगकर्ता-व्यवहार संकेतों को कैसे शामिल किया जाता है?

Key concepts

  • रैंकिंग संकेत और विशेषताएँ
  • एंकर टेक्स्ट
  • लिंक-आधारित अधिकार
  • बहु-चरणीय पुनर्प्राप्ति और पुनर्रैंकिंग
  • नवीनता संकेत
  • व्यवहारिक / क्लिक संकेत
  • वेब स्पैम (लिंक फ़ार्म, क्लोकिंग, कीवर्ड स्टफिंग)
  • प्रतिकूल सूचना पुनर्प्राप्ति

Key theories

बहु-चरणीय पुनर्प्राप्ति-फिर-पुनर्रैंक पाइपलाइन
क्योंकि समृद्ध रैंकिंग मॉडल प्रत्येक दस्तावेज़ पर लागू करने के लिए बहुत महंगे होते हैं, वेब खोज पहले BM25 जैसे कुशल मॉडल के साथ एक प्रबंधनीय उम्मीदवार सेट को पुनः प्राप्त करती है और फिर उन उम्मीदवारों को उत्तरोत्तर अधिक महंगे सीखे हुए मॉडल के साथ पुनः रैंक करती है।
प्रतिकूल सूचना पुनर्प्राप्ति और वेब स्पैम
क्योंकि उच्च रैंकिंग का वाणिज्यिक मूल्य होता है, सामग्री को कीवर्ड स्टफिंग, लिंक फ़ार्म और क्लोकिंग के माध्यम से रैंकिंग में हेरफेर करने के लिए सक्रिय रूप से इंजीनियर किया जाता है, इसलिए रैंकिंग में स्पैम का पता लगाना और मजबूती को प्राथमिक चिंता के रूप में शामिल करना चाहिए।

Clinical relevance

रैंकिंग की गुणवत्ता अरबों उपयोगकर्ताओं के लिए वाणिज्यिक वेब खोज की उपयोगिता और प्रकाशकों के लिए सामग्री की दृश्यता निर्धारित करती है, जिससे खोज-इंजन-अनुकूलन उद्योग का उदय होता है। यहां विकसित पुनर्प्राप्ति-फिर-पुनर्रैंक पैटर्न और स्पैम-प्रतिरोध तकनीकों का ई-कॉमर्स, ऐप और एंटरप्राइज़ खोज में पुन: उपयोग किया जाता है।

History

प्रारंभिक वेब खोज रैंकिंग ने पाठ्य प्रासंगिकता को लगभग 1998 में पेश किए गए नए लिंक-आधारित संकेतों के साथ मिलाया। जैसे-जैसे हेरफेर बढ़ा, 2000 के दशक के मध्य में वेब-स्पैम वर्गीकरण और विश्वास प्रसार जैसे कार्यों के साथ प्रतिकूल सूचना पुनर्प्राप्ति उभरी। रैंकिंग पाइपलाइनों ने लगातार सीखे हुए मॉडल और व्यवहारिक संकेतों को जोड़ा, जो आज उपयोग की जाने वाली बहु-चरणीय वास्तुकला में विकसित हुए।

Key figures

  • Sergey Brin
  • Larry Page
  • Zoltán Gyöngyi
  • Hector García-Molina

Related topics

Seminal works

  • brin1998
  • gyongyi2005
  • croft2010

Frequently asked questions

खोज इंजन कई चरणों में क्यों रैंक करते हैं?
अनुक्रमणिका में प्रत्येक पृष्ठ पर सबसे सटीक रैंकिंग मॉडल लागू करना बहुत धीमा होगा। एक सस्ता पहला चरण कुछ सौ या हज़ार आशाजनक उम्मीदवारों को पुनः प्राप्त करता है, और उत्तरोत्तर समृद्ध मॉडल उस छोटे सेट को पुनः रैंक करते हैं, गुणवत्ता को विलंबता और लागत के साथ संतुलित करते हैं।
प्रतिकूल सूचना पुनर्प्राप्ति क्या है?
यह उन सेटिंग्स में पुनर्प्राप्ति का अध्ययन है जहाँ सामग्री लाभ के लिए रैंकिंग में सक्रिय रूप से हेरफेर करने का प्रयास करती है, जैसे वेब स्पैम, लिंक फ़ार्म और क्लोकिंग। रैंकिंग सिस्टम परिणामों को विश्वसनीय बनाए रखने के लिए स्पैम का पता लगाने, विश्वास प्रसार और मजबूती उपायों के साथ प्रतिक्रिया करते हैं।

Methods for this concept

Related concepts