खोज इंजन कई चरणों में क्यों रैंक करते हैं?

अनुक्रमणिका में प्रत्येक पृष्ठ पर सबसे सटीक रैंकिंग मॉडल लागू करना बहुत धीमा होगा। एक सस्ता पहला चरण कुछ सौ या हज़ार आशाजनक उम्मीदवारों को पुनः प्राप्त करता है, और उत्तरोत्तर समृद्ध मॉडल उस छोटे सेट को पुनः रैंक करते हैं, गुणवत्ता को विलंबता और लागत के साथ संतुलित करते हैं।

प्रतिकूल सूचना पुनर्प्राप्ति क्या है?

यह उन सेटिंग्स में पुनर्प्राप्ति का अध्ययन है जहाँ सामग्री लाभ के लिए रैंकिंग में सक्रिय रूप से हेरफेर करने का प्रयास करती है, जैसे वेब स्पैम, लिंक फ़ार्म और क्लोकिंग। रैंकिंग सिस्टम परिणामों को विश्वसनीय बनाए रखने के लिए स्पैम का पता लगाने, विश्वास प्रसार और मजबूती उपायों के साथ प्रतिक्रिया करते हैं।

वेब खोज रैंकिंग

वेब खोज रैंकिंग एक बहु-चरणीय पाइपलाइन के माध्यम से पाठ्य, लिंक-आधारित और व्यवहारिक संकेतों के संयोजन द्वारा एक क्वेरी के लिए वेब पृष्ठों को व्यवस्थित करने की एंड-टू-एंड प्रक्रिया है, जिसे हेरफेर का भी विरोध करना चाहिए।

PaperMind से विषय खोजेंजल्द हीFind papers & topics

Tools & resources

स्लाइड डाउनलोड करें

Learn & explore

वीडियोजल्द ही

Definition

वेब खोज रैंकिंग एक क्वेरी के लिए वेब पृष्ठों के क्रम में कई प्रासंगिकता और गुणवत्ता संकेतों का संयोजन है, जिसे आमतौर पर एक बहु-चरणीय पाइपलाइन के रूप में महसूस किया जाता है जो एक कुशल मॉडल के साथ एक उम्मीदवार सेट को पुनः प्राप्त करती है और फिर उसे अधिक महंगे सीखे हुए मॉडल के साथ पुनः रैंक करती है, जो सामग्री द्वारा उच्च रैंक प्राप्त करने के निरंतर प्रतिकूल दबाव में होता है।

Scope

यह विषय बताता है कि एक वेब खोज इंजन अपने अंतिम रैंक किए गए परिणाम कैसे उत्पन्न करता है: जिन संकेतों पर वह निर्भर करता है (पाठ्य प्रासंगिकता, एंकर टेक्स्ट, लिंक-आधारित अधिकार, नवीनता और व्यवहारिक डेटा), बहु-चरणीय वास्तुकला जो उम्मीदवारों को सस्ते में पुनः प्राप्त करती है और उन्हें समृद्ध मॉडल के साथ पुनः रैंक करती है, और वेब स्पैम तथा खोज-इंजन हेरफेर का प्रतिकूल आयाम। यह पुनर्प्राप्ति मॉडल, लिंक विश्लेषण और रैंकिंग सीखने को एक कार्यशील रैंकिंग पाइपलाइन में एकीकृत करता है, बजाय किसी एक घटक को अलग-थलग मानने के।

Core questions

किसी पृष्ठ की रैंक में कौन से संकेत योगदान करते हैं, और उन्हें कैसे संयोजित किया जाता है?
रैंकिंग को बहु-चरणीय पुनर्प्राप्ति-फिर-पुनर्रैंक पाइपलाइन के रूप में क्यों व्यवस्थित किया जाता है?
एंकर टेक्स्ट और लिंक-आधारित अधिकार ऑन-पेज टेक्स्ट को कैसे पूरक करते हैं?
खोज इंजन वेब स्पैम और हेरफेर का पता कैसे लगाते हैं और उन्हें पदावनत कैसे करते हैं?
नवीनता और उपयोगकर्ता-व्यवहार संकेतों को कैसे शामिल किया जाता है?

Key concepts

रैंकिंग संकेत और विशेषताएँ
एंकर टेक्स्ट
लिंक-आधारित अधिकार
बहु-चरणीय पुनर्प्राप्ति और पुनर्रैंकिंग
नवीनता संकेत
व्यवहारिक / क्लिक संकेत
वेब स्पैम (लिंक फ़ार्म, क्लोकिंग, कीवर्ड स्टफिंग)
प्रतिकूल सूचना पुनर्प्राप्ति

Key theories

बहु-चरणीय पुनर्प्राप्ति-फिर-पुनर्रैंक पाइपलाइन: क्योंकि समृद्ध रैंकिंग मॉडल प्रत्येक दस्तावेज़ पर लागू करने के लिए बहुत महंगे होते हैं, वेब खोज पहले BM25 जैसे कुशल मॉडल के साथ एक प्रबंधनीय उम्मीदवार सेट को पुनः प्राप्त करती है और फिर उन उम्मीदवारों को उत्तरोत्तर अधिक महंगे सीखे हुए मॉडल के साथ पुनः रैंक करती है।
प्रतिकूल सूचना पुनर्प्राप्ति और वेब स्पैम: क्योंकि उच्च रैंकिंग का वाणिज्यिक मूल्य होता है, सामग्री को कीवर्ड स्टफिंग, लिंक फ़ार्म और क्लोकिंग के माध्यम से रैंकिंग में हेरफेर करने के लिए सक्रिय रूप से इंजीनियर किया जाता है, इसलिए रैंकिंग में स्पैम का पता लगाना और मजबूती को प्राथमिक चिंता के रूप में शामिल करना चाहिए।

Clinical relevance

रैंकिंग की गुणवत्ता अरबों उपयोगकर्ताओं के लिए वाणिज्यिक वेब खोज की उपयोगिता और प्रकाशकों के लिए सामग्री की दृश्यता निर्धारित करती है, जिससे खोज-इंजन-अनुकूलन उद्योग का उदय होता है। यहां विकसित पुनर्प्राप्ति-फिर-पुनर्रैंक पैटर्न और स्पैम-प्रतिरोध तकनीकों का ई-कॉमर्स, ऐप और एंटरप्राइज़ खोज में पुन: उपयोग किया जाता है।

History

प्रारंभिक वेब खोज रैंकिंग ने पाठ्य प्रासंगिकता को लगभग 1998 में पेश किए गए नए लिंक-आधारित संकेतों के साथ मिलाया। जैसे-जैसे हेरफेर बढ़ा, 2000 के दशक के मध्य में वेब-स्पैम वर्गीकरण और विश्वास प्रसार जैसे कार्यों के साथ प्रतिकूल सूचना पुनर्प्राप्ति उभरी। रैंकिंग पाइपलाइनों ने लगातार सीखे हुए मॉडल और व्यवहारिक संकेतों को जोड़ा, जो आज उपयोग की जाने वाली बहु-चरणीय वास्तुकला में विकसित हुए।

Key figures

Sergey Brin
Larry Page
Zoltán Gyöngyi
Hector García-Molina

Seminal works

brin1998
gyongyi2005
croft2010

Frequently asked questions

खोज इंजन कई चरणों में क्यों रैंक करते हैं?: अनुक्रमणिका में प्रत्येक पृष्ठ पर सबसे सटीक रैंकिंग मॉडल लागू करना बहुत धीमा होगा। एक सस्ता पहला चरण कुछ सौ या हज़ार आशाजनक उम्मीदवारों को पुनः प्राप्त करता है, और उत्तरोत्तर समृद्ध मॉडल उस छोटे सेट को पुनः रैंक करते हैं, गुणवत्ता को विलंबता और लागत के साथ संतुलित करते हैं।
प्रतिकूल सूचना पुनर्प्राप्ति क्या है?: यह उन सेटिंग्स में पुनर्प्राप्ति का अध्ययन है जहाँ सामग्री लाभ के लिए रैंकिंग में सक्रिय रूप से हेरफेर करने का प्रयास करती है, जैसे वेब स्पैम, लिंक फ़ार्म और क्लोकिंग। रैंकिंग सिस्टम परिणामों को विश्वसनीय बनाए रखने के लिए स्पैम का पता लगाने, विश्वास प्रसार और मजबूती उपायों के साथ प्रतिक्रिया करते हैं।