वेब खोज रैंकिंग
वेब खोज रैंकिंग एक बहु-चरणीय पाइपलाइन के माध्यम से पाठ्य, लिंक-आधारित और व्यवहारिक संकेतों के संयोजन द्वारा एक क्वेरी के लिए वेब पृष्ठों को व्यवस्थित करने की एंड-टू-एंड प्रक्रिया है, जिसे हेरफेर का भी विरोध करना चाहिए।
Definition
वेब खोज रैंकिंग एक क्वेरी के लिए वेब पृष्ठों के क्रम में कई प्रासंगिकता और गुणवत्ता संकेतों का संयोजन है, जिसे आमतौर पर एक बहु-चरणीय पाइपलाइन के रूप में महसूस किया जाता है जो एक कुशल मॉडल के साथ एक उम्मीदवार सेट को पुनः प्राप्त करती है और फिर उसे अधिक महंगे सीखे हुए मॉडल के साथ पुनः रैंक करती है, जो सामग्री द्वारा उच्च रैंक प्राप्त करने के निरंतर प्रतिकूल दबाव में होता है।
Scope
यह विषय बताता है कि एक वेब खोज इंजन अपने अंतिम रैंक किए गए परिणाम कैसे उत्पन्न करता है: जिन संकेतों पर वह निर्भर करता है (पाठ्य प्रासंगिकता, एंकर टेक्स्ट, लिंक-आधारित अधिकार, नवीनता और व्यवहारिक डेटा), बहु-चरणीय वास्तुकला जो उम्मीदवारों को सस्ते में पुनः प्राप्त करती है और उन्हें समृद्ध मॉडल के साथ पुनः रैंक करती है, और वेब स्पैम तथा खोज-इंजन हेरफेर का प्रतिकूल आयाम। यह पुनर्प्राप्ति मॉडल, लिंक विश्लेषण और रैंकिंग सीखने को एक कार्यशील रैंकिंग पाइपलाइन में एकीकृत करता है, बजाय किसी एक घटक को अलग-थलग मानने के।
Core questions
- किसी पृष्ठ की रैंक में कौन से संकेत योगदान करते हैं, और उन्हें कैसे संयोजित किया जाता है?
- रैंकिंग को बहु-चरणीय पुनर्प्राप्ति-फिर-पुनर्रैंक पाइपलाइन के रूप में क्यों व्यवस्थित किया जाता है?
- एंकर टेक्स्ट और लिंक-आधारित अधिकार ऑन-पेज टेक्स्ट को कैसे पूरक करते हैं?
- खोज इंजन वेब स्पैम और हेरफेर का पता कैसे लगाते हैं और उन्हें पदावनत कैसे करते हैं?
- नवीनता और उपयोगकर्ता-व्यवहार संकेतों को कैसे शामिल किया जाता है?
Key concepts
- रैंकिंग संकेत और विशेषताएँ
- एंकर टेक्स्ट
- लिंक-आधारित अधिकार
- बहु-चरणीय पुनर्प्राप्ति और पुनर्रैंकिंग
- नवीनता संकेत
- व्यवहारिक / क्लिक संकेत
- वेब स्पैम (लिंक फ़ार्म, क्लोकिंग, कीवर्ड स्टफिंग)
- प्रतिकूल सूचना पुनर्प्राप्ति
Key theories
- बहु-चरणीय पुनर्प्राप्ति-फिर-पुनर्रैंक पाइपलाइन
- क्योंकि समृद्ध रैंकिंग मॉडल प्रत्येक दस्तावेज़ पर लागू करने के लिए बहुत महंगे होते हैं, वेब खोज पहले BM25 जैसे कुशल मॉडल के साथ एक प्रबंधनीय उम्मीदवार सेट को पुनः प्राप्त करती है और फिर उन उम्मीदवारों को उत्तरोत्तर अधिक महंगे सीखे हुए मॉडल के साथ पुनः रैंक करती है।
- प्रतिकूल सूचना पुनर्प्राप्ति और वेब स्पैम
- क्योंकि उच्च रैंकिंग का वाणिज्यिक मूल्य होता है, सामग्री को कीवर्ड स्टफिंग, लिंक फ़ार्म और क्लोकिंग के माध्यम से रैंकिंग में हेरफेर करने के लिए सक्रिय रूप से इंजीनियर किया जाता है, इसलिए रैंकिंग में स्पैम का पता लगाना और मजबूती को प्राथमिक चिंता के रूप में शामिल करना चाहिए।
Clinical relevance
रैंकिंग की गुणवत्ता अरबों उपयोगकर्ताओं के लिए वाणिज्यिक वेब खोज की उपयोगिता और प्रकाशकों के लिए सामग्री की दृश्यता निर्धारित करती है, जिससे खोज-इंजन-अनुकूलन उद्योग का उदय होता है। यहां विकसित पुनर्प्राप्ति-फिर-पुनर्रैंक पैटर्न और स्पैम-प्रतिरोध तकनीकों का ई-कॉमर्स, ऐप और एंटरप्राइज़ खोज में पुन: उपयोग किया जाता है।
History
प्रारंभिक वेब खोज रैंकिंग ने पाठ्य प्रासंगिकता को लगभग 1998 में पेश किए गए नए लिंक-आधारित संकेतों के साथ मिलाया। जैसे-जैसे हेरफेर बढ़ा, 2000 के दशक के मध्य में वेब-स्पैम वर्गीकरण और विश्वास प्रसार जैसे कार्यों के साथ प्रतिकूल सूचना पुनर्प्राप्ति उभरी। रैंकिंग पाइपलाइनों ने लगातार सीखे हुए मॉडल और व्यवहारिक संकेतों को जोड़ा, जो आज उपयोग की जाने वाली बहु-चरणीय वास्तुकला में विकसित हुए।
Key figures
- Sergey Brin
- Larry Page
- Zoltán Gyöngyi
- Hector García-Molina
Related topics
Seminal works
- brin1998
- gyongyi2005
- croft2010
Frequently asked questions
- खोज इंजन कई चरणों में क्यों रैंक करते हैं?
- अनुक्रमणिका में प्रत्येक पृष्ठ पर सबसे सटीक रैंकिंग मॉडल लागू करना बहुत धीमा होगा। एक सस्ता पहला चरण कुछ सौ या हज़ार आशाजनक उम्मीदवारों को पुनः प्राप्त करता है, और उत्तरोत्तर समृद्ध मॉडल उस छोटे सेट को पुनः रैंक करते हैं, गुणवत्ता को विलंबता और लागत के साथ संतुलित करते हैं।
- प्रतिकूल सूचना पुनर्प्राप्ति क्या है?
- यह उन सेटिंग्स में पुनर्प्राप्ति का अध्ययन है जहाँ सामग्री लाभ के लिए रैंकिंग में सक्रिय रूप से हेरफेर करने का प्रयास करती है, जैसे वेब स्पैम, लिंक फ़ार्म और क्लोकिंग। रैंकिंग सिस्टम परिणामों को विश्वसनीय बनाए रखने के लिए स्पैम का पता लगाने, विश्वास प्रसार और मजबूती उपायों के साथ प्रतिक्रिया करते हैं।