البحث في الويب وتحليل الروابط
يتناول البحث في الويب وتحليل الروابط استرجاع المعلومات عبر الشبكة العنكبوتية العالمية، حيث توفر بنية الارتباط التشعبي أدلة إضافية على الموثوقية، وحيث يجمع الترتيب بين العديد من الميزات على نطاق واسع.
Definition
البحث في الويب وتحليل الروابط هو دراسة استرجاع المعلومات عبر مجموعات الويب المتشعبة، حيث يجمع بين الصلة النصية وإشارات الموثوقية المستندة إلى الرسوم البيانية المشتقة من بنية الروابط، ومع الترتيب المستفاد آليًا عبر العديد من الميزات، على نطاق الويب المفتوح وفي ظل الظروف التنافسية.
Scope
يغطي هذا المجال المكونات الخاصة بالاسترجاع على نطاق الويب: الزحف وبنية روابط الويب، وخوارزميات تحليل الروابط مثل PageRank و HITS التي تستغل الروابط التشعبية كتأييدات، وطرق التعلم للترتيب التي تجمع العديد من ميزات الترتيب، وتصميم مسارات ترتيب البحث في الويب. ويتناول كيف تغير طبيعة الويب المتشعبة، والتنافسية، والضخمة عملية الاسترجاع، مما يميزها عن نماذج الاسترجاع الأساسية التي تسجل المستندات الفردية بناءً على الأدلة النصية وحدها.
Sub-topics
Core questions
- كيف يتم الزحف إلى الويب والتقاط رسم بياني الروابط الخاص به؟
- كيف يمكن لبنية الارتباط التشعبي أن تشير إلى أهمية أو موثوقية الصفحة؟
- كيف تختلف خوارزميتا PageRank و HITS في نمذجة الموثوقية القائمة على الروابط؟
- كيف يتم دمج العديد من إشارات الترتيب غير المتجانسة في ترتيب واحد؟
- كيف يتعامل الترتيب مع البريد العشوائي والتلاعب التنافسي على نطاق الويب؟
Key concepts
- الزحف إلى الويب
- رسم بياني روابط الويب
- PageRank
- HITS (المحاور والسلطات)
- نص الرابط
- التعلم للترتيب
- ميزات وإشارات الترتيب
- البريد العشوائي على الويب واسترجاع المعلومات التنافسي
Key theories
- الروابط التشعبية كتأييدات
- يمكن قراءة الرابط من صفحة إلى أخرى كتصويت بالثقة، لذا فإن رسم بياني الروابط يحمل أدلة حول أهمية الصفحة وموثوقيتها التي يتجاهلها المطابقة النصية البحتة.
- PageRank كمقياس للموثوقية بناءً على المشي العشوائي
- تخصص PageRank لكل صفحة درجة تساوي احتمالية زيارتها على المدى الطويل بواسطة متصفح عشوائي يتبع الروابط وينتقل أحيانًا عن بعد، مما يعطي مقياسًا لأهمية مستقل عن الاستعلام مشتق من رسم بياني الروابط بأكمله.
- الترتيب المستفاد آليًا عبر العديد من الميزات
- يجمع ترتيب الويب مئات الإشارات، بما في ذلك الصلة النصية، والموثوقية القائمة على الروابط، والميزات السلوكية، عن طريق تعلم دالة ترتيب من البيانات المصنفة، لتحل محل الصيغ الفردية المعدلة يدويًا.
Clinical relevance
يمثل هذا المجال أساس محركات البحث التجارية على الويب، والتي تنظم الوصول إلى الويب العام لمليارات المستخدمين. لقد أعاد تحليل الروابط تشكيل كيفية قياس الموثوقية عبر الإنترنت، وتظل مسارات التعلم للترتيب محورية في كيفية دمج أنظمة البحث والتوصية للإشارات في عمليات الترتيب.
History
ظهر استرجاع المعلومات على الويب في منتصف التسعينيات مع تجاوز الويب للتنقل القائم على الدلائل. أظهرت خوارزميتا HITS لكلاينبرغ و PageRank لبرين وبيج، وكلاهما حوالي عامي 1998 و 1999، أن بنية الارتباط التشعبي يمكن أن ترتب الصفحات حسب الموثوقية، وقد دعمت PageRank صعود محركات البحث واسعة النطاق. وخلال العقد الأول من القرن الحادي والعشرين، وحدت طرق التعلم للترتيب العدد المتزايد من إشارات الترتيب.
Key figures
- Sergey Brin
- Larry Page
- Jon Kleinberg
- Prabhakar Raghavan
Related topics
Seminal works
- brin1998
- page1999
- kleinberg1999
Frequently asked questions
- لماذا يحتاج الويب إلى طرق استرجاع مختلفة عن مجموعة مغلقة؟
- الويب ضخم، ويتغير باستمرار، ومتشعب، وتنافسي، مع صفحات تحاول بنشاط أن تحتل مراتب أعلى. تضيف هذه الظروف الزحف، وإشارات الموثوقية القائمة على الروابط، ومقاومة البريد العشوائي، والترتيب المستفاد على نطاق واسع، بالإضافة إلى المطابقة النصية المستخدمة في المجموعات المغلقة.
- هل لا يزال تحليل الروابط مهمًا بالنظر إلى الترتيب الحديث؟
- تظل الموثوقية القائمة على الروابط إشارة واحدة من بين مئات الإشارات في الترتيب الحديث، والذي يعتمد الآن بشكل كبير على النماذج المستفادة والميزات السلوكية والمحتوى. ولا تزال الأفكار على غرار PageRank توجه كيفية انتشار الأهمية عبر الرسوم البيانية، بما في ذلك في التوصية وتحليل الاستشهادات.