زحف الويب وهيكل الروابط
زحف الويب هو العملية الآلية لاكتشاف وتنزيل صفحات الويب عن طريق تتبع الروابط التشعبية، ويشكل هيكل الروابط الناتج رسمًا بيانيًا تستخدمه أنظمة البحث في التنقل والتحليل.
Definition
زحف الويب هو التتبع الخوارزمي للويب الذي يبدأ من عناوين URL الأولية (seed URLs) ويقوم بشكل متكرر بجلب الصفحات واستخراج روابطها الصادرة لاكتشاف المزيد من الصفحات، بينما يشير هيكل الروابط إلى الرسم البياني الموجه الذي يتكون من الصفحات والروابط التشعبية بينها.
Scope
يغطي هذا الموضوع كيفية قيام برامج الزحف بجلب صفحات الويب بشكل منهجي وكيفية تنظيم الرسم البياني للروابط التشعبية على الويب. ويتناول بنية برنامج الزحف، وحدود عناوين URL وقيود اللياقة، واكتشاف الصفحات المكررة وشبه المكررة، وتحديث وجدولة إعادة الزحف، واحترام استبعاد الروبوتات. كما يغطي الخصائص التجريبية للرسم البياني للويب، مثل هيكله الواسع على شكل فراشة (bowtie) وتوزيع الدرجة الثقيل الذيل، والتي تفيد كلاً من الزحف وتحليل الروابط. ويستثني هذا الموضوع استخدام الروابط في التصنيف، والذي يتم تناوله تحت PageRank و HITS.
Core questions
- كيف يكتشف برنامج الزحف الصفحات التي يجلبها ويحدد أولوياتها ويجدولها؟
- كيف يتم احترام اللياقة واستبعاد الروبوتات وحمل الخادم أثناء الزحف؟
- كيف يتم اكتشاف الصفحات المكررة وشبه المكررة والتعامل معها؟
- كيف يتم الحفاظ على تحديث الزحف مع تغير الصفحات؟
- ما هو الهيكل واسع النطاق الذي يظهره الرسم البياني للويب؟
Key concepts
- برنامج زحف الويب / العنكبوت
- حدود عناوين URL ومجموعة البذور
- لياقة الزحف و robots.txt
- اكتشاف الصفحات المكررة وشبه المكررة
- التحديث وجدولة إعادة الزحف
- الرسم البياني للويب
- هيكل الفراشة (bowtie structure)
- توزيعات الدرجة الداخلية والخارجية
Key theories
- بنية برنامج الزحف وحدود عناوين URL
- يحتفظ برنامج الزحف بحدود من عناوين URL لجلبها، ويطبق سياسات التحديد الأولوية واللياقة، ويحلل الصفحات التي تم جلبها لاستخراج روابط جديدة، ويتتبع الصفحات التي تمت زيارتها، موازنًا بين التغطية والتحديث وقيود الموارد.
- هيكل الرسم البياني الكلي للويب
- تُظهر الدراسات التجريبية أن الرسم البياني لروابط الويب له شكل فراشة مميز مع نواة كبيرة متصلة بقوة بالإضافة إلى مكونات داخلية وخارجية، ودرجة داخلية ثقيلة الذيل، مما يقيد إمكانية الوصول ويفيد استراتيجية الزحف.
Clinical relevance
الزحف هو مرحلة الحصول على البيانات لكل محرك بحث على الويب ولتحليلات الويب واسعة النطاق، والأرشفة، وبناء مجموعات البيانات. يساعد فهم هيكل الروابط في توجيه الزحف الفعال، ويساعد في تقدير التغطية، ويدعم مقاييس السلطة القائمة على الروابط المستخدمة في التصنيف.
History
ظهرت برامج زحف الويب مع الويب المبكر في منتصف التسعينيات لتغذية فهارس البحث. درس تشو وزملاؤه الزحف الفعال وترتيب عناوين URL في عام 1998، وكشفت دراسة عام 2000 'هيكل الرسم البياني في الويب' عن البنية الكلية للويب على شكل فراشة. مع نمو الويب، تطور الزحف ليصبح تخصصًا في الأنظمة الموزعة واسعة النطاق يركز على التحديث والتغطية واللياقة.
Key figures
- Andrei Broder
- Prabhakar Raghavan
- Junghoo Cho
- Hector García-Molina
Related topics
Seminal works
- broder2000
- cho1998
- manning2008
Frequently asked questions
- ما هو حد عناوين URL في برنامج الزحف؟
- حد عناوين URL هو قائمة انتظار عناوين URL المكتشفة ولكن لم يتم جلبها بعد. يختار برنامج الزحف بشكل متكرر عناوين URL من الحد وفقًا لسياسات الأولوية واللياقة، ويجلب الصفحات، ويستخرج روابط جديدة، ويضيف عناوين URL التي لم يتم رؤيتها مسبقًا مرة أخرى إلى الحد.
- ماذا يعني هيكل 'الفراشة' للويب؟
- وجدت الدراسات واسعة النطاق أن الرسم البياني للويب له نواة كبيرة متصلة بقوة، ومكون 'داخلي' من الصفحات التي يمكن أن تصل إلى النواة، ومكون 'خارجي' يمكن الوصول إليه منها، بالإضافة إلى أجزاء متفرقة وغير متصلة، تشبه الفراشة. يؤثر هذا الشكل على الصفحات التي يمكن لبرنامج الزحف الوصول إليها من البذور المعطاة.