خزش وب و ساختار پیوند
خزش وب فرآیند خودکار کشف و دانلود صفحات وب با دنبال کردن ابرپیوندها است و ساختار پیوند حاصل، گرافی را تشکیل میدهد که سیستمهای جستجو هم آن را پیمایش میکنند و هم تحلیل میکنند.
Definition
خزش وب پیمایش الگوریتمی وب است که از URLهای اولیه (seed URLs) آغاز میشود و به طور مکرر صفحات را واکشی میکند و پیوندهای خروجی آنها را برای کشف صفحات بیشتر استخراج میکند، در حالی که ساختار پیوند به گراف جهتدار تشکیل شده توسط صفحات و ابرپیوندهای بین آنها اشاره دارد.
Scope
این موضوع به چگونگی واکشی سیستماتیک صفحات وب توسط خزندهها و نحوه ساختاریافتگی گراف ابرپیوند وب میپردازد. معماری خزنده، مرز URL و محدودیتهای ادب، تشخیص موارد تکراری و تقریباً تکراری، تازگی و زمانبندی خزش مجدد، و احترام به حذف رباتها را مورد بررسی قرار میدهد. همچنین ویژگیهای تجربی گراف وب، مانند ساختار گسترده پاپیونی (bowtie) و توزیع درجه سنگیندم آن را پوشش میدهد که هم به خزش و هم به تحلیل پیوند کمک میکند. این موضوع استفاده از پیوندها برای رتبهبندی را که تحت عنوان PageRank و HITS بررسی میشود، شامل نمیشود.
Core questions
- یک خزنده چگونه صفحاتی را که واکشی میکند، کشف، اولویتبندی و زمانبندی میکند؟
- چگونه ادب، حذف رباتها و بار سرور در طول خزش رعایت میشوند؟
- صفحات تکراری و تقریباً تکراری چگونه شناسایی و مدیریت میشوند؟
- تازگی خزش چگونه با تغییر صفحات حفظ میشود؟
- گراف وب چه ساختار کلانمقیاسی را از خود نشان میدهد؟
Key concepts
- خزنده وب / عنکبوت وب
- مرز URL و مجموعه اولیه (seed set)
- ادب خزش و robots.txt
- تشخیص موارد تکراری و تقریباً تکراری
- تازگی و زمانبندی خزش مجدد
- گراف وب
- ساختار پاپیونی (bowtie)
- توزیعهای درجه ورودی و درجه خروجی
Key theories
- معماری خزنده و مرز URL
- یک خزنده مرزی از URLها را برای واکشی نگهداری میکند، سیاستهای اولویتبندی و ادب را اعمال میکند، صفحات واکشی شده را برای استخراج پیوندهای جدید تجزیه میکند، و صفحات بازدید شده را ردیابی میکند، در حالی که پوشش، تازگی و محدودیتهای منابع را متعادل میکند.
- ساختار کلانمقیاس گراف وب
- مطالعات تجربی نشان میدهد که گراف پیوند وب دارای شکل پاپیونی مشخصی با یک هسته بزرگ قویاً متصل به همراه مؤلفههای ورودی و خروجی است، و درجه ورودی سنگیندم دارد، که دسترسیپذیری را محدود میکند و استراتژی خزش را شکل میدهد.
Clinical relevance
خزش مرحله جمعآوری داده برای هر موتور جستجوی وب و برای تحلیلهای وب در مقیاس بزرگ، بایگانی، و ساخت مجموعه دادهها است. درک ساختار پیوند، خزش کارآمد را هدایت میکند، به تخمین پوشش کمک میکند، و مبنای معیارهای اعتبار مبتنی بر پیوند است که در رتبهبندی استفاده میشوند.
History
خزندههای وب با وب اولیه در اواسط دهه ۱۹۹۰ برای تغذیه نمایههای جستجو ظاهر شدند. چو و همکارانش در سال ۱۹۹۸ خزش کارآمد و ترتیب URL را مطالعه کردند، و مطالعه «ساختار گراف در وب» در سال ۲۰۰۰ ساختار کلان پاپیونی وب را آشکار کرد. با رشد وب، خزش به یک رشته سیستمهای توزیعشده در مقیاس بزرگ تبدیل شد که بر تازگی، پوشش، و ادب تأکید داشت.
Key figures
- Andrei Broder
- Prabhakar Raghavan
- Junghoo Cho
- Hector García-Molina
Related topics
Seminal works
- broder2000
- cho1998
- manning2008
Frequently asked questions
- مرز URL در یک خزنده چیست؟
- مرز URL صف URLهای کشف شده اما هنوز واکشی نشده است. یک خزنده به طور مکرر URLها را از مرز بر اساس سیاستهای اولویتبندی و ادب انتخاب میکند، صفحات را واکشی میکند، پیوندهای جدید را استخراج میکند، و URLهای قبلاً دیده نشده را دوباره به مرز اضافه میکند.
- ساختار «پاپیونی» وب به چه معناست؟
- مطالعات در مقیاس بزرگ نشان دادند که گراف وب دارای یک هسته بزرگ قویاً متصل، یک مؤلفه «ورودی» از صفحاتی که میتوانند به هسته برسند، یک مؤلفه «خروجی» که از آن قابل دسترسی است، به علاوه شاخهها و بخشهای جدا شده است که شبیه یک پاپیون است. این شکل بر صفحاتی که یک خزنده میتواند از URLهای اولیه داده شده به آنها دسترسی پیدا کند، تأثیر میگذارد.