ScholarGate
دستیار

خزش وب و ساختار پیوند

خزش وب فرآیند خودکار کشف و دانلود صفحات وب با دنبال کردن ابرپیوندها است و ساختار پیوند حاصل، گرافی را تشکیل می‌دهد که سیستم‌های جستجو هم آن را پیمایش می‌کنند و هم تحلیل می‌کنند.

یافتن موضوع با PaperMindبه‌زودیFind papers & topics
Tools & resources
دریافت اسلایدها
Learn & explore
ویدیوبه‌زودی

Definition

خزش وب پیمایش الگوریتمی وب است که از URLهای اولیه (seed URLs) آغاز می‌شود و به طور مکرر صفحات را واکشی می‌کند و پیوندهای خروجی آن‌ها را برای کشف صفحات بیشتر استخراج می‌کند، در حالی که ساختار پیوند به گراف جهت‌دار تشکیل شده توسط صفحات و ابرپیوندهای بین آن‌ها اشاره دارد.

Scope

این موضوع به چگونگی واکشی سیستماتیک صفحات وب توسط خزنده‌ها و نحوه ساختاریافتگی گراف ابرپیوند وب می‌پردازد. معماری خزنده، مرز URL و محدودیت‌های ادب، تشخیص موارد تکراری و تقریباً تکراری، تازگی و زمان‌بندی خزش مجدد، و احترام به حذف ربات‌ها را مورد بررسی قرار می‌دهد. همچنین ویژگی‌های تجربی گراف وب، مانند ساختار گسترده پاپیونی (bowtie) و توزیع درجه سنگین‌دم آن را پوشش می‌دهد که هم به خزش و هم به تحلیل پیوند کمک می‌کند. این موضوع استفاده از پیوندها برای رتبه‌بندی را که تحت عنوان PageRank و HITS بررسی می‌شود، شامل نمی‌شود.

Core questions

  • یک خزنده چگونه صفحاتی را که واکشی می‌کند، کشف، اولویت‌بندی و زمان‌بندی می‌کند؟
  • چگونه ادب، حذف ربات‌ها و بار سرور در طول خزش رعایت می‌شوند؟
  • صفحات تکراری و تقریباً تکراری چگونه شناسایی و مدیریت می‌شوند؟
  • تازگی خزش چگونه با تغییر صفحات حفظ می‌شود؟
  • گراف وب چه ساختار کلان‌مقیاسی را از خود نشان می‌دهد؟

Key concepts

  • خزنده وب / عنکبوت وب
  • مرز URL و مجموعه اولیه (seed set)
  • ادب خزش و robots.txt
  • تشخیص موارد تکراری و تقریباً تکراری
  • تازگی و زمان‌بندی خزش مجدد
  • گراف وب
  • ساختار پاپیونی (bowtie)
  • توزیع‌های درجه ورودی و درجه خروجی

Key theories

معماری خزنده و مرز URL
یک خزنده مرزی از URLها را برای واکشی نگهداری می‌کند، سیاست‌های اولویت‌بندی و ادب را اعمال می‌کند، صفحات واکشی شده را برای استخراج پیوندهای جدید تجزیه می‌کند، و صفحات بازدید شده را ردیابی می‌کند، در حالی که پوشش، تازگی و محدودیت‌های منابع را متعادل می‌کند.
ساختار کلان‌مقیاس گراف وب
مطالعات تجربی نشان می‌دهد که گراف پیوند وب دارای شکل پاپیونی مشخصی با یک هسته بزرگ قویاً متصل به همراه مؤلفه‌های ورودی و خروجی است، و درجه ورودی سنگین‌دم دارد، که دسترسی‌پذیری را محدود می‌کند و استراتژی خزش را شکل می‌دهد.

Clinical relevance

خزش مرحله جمع‌آوری داده برای هر موتور جستجوی وب و برای تحلیل‌های وب در مقیاس بزرگ، بایگانی، و ساخت مجموعه داده‌ها است. درک ساختار پیوند، خزش کارآمد را هدایت می‌کند، به تخمین پوشش کمک می‌کند، و مبنای معیارهای اعتبار مبتنی بر پیوند است که در رتبه‌بندی استفاده می‌شوند.

History

خزنده‌های وب با وب اولیه در اواسط دهه ۱۹۹۰ برای تغذیه نمایه‌های جستجو ظاهر شدند. چو و همکارانش در سال ۱۹۹۸ خزش کارآمد و ترتیب URL را مطالعه کردند، و مطالعه «ساختار گراف در وب» در سال ۲۰۰۰ ساختار کلان پاپیونی وب را آشکار کرد. با رشد وب، خزش به یک رشته سیستم‌های توزیع‌شده در مقیاس بزرگ تبدیل شد که بر تازگی، پوشش، و ادب تأکید داشت.

Key figures

  • Andrei Broder
  • Prabhakar Raghavan
  • Junghoo Cho
  • Hector García-Molina

Related topics

Seminal works

  • broder2000
  • cho1998
  • manning2008

Frequently asked questions

مرز URL در یک خزنده چیست؟
مرز URL صف URLهای کشف شده اما هنوز واکشی نشده است. یک خزنده به طور مکرر URLها را از مرز بر اساس سیاست‌های اولویت‌بندی و ادب انتخاب می‌کند، صفحات را واکشی می‌کند، پیوندهای جدید را استخراج می‌کند، و URLهای قبلاً دیده نشده را دوباره به مرز اضافه می‌کند.
ساختار «پاپیونی» وب به چه معناست؟
مطالعات در مقیاس بزرگ نشان دادند که گراف وب دارای یک هسته بزرگ قویاً متصل، یک مؤلفه «ورودی» از صفحاتی که می‌توانند به هسته برسند، یک مؤلفه «خروجی» که از آن قابل دسترسی است، به علاوه شاخه‌ها و بخش‌های جدا شده است که شبیه یک پاپیون است. این شکل بر صفحاتی که یک خزنده می‌تواند از URLهای اولیه داده شده به آن‌ها دسترسی پیدا کند، تأثیر می‌گذارد.

Methods for this concept

Related concepts