چرا وب به روشهای بازیابی متفاوتی نسبت به یک مجموعه بسته نیاز دارد؟

وب عظیم، دائماً در حال تغییر، ابرپیوندی و خصمانه است، با صفحاتی که فعالانه تلاش میکنند رتبه بالاتری کسب کنند. این شرایط، خزش، سیگنالهای اعتبار مبتنی بر پیوند، مقاومت در برابر هرزنامه، و رتبهبندی یادگیری شده در مقیاس بزرگ را علاوه بر تطابق متنی مورد استفاده در مجموعههای بسته، اضافه میکند.

آیا تحلیل پیوند با توجه به رتبهبندی مدرن هنوز مهم است؟

اعتبار مبتنی بر پیوند یکی از صدها سیگنال در رتبهبندی مدرن باقی میماند، که اکنون به شدت بر مدلهای یادگیری شده و ویژگیهای رفتاری و محتوایی تکیه دارد. ایدههای سبک پیجرنک همچنان نحوه انتشار اهمیت از طریق گرافها، از جمله در توصیهگرها و تحلیل استنادی را شکل میدهند.

جستجوی وب و تحلیل پیوند

جستجوی وب و تحلیل پیوند به بازیابی اطلاعات در شبکه جهانی وب می‌پردازد، جایی که ساختار ابرپیوند شواهد بیشتری از اعتبار فراهم می‌کند و رتبه‌بندی بسیاری از ویژگی‌ها را در مقیاس وسیع ترکیب می‌کند.

یافتن موضوع با PaperMindبه‌زودیFind papers & topics

Tools & resources

دریافت اسلایدها

Learn & explore

ویدیوبه‌زودی

Definition

جستجوی وب و تحلیل پیوند، مطالعه بازیابی اطلاعات در مجموعه‌های وب ابرپیوندی است که ارتباط متنی را با سیگنال‌های اعتبار مبتنی بر گراف که از ساختار پیوند مشتق شده‌اند و با رتبه‌بندی یادگیری ماشینی بر اساس بسیاری از ویژگی‌ها، در مقیاس و تحت شرایط خصمانه وب باز ترکیب می‌کند.

Scope

این حوزه شامل مؤلفه‌های خاص بازیابی در مقیاس وب است: خزش وب و ساختار پیوندی وب، الگوریتم‌های تحلیل پیوند مانند پیج‌رنک (PageRank) و HITS که از ابرپیوندها به عنوان تأییدیه استفاده می‌کنند، روش‌های یادگیری برای رتبه‌بندی که بسیاری از ویژگی‌های رتبه‌بندی را ترکیب می‌کنند، و طراحی خطوط لوله رتبه‌بندی جستجوی وب. این حوزه به این می‌پردازد که چگونه ماهیت ابرپیوندی، خصمانه و عظیم وب، بازیابی اطلاعات را تغییر می‌دهد، که با مدل‌های اصلی بازیابی که تنها بر اساس شواهد متنی اسناد منفرد را امتیازدهی می‌کنند، متفاوت است.

Sub-topics

Core questions

چگونه وب خزش می‌شود و گراف پیوندی آن ثبت می‌گردد؟
چگونه ساختار ابرپیوند می‌تواند اهمیت یا اعتبار یک صفحه را نشان دهد؟
پیج‌رنک و HITS چگونه در مدل‌سازی اعتبار مبتنی بر پیوند تفاوت دارند؟
چگونه بسیاری از سیگنال‌های رتبه‌بندی ناهمگن در یک ترتیب واحد ترکیب می‌شوند؟
چگونه رتبه‌بندی با هرزنامه و دستکاری خصمانه در مقیاس وب مقابله می‌کند؟

Key concepts

خزش وب
گراف پیوندی وب
پیج‌رنک (PageRank)
HITS (هاب‌ها و مراجع)
متن لنگر (anchor text)
یادگیری برای رتبه‌بندی
ویژگی‌ها و سیگنال‌های رتبه‌بندی
هرزنامه وب و بازیابی اطلاعات خصمانه

Key theories

ابرپیوندها به عنوان تأییدیه: یک پیوند از یک صفحه به صفحه دیگر را می‌توان به عنوان رأی اعتماد تلقی کرد، بنابراین گراف پیوند شواهدی درباره اهمیت و اعتبار صفحه حمل می‌کند که تطابق متنی صرف آن را نادیده می‌گیرد.
پیج‌رنک به عنوان معیار اعتبار گام تصادفی: پیج‌رنک به هر صفحه امتیازی برابر با احتمال بازدید طولانی‌مدت آن تحت یک گشت‌وگذارگر تصادفی که پیوندها را دنبال می‌کند و گاهی اوقات تله‌پورت می‌کند، اختصاص می‌دهد که یک معیار مستقل از پرس‌وجو برای اهمیت مشتق شده از کل گراف پیوند ارائه می‌دهد.
رتبه‌بندی یادگیری ماشینی بر اساس بسیاری از ویژگی‌ها: رتبه‌بندی وب صدها سیگنال، از جمله ارتباط متنی، اعتبار مبتنی بر پیوند، و ویژگی‌های رفتاری را با یادگیری یک تابع رتبه‌بندی از داده‌های برچسب‌گذاری شده ترکیب می‌کند و جایگزین فرمول‌های منفرد تنظیم شده دستی می‌شود.

Clinical relevance

این حوزه اساس موتورهای جستجوی تجاری وب است که دسترسی به وب عمومی را برای میلیاردها کاربر سازماندهی می‌کنند. تحلیل پیوند نحوه اندازه‌گیری اعتبار آنلاین را تغییر داد و خطوط لوله یادگیری برای رتبه‌بندی همچنان در نحوه ترکیب سیگنال‌ها در رتبه‌بندی توسط سیستم‌های جستجو و توصیه، محوری هستند.

History

بازیابی اطلاعات وب (Web IR) در اواسط دهه ۱۹۹۰ با گسترش وب فراتر از ناوبری مبتنی بر دایرکتوری‌ها پدیدار شد. HITS کلاینبرگ و پیج‌رنک برین و پیج، هر دو در حدود سال‌های ۱۹۹۸ و ۱۹۹۹، نشان دادند که ساختار ابرپیوند می‌تواند صفحات را بر اساس اعتبار رتبه‌بندی کند، و پیج‌رنک زیربنای ظهور موتورهای جستجوی در مقیاس بزرگ بود. در طول دهه ۲۰۰۰، روش‌های یادگیری برای رتبه‌بندی، تعداد فزاینده سیگنال‌های رتبه‌بندی را یکپارچه کردند.

Key figures

Sergey Brin
Larry Page
Jon Kleinberg
Prabhakar Raghavan

Seminal works

brin1998
page1999
kleinberg1999

Frequently asked questions

چرا وب به روش‌های بازیابی متفاوتی نسبت به یک مجموعه بسته نیاز دارد؟: وب عظیم، دائماً در حال تغییر، ابرپیوندی و خصمانه است، با صفحاتی که فعالانه تلاش می‌کنند رتبه بالاتری کسب کنند. این شرایط، خزش، سیگنال‌های اعتبار مبتنی بر پیوند، مقاومت در برابر هرزنامه، و رتبه‌بندی یادگیری شده در مقیاس بزرگ را علاوه بر تطابق متنی مورد استفاده در مجموعه‌های بسته، اضافه می‌کند.
آیا تحلیل پیوند با توجه به رتبه‌بندی مدرن هنوز مهم است؟: اعتبار مبتنی بر پیوند یکی از صدها سیگنال در رتبه‌بندی مدرن باقی می‌ماند، که اکنون به شدت بر مدل‌های یادگیری شده و ویژگی‌های رفتاری و محتوایی تکیه دارد. ایده‌های سبک پیج‌رنک همچنان نحوه انتشار اهمیت از طریق گراف‌ها، از جمله در توصیه‌گرها و تحلیل استنادی را شکل می‌دهند.