جستجوی وب و تحلیل پیوند
جستجوی وب و تحلیل پیوند به بازیابی اطلاعات در شبکه جهانی وب میپردازد، جایی که ساختار ابرپیوند شواهد بیشتری از اعتبار فراهم میکند و رتبهبندی بسیاری از ویژگیها را در مقیاس وسیع ترکیب میکند.
Definition
جستجوی وب و تحلیل پیوند، مطالعه بازیابی اطلاعات در مجموعههای وب ابرپیوندی است که ارتباط متنی را با سیگنالهای اعتبار مبتنی بر گراف که از ساختار پیوند مشتق شدهاند و با رتبهبندی یادگیری ماشینی بر اساس بسیاری از ویژگیها، در مقیاس و تحت شرایط خصمانه وب باز ترکیب میکند.
Scope
این حوزه شامل مؤلفههای خاص بازیابی در مقیاس وب است: خزش وب و ساختار پیوندی وب، الگوریتمهای تحلیل پیوند مانند پیجرنک (PageRank) و HITS که از ابرپیوندها به عنوان تأییدیه استفاده میکنند، روشهای یادگیری برای رتبهبندی که بسیاری از ویژگیهای رتبهبندی را ترکیب میکنند، و طراحی خطوط لوله رتبهبندی جستجوی وب. این حوزه به این میپردازد که چگونه ماهیت ابرپیوندی، خصمانه و عظیم وب، بازیابی اطلاعات را تغییر میدهد، که با مدلهای اصلی بازیابی که تنها بر اساس شواهد متنی اسناد منفرد را امتیازدهی میکنند، متفاوت است.
Sub-topics
Core questions
- چگونه وب خزش میشود و گراف پیوندی آن ثبت میگردد؟
- چگونه ساختار ابرپیوند میتواند اهمیت یا اعتبار یک صفحه را نشان دهد؟
- پیجرنک و HITS چگونه در مدلسازی اعتبار مبتنی بر پیوند تفاوت دارند؟
- چگونه بسیاری از سیگنالهای رتبهبندی ناهمگن در یک ترتیب واحد ترکیب میشوند؟
- چگونه رتبهبندی با هرزنامه و دستکاری خصمانه در مقیاس وب مقابله میکند؟
Key concepts
- خزش وب
- گراف پیوندی وب
- پیجرنک (PageRank)
- HITS (هابها و مراجع)
- متن لنگر (anchor text)
- یادگیری برای رتبهبندی
- ویژگیها و سیگنالهای رتبهبندی
- هرزنامه وب و بازیابی اطلاعات خصمانه
Key theories
- ابرپیوندها به عنوان تأییدیه
- یک پیوند از یک صفحه به صفحه دیگر را میتوان به عنوان رأی اعتماد تلقی کرد، بنابراین گراف پیوند شواهدی درباره اهمیت و اعتبار صفحه حمل میکند که تطابق متنی صرف آن را نادیده میگیرد.
- پیجرنک به عنوان معیار اعتبار گام تصادفی
- پیجرنک به هر صفحه امتیازی برابر با احتمال بازدید طولانیمدت آن تحت یک گشتوگذارگر تصادفی که پیوندها را دنبال میکند و گاهی اوقات تلهپورت میکند، اختصاص میدهد که یک معیار مستقل از پرسوجو برای اهمیت مشتق شده از کل گراف پیوند ارائه میدهد.
- رتبهبندی یادگیری ماشینی بر اساس بسیاری از ویژگیها
- رتبهبندی وب صدها سیگنال، از جمله ارتباط متنی، اعتبار مبتنی بر پیوند، و ویژگیهای رفتاری را با یادگیری یک تابع رتبهبندی از دادههای برچسبگذاری شده ترکیب میکند و جایگزین فرمولهای منفرد تنظیم شده دستی میشود.
Clinical relevance
این حوزه اساس موتورهای جستجوی تجاری وب است که دسترسی به وب عمومی را برای میلیاردها کاربر سازماندهی میکنند. تحلیل پیوند نحوه اندازهگیری اعتبار آنلاین را تغییر داد و خطوط لوله یادگیری برای رتبهبندی همچنان در نحوه ترکیب سیگنالها در رتبهبندی توسط سیستمهای جستجو و توصیه، محوری هستند.
History
بازیابی اطلاعات وب (Web IR) در اواسط دهه ۱۹۹۰ با گسترش وب فراتر از ناوبری مبتنی بر دایرکتوریها پدیدار شد. HITS کلاینبرگ و پیجرنک برین و پیج، هر دو در حدود سالهای ۱۹۹۸ و ۱۹۹۹، نشان دادند که ساختار ابرپیوند میتواند صفحات را بر اساس اعتبار رتبهبندی کند، و پیجرنک زیربنای ظهور موتورهای جستجوی در مقیاس بزرگ بود. در طول دهه ۲۰۰۰، روشهای یادگیری برای رتبهبندی، تعداد فزاینده سیگنالهای رتبهبندی را یکپارچه کردند.
Key figures
- Sergey Brin
- Larry Page
- Jon Kleinberg
- Prabhakar Raghavan
Related topics
Seminal works
- brin1998
- page1999
- kleinberg1999
Frequently asked questions
- چرا وب به روشهای بازیابی متفاوتی نسبت به یک مجموعه بسته نیاز دارد؟
- وب عظیم، دائماً در حال تغییر، ابرپیوندی و خصمانه است، با صفحاتی که فعالانه تلاش میکنند رتبه بالاتری کسب کنند. این شرایط، خزش، سیگنالهای اعتبار مبتنی بر پیوند، مقاومت در برابر هرزنامه، و رتبهبندی یادگیری شده در مقیاس بزرگ را علاوه بر تطابق متنی مورد استفاده در مجموعههای بسته، اضافه میکند.
- آیا تحلیل پیوند با توجه به رتبهبندی مدرن هنوز مهم است؟
- اعتبار مبتنی بر پیوند یکی از صدها سیگنال در رتبهبندی مدرن باقی میماند، که اکنون به شدت بر مدلهای یادگیری شده و ویژگیهای رفتاری و محتوایی تکیه دارد. ایدههای سبک پیجرنک همچنان نحوه انتشار اهمیت از طریق گرافها، از جمله در توصیهگرها و تحلیل استنادی را شکل میدهند.