چرا موتورهای جستجو در چندین مرحله رتبهبندی میکنند؟

اعمال دقیقترین مدلهای رتبهبندی بر روی هر صفحه در فهرست بسیار کند خواهد بود. یک مرحله اولیه ارزان، چند صد یا هزار نامزد امیدوارکننده را بازیابی میکند و مدلهای به تدریج غنیتر، آن مجموعه کوچکتر را بازرتبهبندی میکنند و کیفیت را با تأخیر و هزینه متعادل میکنند.

بازیابی اطلاعات خصمانه چیست؟

این مطالعه بازیابی در محیطهایی است که محتوا به طور فعال سعی در دستکاری رتبهبندی برای کسب سود دارد، مانند هرزنامه وب، مزارع پیوند و پنهانکاری. سیستمهای رتبهبندی با تشخیص هرزنامه، انتشار اعتماد و اقدامات استحکام برای حفظ نتایج قابل اعتماد پاسخ میدهند.

رتبه‌بندی جستجوی وب

رتبه‌بندی جستجوی وب فرآیند انتها به انتهای مرتب‌سازی صفحات وب برای یک پرس و جو است که با ترکیب سیگنال‌های متنی، مبتنی بر پیوند و رفتاری از طریق یک خط لوله چند مرحله‌ای انجام می‌شود که باید در برابر دستکاری نیز مقاومت کند.

یافتن موضوع با PaperMindبه‌زودیFind papers & topics

Tools & resources

دریافت اسلایدها

Learn & explore

ویدیوبه‌زودی

Definition

رتبه‌بندی جستجوی وب ترکیبی از بسیاری از سیگنال‌های مرتبط و کیفی در یک ترتیب از صفحات وب برای یک پرس و جو است که معمولاً به عنوان یک خط لوله چند مرحله‌ای تحقق می‌یابد که مجموعه‌ای از نامزدها را با یک مدل کارآمد بازیابی می‌کند و سپس آن را با مدل‌های یادگرفته شده گران‌تر، تحت فشار خصمانه مداوم از محتوایی که سعی در رتبه‌بندی بالاتر دارد، بازرتبه‌بندی می‌کند.

Scope

این موضوع به چگونگی تولید نتایج رتبه‌بندی نهایی توسط موتور جستجوی وب می‌پردازد: سیگنال‌هایی که از آن‌ها استفاده می‌کند (ارتباط متنی، متن لنگر، اعتبار مبتنی بر پیوند، تازگی و داده‌های رفتاری)، معماری چند مرحله‌ای که نامزدها را با هزینه کم بازیابی می‌کند و آن‌ها را با مدل‌های غنی‌تر بازرتبه‌بندی می‌کند، و بعد خصمانه هرزنامه وب و دستکاری موتور جستجو. این موضوع مدل‌های بازیابی، تحلیل پیوند و یادگیری برای رتبه‌بندی را در یک خط لوله رتبه‌بندی عملی ادغام می‌کند، به جای اینکه هر جزء را به صورت جداگانه بررسی کند.

Core questions

چه سیگنال‌هایی به رتبه یک صفحه کمک می‌کنند و چگونه با هم ترکیب می‌شوند؟
چرا رتبه‌بندی به عنوان یک خط لوله چند مرحله‌ای بازیابی-سپس-بازرتبه‌بندی سازماندهی شده است؟
چگونه متن لنگر و اعتبار مبتنی بر پیوند، متن درون صفحه را تکمیل می‌کنند؟
موتورهای جستجو چگونه هرزنامه وب و دستکاری را شناسایی و تنزل رتبه می‌دهند؟
چگونه سیگنال‌های تازگی و رفتار کاربر گنجانده می‌شوند؟

Key concepts

سیگنال‌ها و ویژگی‌های رتبه‌بندی
متن لنگر
اعتبار مبتنی بر پیوند
بازیابی و بازرتبه‌بندی چند مرحله‌ای
سیگنال‌های تازگی
سیگنال‌های رفتاری / کلیک
هرزنامه وب (مزارع پیوند، پنهان‌کاری، پر کردن کلمات کلیدی)
بازیابی اطلاعات خصمانه

Key theories

خط لوله چند مرحله‌ای بازیابی-سپس-بازرتبه‌بندی: از آنجا که مدل‌های رتبه‌بندی غنی برای اعمال بر روی هر سند بسیار پرهزینه هستند، جستجوی وب ابتدا مجموعه‌ای از نامزدهای قابل مدیریت را با یک مدل کارآمد مانند BM25 بازیابی می‌کند و سپس آن نامزدها را با مدل‌های یادگرفته شده به تدریج گران‌تر بازرتبه‌بندی می‌کند.
بازیابی اطلاعات خصمانه و هرزنامه وب: از آنجا که رتبه‌بندی بالاتر ارزش تجاری دارد، محتوا به طور فعال برای دستکاری رتبه‌بندی از طریق پر کردن کلمات کلیدی، مزارع پیوند و پنهان‌کاری مهندسی می‌شود، بنابراین رتبه‌بندی باید شامل تشخیص هرزنامه و استحکام به عنوان نگرانی‌های درجه اول باشد.

Clinical relevance

کیفیت رتبه‌بندی، سودمندی جستجوی وب تجاری را برای میلیاردها کاربر و قابلیت مشاهده محتوا را برای ناشران تعیین می‌کند، که منجر به صنعت بهینه‌سازی موتور جستجو می‌شود. الگوی بازیابی-سپس-بازرتبه‌بندی و تکنیک‌های مقاومت در برابر هرزنامه که در اینجا توسعه یافته‌اند، در سراسر تجارت الکترونیک، برنامه‌ها و جستجوی سازمانی مورد استفاده مجدد قرار می‌گیرند.

History

رتبه‌بندی اولیه جستجوی وب، ارتباط متنی را با سیگنال‌های جدید مبتنی بر پیوند که حدود سال 1998 معرفی شدند، ترکیب کرد. با افزایش دستکاری، بازیابی اطلاعات خصمانه در اواسط دهه 2000 با کارهایی مانند طبقه‌بندی هرزنامه وب و انتشار اعتماد پدیدار شد. خطوط لوله رتبه‌بندی به طور پیوسته مدل‌های یادگرفته شده و سیگنال‌های رفتاری را اضافه کردند و به معماری‌های چند مرحله‌ای که امروزه استفاده می‌شوند، تکامل یافتند.

Key figures

Sergey Brin
Larry Page
Zoltán Gyöngyi
Hector García-Molina

Seminal works

brin1998
gyongyi2005
croft2010

Frequently asked questions

چرا موتورهای جستجو در چندین مرحله رتبه‌بندی می‌کنند؟: اعمال دقیق‌ترین مدل‌های رتبه‌بندی بر روی هر صفحه در فهرست بسیار کند خواهد بود. یک مرحله اولیه ارزان، چند صد یا هزار نامزد امیدوارکننده را بازیابی می‌کند و مدل‌های به تدریج غنی‌تر، آن مجموعه کوچک‌تر را بازرتبه‌بندی می‌کنند و کیفیت را با تأخیر و هزینه متعادل می‌کنند.
بازیابی اطلاعات خصمانه چیست؟: این مطالعه بازیابی در محیط‌هایی است که محتوا به طور فعال سعی در دستکاری رتبه‌بندی برای کسب سود دارد، مانند هرزنامه وب، مزارع پیوند و پنهان‌کاری. سیستم‌های رتبه‌بندی با تشخیص هرزنامه، انتشار اعتماد و اقدامات استحکام برای حفظ نتایج قابل اعتماد پاسخ می‌دهند.