رتبهبندی جستجوی وب
رتبهبندی جستجوی وب فرآیند انتها به انتهای مرتبسازی صفحات وب برای یک پرس و جو است که با ترکیب سیگنالهای متنی، مبتنی بر پیوند و رفتاری از طریق یک خط لوله چند مرحلهای انجام میشود که باید در برابر دستکاری نیز مقاومت کند.
Definition
رتبهبندی جستجوی وب ترکیبی از بسیاری از سیگنالهای مرتبط و کیفی در یک ترتیب از صفحات وب برای یک پرس و جو است که معمولاً به عنوان یک خط لوله چند مرحلهای تحقق مییابد که مجموعهای از نامزدها را با یک مدل کارآمد بازیابی میکند و سپس آن را با مدلهای یادگرفته شده گرانتر، تحت فشار خصمانه مداوم از محتوایی که سعی در رتبهبندی بالاتر دارد، بازرتبهبندی میکند.
Scope
این موضوع به چگونگی تولید نتایج رتبهبندی نهایی توسط موتور جستجوی وب میپردازد: سیگنالهایی که از آنها استفاده میکند (ارتباط متنی، متن لنگر، اعتبار مبتنی بر پیوند، تازگی و دادههای رفتاری)، معماری چند مرحلهای که نامزدها را با هزینه کم بازیابی میکند و آنها را با مدلهای غنیتر بازرتبهبندی میکند، و بعد خصمانه هرزنامه وب و دستکاری موتور جستجو. این موضوع مدلهای بازیابی، تحلیل پیوند و یادگیری برای رتبهبندی را در یک خط لوله رتبهبندی عملی ادغام میکند، به جای اینکه هر جزء را به صورت جداگانه بررسی کند.
Core questions
- چه سیگنالهایی به رتبه یک صفحه کمک میکنند و چگونه با هم ترکیب میشوند؟
- چرا رتبهبندی به عنوان یک خط لوله چند مرحلهای بازیابی-سپس-بازرتبهبندی سازماندهی شده است؟
- چگونه متن لنگر و اعتبار مبتنی بر پیوند، متن درون صفحه را تکمیل میکنند؟
- موتورهای جستجو چگونه هرزنامه وب و دستکاری را شناسایی و تنزل رتبه میدهند؟
- چگونه سیگنالهای تازگی و رفتار کاربر گنجانده میشوند؟
Key concepts
- سیگنالها و ویژگیهای رتبهبندی
- متن لنگر
- اعتبار مبتنی بر پیوند
- بازیابی و بازرتبهبندی چند مرحلهای
- سیگنالهای تازگی
- سیگنالهای رفتاری / کلیک
- هرزنامه وب (مزارع پیوند، پنهانکاری، پر کردن کلمات کلیدی)
- بازیابی اطلاعات خصمانه
Key theories
- خط لوله چند مرحلهای بازیابی-سپس-بازرتبهبندی
- از آنجا که مدلهای رتبهبندی غنی برای اعمال بر روی هر سند بسیار پرهزینه هستند، جستجوی وب ابتدا مجموعهای از نامزدهای قابل مدیریت را با یک مدل کارآمد مانند BM25 بازیابی میکند و سپس آن نامزدها را با مدلهای یادگرفته شده به تدریج گرانتر بازرتبهبندی میکند.
- بازیابی اطلاعات خصمانه و هرزنامه وب
- از آنجا که رتبهبندی بالاتر ارزش تجاری دارد، محتوا به طور فعال برای دستکاری رتبهبندی از طریق پر کردن کلمات کلیدی، مزارع پیوند و پنهانکاری مهندسی میشود، بنابراین رتبهبندی باید شامل تشخیص هرزنامه و استحکام به عنوان نگرانیهای درجه اول باشد.
Clinical relevance
کیفیت رتبهبندی، سودمندی جستجوی وب تجاری را برای میلیاردها کاربر و قابلیت مشاهده محتوا را برای ناشران تعیین میکند، که منجر به صنعت بهینهسازی موتور جستجو میشود. الگوی بازیابی-سپس-بازرتبهبندی و تکنیکهای مقاومت در برابر هرزنامه که در اینجا توسعه یافتهاند، در سراسر تجارت الکترونیک، برنامهها و جستجوی سازمانی مورد استفاده مجدد قرار میگیرند.
History
رتبهبندی اولیه جستجوی وب، ارتباط متنی را با سیگنالهای جدید مبتنی بر پیوند که حدود سال 1998 معرفی شدند، ترکیب کرد. با افزایش دستکاری، بازیابی اطلاعات خصمانه در اواسط دهه 2000 با کارهایی مانند طبقهبندی هرزنامه وب و انتشار اعتماد پدیدار شد. خطوط لوله رتبهبندی به طور پیوسته مدلهای یادگرفته شده و سیگنالهای رفتاری را اضافه کردند و به معماریهای چند مرحلهای که امروزه استفاده میشوند، تکامل یافتند.
Key figures
- Sergey Brin
- Larry Page
- Zoltán Gyöngyi
- Hector García-Molina
Related topics
Seminal works
- brin1998
- gyongyi2005
- croft2010
Frequently asked questions
- چرا موتورهای جستجو در چندین مرحله رتبهبندی میکنند؟
- اعمال دقیقترین مدلهای رتبهبندی بر روی هر صفحه در فهرست بسیار کند خواهد بود. یک مرحله اولیه ارزان، چند صد یا هزار نامزد امیدوارکننده را بازیابی میکند و مدلهای به تدریج غنیتر، آن مجموعه کوچکتر را بازرتبهبندی میکنند و کیفیت را با تأخیر و هزینه متعادل میکنند.
- بازیابی اطلاعات خصمانه چیست؟
- این مطالعه بازیابی در محیطهایی است که محتوا به طور فعال سعی در دستکاری رتبهبندی برای کسب سود دارد، مانند هرزنامه وب، مزارع پیوند و پنهانکاری. سیستمهای رتبهبندی با تشخیص هرزنامه، انتشار اعتماد و اقدامات استحکام برای حفظ نتایج قابل اعتماد پاسخ میدهند.