ScholarGate
Ассистент

Ранжирование веб-поиска

Ранжирование веб-поиска — это сквозной процесс упорядочивания веб-страниц для запроса путем объединения текстовых, ссылочных и поведенческих сигналов через многоступенчатый конвейер, который также должен противостоять манипуляциям.

Найти тему в PaperMindСкороFind papers & topics
Tools & resources
Скачать слайды
Learn & explore
ВидеоСкоро

Definition

Ранжирование веб-поиска — это объединение множества сигналов релевантности и качества в упорядочивание веб-страниц для запроса, обычно реализуемое как многоступенчатый конвейер, который извлекает набор кандидатов с помощью эффективной модели, а затем переранжирует его с помощью более дорогостоящих обученных моделей, под постоянным состязательным давлением со стороны контента, стремящегося занять более высокое место.

Scope

Эта тема охватывает то, как поисковая система производит свои окончательные ранжированные результаты: сигналы, на которые она опирается (текстовая релевантность, анкорный текст, авторитет на основе ссылок, свежесть и поведенческие данные), многоступенчатую архитектуру, которая дешево извлекает кандидатов и переранжирует их с помощью более сложных моделей, а также состязательный аспект веб-спама и манипуляций с поисковыми системами. Она интегрирует модели извлечения, анализ ссылок и обучение ранжированию в работающий конвейер ранжирования, а не рассматривает какой-либо отдельный компонент изолированно.

Core questions

  • Какие сигналы влияют на ранг страницы и как они комбинируются?
  • Почему ранжирование организовано как многоступенчатый конвейер «извлечение-затем-переранжирование»?
  • Как анкорный текст и авторитет на основе ссылок дополняют текст на странице?
  • Как поисковые системы обнаруживают и понижают в ранге веб-спам и манипуляции?
  • Как учитываются сигналы свежести и поведения пользователя?

Key concepts

  • сигналы и признаки ранжирования
  • анкорный текст
  • авторитет на основе ссылок
  • многоступенчатое извлечение и переранжирование
  • сигналы свежести
  • поведенческие / кликовые сигналы
  • веб-спам (фермы ссылок, клоакинг, переоптимизация ключевыми словами)
  • состязательный информационный поиск

Key theories

Многоступенчатый конвейер «извлечение-затем-переранжирование»
Поскольку сложные модели ранжирования слишком дороги для применения ко всем документам, веб-поиск сначала извлекает управляемый набор кандидатов с помощью эффективной модели, такой как BM25, а затем переранжирует этих кандидатов с помощью постепенно более дорогих обученных моделей.
Состязательный информационный поиск и веб-спам
Поскольку более высокое ранжирование имеет коммерческую ценность, контент активно разрабатывается для манипулирования ранжированием посредством переоптимизации ключевыми словами, ферм ссылок и клоакинга, поэтому ранжирование должно включать обнаружение спама и устойчивость как первостепенные задачи.

Clinical relevance

Качество ранжирования определяет полезность коммерческого веб-поиска для миллиардов пользователей и видимость контента для издателей, что порождает индустрию поисковой оптимизации. Шаблон «извлечение-затем-переранжирование» и методы устойчивости к спаму, разработанные здесь, повторно используются в электронной коммерции, приложениях и корпоративном поиске.

History

Раннее ранжирование веб-поиска сочетало текстовую релевантность с новыми ссылочными сигналами, появившимися примерно в 1998 году. По мере роста манипуляций в середине 2000-х годов возник состязательный информационный поиск с такими работами, как таксономии веб-спама и распространение доверия. Конвейеры ранжирования постоянно добавляли обученные модели и поведенческие сигналы, развиваясь в многоступенчатые архитектуры, используемые сегодня.

Key figures

  • Sergey Brin
  • Larry Page
  • Zoltán Gyöngyi
  • Hector García-Molina

Related topics

Seminal works

  • brin1998
  • gyongyi2005
  • croft2010

Frequently asked questions

Почему поисковые системы ранжируют в несколько этапов?
Применение наиболее точных моделей ранжирования ко всем страницам в индексе было бы слишком медленным. Дешевый первый этап извлекает несколько сотен или тысяч перспективных кандидатов, а последовательно более сложные модели переранжируют этот меньший набор, балансируя качество с задержкой и стоимостью.
Что такое состязательный информационный поиск?
Это исследование извлечения в условиях, когда контент активно пытается манипулировать ранжированием для получения выгоды, например, веб-спам, фермы ссылок и клоакинг. Системы ранжирования реагируют обнаружением спама, распространением доверия и мерами устойчивости для сохранения достоверности результатов.

Methods for this concept

Related concepts