Ранжирование веб-поиска
Ранжирование веб-поиска — это сквозной процесс упорядочивания веб-страниц для запроса путем объединения текстовых, ссылочных и поведенческих сигналов через многоступенчатый конвейер, который также должен противостоять манипуляциям.
Definition
Ранжирование веб-поиска — это объединение множества сигналов релевантности и качества в упорядочивание веб-страниц для запроса, обычно реализуемое как многоступенчатый конвейер, который извлекает набор кандидатов с помощью эффективной модели, а затем переранжирует его с помощью более дорогостоящих обученных моделей, под постоянным состязательным давлением со стороны контента, стремящегося занять более высокое место.
Scope
Эта тема охватывает то, как поисковая система производит свои окончательные ранжированные результаты: сигналы, на которые она опирается (текстовая релевантность, анкорный текст, авторитет на основе ссылок, свежесть и поведенческие данные), многоступенчатую архитектуру, которая дешево извлекает кандидатов и переранжирует их с помощью более сложных моделей, а также состязательный аспект веб-спама и манипуляций с поисковыми системами. Она интегрирует модели извлечения, анализ ссылок и обучение ранжированию в работающий конвейер ранжирования, а не рассматривает какой-либо отдельный компонент изолированно.
Core questions
- Какие сигналы влияют на ранг страницы и как они комбинируются?
- Почему ранжирование организовано как многоступенчатый конвейер «извлечение-затем-переранжирование»?
- Как анкорный текст и авторитет на основе ссылок дополняют текст на странице?
- Как поисковые системы обнаруживают и понижают в ранге веб-спам и манипуляции?
- Как учитываются сигналы свежести и поведения пользователя?
Key concepts
- сигналы и признаки ранжирования
- анкорный текст
- авторитет на основе ссылок
- многоступенчатое извлечение и переранжирование
- сигналы свежести
- поведенческие / кликовые сигналы
- веб-спам (фермы ссылок, клоакинг, переоптимизация ключевыми словами)
- состязательный информационный поиск
Key theories
- Многоступенчатый конвейер «извлечение-затем-переранжирование»
- Поскольку сложные модели ранжирования слишком дороги для применения ко всем документам, веб-поиск сначала извлекает управляемый набор кандидатов с помощью эффективной модели, такой как BM25, а затем переранжирует этих кандидатов с помощью постепенно более дорогих обученных моделей.
- Состязательный информационный поиск и веб-спам
- Поскольку более высокое ранжирование имеет коммерческую ценность, контент активно разрабатывается для манипулирования ранжированием посредством переоптимизации ключевыми словами, ферм ссылок и клоакинга, поэтому ранжирование должно включать обнаружение спама и устойчивость как первостепенные задачи.
Clinical relevance
Качество ранжирования определяет полезность коммерческого веб-поиска для миллиардов пользователей и видимость контента для издателей, что порождает индустрию поисковой оптимизации. Шаблон «извлечение-затем-переранжирование» и методы устойчивости к спаму, разработанные здесь, повторно используются в электронной коммерции, приложениях и корпоративном поиске.
History
Раннее ранжирование веб-поиска сочетало текстовую релевантность с новыми ссылочными сигналами, появившимися примерно в 1998 году. По мере роста манипуляций в середине 2000-х годов возник состязательный информационный поиск с такими работами, как таксономии веб-спама и распространение доверия. Конвейеры ранжирования постоянно добавляли обученные модели и поведенческие сигналы, развиваясь в многоступенчатые архитектуры, используемые сегодня.
Key figures
- Sergey Brin
- Larry Page
- Zoltán Gyöngyi
- Hector García-Molina
Related topics
Seminal works
- brin1998
- gyongyi2005
- croft2010
Frequently asked questions
- Почему поисковые системы ранжируют в несколько этапов?
- Применение наиболее точных моделей ранжирования ко всем страницам в индексе было бы слишком медленным. Дешевый первый этап извлекает несколько сотен или тысяч перспективных кандидатов, а последовательно более сложные модели переранжируют этот меньший набор, балансируя качество с задержкой и стоимостью.
- Что такое состязательный информационный поиск?
- Это исследование извлечения в условиях, когда контент активно пытается манипулировать ранжированием для получения выгоды, например, веб-спам, фермы ссылок и клоакинг. Системы ранжирования реагируют обнаружением спама, распространением доверия и мерами устойчивости для сохранения достоверности результатов.