Веб-поиск и анализ ссылок
Веб-поиск и анализ ссылок касаются извлечения информации из Всемирной паутины, где структура гиперссылок предоставляет дополнительные свидетельства авторитетности, а ранжирование объединяет множество признаков в огромных масштабах.
Definition
Веб-поиск и анализ ссылок — это исследование извлечения информации из гиперссылочных веб-коллекций, сочетающее текстовую релевантность с графовыми сигналами авторитетности, полученными из структуры ссылок, и с машинным обучением ранжирования по множеству признаков, в масштабах и в условиях конкурентной среды открытого веба.
Scope
Эта область охватывает компоненты, специфичные для поиска в масштабах веба: краулинг и ссылочный граф веба, алгоритмы анализа ссылок, такие как PageRank и HITS, которые используют гиперссылки в качестве рекомендаций, методы обучения ранжированию, объединяющие множество признаков ранжирования, и проектирование конвейеров ранжирования веб-поиска. Она рассматривает, как гиперссылочная, конкурентная и огромная природа веба изменяет поиск, отличаясь от основных моделей поиска, которые оценивают отдельные документы только на основе текстовых свидетельств.
Sub-topics
Core questions
- Как осуществляется краулинг веба и захват его ссылочного графа?
- Как структура гиперссылок может указывать на важность или авторитетность страницы?
- Чем PageRank и HITS отличаются в моделировании авторитетности на основе ссылок?
- Как множество разнородных сигналов ранжирования объединяются в единый порядок?
- Как ранжирование справляется со спамом и враждебными манипуляциями в масштабах веба?
Key concepts
- веб-краулинг
- ссылочный граф веба
- PageRank
- HITS (хабы и авторитеты)
- анкорный текст
- обучение ранжированию
- признаки и сигналы ранжирования
- веб-спам и враждебный поиск информации
Key theories
- Гиперссылки как рекомендации
- Ссылка с одной страницы на другую может быть истолкована как выражение доверия, поэтому ссылочный граф содержит свидетельства о важности и авторитетности страницы, которые игнорирует чисто текстовое сопоставление.
- PageRank как мера авторитетности на основе случайного блуждания
- PageRank присваивает каждой странице оценку, равную вероятности ее долгосрочного посещения случайным серфером, который следует по ссылкам и иногда телепортируется, давая независимую от запроса меру важности, выведенную из всего ссылочного графа.
- Машинное обучение ранжированию по множеству признаков
- Веб-ранжирование объединяет сотни сигналов, включая текстовую релевантность, авторитетность на основе ссылок и поведенческие признаки, путем обучения функции ранжирования на размеченных данных, заменяя единые вручную настроенные формулы.
Clinical relevance
Эта область является основой коммерческих поисковых систем, которые организуют доступ к публичному вебу для миллиардов пользователей. Анализ ссылок изменил способы измерения авторитетности в интернете, а конвейеры обучения ранжированию остаются центральными для того, как поисковые и рекомендательные системы объединяют сигналы в ранжирование.
History
Веб-поиск (Web IR) появился в середине 1990-х годов, когда веб перерос навигацию на основе каталогов. HITS Кляйнберга и PageRank Брина и Пейджа, появившиеся примерно в 1998 и 1999 годах, показали, что структура гиперссылок может ранжировать страницы по авторитетности, и PageRank лег в основу развития крупномасштабных поисковых систем. В течение 2000-х годов методы обучения ранжированию объединили растущее число сигналов ранжирования.
Key figures
- Sergey Brin
- Larry Page
- Jon Kleinberg
- Prabhakar Raghavan
Related topics
Seminal works
- brin1998
- page1999
- kleinberg1999
Frequently asked questions
- Почему веб требует иных методов поиска, чем закрытая коллекция?
- Веб огромен, постоянно меняется, гиперссылочен и конкурентен, страницы активно пытаются занять более высокие позиции. Эти условия добавляют краулинг, сигналы авторитетности на основе ссылок, устойчивость к спаму и крупномасштабное обученное ранжирование в дополнение к текстовому сопоставлению, используемому в закрытых коллекциях.
- Остается ли анализ ссылок важным, учитывая современное ранжирование?
- Авторитетность на основе ссылок остается одним из сотен сигналов в современном ранжировании, которое теперь в значительной степени опирается на обученные модели, а также на поведенческие и контентные признаки. Идеи в стиле PageRank по-прежнему влияют на то, как важность распространяется по графам, в том числе в рекомендательных системах и анализе цитирования.