ScholarGate
Ассистент

Веб-поиск и анализ ссылок

Веб-поиск и анализ ссылок касаются извлечения информации из Всемирной паутины, где структура гиперссылок предоставляет дополнительные свидетельства авторитетности, а ранжирование объединяет множество признаков в огромных масштабах.

Найти тему в PaperMindСкороFind papers & topics
Tools & resources
Скачать слайды
Learn & explore
ВидеоСкоро

Definition

Веб-поиск и анализ ссылок — это исследование извлечения информации из гиперссылочных веб-коллекций, сочетающее текстовую релевантность с графовыми сигналами авторитетности, полученными из структуры ссылок, и с машинным обучением ранжирования по множеству признаков, в масштабах и в условиях конкурентной среды открытого веба.

Scope

Эта область охватывает компоненты, специфичные для поиска в масштабах веба: краулинг и ссылочный граф веба, алгоритмы анализа ссылок, такие как PageRank и HITS, которые используют гиперссылки в качестве рекомендаций, методы обучения ранжированию, объединяющие множество признаков ранжирования, и проектирование конвейеров ранжирования веб-поиска. Она рассматривает, как гиперссылочная, конкурентная и огромная природа веба изменяет поиск, отличаясь от основных моделей поиска, которые оценивают отдельные документы только на основе текстовых свидетельств.

Sub-topics

Core questions

  • Как осуществляется краулинг веба и захват его ссылочного графа?
  • Как структура гиперссылок может указывать на важность или авторитетность страницы?
  • Чем PageRank и HITS отличаются в моделировании авторитетности на основе ссылок?
  • Как множество разнородных сигналов ранжирования объединяются в единый порядок?
  • Как ранжирование справляется со спамом и враждебными манипуляциями в масштабах веба?

Key concepts

  • веб-краулинг
  • ссылочный граф веба
  • PageRank
  • HITS (хабы и авторитеты)
  • анкорный текст
  • обучение ранжированию
  • признаки и сигналы ранжирования
  • веб-спам и враждебный поиск информации

Key theories

Гиперссылки как рекомендации
Ссылка с одной страницы на другую может быть истолкована как выражение доверия, поэтому ссылочный граф содержит свидетельства о важности и авторитетности страницы, которые игнорирует чисто текстовое сопоставление.
PageRank как мера авторитетности на основе случайного блуждания
PageRank присваивает каждой странице оценку, равную вероятности ее долгосрочного посещения случайным серфером, который следует по ссылкам и иногда телепортируется, давая независимую от запроса меру важности, выведенную из всего ссылочного графа.
Машинное обучение ранжированию по множеству признаков
Веб-ранжирование объединяет сотни сигналов, включая текстовую релевантность, авторитетность на основе ссылок и поведенческие признаки, путем обучения функции ранжирования на размеченных данных, заменяя единые вручную настроенные формулы.

Clinical relevance

Эта область является основой коммерческих поисковых систем, которые организуют доступ к публичному вебу для миллиардов пользователей. Анализ ссылок изменил способы измерения авторитетности в интернете, а конвейеры обучения ранжированию остаются центральными для того, как поисковые и рекомендательные системы объединяют сигналы в ранжирование.

History

Веб-поиск (Web IR) появился в середине 1990-х годов, когда веб перерос навигацию на основе каталогов. HITS Кляйнберга и PageRank Брина и Пейджа, появившиеся примерно в 1998 и 1999 годах, показали, что структура гиперссылок может ранжировать страницы по авторитетности, и PageRank лег в основу развития крупномасштабных поисковых систем. В течение 2000-х годов методы обучения ранжированию объединили растущее число сигналов ранжирования.

Key figures

  • Sergey Brin
  • Larry Page
  • Jon Kleinberg
  • Prabhakar Raghavan

Related topics

Seminal works

  • brin1998
  • page1999
  • kleinberg1999

Frequently asked questions

Почему веб требует иных методов поиска, чем закрытая коллекция?
Веб огромен, постоянно меняется, гиперссылочен и конкурентен, страницы активно пытаются занять более высокие позиции. Эти условия добавляют краулинг, сигналы авторитетности на основе ссылок, устойчивость к спаму и крупномасштабное обученное ранжирование в дополнение к текстовому сопоставлению, используемому в закрытых коллекциях.
Остается ли анализ ссылок важным, учитывая современное ранжирование?
Авторитетность на основе ссылок остается одним из сотен сигналов в современном ранжировании, которое теперь в значительной степени опирается на обученные модели, а также на поведенческие и контентные признаки. Идеи в стиле PageRank по-прежнему влияют на то, как важность распространяется по графам, в том числе в рекомендательных системах и анализе цитирования.

Methods for this concept

Related concepts