Tại sao web cần các phương pháp truy xuất khác với một bộ sưu tập đóng?

Web rất lớn, liên tục thay đổi, có siêu liên kết và mang tính đối kháng, với các trang tích cực cố gắng xếp hạng cao hơn. Những điều kiện này bổ sung việc thu thập dữ liệu, các tín hiệu độ tin cậy dựa trên liên kết, khả năng chống thư rác và xếp hạng được học quy mô lớn ngoài việc khớp văn bản được sử dụng trong các bộ sưu tập đóng.

Phân tích liên kết có còn quan trọng trong bối cảnh xếp hạng hiện đại không?

Độ tin cậy dựa trên liên kết vẫn là một trong hàng trăm tín hiệu trong xếp hạng hiện đại, hiện nay phụ thuộc nhiều vào các mô hình được học cũng như các tính năng hành vi và nội dung. Các ý tưởng kiểu PageRank vẫn định hình cách tầm quan trọng lan truyền qua các đồ thị, bao gồm trong phân tích đề xuất và trích dẫn.

Tìm kiếm web và phân tích liên kết

Tìm kiếm web và phân tích liên kết giải quyết việc truy xuất thông tin trên World Wide Web, nơi cấu trúc siêu liên kết cung cấp bằng chứng bổ sung về độ tin cậy và nơi việc xếp hạng kết hợp nhiều tính năng ở quy mô lớn.

Tìm chủ đề với PaperMindSắp ra mắtFind papers & topics

Tools & resources

Tải xuống bản trình chiếu

Learn & explore

VideoSắp ra mắt

Definition

Tìm kiếm web và phân tích liên kết là nghiên cứu về việc truy xuất thông tin trên các bộ sưu tập web siêu liên kết, kết hợp mức độ liên quan văn bản với các tín hiệu độ tin cậy dựa trên đồ thị được suy ra từ cấu trúc liên kết và với việc xếp hạng được học máy trên nhiều tính năng, ở quy mô và trong các điều kiện đối kháng của web mở.

Scope

Lĩnh vực này bao gồm các thành phần đặc thù cho việc truy xuất quy mô web: thu thập dữ liệu (crawling) và cấu trúc liên kết của web, các thuật toán phân tích liên kết như PageRank và HITS khai thác siêu liên kết như các sự chứng thực, các phương pháp học để xếp hạng (learning-to-rank) kết hợp nhiều tính năng xếp hạng, và thiết kế các quy trình xếp hạng tìm kiếm web. Nó đề cập đến cách bản chất siêu liên kết, đối kháng và khổng lồ của web làm thay đổi việc truy xuất, khác biệt so với các mô hình truy xuất cốt lõi chỉ đánh giá các tài liệu riêng lẻ dựa trên bằng chứng văn bản.

Sub-topics

Core questions

Web được thu thập dữ liệu và đồ thị liên kết của nó được ghi lại như thế nào?
Cấu trúc siêu liên kết có thể chỉ ra tầm quan trọng hoặc độ tin cậy của một trang như thế nào?
PageRank và HITS khác nhau như thế nào trong việc mô hình hóa độ tin cậy dựa trên liên kết?
Nhiều tín hiệu xếp hạng không đồng nhất được kết hợp thành một thứ tự duy nhất như thế nào?
Xếp hạng đối phó với thư rác và thao túng đối kháng ở quy mô web như thế nào?

Key concepts

thu thập dữ liệu web (web crawling)
đồ thị liên kết web (the web link graph)
PageRank
HITS (hubs and authorities)
văn bản neo (anchor text)
học để xếp hạng (learning to rank)
các tính năng và tín hiệu xếp hạng (ranking features and signals)
thư rác web và IR đối kháng (web spam and adversarial IR)

Key theories

Siêu liên kết như sự chứng thực: Một liên kết từ trang này sang trang khác có thể được hiểu là một phiếu tín nhiệm, vì vậy đồ thị liên kết mang bằng chứng về tầm quan trọng và độ tin cậy của trang mà việc khớp văn bản thuần túy bỏ qua.
PageRank như một thước đo độ tin cậy dựa trên bước đi ngẫu nhiên: PageRank gán cho mỗi trang một điểm bằng xác suất truy cập dài hạn của nó dưới một người lướt web ngẫu nhiên, người theo các liên kết và đôi khi dịch chuyển tức thời, đưa ra một thước đo tầm quan trọng độc lập với truy vấn được suy ra từ toàn bộ đồ thị liên kết.
Xếp hạng được học máy trên nhiều tính năng: Xếp hạng web kết hợp hàng trăm tín hiệu, bao gồm mức độ liên quan văn bản, độ tin cậy dựa trên liên kết và các tính năng hành vi, bằng cách học một hàm xếp hạng từ dữ liệu được gắn nhãn, thay thế các công thức được điều chỉnh thủ công đơn lẻ.

Clinical relevance

Lĩnh vực này là nền tảng của các công cụ tìm kiếm web thương mại, tổ chức quyền truy cập vào web công cộng cho hàng tỷ người dùng. Phân tích liên kết đã định hình lại cách đo lường độ tin cậy trực tuyến, và các quy trình học để xếp hạng vẫn là trung tâm của cách các hệ thống tìm kiếm và đề xuất kết hợp các tín hiệu thành các bảng xếp hạng.

History

IR web xuất hiện vào giữa những năm 1990 khi web phát triển vượt ra ngoài điều hướng dựa trên thư mục. HITS của Kleinberg và PageRank của Brin và Page, cả hai vào khoảng năm 1998 và 1999, đã chỉ ra rằng cấu trúc siêu liên kết có thể xếp hạng các trang theo độ tin cậy, và PageRank đã củng cố sự phát triển của các công cụ tìm kiếm quy mô lớn. Trong suốt những năm 2000, các phương pháp học để xếp hạng đã thống nhất số lượng tín hiệu xếp hạng ngày càng tăng.

Key figures

Sergey Brin
Larry Page
Jon Kleinberg
Prabhakar Raghavan

Seminal works

brin1998
page1999
kleinberg1999

Frequently asked questions

Tại sao web cần các phương pháp truy xuất khác với một bộ sưu tập đóng?: Web rất lớn, liên tục thay đổi, có siêu liên kết và mang tính đối kháng, với các trang tích cực cố gắng xếp hạng cao hơn. Những điều kiện này bổ sung việc thu thập dữ liệu, các tín hiệu độ tin cậy dựa trên liên kết, khả năng chống thư rác và xếp hạng được học quy mô lớn ngoài việc khớp văn bản được sử dụng trong các bộ sưu tập đóng.
Phân tích liên kết có còn quan trọng trong bối cảnh xếp hạng hiện đại không?: Độ tin cậy dựa trên liên kết vẫn là một trong hàng trăm tín hiệu trong xếp hạng hiện đại, hiện nay phụ thuộc nhiều vào các mô hình được học cũng như các tính năng hành vi và nội dung. Các ý tưởng kiểu PageRank vẫn định hình cách tầm quan trọng lan truyền qua các đồ thị, bao gồm trong phân tích đề xuất và trích dẫn.