Xếp hạng tìm kiếm web
Xếp hạng tìm kiếm web là quá trình từ đầu đến cuối nhằm sắp xếp các trang web cho một truy vấn bằng cách kết hợp các tín hiệu văn bản, dựa trên liên kết và hành vi thông qua một quy trình đa giai đoạn, đồng thời phải chống lại sự thao túng.
Definition
Xếp hạng tìm kiếm web là sự kết hợp của nhiều tín hiệu liên quan và chất lượng thành một thứ tự các trang web cho một truy vấn, thường được thực hiện dưới dạng một quy trình đa giai đoạn, truy xuất một tập hợp ứng viên bằng một mô hình hiệu quả và sau đó xếp hạng lại nó bằng các mô hình học được đắt tiền hơn, dưới áp lực đối kháng liên tục từ nội dung cố gắng xếp hạng cao hơn.
Scope
Chủ đề này bao gồm cách một công cụ tìm kiếm web tạo ra kết quả xếp hạng cuối cùng của nó: các tín hiệu mà nó dựa vào (mức độ liên quan của văn bản, văn bản neo, quyền hạn dựa trên liên kết, độ mới và dữ liệu hành vi), kiến trúc đa giai đoạn giúp truy xuất các ứng viên một cách hiệu quả và xếp hạng lại chúng bằng các mô hình phong phú hơn, cũng như khía cạnh đối kháng của thư rác web và thao túng công cụ tìm kiếm. Nó tích hợp các mô hình truy xuất, phân tích liên kết và học cách xếp hạng vào một quy trình xếp hạng hoạt động, thay vì xử lý bất kỳ thành phần đơn lẻ nào một cách riêng biệt.
Core questions
- Những tín hiệu nào đóng góp vào thứ hạng của một trang và chúng được kết hợp như thế nào?
- Tại sao việc xếp hạng được tổ chức thành một quy trình đa giai đoạn truy xuất-sau-đó-xếp hạng lại?
- Văn bản neo và quyền hạn dựa trên liên kết bổ sung cho văn bản trên trang như thế nào?
- Các công cụ tìm kiếm phát hiện và hạ cấp thư rác web và thao túng như thế nào?
- Các tín hiệu độ mới và hành vi người dùng được tích hợp như thế nào?
Key concepts
- tín hiệu và đặc điểm xếp hạng
- văn bản neo
- quyền hạn dựa trên liên kết
- truy xuất và xếp hạng lại đa giai đoạn
- tín hiệu độ mới
- tín hiệu hành vi / nhấp chuột
- thư rác web (trang trại liên kết, che giấu, nhồi nhét từ khóa)
- truy xuất thông tin đối kháng
Key theories
- Quy trình truy xuất-sau-đó-xếp hạng lại đa giai đoạn
- Vì các mô hình xếp hạng phong phú quá tốn kém để áp dụng cho mọi tài liệu, tìm kiếm web trước tiên truy xuất một tập hợp ứng viên có thể quản lý được bằng một mô hình hiệu quả như BM25 và sau đó xếp hạng lại các ứng viên đó bằng các mô hình học được ngày càng đắt tiền hơn.
- Truy xuất thông tin đối kháng và thư rác web
- Vì thứ hạng cao hơn có giá trị thương mại, nội dung được thiết kế tích cực để thao túng thứ hạng thông qua nhồi nhét từ khóa, trang trại liên kết và che giấu, do đó xếp hạng phải bao gồm phát hiện thư rác và tính mạnh mẽ như những mối quan tâm hàng đầu.
Clinical relevance
Chất lượng xếp hạng quyết định tính hữu ích của tìm kiếm web thương mại đối với hàng tỷ người dùng và khả năng hiển thị nội dung cho các nhà xuất bản, điều này đã tạo ra ngành công nghiệp tối ưu hóa công cụ tìm kiếm. Mô hình truy xuất-sau-đó-xếp hạng lại và các kỹ thuật chống thư rác được phát triển ở đây được tái sử dụng trong tìm kiếm thương mại điện tử, ứng dụng và doanh nghiệp.
History
Xếp hạng tìm kiếm web ban đầu pha trộn mức độ liên quan của văn bản với các tín hiệu dựa trên liên kết mới được giới thiệu vào khoảng năm 1998. Khi sự thao túng gia tăng, truy xuất thông tin đối kháng đã xuất hiện vào giữa những năm 2000 với các công trình như phân loại thư rác web và truyền bá độ tin cậy. Các quy trình xếp hạng đã dần bổ sung các mô hình học được và tín hiệu hành vi, phát triển thành các kiến trúc đa giai đoạn được sử dụng ngày nay.
Key figures
- Sergey Brin
- Larry Page
- Zoltán Gyöngyi
- Hector García-Molina
Related topics
Seminal works
- brin1998
- gyongyi2005
- croft2010
Frequently asked questions
- Tại sao các công cụ tìm kiếm xếp hạng theo nhiều giai đoạn?
- Áp dụng các mô hình xếp hạng chính xác nhất cho mọi trang trong chỉ mục sẽ quá chậm. Giai đoạn đầu tiên hiệu quả sẽ truy xuất vài trăm hoặc vài nghìn ứng viên tiềm năng, và các mô hình phong phú hơn liên tiếp sẽ xếp hạng lại tập hợp nhỏ hơn đó, cân bằng chất lượng với độ trễ và chi phí.
- Truy xuất thông tin đối kháng là gì?
- Đây là nghiên cứu về truy xuất trong các môi trường mà nội dung tích cực cố gắng thao túng thứ hạng để đạt được lợi ích, chẳng hạn như thư rác web, trang trại liên kết và che giấu. Các hệ thống xếp hạng phản ứng bằng cách phát hiện thư rác, truyền bá độ tin cậy và các biện pháp mạnh mẽ để giữ cho kết quả đáng tin cậy.