ScholarGate
Trợ lý

Thu thập dữ liệu web và cấu trúc liên kết

Thu thập dữ liệu web là quá trình tự động khám phá và tải xuống các trang web bằng cách theo dõi các siêu liên kết, và cấu trúc liên kết tạo thành một đồ thị mà các hệ thống tìm kiếm vừa duyệt vừa phân tích.

Tìm chủ đề với PaperMindSắp ra mắtFind papers & topics
Tools & resources
Tải xuống bản trình chiếu
Learn & explore
VideoSắp ra mắt

Definition

Thu thập dữ liệu web là quá trình duyệt web theo thuật toán bắt đầu từ các URL hạt giống và liên tục tìm nạp các trang và trích xuất các liên kết đi của chúng để khám phá thêm các trang, trong khi cấu trúc liên kết đề cập đến đồ thị có hướng được hình thành bởi các trang và các siêu liên kết giữa chúng.

Scope

Chủ đề này bao gồm cách các trình thu thập dữ liệu tìm nạp các trang web một cách có hệ thống và cách đồ thị siêu liên kết của web được cấu trúc. Nó đề cập đến kiến trúc trình thu thập dữ liệu, hàng đợi URL và các ràng buộc về tính lịch sự, phát hiện trùng lặp và gần trùng lặp, độ tươi mới và lập lịch thu thập lại, và tôn trọng loại trừ robot. Nó cũng bao gồm các thuộc tính thực nghiệm của đồ thị web, chẳng hạn như cấu trúc hình nơ rộng và phân phối bậc có đuôi nặng, thông báo cả việc thu thập dữ liệu và phân tích liên kết. Nó loại trừ việc sử dụng liên kết để xếp hạng, được xử lý trong PageRank và HITS.

Core questions

  • Trình thu thập dữ liệu khám phá, ưu tiên và lập lịch các trang mà nó tìm nạp như thế nào?
  • Tính lịch sự, loại trừ robot và tải máy chủ được tôn trọng như thế nào trong quá trình thu thập dữ liệu?
  • Các trang trùng lặp và gần trùng lặp được phát hiện và xử lý như thế nào?
  • Độ tươi mới của dữ liệu được duy trì như thế nào khi các trang thay đổi?
  • Cấu trúc quy mô lớn nào mà đồ thị web thể hiện?

Key concepts

  • trình thu thập dữ liệu web / spider
  • hàng đợi URL và tập hợp hạt giống
  • tính lịch sự của trình thu thập dữ liệu và robots.txt
  • phát hiện trùng lặp và gần trùng lặp
  • độ tươi mới và lập lịch thu thập lại
  • đồ thị web
  • cấu trúc hình nơ
  • phân phối bậc vào và bậc ra

Key theories

Kiến trúc trình thu thập dữ liệu và hàng đợi URL
Trình thu thập dữ liệu duy trì một hàng đợi các URL cần tìm nạp, áp dụng các chính sách ưu tiên và lịch sự, phân tích các trang đã tìm nạp để trích xuất các liên kết mới và theo dõi các trang đã truy cập, cân bằng phạm vi phủ sóng, độ tươi mới và giới hạn tài nguyên.
Cấu trúc đồ thị web vĩ mô
Các nghiên cứu thực nghiệm cho thấy đồ thị liên kết của web có hình dạng hình nơ đặc trưng với một lõi kết nối mạnh mẽ lớn cộng với các thành phần vào và ra, và bậc vào có đuôi nặng, điều này hạn chế khả năng tiếp cận và thông báo chiến lược thu thập dữ liệu.

Clinical relevance

Thu thập dữ liệu là giai đoạn thu thập dữ liệu của mọi công cụ tìm kiếm web và của phân tích web quy mô lớn, lưu trữ và xây dựng tập dữ liệu. Hiểu cấu trúc liên kết hướng dẫn thu thập dữ liệu hiệu quả, giúp ước tính phạm vi phủ sóng và củng cố các biện pháp thẩm quyền dựa trên liên kết được sử dụng trong xếp hạng.

History

Các trình thu thập dữ liệu web xuất hiện cùng với web sơ khai vào giữa những năm 1990 để cung cấp chỉ mục tìm kiếm. Cho và các đồng nghiệp đã nghiên cứu việc thu thập dữ liệu hiệu quả và sắp xếp URL vào năm 1998, và nghiên cứu 'cấu trúc đồ thị trong web' năm 2000 đã tiết lộ cấu trúc vĩ mô hình nơ của web. Khi web phát triển, việc thu thập dữ liệu đã trưởng thành thành một ngành hệ thống phân tán quy mô lớn nhấn mạnh sự tươi mới, phạm vi phủ sóng và tính lịch sự.

Key figures

  • Andrei Broder
  • Prabhakar Raghavan
  • Junghoo Cho
  • Hector García-Molina

Related topics

Seminal works

  • broder2000
  • cho1998
  • manning2008

Frequently asked questions

Hàng đợi URL trong trình thu thập dữ liệu là gì?
Hàng đợi URL là hàng đợi các URL đã được khám phá nhưng chưa được tìm nạp. Trình thu thập dữ liệu liên tục chọn các URL từ hàng đợi theo các chính sách ưu tiên và lịch sự, tìm nạp các trang, trích xuất các liên kết mới và thêm các URL chưa từng thấy trước đây trở lại hàng đợi.
Cấu trúc 'hình nơ' của web có nghĩa là gì?
Các nghiên cứu quy mô lớn đã phát hiện ra rằng đồ thị web có một lõi kết nối mạnh mẽ lớn, một thành phần 'vào' của các trang có thể tiếp cận lõi, một thành phần 'ra' có thể tiếp cận từ lõi, cộng với các nhánh và các phần không kết nối, giống như một hình nơ. Hình dạng này ảnh hưởng đến các trang mà trình thu thập dữ liệu có thể tiếp cận từ các hạt giống đã cho.

Methods for this concept

Related concepts