ScholarGate
ผู้ช่วย

การรวบรวมข้อมูลเว็บและโครงสร้างการเชื่อมโยง

การรวบรวมข้อมูลเว็บเป็นกระบวนการอัตโนมัติในการค้นหาและดาวน์โหลดหน้าเว็บโดยการติดตามไฮเปอร์ลิงก์ และโครงสร้างการเชื่อมโยงที่เกิดขึ้นจะก่อตัวเป็นกราฟที่ระบบค้นหาใช้ในการสำรวจและวิเคราะห์

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics
Tools & resources
ดาวน์โหลดสไลด์
Learn & explore
วิดีโอเร็ว ๆ นี้

Definition

การรวบรวมข้อมูลเว็บคือการสำรวจเว็บด้วยอัลกอริทึมที่เริ่มต้นจาก URL ตั้งต้น และดึงหน้าเว็บซ้ำๆ และดึงลิงก์ขาออกเพื่อค้นหาหน้าเว็บเพิ่มเติม ในขณะที่โครงสร้างการเชื่อมโยงหมายถึงกราฟแบบมีทิศทางที่เกิดจากหน้าเว็บและไฮเปอร์ลิงก์ระหว่างหน้าเว็บเหล่านั้น

Scope

หัวข้อนี้ครอบคลุมถึงวิธีการที่โปรแกรมรวบรวมข้อมูลดึงหน้าเว็บอย่างเป็นระบบ และโครงสร้างกราฟไฮเปอร์ลิงก์ของเว็บ หัวข้อนี้กล่าวถึงสถาปัตยกรรมของโปรแกรมรวบรวมข้อมูล, URL frontier และข้อจำกัดด้านความสุภาพ, การตรวจจับหน้าซ้ำและหน้าใกล้เคียงซ้ำ, การจัดกำหนดการความสดใหม่และการรวบรวมข้อมูลซ้ำ, และการเคารพการยกเว้นของ robots นอกจากนี้ยังครอบคลุมคุณสมบัติเชิงประจักษ์ของกราฟเว็บ เช่น โครงสร้างโบว์ไทด์ที่กว้างขวางและการกระจายดีกรีแบบหางหนัก ซึ่งเป็นข้อมูลสำคัญสำหรับการรวบรวมข้อมูลและการวิเคราะห์การเชื่อมโยง หัวข้อนี้ไม่รวมถึงการใช้การเชื่อมโยงในการจัดอันดับ ซึ่งจะกล่าวถึงภายใต้ PageRank และ HITS

Core questions

  • โปรแกรมรวบรวมข้อมูลค้นหา จัดลำดับความสำคัญ และจัดกำหนดการหน้าเว็บที่ดึงมาได้อย่างไร
  • ความสุภาพ การยกเว้นของ robots และภาระของเซิร์ฟเวอร์ได้รับการเคารพในระหว่างการรวบรวมข้อมูลอย่างไร
  • หน้าเว็บที่ซ้ำกันและหน้าเว็บที่ใกล้เคียงซ้ำกันถูกตรวจจับและจัดการอย่างไร
  • ความสดใหม่ของการรวบรวมข้อมูลได้รับการรักษาอย่างไรเมื่อหน้าเว็บมีการเปลี่ยนแปลง
  • กราฟเว็บแสดงโครงสร้างขนาดใหญ่แบบใด

Key concepts

  • โปรแกรมรวบรวมข้อมูลเว็บ / สไปเดอร์
  • URL frontier และชุดเริ่มต้น
  • ความสุภาพในการรวบรวมข้อมูลและ robots.txt
  • การตรวจจับหน้าซ้ำและหน้าใกล้เคียงซ้ำ
  • ความสดใหม่และการจัดกำหนดการการรวบรวมข้อมูลซ้ำ
  • กราฟเว็บ
  • โครงสร้างโบว์ไทด์
  • การกระจายดีกรีเข้าและดีกรีออก

Key theories

สถาปัตยกรรมของโปรแกรมรวบรวมข้อมูลและ URL frontier
โปรแกรมรวบรวมข้อมูลจะรักษารายการ URL ที่จะดึงข้อมูล (frontier) ใช้หลักการจัดลำดับความสำคัญและนโยบายความสุภาพ วิเคราะห์หน้าเว็บที่ดึงมาเพื่อดึงลิงก์ใหม่ และติดตามหน้าเว็บที่เข้าชม โดยรักษาสมดุลระหว่างความครอบคลุม ความสดใหม่ และข้อจำกัดของทรัพยากร
โครงสร้างกราฟเว็บในระดับมหภาค
การศึกษาเชิงประจักษ์แสดงให้เห็นว่ากราฟการเชื่อมโยงของเว็บมีรูปร่างโบว์ไทด์ที่เป็นเอกลักษณ์ โดยมีแกนกลางที่เชื่อมต่อกันอย่างแน่นหนาขนาดใหญ่ พร้อมด้วยองค์ประกอบขาเข้าและขาออก รวมถึงส่วนที่เป็นเส้นใยและส่วนที่ไม่ได้เชื่อมต่อกัน และดีกรีเข้าแบบหางหนัก ซึ่งจำกัดการเข้าถึงและเป็นข้อมูลสำคัญสำหรับกลยุทธ์การรวบรวมข้อมูล

Clinical relevance

การรวบรวมข้อมูลเป็นขั้นตอนการได้มาซึ่งข้อมูลของเครื่องมือค้นหาเว็บทุกชนิด และของการวิเคราะห์เว็บขนาดใหญ่ การจัดเก็บถาวร และการสร้างชุดข้อมูล การทำความเข้าใจโครงสร้างการเชื่อมโยงช่วยนำทางการรวบรวมข้อมูลที่มีประสิทธิภาพ ช่วยประเมินความครอบคลุม และเป็นรากฐานของมาตรวัดอำนาจตามการเชื่อมโยงที่ใช้ในการจัดอันดับ

History

โปรแกรมรวบรวมข้อมูลเว็บปรากฏขึ้นพร้อมกับเว็บในช่วงกลางทศวรรษ 1990 เพื่อป้อนข้อมูลให้กับดัชนีการค้นหา Cho และคณะได้ศึกษาการรวบรวมข้อมูลที่มีประสิทธิภาพและการจัดลำดับ URL ในปี 1998 และการศึกษา 'โครงสร้างกราฟในเว็บ' ในปี 2000 ได้เปิดเผยโครงสร้างมหภาคแบบโบว์ไทด์ของเว็บ เมื่อเว็บเติบโตขึ้น การรวบรวมข้อมูลก็พัฒนาเป็นสาขาวิชาระบบกระจายขนาดใหญ่ที่เน้นความสดใหม่ ความครอบคลุม และความสุภาพ

Key figures

  • Andrei Broder
  • Prabhakar Raghavan
  • Junghoo Cho
  • Hector García-Molina

Related topics

Seminal works

  • broder2000
  • cho1998
  • manning2008

Frequently asked questions

URL frontier ในโปรแกรมรวบรวมข้อมูลคืออะไร?
URL frontier คือคิวของ URL ที่ถูกค้นพบแต่ยังไม่ได้ถูกดึงข้อมูล โปรแกรมรวบรวมข้อมูลจะเลือก URL จาก frontier ซ้ำๆ ตามนโยบายการจัดลำดับความสำคัญและความสุภาพ ดึงหน้าเว็บ ดึงลิงก์ใหม่ และเพิ่ม URL ที่ไม่เคยเห็นมาก่อนกลับเข้าไปใน frontier
โครงสร้าง 'โบว์ไทด์' ของเว็บหมายความว่าอย่างไร?
การศึกษาขนาดใหญ่พบว่ากราฟเว็บมีแกนกลางที่เชื่อมต่อกันอย่างแน่นหนาขนาดใหญ่ ส่วนประกอบ 'ขาเข้า' ของหน้าเว็บที่สามารถเข้าถึงแกนกลางได้ ส่วนประกอบ 'ขาออก' ที่สามารถเข้าถึงได้จากแกนกลาง รวมถึงส่วนที่เป็นเส้นใยและส่วนที่ไม่ได้เชื่อมต่อกัน ซึ่งมีลักษณะคล้ายโบว์ไทด์ รูปร่างนี้ส่งผลต่อหน้าเว็บที่โปรแกรมรวบรวมข้อมูลสามารถเข้าถึงได้จาก URL ตั้งต้นที่กำหนด

Methods for this concept

Related concepts