การรวบรวมข้อมูลเว็บและโครงสร้างการเชื่อมโยง
การรวบรวมข้อมูลเว็บเป็นกระบวนการอัตโนมัติในการค้นหาและดาวน์โหลดหน้าเว็บโดยการติดตามไฮเปอร์ลิงก์ และโครงสร้างการเชื่อมโยงที่เกิดขึ้นจะก่อตัวเป็นกราฟที่ระบบค้นหาใช้ในการสำรวจและวิเคราะห์
Definition
การรวบรวมข้อมูลเว็บคือการสำรวจเว็บด้วยอัลกอริทึมที่เริ่มต้นจาก URL ตั้งต้น และดึงหน้าเว็บซ้ำๆ และดึงลิงก์ขาออกเพื่อค้นหาหน้าเว็บเพิ่มเติม ในขณะที่โครงสร้างการเชื่อมโยงหมายถึงกราฟแบบมีทิศทางที่เกิดจากหน้าเว็บและไฮเปอร์ลิงก์ระหว่างหน้าเว็บเหล่านั้น
Scope
หัวข้อนี้ครอบคลุมถึงวิธีการที่โปรแกรมรวบรวมข้อมูลดึงหน้าเว็บอย่างเป็นระบบ และโครงสร้างกราฟไฮเปอร์ลิงก์ของเว็บ หัวข้อนี้กล่าวถึงสถาปัตยกรรมของโปรแกรมรวบรวมข้อมูล, URL frontier และข้อจำกัดด้านความสุภาพ, การตรวจจับหน้าซ้ำและหน้าใกล้เคียงซ้ำ, การจัดกำหนดการความสดใหม่และการรวบรวมข้อมูลซ้ำ, และการเคารพการยกเว้นของ robots นอกจากนี้ยังครอบคลุมคุณสมบัติเชิงประจักษ์ของกราฟเว็บ เช่น โครงสร้างโบว์ไทด์ที่กว้างขวางและการกระจายดีกรีแบบหางหนัก ซึ่งเป็นข้อมูลสำคัญสำหรับการรวบรวมข้อมูลและการวิเคราะห์การเชื่อมโยง หัวข้อนี้ไม่รวมถึงการใช้การเชื่อมโยงในการจัดอันดับ ซึ่งจะกล่าวถึงภายใต้ PageRank และ HITS
Core questions
- โปรแกรมรวบรวมข้อมูลค้นหา จัดลำดับความสำคัญ และจัดกำหนดการหน้าเว็บที่ดึงมาได้อย่างไร
- ความสุภาพ การยกเว้นของ robots และภาระของเซิร์ฟเวอร์ได้รับการเคารพในระหว่างการรวบรวมข้อมูลอย่างไร
- หน้าเว็บที่ซ้ำกันและหน้าเว็บที่ใกล้เคียงซ้ำกันถูกตรวจจับและจัดการอย่างไร
- ความสดใหม่ของการรวบรวมข้อมูลได้รับการรักษาอย่างไรเมื่อหน้าเว็บมีการเปลี่ยนแปลง
- กราฟเว็บแสดงโครงสร้างขนาดใหญ่แบบใด
Key concepts
- โปรแกรมรวบรวมข้อมูลเว็บ / สไปเดอร์
- URL frontier และชุดเริ่มต้น
- ความสุภาพในการรวบรวมข้อมูลและ robots.txt
- การตรวจจับหน้าซ้ำและหน้าใกล้เคียงซ้ำ
- ความสดใหม่และการจัดกำหนดการการรวบรวมข้อมูลซ้ำ
- กราฟเว็บ
- โครงสร้างโบว์ไทด์
- การกระจายดีกรีเข้าและดีกรีออก
Key theories
- สถาปัตยกรรมของโปรแกรมรวบรวมข้อมูลและ URL frontier
- โปรแกรมรวบรวมข้อมูลจะรักษารายการ URL ที่จะดึงข้อมูล (frontier) ใช้หลักการจัดลำดับความสำคัญและนโยบายความสุภาพ วิเคราะห์หน้าเว็บที่ดึงมาเพื่อดึงลิงก์ใหม่ และติดตามหน้าเว็บที่เข้าชม โดยรักษาสมดุลระหว่างความครอบคลุม ความสดใหม่ และข้อจำกัดของทรัพยากร
- โครงสร้างกราฟเว็บในระดับมหภาค
- การศึกษาเชิงประจักษ์แสดงให้เห็นว่ากราฟการเชื่อมโยงของเว็บมีรูปร่างโบว์ไทด์ที่เป็นเอกลักษณ์ โดยมีแกนกลางที่เชื่อมต่อกันอย่างแน่นหนาขนาดใหญ่ พร้อมด้วยองค์ประกอบขาเข้าและขาออก รวมถึงส่วนที่เป็นเส้นใยและส่วนที่ไม่ได้เชื่อมต่อกัน และดีกรีเข้าแบบหางหนัก ซึ่งจำกัดการเข้าถึงและเป็นข้อมูลสำคัญสำหรับกลยุทธ์การรวบรวมข้อมูล
Clinical relevance
การรวบรวมข้อมูลเป็นขั้นตอนการได้มาซึ่งข้อมูลของเครื่องมือค้นหาเว็บทุกชนิด และของการวิเคราะห์เว็บขนาดใหญ่ การจัดเก็บถาวร และการสร้างชุดข้อมูล การทำความเข้าใจโครงสร้างการเชื่อมโยงช่วยนำทางการรวบรวมข้อมูลที่มีประสิทธิภาพ ช่วยประเมินความครอบคลุม และเป็นรากฐานของมาตรวัดอำนาจตามการเชื่อมโยงที่ใช้ในการจัดอันดับ
History
โปรแกรมรวบรวมข้อมูลเว็บปรากฏขึ้นพร้อมกับเว็บในช่วงกลางทศวรรษ 1990 เพื่อป้อนข้อมูลให้กับดัชนีการค้นหา Cho และคณะได้ศึกษาการรวบรวมข้อมูลที่มีประสิทธิภาพและการจัดลำดับ URL ในปี 1998 และการศึกษา 'โครงสร้างกราฟในเว็บ' ในปี 2000 ได้เปิดเผยโครงสร้างมหภาคแบบโบว์ไทด์ของเว็บ เมื่อเว็บเติบโตขึ้น การรวบรวมข้อมูลก็พัฒนาเป็นสาขาวิชาระบบกระจายขนาดใหญ่ที่เน้นความสดใหม่ ความครอบคลุม และความสุภาพ
Key figures
- Andrei Broder
- Prabhakar Raghavan
- Junghoo Cho
- Hector García-Molina
Related topics
Seminal works
- broder2000
- cho1998
- manning2008
Frequently asked questions
- URL frontier ในโปรแกรมรวบรวมข้อมูลคืออะไร?
- URL frontier คือคิวของ URL ที่ถูกค้นพบแต่ยังไม่ได้ถูกดึงข้อมูล โปรแกรมรวบรวมข้อมูลจะเลือก URL จาก frontier ซ้ำๆ ตามนโยบายการจัดลำดับความสำคัญและความสุภาพ ดึงหน้าเว็บ ดึงลิงก์ใหม่ และเพิ่ม URL ที่ไม่เคยเห็นมาก่อนกลับเข้าไปใน frontier
- โครงสร้าง 'โบว์ไทด์' ของเว็บหมายความว่าอย่างไร?
- การศึกษาขนาดใหญ่พบว่ากราฟเว็บมีแกนกลางที่เชื่อมต่อกันอย่างแน่นหนาขนาดใหญ่ ส่วนประกอบ 'ขาเข้า' ของหน้าเว็บที่สามารถเข้าถึงแกนกลางได้ ส่วนประกอบ 'ขาออก' ที่สามารถเข้าถึงได้จากแกนกลาง รวมถึงส่วนที่เป็นเส้นใยและส่วนที่ไม่ได้เชื่อมต่อกัน ซึ่งมีลักษณะคล้ายโบว์ไทด์ รูปร่างนี้ส่งผลต่อหน้าเว็บที่โปรแกรมรวบรวมข้อมูลสามารถเข้าถึงได้จาก URL ตั้งต้นที่กำหนด