ทำไมเว็บจึงต้องการวิธีการดึงข้อมูลที่แตกต่างจากชุดข้อมูลปิด?

เว็บมีขนาดใหญ่มาก เปลี่ยนแปลงตลอดเวลา มีไฮเปอร์ลิงก์ และมีการแข่งขัน โดยมีหน้าเว็บที่พยายามจัดอันดับให้สูงขึ้นอย่างแข็งขัน เงื่อนไขเหล่านี้เพิ่มการรวบรวมข้อมูล สัญญาณอำนาจหน้าที่ที่อิงตามลิงก์ การต้านทานสแปม และการจัดอันดับที่เรียนรู้ขนาดใหญ่ นอกเหนือจากการจับคู่ข้อความที่ใช้ในชุดข้อมูลปิด

การวิเคราะห์ลิงก์ยังคงสำคัญหรือไม่เมื่อพิจารณาการจัดอันดับสมัยใหม่?

อำนาจหน้าที่ที่อิงตามลิงก์ยังคงเป็นหนึ่งในสัญญาณหลายร้อยรายการในการจัดอันดับสมัยใหม่ ซึ่งปัจจุบันพึ่งพาแบบจำลองที่เรียนรู้และคุณสมบัติเชิงพฤติกรรมและเนื้อหาเป็นอย่างมาก แนวคิดแบบ PageRank ยังคงแจ้งให้ทราบว่าความสำคัญแพร่กระจายผ่านกราฟอย่างไร รวมถึงในการแนะนำและการวิเคราะห์การอ้างอิง

การค้นหาเว็บและการวิเคราะห์ลิงก์

การค้นหาเว็บและการวิเคราะห์ลิงก์เป็นการจัดการกับการดึงข้อมูลบนเวิลด์ไวด์เว็บ ซึ่งโครงสร้างไฮเปอร์ลิงก์ให้หลักฐานเพิ่มเติมเกี่ยวกับอำนาจหน้าที่ และการจัดอันดับจะรวมคุณสมบัติหลายอย่างในขนาดที่ใหญ่มาก

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics

Tools & resources

ดาวน์โหลดสไลด์

Learn & explore

วิดีโอเร็ว ๆ นี้

Definition

การค้นหาเว็บและการวิเคราะห์ลิงก์คือการศึกษาการดึงข้อมูลบนชุดข้อมูลเว็บที่มีไฮเปอร์ลิงก์ โดยรวมความเกี่ยวข้องของข้อความเข้ากับสัญญาณอำนาจหน้าที่ที่อิงตามกราฟซึ่งได้มาจากโครงสร้างลิงก์ และกับการจัดอันดับที่เรียนรู้ด้วยเครื่องจากคุณสมบัติหลายอย่าง ในขนาดและภายใต้เงื่อนไขการแข่งขันของเว็บเปิด

Scope

ขอบเขตนี้ครอบคลุมองค์ประกอบเฉพาะสำหรับการดึงข้อมูลขนาดเว็บ: การรวบรวมข้อมูลและโครงสร้างลิงก์ของเว็บ, อัลกอริทึมการวิเคราะห์ลิงก์ เช่น PageRank และ HITS ที่ใช้ประโยชน์จากไฮเปอร์ลิงก์เป็นการรับรอง, วิธีการเรียนรู้เพื่อจัดอันดับที่รวมคุณสมบัติการจัดอันดับหลายอย่าง, และการออกแบบไปป์ไลน์การจัดอันดับการค้นหาเว็บ ซึ่งจะกล่าวถึงว่าลักษณะของเว็บที่เป็นไฮเปอร์ลิงก์, มีการแข่งขัน และมีขนาดใหญ่มาก เปลี่ยนแปลงการดึงข้อมูลอย่างไร ซึ่งแตกต่างจากแบบจำลองการดึงข้อมูลหลักที่ให้คะแนนเอกสารแต่ละฉบับจากหลักฐานที่เป็นข้อความเพียงอย่างเดียว

Sub-topics

Core questions

เว็บถูกรวบรวมข้อมูลและกราฟลิงก์ถูกบันทึกได้อย่างไร?
โครงสร้างไฮเปอร์ลิงก์สามารถบ่งบอกถึงความสำคัญหรืออำนาจหน้าที่ของหน้าเว็บได้อย่างไร?
PageRank และ HITS แตกต่างกันอย่างไรในการสร้างแบบจำลองอำนาจหน้าที่ที่อิงตามลิงก์?
สัญญาณการจัดอันดับที่แตกต่างกันจำนวนมากถูกรวมเข้าเป็นลำดับเดียวได้อย่างไร?
การจัดอันดับจัดการกับสแปมและการบิดเบือนที่เป็นการแข่งขันในระดับเว็บได้อย่างไร?

Key concepts

การรวบรวมข้อมูลเว็บ
กราฟลิงก์ของเว็บ
PageRank
HITS (ฮับและผู้มีอำนาจ)
ข้อความสมอ
การเรียนรู้เพื่อจัดอันดับ
คุณสมบัติและสัญญาณการจัดอันดับ
สแปมเว็บและการดึงข้อมูลที่เป็นการแข่งขัน

Key theories

ไฮเปอร์ลิงก์เป็นการรับรอง: ลิงก์จากหน้าหนึ่งไปยังอีกหน้าหนึ่งสามารถตีความได้ว่าเป็นการลงคะแนนเสียงแห่งความเชื่อมั่น ดังนั้นกราฟลิงก์จึงมีหลักฐานเกี่ยวกับความสำคัญและอำนาจหน้าที่ของหน้าเว็บที่การจับคู่ข้อความล้วน ๆ ละเลย
PageRank เป็นการวัดอำนาจหน้าที่แบบสุ่มเดิน: PageRank กำหนดคะแนนให้กับแต่ละหน้าเท่ากับความน่าจะเป็นในการเข้าชมระยะยาวภายใต้ผู้ท่องเว็บแบบสุ่มที่ติดตามลิงก์และบางครั้งก็เทเลพอร์ต ซึ่งให้การวัดความสำคัญที่ไม่ขึ้นกับคำค้นหาที่ได้มาจากกราฟลิงก์ทั้งหมด
การจัดอันดับที่เรียนรู้ด้วยเครื่องจากคุณสมบัติหลายอย่าง: การจัดอันดับเว็บรวมสัญญาณหลายร้อยรายการ รวมถึงความเกี่ยวข้องของข้อความ อำนาจหน้าที่ที่อิงตามลิงก์ และคุณสมบัติเชิงพฤติกรรม โดยการเรียนรู้ฟังก์ชันการจัดอันดับจากข้อมูลที่มีป้ายกำกับ ซึ่งมาแทนที่สูตรที่ปรับด้วยมือเพียงสูตรเดียว

Clinical relevance

ขอบเขตนี้เป็นรากฐานของเครื่องมือค้นหาเว็บเชิงพาณิชย์ ซึ่งจัดระเบียบการเข้าถึงเว็บสาธารณะสำหรับผู้ใช้หลายพันล้านคน การวิเคราะห์ลิงก์ได้ปรับเปลี่ยนวิธีการวัดอำนาจหน้าที่ออนไลน์ และไปป์ไลน์การเรียนรู้เพื่อจัดอันดับยังคงเป็นหัวใจสำคัญของวิธีการที่ระบบค้นหาและระบบแนะนำรวมสัญญาณเข้ากับการจัดอันดับ

History

การดึงข้อมูลเว็บ (Web IR) เกิดขึ้นในช่วงกลางทศวรรษ 1990 เมื่อเว็บมีขนาดใหญ่เกินกว่าการนำทางแบบไดเรกทอรี HITS ของ Kleinberg และ PageRank ของ Brin และ Page ซึ่งทั้งคู่เกิดขึ้นประมาณปี 1998 และ 1999 แสดงให้เห็นว่าโครงสร้างไฮเปอร์ลิงก์สามารถจัดอันดับหน้าเว็บตามอำนาจหน้าที่ได้ และ PageRank เป็นรากฐานของการเติบโตของเครื่องมือค้นหาขนาดใหญ่ ตลอดทศวรรษ 2000 วิธีการเรียนรู้เพื่อจัดอันดับได้รวมสัญญาณการจัดอันดับที่เพิ่มขึ้นจำนวนมากเข้าด้วยกัน

Key figures

Sergey Brin
Larry Page
Jon Kleinberg
Prabhakar Raghavan

Seminal works

brin1998
page1999
kleinberg1999

Frequently asked questions

ทำไมเว็บจึงต้องการวิธีการดึงข้อมูลที่แตกต่างจากชุดข้อมูลปิด?: เว็บมีขนาดใหญ่มาก เปลี่ยนแปลงตลอดเวลา มีไฮเปอร์ลิงก์ และมีการแข่งขัน โดยมีหน้าเว็บที่พยายามจัดอันดับให้สูงขึ้นอย่างแข็งขัน เงื่อนไขเหล่านี้เพิ่มการรวบรวมข้อมูล สัญญาณอำนาจหน้าที่ที่อิงตามลิงก์ การต้านทานสแปม และการจัดอันดับที่เรียนรู้ขนาดใหญ่ นอกเหนือจากการจับคู่ข้อความที่ใช้ในชุดข้อมูลปิด
การวิเคราะห์ลิงก์ยังคงสำคัญหรือไม่เมื่อพิจารณาการจัดอันดับสมัยใหม่?: อำนาจหน้าที่ที่อิงตามลิงก์ยังคงเป็นหนึ่งในสัญญาณหลายร้อยรายการในการจัดอันดับสมัยใหม่ ซึ่งปัจจุบันพึ่งพาแบบจำลองที่เรียนรู้และคุณสมบัติเชิงพฤติกรรมและเนื้อหาเป็นอย่างมาก แนวคิดแบบ PageRank ยังคงแจ้งให้ทราบว่าความสำคัญแพร่กระจายผ่านกราฟอย่างไร รวมถึงในการแนะนำและการวิเคราะห์การอ้างอิง