ScholarGate
ผู้ช่วย

การค้นหาเว็บและการวิเคราะห์ลิงก์

การค้นหาเว็บและการวิเคราะห์ลิงก์เป็นการจัดการกับการดึงข้อมูลบนเวิลด์ไวด์เว็บ ซึ่งโครงสร้างไฮเปอร์ลิงก์ให้หลักฐานเพิ่มเติมเกี่ยวกับอำนาจหน้าที่ และการจัดอันดับจะรวมคุณสมบัติหลายอย่างในขนาดที่ใหญ่มาก

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics
Tools & resources
ดาวน์โหลดสไลด์
Learn & explore
วิดีโอเร็ว ๆ นี้

Definition

การค้นหาเว็บและการวิเคราะห์ลิงก์คือการศึกษาการดึงข้อมูลบนชุดข้อมูลเว็บที่มีไฮเปอร์ลิงก์ โดยรวมความเกี่ยวข้องของข้อความเข้ากับสัญญาณอำนาจหน้าที่ที่อิงตามกราฟซึ่งได้มาจากโครงสร้างลิงก์ และกับการจัดอันดับที่เรียนรู้ด้วยเครื่องจากคุณสมบัติหลายอย่าง ในขนาดและภายใต้เงื่อนไขการแข่งขันของเว็บเปิด

Scope

ขอบเขตนี้ครอบคลุมองค์ประกอบเฉพาะสำหรับการดึงข้อมูลขนาดเว็บ: การรวบรวมข้อมูลและโครงสร้างลิงก์ของเว็บ, อัลกอริทึมการวิเคราะห์ลิงก์ เช่น PageRank และ HITS ที่ใช้ประโยชน์จากไฮเปอร์ลิงก์เป็นการรับรอง, วิธีการเรียนรู้เพื่อจัดอันดับที่รวมคุณสมบัติการจัดอันดับหลายอย่าง, และการออกแบบไปป์ไลน์การจัดอันดับการค้นหาเว็บ ซึ่งจะกล่าวถึงว่าลักษณะของเว็บที่เป็นไฮเปอร์ลิงก์, มีการแข่งขัน และมีขนาดใหญ่มาก เปลี่ยนแปลงการดึงข้อมูลอย่างไร ซึ่งแตกต่างจากแบบจำลองการดึงข้อมูลหลักที่ให้คะแนนเอกสารแต่ละฉบับจากหลักฐานที่เป็นข้อความเพียงอย่างเดียว

Sub-topics

Core questions

  • เว็บถูกรวบรวมข้อมูลและกราฟลิงก์ถูกบันทึกได้อย่างไร?
  • โครงสร้างไฮเปอร์ลิงก์สามารถบ่งบอกถึงความสำคัญหรืออำนาจหน้าที่ของหน้าเว็บได้อย่างไร?
  • PageRank และ HITS แตกต่างกันอย่างไรในการสร้างแบบจำลองอำนาจหน้าที่ที่อิงตามลิงก์?
  • สัญญาณการจัดอันดับที่แตกต่างกันจำนวนมากถูกรวมเข้าเป็นลำดับเดียวได้อย่างไร?
  • การจัดอันดับจัดการกับสแปมและการบิดเบือนที่เป็นการแข่งขันในระดับเว็บได้อย่างไร?

Key concepts

  • การรวบรวมข้อมูลเว็บ
  • กราฟลิงก์ของเว็บ
  • PageRank
  • HITS (ฮับและผู้มีอำนาจ)
  • ข้อความสมอ
  • การเรียนรู้เพื่อจัดอันดับ
  • คุณสมบัติและสัญญาณการจัดอันดับ
  • สแปมเว็บและการดึงข้อมูลที่เป็นการแข่งขัน

Key theories

ไฮเปอร์ลิงก์เป็นการรับรอง
ลิงก์จากหน้าหนึ่งไปยังอีกหน้าหนึ่งสามารถตีความได้ว่าเป็นการลงคะแนนเสียงแห่งความเชื่อมั่น ดังนั้นกราฟลิงก์จึงมีหลักฐานเกี่ยวกับความสำคัญและอำนาจหน้าที่ของหน้าเว็บที่การจับคู่ข้อความล้วน ๆ ละเลย
PageRank เป็นการวัดอำนาจหน้าที่แบบสุ่มเดิน
PageRank กำหนดคะแนนให้กับแต่ละหน้าเท่ากับความน่าจะเป็นในการเข้าชมระยะยาวภายใต้ผู้ท่องเว็บแบบสุ่มที่ติดตามลิงก์และบางครั้งก็เทเลพอร์ต ซึ่งให้การวัดความสำคัญที่ไม่ขึ้นกับคำค้นหาที่ได้มาจากกราฟลิงก์ทั้งหมด
การจัดอันดับที่เรียนรู้ด้วยเครื่องจากคุณสมบัติหลายอย่าง
การจัดอันดับเว็บรวมสัญญาณหลายร้อยรายการ รวมถึงความเกี่ยวข้องของข้อความ อำนาจหน้าที่ที่อิงตามลิงก์ และคุณสมบัติเชิงพฤติกรรม โดยการเรียนรู้ฟังก์ชันการจัดอันดับจากข้อมูลที่มีป้ายกำกับ ซึ่งมาแทนที่สูตรที่ปรับด้วยมือเพียงสูตรเดียว

Clinical relevance

ขอบเขตนี้เป็นรากฐานของเครื่องมือค้นหาเว็บเชิงพาณิชย์ ซึ่งจัดระเบียบการเข้าถึงเว็บสาธารณะสำหรับผู้ใช้หลายพันล้านคน การวิเคราะห์ลิงก์ได้ปรับเปลี่ยนวิธีการวัดอำนาจหน้าที่ออนไลน์ และไปป์ไลน์การเรียนรู้เพื่อจัดอันดับยังคงเป็นหัวใจสำคัญของวิธีการที่ระบบค้นหาและระบบแนะนำรวมสัญญาณเข้ากับการจัดอันดับ

History

การดึงข้อมูลเว็บ (Web IR) เกิดขึ้นในช่วงกลางทศวรรษ 1990 เมื่อเว็บมีขนาดใหญ่เกินกว่าการนำทางแบบไดเรกทอรี HITS ของ Kleinberg และ PageRank ของ Brin และ Page ซึ่งทั้งคู่เกิดขึ้นประมาณปี 1998 และ 1999 แสดงให้เห็นว่าโครงสร้างไฮเปอร์ลิงก์สามารถจัดอันดับหน้าเว็บตามอำนาจหน้าที่ได้ และ PageRank เป็นรากฐานของการเติบโตของเครื่องมือค้นหาขนาดใหญ่ ตลอดทศวรรษ 2000 วิธีการเรียนรู้เพื่อจัดอันดับได้รวมสัญญาณการจัดอันดับที่เพิ่มขึ้นจำนวนมากเข้าด้วยกัน

Key figures

  • Sergey Brin
  • Larry Page
  • Jon Kleinberg
  • Prabhakar Raghavan

Related topics

Seminal works

  • brin1998
  • page1999
  • kleinberg1999

Frequently asked questions

ทำไมเว็บจึงต้องการวิธีการดึงข้อมูลที่แตกต่างจากชุดข้อมูลปิด?
เว็บมีขนาดใหญ่มาก เปลี่ยนแปลงตลอดเวลา มีไฮเปอร์ลิงก์ และมีการแข่งขัน โดยมีหน้าเว็บที่พยายามจัดอันดับให้สูงขึ้นอย่างแข็งขัน เงื่อนไขเหล่านี้เพิ่มการรวบรวมข้อมูล สัญญาณอำนาจหน้าที่ที่อิงตามลิงก์ การต้านทานสแปม และการจัดอันดับที่เรียนรู้ขนาดใหญ่ นอกเหนือจากการจับคู่ข้อความที่ใช้ในชุดข้อมูลปิด
การวิเคราะห์ลิงก์ยังคงสำคัญหรือไม่เมื่อพิจารณาการจัดอันดับสมัยใหม่?
อำนาจหน้าที่ที่อิงตามลิงก์ยังคงเป็นหนึ่งในสัญญาณหลายร้อยรายการในการจัดอันดับสมัยใหม่ ซึ่งปัจจุบันพึ่งพาแบบจำลองที่เรียนรู้และคุณสมบัติเชิงพฤติกรรมและเนื้อหาเป็นอย่างมาก แนวคิดแบบ PageRank ยังคงแจ้งให้ทราบว่าความสำคัญแพร่กระจายผ่านกราฟอย่างไร รวมถึงในการแนะนำและการวิเคราะห์การอ้างอิง

Methods for this concept

Related concepts