การค้นหาเว็บและการวิเคราะห์ลิงก์
การค้นหาเว็บและการวิเคราะห์ลิงก์เป็นการจัดการกับการดึงข้อมูลบนเวิลด์ไวด์เว็บ ซึ่งโครงสร้างไฮเปอร์ลิงก์ให้หลักฐานเพิ่มเติมเกี่ยวกับอำนาจหน้าที่ และการจัดอันดับจะรวมคุณสมบัติหลายอย่างในขนาดที่ใหญ่มาก
Definition
การค้นหาเว็บและการวิเคราะห์ลิงก์คือการศึกษาการดึงข้อมูลบนชุดข้อมูลเว็บที่มีไฮเปอร์ลิงก์ โดยรวมความเกี่ยวข้องของข้อความเข้ากับสัญญาณอำนาจหน้าที่ที่อิงตามกราฟซึ่งได้มาจากโครงสร้างลิงก์ และกับการจัดอันดับที่เรียนรู้ด้วยเครื่องจากคุณสมบัติหลายอย่าง ในขนาดและภายใต้เงื่อนไขการแข่งขันของเว็บเปิด
Scope
ขอบเขตนี้ครอบคลุมองค์ประกอบเฉพาะสำหรับการดึงข้อมูลขนาดเว็บ: การรวบรวมข้อมูลและโครงสร้างลิงก์ของเว็บ, อัลกอริทึมการวิเคราะห์ลิงก์ เช่น PageRank และ HITS ที่ใช้ประโยชน์จากไฮเปอร์ลิงก์เป็นการรับรอง, วิธีการเรียนรู้เพื่อจัดอันดับที่รวมคุณสมบัติการจัดอันดับหลายอย่าง, และการออกแบบไปป์ไลน์การจัดอันดับการค้นหาเว็บ ซึ่งจะกล่าวถึงว่าลักษณะของเว็บที่เป็นไฮเปอร์ลิงก์, มีการแข่งขัน และมีขนาดใหญ่มาก เปลี่ยนแปลงการดึงข้อมูลอย่างไร ซึ่งแตกต่างจากแบบจำลองการดึงข้อมูลหลักที่ให้คะแนนเอกสารแต่ละฉบับจากหลักฐานที่เป็นข้อความเพียงอย่างเดียว
Sub-topics
Core questions
- เว็บถูกรวบรวมข้อมูลและกราฟลิงก์ถูกบันทึกได้อย่างไร?
- โครงสร้างไฮเปอร์ลิงก์สามารถบ่งบอกถึงความสำคัญหรืออำนาจหน้าที่ของหน้าเว็บได้อย่างไร?
- PageRank และ HITS แตกต่างกันอย่างไรในการสร้างแบบจำลองอำนาจหน้าที่ที่อิงตามลิงก์?
- สัญญาณการจัดอันดับที่แตกต่างกันจำนวนมากถูกรวมเข้าเป็นลำดับเดียวได้อย่างไร?
- การจัดอันดับจัดการกับสแปมและการบิดเบือนที่เป็นการแข่งขันในระดับเว็บได้อย่างไร?
Key concepts
- การรวบรวมข้อมูลเว็บ
- กราฟลิงก์ของเว็บ
- PageRank
- HITS (ฮับและผู้มีอำนาจ)
- ข้อความสมอ
- การเรียนรู้เพื่อจัดอันดับ
- คุณสมบัติและสัญญาณการจัดอันดับ
- สแปมเว็บและการดึงข้อมูลที่เป็นการแข่งขัน
Key theories
- ไฮเปอร์ลิงก์เป็นการรับรอง
- ลิงก์จากหน้าหนึ่งไปยังอีกหน้าหนึ่งสามารถตีความได้ว่าเป็นการลงคะแนนเสียงแห่งความเชื่อมั่น ดังนั้นกราฟลิงก์จึงมีหลักฐานเกี่ยวกับความสำคัญและอำนาจหน้าที่ของหน้าเว็บที่การจับคู่ข้อความล้วน ๆ ละเลย
- PageRank เป็นการวัดอำนาจหน้าที่แบบสุ่มเดิน
- PageRank กำหนดคะแนนให้กับแต่ละหน้าเท่ากับความน่าจะเป็นในการเข้าชมระยะยาวภายใต้ผู้ท่องเว็บแบบสุ่มที่ติดตามลิงก์และบางครั้งก็เทเลพอร์ต ซึ่งให้การวัดความสำคัญที่ไม่ขึ้นกับคำค้นหาที่ได้มาจากกราฟลิงก์ทั้งหมด
- การจัดอันดับที่เรียนรู้ด้วยเครื่องจากคุณสมบัติหลายอย่าง
- การจัดอันดับเว็บรวมสัญญาณหลายร้อยรายการ รวมถึงความเกี่ยวข้องของข้อความ อำนาจหน้าที่ที่อิงตามลิงก์ และคุณสมบัติเชิงพฤติกรรม โดยการเรียนรู้ฟังก์ชันการจัดอันดับจากข้อมูลที่มีป้ายกำกับ ซึ่งมาแทนที่สูตรที่ปรับด้วยมือเพียงสูตรเดียว
Clinical relevance
ขอบเขตนี้เป็นรากฐานของเครื่องมือค้นหาเว็บเชิงพาณิชย์ ซึ่งจัดระเบียบการเข้าถึงเว็บสาธารณะสำหรับผู้ใช้หลายพันล้านคน การวิเคราะห์ลิงก์ได้ปรับเปลี่ยนวิธีการวัดอำนาจหน้าที่ออนไลน์ และไปป์ไลน์การเรียนรู้เพื่อจัดอันดับยังคงเป็นหัวใจสำคัญของวิธีการที่ระบบค้นหาและระบบแนะนำรวมสัญญาณเข้ากับการจัดอันดับ
History
การดึงข้อมูลเว็บ (Web IR) เกิดขึ้นในช่วงกลางทศวรรษ 1990 เมื่อเว็บมีขนาดใหญ่เกินกว่าการนำทางแบบไดเรกทอรี HITS ของ Kleinberg และ PageRank ของ Brin และ Page ซึ่งทั้งคู่เกิดขึ้นประมาณปี 1998 และ 1999 แสดงให้เห็นว่าโครงสร้างไฮเปอร์ลิงก์สามารถจัดอันดับหน้าเว็บตามอำนาจหน้าที่ได้ และ PageRank เป็นรากฐานของการเติบโตของเครื่องมือค้นหาขนาดใหญ่ ตลอดทศวรรษ 2000 วิธีการเรียนรู้เพื่อจัดอันดับได้รวมสัญญาณการจัดอันดับที่เพิ่มขึ้นจำนวนมากเข้าด้วยกัน
Key figures
- Sergey Brin
- Larry Page
- Jon Kleinberg
- Prabhakar Raghavan
Related topics
Seminal works
- brin1998
- page1999
- kleinberg1999
Frequently asked questions
- ทำไมเว็บจึงต้องการวิธีการดึงข้อมูลที่แตกต่างจากชุดข้อมูลปิด?
- เว็บมีขนาดใหญ่มาก เปลี่ยนแปลงตลอดเวลา มีไฮเปอร์ลิงก์ และมีการแข่งขัน โดยมีหน้าเว็บที่พยายามจัดอันดับให้สูงขึ้นอย่างแข็งขัน เงื่อนไขเหล่านี้เพิ่มการรวบรวมข้อมูล สัญญาณอำนาจหน้าที่ที่อิงตามลิงก์ การต้านทานสแปม และการจัดอันดับที่เรียนรู้ขนาดใหญ่ นอกเหนือจากการจับคู่ข้อความที่ใช้ในชุดข้อมูลปิด
- การวิเคราะห์ลิงก์ยังคงสำคัญหรือไม่เมื่อพิจารณาการจัดอันดับสมัยใหม่?
- อำนาจหน้าที่ที่อิงตามลิงก์ยังคงเป็นหนึ่งในสัญญาณหลายร้อยรายการในการจัดอันดับสมัยใหม่ ซึ่งปัจจุบันพึ่งพาแบบจำลองที่เรียนรู้และคุณสมบัติเชิงพฤติกรรมและเนื้อหาเป็นอย่างมาก แนวคิดแบบ PageRank ยังคงแจ้งให้ทราบว่าความสำคัญแพร่กระจายผ่านกราฟอย่างไร รวมถึงในการแนะนำและการวิเคราะห์การอ้างอิง