Pencarian Web dan Analisis Tautan
Pencarian web dan analisis tautan membahas pengambilan informasi melalui World Wide Web, di mana struktur hyperlink memberikan bukti tambahan otoritas dan di mana pemeringkatan menggabungkan banyak fitur dalam skala besar.
Definition
Pencarian web dan analisis tautan adalah studi tentang pengambilan informasi melalui koleksi web yang terhubung secara hiper, menggabungkan relevansi tekstual dengan sinyal otoritas berbasis grafik yang berasal dari struktur tautan dan dengan pemeringkatan yang dipelajari mesin berdasarkan banyak fitur, pada skala dan di bawah kondisi antagonis dari web terbuka.
Scope
Area ini mencakup komponen-komponen spesifik untuk pengambilan informasi skala web: perayapan dan struktur tautan web, algoritma analisis tautan seperti PageRank dan HITS yang memanfaatkan hyperlink sebagai dukungan, metode pembelajaran untuk pemeringkatan yang menggabungkan banyak fitur pemeringkatan, dan desain alur kerja pemeringkatan pencarian web. Ini membahas bagaimana sifat web yang terhubung secara hiper, bersifat antagonis, dan sangat besar mengubah pengambilan informasi, berbeda dari model pengambilan inti yang menilai dokumen individual hanya berdasarkan bukti tekstual.
Sub-topics
Core questions
- Bagaimana web dirayapi dan grafik tautannya ditangkap?
- Bagaimana struktur hyperlink dapat menunjukkan kepentingan atau otoritas suatu halaman?
- Bagaimana PageRank dan HITS berbeda dalam memodelkan otoritas berbasis tautan?
- Bagaimana banyak sinyal pemeringkatan heterogen digabungkan menjadi satu urutan?
- Bagaimana pemeringkatan mengatasi spam dan manipulasi antagonis pada skala web?
Key concepts
- perayapan web
- grafik tautan web
- PageRank
- HITS (hub dan otoritas)
- teks jangkar
- pembelajaran untuk pemeringkatan
- fitur dan sinyal pemeringkatan
- spam web dan IR antagonis
Key theories
- Hyperlink sebagai dukungan
- Tautan dari satu halaman ke halaman lain dapat dibaca sebagai suara kepercayaan, sehingga grafik tautan membawa bukti tentang kepentingan dan otoritas halaman yang diabaikan oleh pencocokan teks murni.
- PageRank sebagai ukuran otoritas langkah acak
- PageRank menetapkan setiap halaman skor yang sama dengan probabilitas kunjungan jangka panjangnya di bawah peselancar acak yang mengikuti tautan dan sesekali berteleportasi, memberikan ukuran kepentingan yang tidak bergantung pada kueri yang berasal dari seluruh grafik tautan.
- Pemeringkatan yang dipelajari mesin berdasarkan banyak fitur
- Pemeringkatan web menggabungkan ratusan sinyal, termasuk relevansi tekstual, otoritas berbasis tautan, dan fitur perilaku, dengan mempelajari fungsi pemeringkatan dari data berlabel, menggantikan formula tunggal yang disetel secara manual.
Clinical relevance
Area ini adalah fondasi mesin pencari web komersial, yang mengatur akses ke web publik untuk miliaran pengguna. Analisis tautan membentuk kembali cara otoritas diukur secara daring, dan alur kerja pembelajaran untuk pemeringkatan tetap menjadi pusat bagaimana sistem pencarian dan rekomendasi menggabungkan sinyal ke dalam pemeringkatan.
History
IR web muncul pada pertengahan 1990-an ketika web melampaui navigasi berbasis direktori. HITS dari Kleinberg dan PageRank dari Brin dan Page, keduanya sekitar tahun 1998 dan 1999, menunjukkan bahwa struktur hyperlink dapat memberi peringkat halaman berdasarkan otoritas, dan PageRank mendasari kebangkitan mesin pencari skala besar. Sepanjang tahun 2000-an, metode pembelajaran untuk pemeringkatan menyatukan semakin banyak sinyal pemeringkatan.
Key figures
- Sergey Brin
- Larry Page
- Jon Kleinberg
- Prabhakar Raghavan
Related topics
Seminal works
- brin1998
- page1999
- kleinberg1999
Frequently asked questions
- Mengapa web membutuhkan metode pengambilan yang berbeda dari koleksi tertutup?
- Web sangat besar, terus berubah, terhubung secara hiper, dan bersifat antagonis, dengan halaman-halaman yang secara aktif mencoba untuk mendapatkan peringkat lebih tinggi. Kondisi ini menambahkan perayapan, sinyal otoritas berbasis tautan, ketahanan terhadap spam, dan pemeringkatan yang dipelajari skala besar di atas pencocokan tekstual yang digunakan dalam koleksi tertutup.
- Apakah analisis tautan masih penting mengingat pemeringkatan modern?
- Otoritas berbasis tautan tetap menjadi salah satu sinyal di antara ratusan sinyal dalam pemeringkatan modern, yang kini sangat bergantung pada model yang dipelajari serta fitur perilaku dan konten. Ide-ide gaya PageRank masih menginformasikan bagaimana kepentingan menyebar melalui grafik, termasuk dalam rekomendasi dan analisis kutipan.