ScholarGate
Asisten

Model Pengambilan Informasi

Model pengambilan informasi adalah kerangka kerja formal yang mendefinisikan apa artinya sebuah dokumen cocok dengan sebuah kueri dan bagaimana dokumen dinilai serta diberi peringkat sebagai respons terhadap kebutuhan informasi.

Temukan Topik dengan PaperMindSegeraFind papers & topics
Tools & resources
Unduh salindia
Learn & explore
VideoSegera

Definition

Model pengambilan informasi adalah spesifikasi yang tepat dari representasi dokumen dan kueri bersama dengan fungsi peringkat atau pencocokan yang, berdasarkan kueri, menetapkan skor kepada setiap dokumen yang mencerminkan relevansi estimasinya terhadap kebutuhan informasi yang mendasarinya.

Scope

Area ini mencakup model matematika utama yang digunakan untuk mencocokkan kueri dengan dokumen dan untuk memberi peringkat hasil: pengambilan Boolean dan Boolean diperluas berbasis teori himpunan, model ruang vektor aljabar dengan pembobotan istilah seperti tf-idf, model probabilistik termasuk model independensi biner dan BM25, serta model bahasa statistik untuk pengambilan informasi. Ini membahas bagaimana relevansi diformalkan, bagaimana bobot istilah ditetapkan, dan bagaimana skor kesamaan atau probabilitas menginduksi peringkat. Ini tidak termasuk struktur data yang membuat pengambilan informasi efisien (dibahas dalam pengindeksan dan pemrosesan kueri) dan pengukuran empiris seberapa baik kinerja suatu model (dibahas dalam evaluasi).

Sub-topics

Core questions

  • Representasi formal dokumen dan kueri apa yang diasumsikan oleh suatu model?
  • Bagaimana suatu model menerjemahkan representasi menjadi skor relevansi atau keputusan pencocokan?
  • Bagaimana istilah individual diberi bobot untuk mencerminkan kepentingannya dalam sebuah dokumen dan di seluruh koleksi?
  • Bagaimana suatu model memperhitungkan ketidakpastian yang melekat dalam relevansi?
  • Asumsi apa (seperti independensi istilah) yang dibuat oleh suatu model, dan kapan asumsi tersebut tidak berlaku?

Key concepts

  • relevansi
  • pembobotan istilah dan tf-idf
  • pengambilan Boolean
  • ruang vektor dan kesamaan kosinus
  • prinsip peringkat probabilitas
  • model independensi biner dan BM25
  • kemungkinan kueri dan penghalusan (smoothing)
  • asumsi independensi istilah
  • fungsi peringkat

Key theories

Model ruang vektor
Dokumen dan kueri direpresentasikan sebagai vektor dalam ruang istilah berdimensi tinggi, biasanya dengan bobot tf-idf, dan relevansi diperkirakan berdasarkan kesamaan geometris seperti kosinus sudut antara vektor kueri dan dokumen.
Prinsip peringkat probabilitas dan pengambilan probabilistik
Peringkat dokumen berdasarkan probabilitas relevansi estimasinya terhadap suatu kueri mengoptimalkan efektivitas pengambilan informasi di bawah asumsi yang dinyatakan; model independensi biner dan turunannya yang praktis, BM25, mengoperasionalkan ini dengan pembobotan istilah yang berasal dari probabilitas relevansi.
Pendekatan pemodelan bahasa untuk pengambilan informasi
Setiap dokumen diperlakukan sebagai sampel dari model bahasa generatif, dan dokumen diberi peringkat berdasarkan probabilitas bahwa modelnya akan menghasilkan kueri, dengan penghalusan (smoothing) digunakan untuk menangani istilah kueri yang tidak terlihat.

Clinical relevance

Model pengambilan informasi adalah inti penilaian dari hampir setiap sistem pencarian, mulai dari katalog perpustakaan dan pencarian perusahaan hingga mesin pencari web dan tahap peringkat kandidat dalam penjawaban pertanyaan serta generasi yang diperkaya pengambilan informasi. tf-idf dan BM25 khususnya tetap menjadi dasar yang kuat dan banyak digunakan.

History

Model ruang vektor muncul dari proyek SMART Salton pada tahun 1960-an dan 1970-an, memberikan dasar aljabar untuk pengambilan informasi. Secara paralel, Robertson dan Spärck Jones mengembangkan teori probabilistik pembobotan relevansi pada tahun 1970-an, yang kemudian berkembang menjadi fungsi peringkat BM25. Pendekatan pemodelan bahasa, yang diperkenalkan oleh Ponte dan Croft pada tahun 1998, membingkai ulang pengambilan informasi sebagai generasi statistik dan memperluas perangkat pemodelan.

Key figures

  • Gerard Salton
  • Stephen E. Robertson
  • Karen Spärck Jones
  • W. Bruce Croft
  • C. J. van Rijsbergen

Related topics

Seminal works

  • salton1975
  • robertson1976
  • ponte1998
  • manning2008

Frequently asked questions

Apa perbedaan antara model pengambilan informasi dan fungsi peringkat?
Model pengambilan informasi adalah kerangka kerja keseluruhan yang menentukan bagaimana dokumen dan kueri direpresentasikan dan bagaimana relevansi dipahami; fungsi peringkat adalah formula penilaian konkret yang dihasilkan model, seperti kesamaan kosinus dalam model ruang vektor atau formula BM25 dalam keluarga probabilistik.
Mengapa BM25 masih digunakan padahal model saraf (neural models) sudah ada?
BM25 cepat, tidak memerlukan data pelatihan, memiliki sangat sedikit parameter, dan tetap menjadi dasar yang kuat yang sering menjadi tolok ukur dan dikombinasikan dengan perankat saraf. Banyak sistem modern menggunakan BM25 untuk mengambil set kandidat awal yang kemudian diberi peringkat ulang oleh model yang lebih mahal.

Methods for this concept

Related concepts