ScholarGate
ผู้ช่วย

แบบจำลองการดึงข้อมูลเชิงความน่าจะเป็น

แบบจำลองการดึงข้อมูลเชิงความน่าจะเป็นจะจัดอันดับเอกสารตามความน่าจะเป็นโดยประมาณที่เอกสารนั้นเกี่ยวข้องกับคำค้นหา โดยอาศัยทฤษฎีความน่าจะเป็นในการถ่วงน้ำหนักคำศัพท์

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics
Tools & resources
ดาวน์โหลดสไลด์
Learn & explore
วิดีโอเร็ว ๆ นี้

Definition

แบบจำลองการดึงข้อมูลเชิงความน่าจะเป็นจะประมาณค่าความน่าจะเป็นที่เอกสารแต่ละฉบับมีความเกี่ยวข้องกับคำค้นหาที่กำหนด และจัดอันดับเอกสารตามความน่าจะเป็นนั้น โดยได้น้ำหนักคำศัพท์จากความน่าจะเป็นสัมพัทธ์ที่คำศัพท์ปรากฏในเอกสารที่เกี่ยวข้องเทียบกับเอกสารที่ไม่เกี่ยวข้อง

Scope

หัวข้อนี้ครอบคลุมแบบจำลองการดึงข้อมูลที่สร้างขึ้นบนทฤษฎีความน่าจะเป็น: หลักการจัดอันดับเชิงความน่าจะเป็น, แบบจำลองความเป็นอิสระแบบไบนารีและแผนการถ่วงน้ำหนักความเกี่ยวข้อง, และฟังก์ชันการจัดอันดับ BM25 พร้อมกับการอิ่มตัวของความถี่คำและการทำให้ความยาวเอกสารเป็นมาตรฐาน นอกจากนี้ยังกล่าวถึงวิธีการจำลองความเกี่ยวข้องเป็นเหตุการณ์เชิงความน่าจะเป็น, วิธีการประมาณค่าน้ำหนักคำจากข้อมูลความเกี่ยวข้อง, และเหตุผลที่การจัดอันดับที่ได้นั้นเหมาะสมที่สุดตามทฤษฎีภายใต้ข้อสมมติฐานที่ระบุไว้ ไม่รวมแบบจำลองภาษาเชิงกำเนิด ซึ่งจะกล่าวถึงแยกต่างหาก

Core questions

  • หลักการจัดอันดับเชิงความน่าจะเป็นยืนยันอะไรเกี่ยวกับการจัดอันดับที่เหมาะสมที่สุด?
  • น้ำหนักคำศัพท์ได้มาอย่างไรจากความน่าจะเป็นที่คำศัพท์ปรากฏในเอกสารที่เกี่ยวข้องเทียบกับเอกสารที่ไม่เกี่ยวข้อง?
  • แบบจำลองความเป็นอิสระแบบไบนารีตั้งสมมติฐานความเป็นอิสระอะไรบ้าง?
  • BM25 พิจารณาการอิ่มตัวของความถี่คำและความยาวเอกสารอย่างไร?
  • การป้อนกลับความเกี่ยวข้องสามารถปรับปรุงการประมาณค่าความน่าจะเป็นได้อย่างไร?

Key concepts

  • ความน่าจะเป็นของความเกี่ยวข้อง
  • หลักการจัดอันดับเชิงความน่าจะเป็น
  • แบบจำลองความเป็นอิสระแบบไบนารี
  • การถ่วงน้ำหนักความเกี่ยวข้อง
  • BM25 / Okapi BM25
  • การอิ่มตัวของความถี่คำ
  • การทำให้ความยาวเอกสารเป็นมาตรฐาน
  • การป้อนกลับความเกี่ยวข้อง

Key theories

หลักการจัดอันดับเชิงความน่าจะเป็น
การจัดอันดับเอกสารตามลำดับความน่าจะเป็นของความเกี่ยวข้องที่ลดลงจะให้ประสิทธิภาพโดยรวมที่ดีที่สุดสำหรับผู้ใช้ภายใต้ข้อสมมติฐานของการตัดสินความเกี่ยวข้องที่เป็นอิสระ ซึ่งให้เหตุผลทางทฤษฎีสำหรับการจัดอันดับเชิงความน่าจะเป็น
แบบจำลองความเป็นอิสระแบบไบนารี
การพิจารณาเอกสารเป็นเวกเตอร์การปรากฏของคำแบบไบนารี และการสมมติว่าคำศัพท์ปรากฏอย่างอิสระเมื่อพิจารณาจากความเกี่ยวข้อง แบบจำลองนี้จะหาน้ำหนักความเกี่ยวข้องสำหรับแต่ละคำจากอัตราส่วนการเกิดของคำนั้นในเอกสารที่เกี่ยวข้องเทียบกับเอกสารที่ไม่เกี่ยวข้อง
ฟังก์ชันการจัดอันดับ BM25
ฟังก์ชันการให้คะแนนเชิงปฏิบัติของกรอบงานความเกี่ยวข้องเชิงความน่าจะเป็นจะเพิ่มการอิ่มตัวของความถี่คำแบบไม่เชิงเส้นและการทำให้ความยาวเอกสารเป็นมาตรฐานในการถ่วงน้ำหนักความเกี่ยวข้อง ทำให้เกิดตัวจัดอันดับที่แข็งแกร่งและปรับแต่งได้ ซึ่งยังคงเป็นพื้นฐานชั้นนำ

Clinical relevance

BM25 เป็นหนึ่งในฟังก์ชันการจัดอันดับที่ถูกนำไปใช้งานอย่างแพร่หลายที่สุดในระบบค้นหาที่ใช้งานจริงและเครื่องมือค้นหาโอเพนซอร์ส และทำหน้าที่เป็นพื้นฐานที่แข็งแกร่งมาตรฐานที่ใช้เปรียบเทียบกับตัวจัดอันดับโครงข่ายประสาทเทียม การถ่วงน้ำหนักความเกี่ยวข้องเชิงความน่าจะเป็นยังเป็นพื้นฐานของคุณสมบัติการป้อนกลับความเกี่ยวข้องที่ปรับปรุงผลลัพธ์จากการตัดสินของผู้ใช้

History

IR เชิงความน่าจะเป็นได้รับการวางรากฐานที่มั่นคงโดยทฤษฎีการถ่วงน้ำหนักความเกี่ยวข้องของ Robertson และ Spärck Jones ในปี 1976 และตำราพื้นฐานของ van Rijsbergen ตลอดช่วงทศวรรษ 1980 และ 1990 โครงการ Okapi ที่ City University London ได้ปรับปรุงแนวคิดเหล่านี้ให้เป็นฟังก์ชัน BM25 ซึ่งพิสูจน์แล้วว่ามีประสิทธิภาพเหนือกว่าในการประเมิน TREC การสำรวจกรอบงานความเกี่ยวข้องเชิงความน่าจะเป็นในปี 2009 ได้รวบรวมตระกูลนี้เข้าด้วยกัน

Key figures

  • Stephen E. Robertson
  • Karen Spärck Jones
  • C. J. van Rijsbergen
  • Hugo Zaragoza

Related topics

Seminal works

  • robertson1976
  • robertson2009
  • vanrijsbergen1979

Frequently asked questions

หลักการจัดอันดับเชิงความน่าจะเป็นคืออะไร?
หลักการนี้ระบุว่า หากระบบการดึงข้อมูลจัดอันดับเอกสารตามลำดับความน่าจะเป็นของความเกี่ยวข้องกับคำค้นหาที่ลดลง ภายใต้ข้อสมมติฐานว่าการตัดสินความเกี่ยวข้องเป็นอิสระ ประสิทธิภาพโดยรวมสำหรับผู้ใช้จะถูกทำให้สูงสุด นี่คือพื้นฐานทางทฤษฎีสำหรับการจัดอันดับเชิงความน่าจะเป็น
เหตุใด BM25 จึงมีประสิทธิภาพมากแม้จะมีข้อสมมติฐานที่เรียบง่าย?
BM25 สามารถจับผลกระทบที่สำคัญเชิงประจักษ์สองประการที่น้ำหนักที่เรียบง่ายกว่าพลาดไป: ผลตอบแทนที่ลดลงของการเกิดคำซ้ำ (การอิ่มตัว) และความจำเป็นในการทำให้ความยาวเอกสารเป็นมาตรฐาน การแก้ไขเหล่านี้เมื่อรวมกับน้ำหนักคำที่คล้ายกับ idf ทำให้เป็นตัวจัดอันดับที่แข็งแกร่งอย่างน่าทึ่ง

Methods for this concept

Related concepts