ScholarGate
ผู้ช่วย

การค้นคืนแบบยืดหยุ่นและแบบไวลด์การ์ด

การค้นคืนแบบยืดหยุ่นช่วยให้ระบบค้นหาสามารถจับคู่คำค้นหาได้ แม้จะมีความแตกต่างในการสะกดคำ, การใช้ไวลด์การ์ด, และความแตกต่างทางสัทวิทยา เพื่อให้ผู้ใช้ยังคงพบเอกสารที่เกี่ยวข้องเมื่อคำค้นหาและข้อความไม่ตรงกันทุกประการ

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics
Tools & resources
ดาวน์โหลดสไลด์
Learn & explore
วิดีโอเร็ว ๆ นี้

Definition

การค้นคืนแบบยืดหยุ่นประกอบด้วยเทคนิคระดับพจนานุกรมที่จับคู่คำค้นหากับคำที่จัดทำดัชนีไว้ แม้ว่าข้อมูลที่ป้อนจะไม่สมบูรณ์ สะกดผิด หรือมีความแตกต่างทางสัทวิทยา ซึ่งรวมถึงการขยายไวลด์การ์ด, การแก้ไขการสะกดคำโดยใช้ระยะทางแก้ไข, และการเข้ารหัสทางสัทวิทยา

Scope

หัวข้อนี้ครอบคลุมเทคนิคที่ผ่อนคลายการจับคู่คำที่ตรงกันทุกประการในระดับพจนานุกรม: การประมวลผลคำค้นหาแบบไวลด์การ์ดโดยใช้ดัชนีแบบ permuterm และ k-gram, การแก้ไขการสะกดคำด้วยระยะทางแก้ไข (edit distance) และบริบท, และการจับคู่ทางสัทวิทยา เช่น Soundex โดยจะกล่าวถึงวิธีการเสริมพจนานุกรมคำศัพท์เพื่อรองรับการค้นหาโดยประมาณเหล่านี้ และวิธีการสร้างและจัดอันดับคำศัพท์ที่เป็นไปได้ ซึ่งแตกต่างจากการจับคู่เชิงความหมาย (semantic matching) ที่เน้นความหมายมากกว่ารูปแบบพื้นผิว

Core questions

  • คำค้นหาแบบไวลด์การ์ด เช่น รูปแบบคำนำหน้า, คำต่อท้าย, และคำแทรกกลาง ถูกประเมินเทียบกับพจนานุกรมอย่างไร?
  • ดัชนีแบบ permuterm และ k-gram สนับสนุนการค้นหาแบบไวลด์การ์ดอย่างไร?
  • จะพบคำที่สะกดถูกต้องที่ใกล้เคียงที่สุดสำหรับคำค้นหาที่สะกดผิดได้อย่างไร?
  • ระยะทางแก้ไข (Levenshtein) วัดความแตกต่างระหว่างสตริงสองสตริงได้อย่างไร?
  • การจับคู่ทางสัทวิทยา เช่น Soundex จัดกลุ่มคำที่ออกเสียงคล้ายกันได้อย่างไร?

Key concepts

  • คำค้นหาแบบไวลด์การ์ด
  • ดัชนีแบบ permuterm
  • ดัชนีแบบ k-gram
  • ระยะทางแก้ไข (Levenshtein)
  • การแก้ไขการสะกดคำ
  • การจับคู่ทางสัทวิทยา (Soundex)
  • การจับคู่สตริงโดยประมาณ
  • การสร้างคำศัพท์ที่เป็นไปได้

Key theories

การจัดทำดัชนีไวลด์การ์ดด้วยดัชนีแบบ permuterm และ k-gram
การหมุนคำเพื่อให้ไวลด์การ์ดอยู่ท้ายเสมอ (permuterm) หรือการจัดทำดัชนีคำตาม k-gram ของตัวอักษร ช่วยให้ระบบสามารถแปลงรูปแบบไวลด์การ์ดเป็นการค้นหาพจนานุกรมทั่วไปที่เรียกคืนคำศัพท์ที่เป็นไปได้
การแก้ไขการสะกดคำด้วยระยะทางแก้ไข
จำนวนการแทรก, การลบ, และการแทนที่อักขระเดี่ยวขั้นต่ำที่จำเป็นในการแปลงสตริงหนึ่งไปเป็นอีกสตริงหนึ่ง (ระยะทางแก้ไข) เป็นมาตรวัดที่เป็นหลักการสำหรับการเสนอทางเลือกที่สะกดถูกต้องสำหรับคำค้นหา ซึ่งมักจะใช้ร่วมกับความถี่ของคำและบริบท

Clinical relevance

การค้นคืนแบบยืดหยุ่นขับเคลื่อนความสามารถในการค้นหาในชีวิตประจำวัน: คำแนะนำการสะกดคำ 'คุณหมายถึง', การเติมข้อความอัตโนมัติและการค้นหาคำนำหน้า, และการจับคู่ชื่อและคำศัพท์ผลิตภัณฑ์ที่ยืดหยุ่น สิ่งนี้ช่วยปรับปรุงการเรียกคืนข้อมูลและประสบการณ์ผู้ใช้ได้อย่างมากเมื่อคำค้นหามีข้อผิดพลาดในการพิมพ์ หรือเมื่อผู้ใช้ไม่ทราบการสะกดคำที่ถูกต้อง

History

การจับคู่โดยประมาณและการแก้ไขการสะกดคำมีประวัติยาวนานในการคำนวณ โดย Soundex มีมาตั้งแต่การจัดทำดัชนีบันทึกในช่วงต้นศตวรรษที่ยี่สิบ การสำรวจของ Kukich ในปี 1992 ได้รวบรวมเทคนิคการแก้ไขการสะกดคำอัตโนมัติ และการสำรวจของ Navarro ในปี 2001 ได้จัดระบบการจับคู่สตริงโดยประมาณ วิธีการเหล่านี้กลายเป็นส่วนประกอบมาตรฐานของพจนานุกรมการค้นหา เนื่องจากการค้นหาบนเว็บทำให้การจัดการคำค้นหาที่ยืดหยุ่นเป็นสิ่งจำเป็น

Key figures

  • Karen Kukich
  • Gonzalo Navarro

Related topics

Seminal works

  • manning2008
  • kukich1992
  • navarro2001

Frequently asked questions

เครื่องมือค้นหาจัดการกับไวลด์การ์ดเช่น 'comput*' อย่างไร?
มันใช้โครงสร้างพจนานุกรมเสริม เช่น ดัชนีแบบ permuterm หรือ k-gram เพื่อค้นหาคำทั้งหมดที่ตรงกับรูปแบบ (computer, computing, computation, และอื่นๆ) จากนั้นประเมินคำค้นหาเดิมราวกับว่าคำเหล่านั้นถูกระบุไว้อย่างชัดเจน
ระยะทางแก้ไขคืออะไร และเหตุใดจึงใช้สำหรับการแก้ไขการสะกดคำ?
ระยะทางแก้ไขนับจำนวนการแทรก, การลบ, และการแทนที่อักขระเดี่ยวขั้นต่ำที่จำเป็นในการเปลี่ยนคำหนึ่งไปเป็นอีกคำหนึ่ง ระยะทางแก้ไขที่น้อยระหว่างคำค้นหาที่สะกดผิดกับคำในพจนานุกรมบ่งชี้ว่าคำในพจนานุกรมนั้นน่าจะเป็นการแก้ไขที่ตั้งใจไว้

Methods for this concept

Related concepts