Truy xuất Khoan dung và Ký tự đại diện
Truy xuất khoan dung cho phép hệ thống tìm kiếm khớp các truy vấn bất chấp sự khác biệt về chính tả, ký tự đại diện và khác biệt ngữ âm, để người dùng vẫn tìm thấy các tài liệu liên quan khi truy vấn và văn bản không khớp chính xác.
Definition
Truy xuất khoan dung bao gồm các kỹ thuật cấp độ từ điển khớp các thuật ngữ truy vấn với các thuật ngữ được lập chỉ mục bất chấp đầu vào không đầy đủ, sai chính tả hoặc khác biệt ngữ âm, bao gồm mở rộng ký tự đại diện, sửa lỗi chính tả dựa trên khoảng cách chỉnh sửa và mã hóa ngữ âm.
Scope
Chủ đề này bao gồm các kỹ thuật nới lỏng việc khớp thuật ngữ chính xác ở cấp độ từ điển: xử lý truy vấn ký tự đại diện bằng cách sử dụng chỉ mục hoán vị (permuterm) và k-gram, sửa lỗi chính tả bằng khoảng cách chỉnh sửa (edit distance) và ngữ cảnh, và khớp ngữ âm như Soundex. Nó đề cập đến cách từ điển thuật ngữ được tăng cường để hỗ trợ các tra cứu gần đúng này và cách các thuật ngữ ứng cử viên được tạo và xếp hạng, khác biệt với khớp ngữ nghĩa, vốn giải quyết ý nghĩa hơn là hình thức bề mặt.
Core questions
- Các truy vấn ký tự đại diện như mẫu tiền tố, hậu tố và trung tố được đánh giá như thế nào so với từ điển?
- Chỉ mục hoán vị (permuterm) và k-gram hỗ trợ tra cứu ký tự đại diện như thế nào?
- Làm thế nào để tìm thấy thuật ngữ được viết đúng chính tả gần nhất cho một thuật ngữ truy vấn bị sai chính tả?
- Khoảng cách chỉnh sửa (Levenshtein) định lượng sự khác biệt giữa hai chuỗi như thế nào?
- Khớp ngữ âm như Soundex nhóm các thuật ngữ có âm thanh tương tự nhau như thế nào?
Key concepts
- truy vấn ký tự đại diện
- chỉ mục hoán vị (permuterm index)
- chỉ mục k-gram
- khoảng cách chỉnh sửa (Levenshtein)
- sửa lỗi chính tả
- khớp ngữ âm (Soundex)
- khớp chuỗi gần đúng
- tạo thuật ngữ ứng cử viên
Key theories
- Lập chỉ mục ký tự đại diện với chỉ mục hoán vị (permuterm) và k-gram
- Xoay các thuật ngữ để ký tự đại diện luôn nằm ở cuối (permuterm) hoặc lập chỉ mục các thuật ngữ theo k-gram ký tự của chúng cho phép hệ thống chuyển đổi một mẫu ký tự đại diện thành các tra cứu từ điển thông thường để truy xuất các thuật ngữ ứng cử viên.
- Sửa lỗi chính tả bằng khoảng cách chỉnh sửa
- Số lượng tối thiểu các thao tác chèn, xóa và thay thế một ký tự cần thiết để biến đổi một chuỗi thành chuỗi khác (khoảng cách chỉnh sửa) cung cấp một thước đo có nguyên tắc để đề xuất các lựa chọn thay thế được viết đúng chính tả cho một thuật ngữ truy vấn, thường được kết hợp với tần suất thuật ngữ và ngữ cảnh.
Clinical relevance
Truy xuất khoan dung cung cấp các khả năng tìm kiếm hàng ngày: gợi ý chính tả 'bạn có muốn nói', tự động hoàn thành và tìm kiếm tiền tố, và khớp linh hoạt các tên và thuật ngữ sản phẩm. Nó cải thiện đáng kể khả năng thu hồi và trải nghiệm người dùng khi các truy vấn chứa lỗi đánh máy hoặc khi người dùng không biết chính xác cách viết.
History
Khớp gần đúng và sửa lỗi chính tả có lịch sử lâu đời trong điện toán, với Soundex có từ những năm đầu thế kỷ 20 trong việc lập chỉ mục hồ sơ. Khảo sát năm 1992 của Kukich đã củng cố các kỹ thuật sửa lỗi chính tả tự động, và khảo sát năm 2001 của Navarro đã hệ thống hóa việc khớp chuỗi gần đúng. Các phương pháp này đã trở thành các thành phần tiêu chuẩn của từ điển tìm kiếm khi tìm kiếm trên web làm cho việc xử lý truy vấn linh hoạt trở nên thiết yếu.
Key figures
- Karen Kukich
- Gonzalo Navarro
Related topics
Seminal works
- manning2008
- kukich1992
- navarro2001
Frequently asked questions
- Một công cụ tìm kiếm xử lý ký tự đại diện như 'comput*' như thế nào?
- Nó sử dụng một cấu trúc từ điển phụ trợ, chẳng hạn như chỉ mục hoán vị (permuterm) hoặc k-gram, để tìm tất cả các thuật ngữ khớp với mẫu (computer, computing, computation, v.v.), sau đó đánh giá truy vấn gốc như thể các thuật ngữ đó đã được liệt kê rõ ràng.
- Khoảng cách chỉnh sửa là gì và tại sao nó được sử dụng để sửa lỗi chính tả?
- Khoảng cách chỉnh sửa đếm số lần chèn, xóa và thay thế một ký tự tối thiểu cần thiết để biến một từ thành từ khác. Khoảng cách chỉnh sửa nhỏ giữa một thuật ngữ truy vấn bị sai chính tả và một thuật ngữ từ điển cho thấy thuật ngữ từ điển là một sửa chữa có khả năng được dự định.