Hoşgörülü ve Joker Karakterli Erişim
Hoşgörülü erişim, bir arama sisteminin yazım farklılıklarına, joker karakterlere ve fonetik farklılıklara rağmen sorguları eşleştirmesine olanak tanır; böylece sorgu ve metin tam olarak eşleşmediğinde bile kullanıcılar ilgili belgeleri bulabilmektedir.
Tanım
Hoşgörülü erişim, eksik, yanlış yazılmış veya fonetik olarak değişen girdiye rağmen sorgu terimlerini indekslenmiş terimlerle eşleştiren sözlük düzeyindeki teknikleri içermektedir; bunlar arasında joker karakter genişletme, düzenleme mesafesi (edit distance) tabanlı yazım düzeltme ve fonetik kodlama bulunmaktadır.
Kapsam
Bu konu, sözlük düzeyinde tam terim eşleştirmeyi gevşeten teknikleri kapsamaktadır: permuterm ve k-gram indeksleri kullanılarak joker karakter sorgu işleme, düzenleme mesafesi (edit distance) ve bağlama göre yazım düzeltme ve Soundex gibi fonetik eşleştirme. Terim sözlüğünün bu yaklaşık aramaları desteklemek için nasıl zenginleştirildiği ve aday terimlerin nasıl oluşturulup sıralandığı, yüzey biçiminden ziyade anlamı ele alan anlamsal eşleştirmeden ayrı olarak ele alınmaktadır.
Temel sorular
- Önek, sonek ve içek (infix) desenleri gibi joker karakter sorguları sözlüğe karşı nasıl değerlendirilmektedir?
- Permuterm ve k-gram indeksleri joker karakter aramalarını nasıl desteklemektedir?
- Yanlış yazılmış bir sorgu terimi için en yakın doğru yazılmış terim nasıl bulunmaktadır?
- Düzenleme (Levenshtein) mesafesi iki dize arasındaki farkı nasıl nicelleştirmektedir?
- Soundex gibi fonetik eşleştirme, benzer sesli terimleri nasıl gruplandırmaktadır?
Anahtar kavramlar
- joker karakter sorgusu
- permuterm indeksi
- k-gram indeksi
- düzenleme (Levenshtein) mesafesi
- yazım düzeltme
- fonetik eşleştirme (Soundex)
- yaklaşık dize eşleştirme
- aday terim oluşturma
Temel kuramlar
- Permuterm ve k-gram indeksleri ile joker karakter indeksleme
- Terimleri, bir joker karakterin her zaman sonda kalacağı şekilde döndürmek (permuterm) veya terimleri karakter k-gram'larına göre indekslemek, sistemin bir joker karakter desenini aday terimleri geri getiren sıradan sözlük aramalarına dönüştürmesine olanak tanımaktadır.
- Düzenleme mesafesi (edit distance) ile yazım düzeltme
- Bir dizeyi diğerine dönüştürmek için gereken minimum tek karakterli ekleme, silme ve değiştirme sayısı (düzenleme mesafesi), bir sorgu terimine doğru yazılmış alternatifler önermek için ilkeli bir ölçü sağlamaktadır ve genellikle terim sıklığı ve bağlam ile birleştirilmektedir.
Klinik önem
Hoşgörülü erişim, günlük arama olanaklarını güçlendirmektedir: 'bunu mu demek istediniz' yazım önerileri, otomatik tamamlama ve önek araması ile isimlerin ve ürün terimlerinin hoşgörülü eşleştirilmesi. Sorgular yazım hataları içerdiğinde veya kullanıcılar tam yazımları bilmediğinde geri çağırmayı (recall) ve kullanıcı deneyimini önemli ölçüde iyileştirmektedir.
Tarihçe
Yaklaşık eşleştirme ve yazım düzeltme, bilişimde uzun bir geçmişe sahiptir; Soundex, yirminci yüzyılın başlarındaki kayıt indekslemesine dayanmaktadır. Kukich'in 1992 tarihli araştırması, otomatik yazım düzeltme tekniklerini bir araya getirmiş, Navarro'nun 2001 tarihli araştırması ise yaklaşık dize eşleştirmeyi sistemleştirmiştir. Bu yöntemler, web aramasının hoşgörülü sorgu işlemeyi temel hale getirmesiyle arama sözlüklerinin standart bileşenleri haline gelmiştir.
Öne çıkan isimler
- Karen Kukich
- Gonzalo Navarro
İlgili konular
Temel eserler
- manning2008
- kukich1992
- navarro2001
Sıkça sorulan sorular
- Bir arama motoru 'comput*' gibi bir joker karakteri nasıl işlemektedir?
- Yardımcı bir sözlük yapısı, örneğin bir permuterm veya k-gram indeksi kullanarak desene uyan tüm terimleri (computer, computing, computation vb.) bulur, ardından orijinal sorguyu bu terimler açıkça listelenmiş gibi değerlendirmektedir.
- Düzenleme mesafesi (edit distance) nedir ve neden yazım düzeltme için kullanılmaktadır?
- Düzenleme mesafesi, bir kelimeyi diğerine dönüştürmek için gereken minimum tek karakterli ekleme, silme ve değiştirme sayısını saymaktadır. Yanlış yazılmış bir sorgu terimi ile bir sözlük terimi arasındaki küçük bir düzenleme mesafesi, sözlük teriminin muhtemel bir düzeltme olduğunu düşündürmektedir.