Bilgi Erişiminde Değerlendirme
Bilgi erişiminde değerlendirme, bir erişim sisteminin bilgi ihtiyaçlarını ne kadar iyi karşıladığını test koleksiyonları, alaka yargıları ve etkinlik metrikleri kullanarak ölçmeye yönelik bir metodolojidir.
Tanım
Bilgi erişimi değerlendirmesi, belirtilen bilgi ihtiyaçları için ilgili sonuçları döndürmede bir sistemin etkinliğini nicel olarak belirlemek için kullanılan deneysel yöntemler ve metrikler bütünüdür; çevrimdışı test koleksiyonu deneylerini ve çevrimiçi kullanıcı tabanlı deneyleri kapsamaktadır.
Kapsam
Bu alan, erişim kalitesinin nasıl ölçüldüğünü kapsamaktadır: belgeler, sorgular ve alaka yargılarından oluşan Cranfield test koleksiyonu paradigması; kesinlik (precision), geri çağırma (recall), ortalama kesinlik (mean average precision) ve normalize edilmiş iskonto edilmiş kümülatif kazanç (normalized discounted cumulative gain) gibi etkinlik metrikleri; büyük ölçekte yargı toplamak için havuzlama (pooling) ve değerlendirme yöntemleri; ve A/B testi ile iç içe geçirme (interleaving) gibi çalışmalar ve kontrollü deneyler aracılığıyla kullanıcı merkezli ve çevrimiçi değerlendirme. Ölçülen modellerden ve sistemlerden ayrı olarak, etkinliği ölçme bilimi ele alınmaktadır.
Alt konular
Temel sorular
- Sıralı bir listenin kalitesi nesnel olarak nasıl nicelendirilebilir?
- Yeniden kullanılabilir bir test koleksiyonu neyi oluşturur ve alaka nasıl yargılanır?
- Hangi metrikler, kullanıcı tarafından algılanan sıralama kalitesini yakalar?
- Büyük koleksiyonlar için alaka yargıları uygun maliyetle nasıl toplanabilir?
- Çevrimiçi deneyler gerçek kullanıcı memnuniyetini nasıl ölçer?
Anahtar kavramlar
- test koleksiyonu
- alaka yargıları (qrels)
- kesinlik (precision) ve geri çağırma (recall)
- ortalama kesinlik (MAP)
- normalize edilmiş iskonto edilmiş kümülatif kazanç (nDCG)
- havuzlama (pooling)
- iç içe geçirme (interleaving) ve A/B testi
- sonuçların istatistiksel anlamlılığı
Temel kuramlar
- Cranfield test-collection paradigm
- Erişim sistemleri, bir belge koleksiyonu, bir sorgu kümesi ve insan alaka yargıları sabitlenerek, ardından her sistemin çıktısı bu yargılara göre puanlanarak tekrarlanabilir bir şekilde karşılaştırılabilir; bu da kontrollü, tekrarlanabilir deneylere olanak tanır.
- Effectiveness as a measurable construct
- Sıralı çıktı üzerinde metrikler tanımlamak, küme tabanlı kesinlik ve geri çağırmadan ortalama kesinlik ve iskonto edilmiş kümülatif kazanç gibi sıralamaya duyarlı ölçümlere kadar, arama kalitesinin belirsiz kavramını sorgular arasında ortalaması alınabilen ve istatistiksel olarak karşılaştırılabilen niceliklere dönüştürmektedir.
- Offline and online evaluation complementarity
- Test koleksiyonu deneyleri tekrarlanabilirlik ve kontrol sunar ancak yargılanmış alakaya dayanır; oysa A/B testleri ve iç içe geçirme gibi çevrimiçi deneyler gerçek kullanıcı davranışını ölçer ve ikisi birlikte sistem kalitesinin daha eksiksiz bir resmini sunar.
Klinik önem
Titiz değerlendirme, alanın ilerlemeyi ölçmesini ve sistemleri adil bir şekilde karşılaştırmasını sağlamaktadır; TREC gibi paylaşılan test koleksiyonları ve değerlendirme kampanyaları onlarca yıllık ilerlemeyi tetiklemiştir. A/B testi ve iç içe geçirme gibi çevrimiçi değerlendirme yöntemleri, üretim arama ve öneri sistemlerini iyileştirmek için temel araçlardır.
Tarihçe
Sistematik bilgi erişimi değerlendirmesi, 1960'larda Cleverdon'un test koleksiyonu paradigmasını oluşturan Cranfield deneyleriyle başlamıştır. 1992 yılında NIST tarafından başlatılan Metin Erişim Konferansı (TREC), bu yaklaşımı büyük koleksiyonlara ve birçok göreve ölçeklendirerek metrikleri ve havuzlamayı standartlaştırmıştır. Kontrollü deneyler aracılığıyla çevrimiçi değerlendirme, web ölçekli etkileşimli sistemlerle birlikte büyümüştür.
Öne çıkan isimler
- Cyril Cleverdon
- Ellen M. Voorhees
- Karen Spärck Jones
- Mark Sanderson
İlgili konular
Temel eserler
- cleverdon1967
- voorhees2005
- sanderson2010
Sıkça sorulan sorular
- Test koleksiyonları bilgi erişimi araştırmaları için neden bu kadar merkezi bir öneme sahiptir?
- Belgeler, sorgular ve alaka yargılarından oluşan bir test koleksiyonu, farklı sistemlerin tamamen aynı görev üzerinde puanlanmasına olanak tanıyarak karşılaştırmaları tekrarlanabilir ve adil hale getirmektedir. Yeniden kullanılabilir koleksiyonlar ayrıca yeni sistemlerin her seferinde yeni yargılar toplamadan değerlendirilmesine imkan vermektedir.
- Test koleksiyonları mevcutken neden çevrimiçi değerlendirme kullanılmaktadır?
- Test koleksiyonları sabit yargılara karşı etkinliği ölçer ancak gerçek kullanıcı memnuniyetini, bağlamını veya davranışını tam olarak yakalayamaz. A/B testleri ve iç içe geçirme gibi çevrimiçi deneyler, gerçek kullanıcıların nasıl tepki verdiğini gözlemleyerek çevrimdışı metrikleri davranışsal kanıtlarla tamamlamaktadır.