ScholarGate
Asistan

Test Koleksiyonları ve İlişkililik Yargıları

Bir test koleksiyonu, belge kümesi, sorgu kümesi ve insan ilişkili yargılarını bir araya getirerek, bilgi erişim sistemlerinin tekrarlanabilir bir şekilde puanlanmasını ve karşılaştırılmasını sağlamaktadır.

PaperMind ile konu bulYakındaMakale ve konu bul
Tools & resources
Slaytları indir
Learn & explore
VideoYakında

Tanım

Bir test koleksiyonu, bir belge külliyatı, bilgi ihtiyaçlarını tanımlayan bir sorgu veya konu ifadeleri kümesi ve her bir konuyla ilgili belgeleri belirten ilişkili yargılardan oluşan sabit bir veri kümesidir; bunların tümü, bilgi erişim etkinliğinin tekrarlanabilir ölçümünü sağlamaktadır.

Kapsam

Bu konu, Cranfield paradigmasını takip eden yeniden kullanılabilir bilgi erişim (IR) test koleksiyonlarının oluşturulmasını ve kullanımını kapsamaktadır: belge külliyatı (corpus), bilgi ihtiyaçlarını tanımlayan konu ifadeleri ve her bir konuyla ilgili belgeleri kaydeden ilişkili yargılar (qrels). Dereceli ve ikili ilişkili yargılar, yargı tutarlılığı, yeni sistemler için koleksiyonların yeniden kullanılabilirliği ve TREC gibi büyük ölçekli çabaların rolü ele alınmaktadır. Yargılardan hesaplanan metrikler ve bunları toplamak için kullanılan havuzlama (pooling) prosedürleri, bitişik konular olduğundan bu kapsamın dışında tutulmaktadır.

Temel sorular

  • Cranfield tarzı bir test koleksiyonunun üç bileşeni nelerdir?
  • Bilgi ihtiyaçları, sistemlere verilen kısa sorgulardan farklı olarak konular şeklinde nasıl ifade edilmektedir?
  • İlişkililik nasıl tanımlanır ve kaydedilir, dereceli ilişkili yargılar ne zaman kullanılmaktadır?
  • İnsan ilişkili yargıları ne kadar tutarlıdır ve tutarsızlık karşılaştırmaları etkilemekte midir?
  • Bir test koleksiyonunu, ona katkıda bulunmayan sistemler için yeniden kullanılabilir kılan nedir?

Anahtar kavramlar

  • belge külliyatı
  • konu / bilgi ihtiyacı ifadesi
  • ilişkili yargılar (qrels)
  • ikili ve dereceli ilişkili yargılar
  • değerlendirici mutabakatı
  • koleksiyonun yeniden kullanılabilirliği
  • TREC test koleksiyonları
  • değerlendirme için temel gerçeklik

Temel kuramlar

Cranfield paradigması
Belgeleri, sorguları ve ilişkili yargıları sabitlemek, herhangi bir sistemin sıralı çıktısının yargılara göre puanlanabileceği kontrollü bir laboratuvar ortamı oluşturarak, bilgi erişim deneylerini tekrarlanabilir ve karşılaştırılabilir kılmaktadır.
Yargıç anlaşmazlığına karşı karşılaştırmaların sağlamlığı
İnsan değerlendiriciler bireysel ilişkili yargı kararları konusunda anlaşmazlık yaşasalar da, çalışmalar bir koleksiyon üzerindeki sistemlerin göreceli sıralamasının değerlendiriciler arasında büyük ölçüde istikrarlı olduğunu göstermektedir; bu da test koleksiyonu karşılaştırmalarının geçerliliğini desteklemektedir.

Klinik önem

Paylaşılan test koleksiyonları, bilgi erişim araştırmalarının ortak bir değeridir; dünya genelindeki araştırmacıların sistemleri aynı görevler üzerinde karşılaştırmasına ve sonuçları tekrarlamasına olanak tanımaktadır. TREC, CLEF ve NTCIR gibi değerlendirme kampanyalarından elde edilen koleksiyonlar, onlarca yıllık ilerlemeyi şekillendirmiş ve yeni bilgi erişim yöntemleri için standart karşılaştırma noktaları olmaya devam etmektedir.

Tarihçe

Test koleksiyonu metodolojisi, 1960'larda Cleverdon'ın sabit sorgular ve yargılar kullanarak indeksleme yaklaşımlarını karşılaştırdığı Cranfield deneyleriyle ortaya çıkmıştır. 1992'de TREC'in başlatılması, bu paradigmayı büyük, gerçekçi koleksiyonlara ve birçok göreve ölçeklendirerek, modern bilgi erişim değerlendirmesini temel alan standartlaştırılmış, yeniden kullanılabilir koleksiyonlar üretmiştir.

Öne çıkan isimler

  • Cyril Cleverdon
  • Ellen M. Voorhees
  • Donna Harman

İlgili konular

Temel eserler

  • cleverdon1967
  • voorhees2005

Sıkça sorulan sorular

'Qrels' nedir?
Qrels (sorgu ilişkili yargıları), bir test koleksiyonundaki her konu için hangi belgelerin ilgili olarak ve hangi derecede yargılandığını belirten kayıtlardır. Değerlendirme araçları, bir sistemin sıralı çıktısını qrels ile karşılaştırarak etkinlik metriklerini hesaplamaktadır.
İnsan yargıçlar arasındaki anlaşmazlıklar test koleksiyonlarını geçersiz kılar mı?
Değerlendiriciler bireysel belgeler üzerinde anlaşmazlık yaşasa da, araştırmalar sistemlerin göreceli sıralamasının farklı değerlendiriciler arasında istikrarlı kaldığını defalarca göstermiştir. Bu nedenle, mutlak puanlar değişse de, hangi sistemin daha iyi olduğuna dair sonuçlar genellikle sağlamdır.

Bu kavram için yöntemler

İlgili kavramlar