Qrels (قضاوتهای مرتبط بودن پرسش) سوابقی هستند که برای هر موضوع در یک مجموعه آزمایشی، مشخص میکنند کدام اسناد مرتبط تشخیص داده شدهاند و با چه درجهای. ابزارهای ارزیابی، خروجی رتبهبندی شده یک سیستم را با qrels مقایسه میکنند تا معیارهای اثربخشی را محاسبه کنند.

آیا اختلافات بین قضاوتکنندگان انسانی، مجموعههای آزمایشی را بیاعتبار میکند؟

ارزیابان در مورد اسناد فردی اختلاف نظر دارند، اما تحقیقات بارها نشان داده است که ترتیب نسبی سیستمها در بین ارزیابان مختلف پایدار باقی میماند. بنابراین، در حالی که نمرات مطلق تغییر میکنند، نتیجهگیریها در مورد اینکه کدام سیستم بهتر است، معمولاً قوی هستند.

مجموعه‌های آزمایشی و قضاوت‌های مرتبط بودن

یک مجموعه آزمایشی شامل یک مجموعه سند، مجموعه‌ای از پرسش‌ها، و قضاوت‌های مرتبط بودن انسانی است تا سیستم‌های بازیابی بتوانند به صورت قابل بازتولید امتیازدهی و مقایسه شوند.

یافتن موضوع با PaperMindبه‌زودیFind papers & topics

Tools & resources

دریافت اسلایدها

Learn & explore

ویدیوبه‌زودی

Definition

یک مجموعه آزمایشی یک مجموعه داده ثابت است که شامل یک پیکره از اسناد، مجموعه‌ای از بیانیه‌های پرسش یا موضوعی که نیازهای اطلاعاتی را توصیف می‌کنند، و قضاوت‌های مرتبط بودن که مشخص می‌کنند کدام اسناد به هر موضوع مرتبط هستند، و در مجموع امکان اندازه‌گیری قابل بازتولید اثربخشی بازیابی را فراهم می‌کند.

Scope

این موضوع به ساخت و استفاده از مجموعه‌های آزمایشی بازیابی اطلاعات (IR) قابل استفاده مجدد بر اساس الگوی کرانفیلد می‌پردازد: پیکره اسناد، بیانیه‌های موضوعی که نیازهای اطلاعاتی را تعریف می‌کنند، و قضاوت‌های مرتبط بودن (qrels) که ثبت می‌کنند کدام اسناد به هر موضوع مرتبط هستند. این موضوع به مرتبط بودن درجه‌بندی شده در مقابل مرتبط بودن دودویی، ثبات قضاوت، قابلیت استفاده مجدد مجموعه‌ها برای سیستم‌های جدید، و نقش تلاش‌های گسترده مانند TREC می‌پردازد. این موضوع شامل معیارهای محاسبه شده از قضاوت‌ها و رویه‌های تجمیع (pooling) مورد استفاده برای جمع‌آوری آن‌ها نمی‌شود، که موضوعات مجاور هستند.

Core questions

سه مؤلفه یک مجموعه آزمایشی به سبک کرانفیلد کدامند؟
نیازهای اطلاعاتی که به عنوان موضوع بیان می‌شوند، چگونه از پرسش‌های کوتاهی که به سیستم‌ها داده می‌شوند، متمایز هستند؟
مرتبط بودن چگونه تعریف و ثبت می‌شود، و چه زمانی از مرتبط بودن درجه‌بندی شده استفاده می‌شود؟
قضاوت‌های مرتبط بودن انسانی چقدر سازگار هستند، و آیا ناسازگاری بر مقایسه‌ها تأثیر می‌گذارد؟
چه چیزی یک مجموعه آزمایشی را برای سیستم‌هایی که در ایجاد آن مشارکت نداشته‌اند، قابل استفاده مجدد می‌کند؟

Key concepts

پیکره سند
بیانیه موضوع / نیاز اطلاعاتی
قضاوت‌های مرتبط بودن (qrels)
مرتبط بودن دودویی در مقابل درجه‌بندی شده
توافق ارزیاب
قابلیت استفاده مجدد مجموعه
مجموعه‌های آزمایشی TREC
حقیقت مبنا برای ارزیابی

Key theories

الگوی کرانفیلد: ثابت کردن اسناد، پرسش‌ها و قضاوت‌های مرتبط بودن، یک محیط آزمایشگاهی کنترل‌شده ایجاد می‌کند که در آن خروجی رتبه‌بندی شده هر سیستمی می‌تواند در برابر قضاوت‌ها امتیازدهی شود و آزمایش‌های بازیابی را قابل بازتولید و مقایسه می‌کند.
استحکام مقایسه‌ها در برابر عدم توافق قضاوت‌کنندگان: اگرچه ارزیابان انسانی در مورد تصمیمات مرتبط بودن فردی اختلاف نظر دارند، مطالعات نشان می‌دهند که رتبه‌بندی نسبی سیستم‌ها در یک مجموعه تا حد زیادی در بین ارزیابان پایدار است و اعتبار مقایسه‌های مجموعه آزمایشی را تأیید می‌کند.

Clinical relevance

مجموعه‌های آزمایشی مشترک، ارز رایج تحقیقات بازیابی اطلاعات هستند که به محققان در سراسر جهان اجازه می‌دهند سیستم‌ها را در وظایف یکسان مقایسه کرده و نتایج را بازتولید کنند. مجموعه‌های حاصل از کمپین‌های ارزیابی مانند TREC، CLEF و NTCIR دهه‌ها پیشرفت را شکل داده‌اند و معیارهای استاندارد برای روش‌های بازیابی جدید باقی مانده‌اند.

History

روش‌شناسی مجموعه آزمایشی با آزمایش‌های کرانفیلد Cleverdon در دهه 1960 آغاز شد، که رویکردهای نمایه‌سازی را با استفاده از پرسش‌ها و قضاوت‌های ثابت مقایسه کرد. راه‌اندازی TREC در سال 1992 این الگو را به مجموعه‌های بزرگ و واقع‌بینانه و وظایف متعدد گسترش داد و مجموعه‌های استاندارد شده و قابل استفاده مجددی را تولید کرد که ارزیابی مدرن بازیابی اطلاعات را پایه ریزی می‌کنند.

Key figures

Cyril Cleverdon
Ellen M. Voorhees
Donna Harman

Seminal works

cleverdon1967
voorhees2005

Frequently asked questions

«qrels» چیست؟: Qrels (قضاوت‌های مرتبط بودن پرسش) سوابقی هستند که برای هر موضوع در یک مجموعه آزمایشی، مشخص می‌کنند کدام اسناد مرتبط تشخیص داده شده‌اند و با چه درجه‌ای. ابزارهای ارزیابی، خروجی رتبه‌بندی شده یک سیستم را با qrels مقایسه می‌کنند تا معیارهای اثربخشی را محاسبه کنند.
آیا اختلافات بین قضاوت‌کنندگان انسانی، مجموعه‌های آزمایشی را بی‌اعتبار می‌کند؟: ارزیابان در مورد اسناد فردی اختلاف نظر دارند، اما تحقیقات بارها نشان داده است که ترتیب نسبی سیستم‌ها در بین ارزیابان مختلف پایدار باقی می‌ماند. بنابراین، در حالی که نمرات مطلق تغییر می‌کنند، نتیجه‌گیری‌ها در مورد اینکه کدام سیستم بهتر است، معمولاً قوی هستند.