مجموعههای آزمایشی و قضاوتهای مرتبط بودن
یک مجموعه آزمایشی شامل یک مجموعه سند، مجموعهای از پرسشها، و قضاوتهای مرتبط بودن انسانی است تا سیستمهای بازیابی بتوانند به صورت قابل بازتولید امتیازدهی و مقایسه شوند.
Definition
یک مجموعه آزمایشی یک مجموعه داده ثابت است که شامل یک پیکره از اسناد، مجموعهای از بیانیههای پرسش یا موضوعی که نیازهای اطلاعاتی را توصیف میکنند، و قضاوتهای مرتبط بودن که مشخص میکنند کدام اسناد به هر موضوع مرتبط هستند، و در مجموع امکان اندازهگیری قابل بازتولید اثربخشی بازیابی را فراهم میکند.
Scope
این موضوع به ساخت و استفاده از مجموعههای آزمایشی بازیابی اطلاعات (IR) قابل استفاده مجدد بر اساس الگوی کرانفیلد میپردازد: پیکره اسناد، بیانیههای موضوعی که نیازهای اطلاعاتی را تعریف میکنند، و قضاوتهای مرتبط بودن (qrels) که ثبت میکنند کدام اسناد به هر موضوع مرتبط هستند. این موضوع به مرتبط بودن درجهبندی شده در مقابل مرتبط بودن دودویی، ثبات قضاوت، قابلیت استفاده مجدد مجموعهها برای سیستمهای جدید، و نقش تلاشهای گسترده مانند TREC میپردازد. این موضوع شامل معیارهای محاسبه شده از قضاوتها و رویههای تجمیع (pooling) مورد استفاده برای جمعآوری آنها نمیشود، که موضوعات مجاور هستند.
Core questions
- سه مؤلفه یک مجموعه آزمایشی به سبک کرانفیلد کدامند؟
- نیازهای اطلاعاتی که به عنوان موضوع بیان میشوند، چگونه از پرسشهای کوتاهی که به سیستمها داده میشوند، متمایز هستند؟
- مرتبط بودن چگونه تعریف و ثبت میشود، و چه زمانی از مرتبط بودن درجهبندی شده استفاده میشود؟
- قضاوتهای مرتبط بودن انسانی چقدر سازگار هستند، و آیا ناسازگاری بر مقایسهها تأثیر میگذارد؟
- چه چیزی یک مجموعه آزمایشی را برای سیستمهایی که در ایجاد آن مشارکت نداشتهاند، قابل استفاده مجدد میکند؟
Key concepts
- پیکره سند
- بیانیه موضوع / نیاز اطلاعاتی
- قضاوتهای مرتبط بودن (qrels)
- مرتبط بودن دودویی در مقابل درجهبندی شده
- توافق ارزیاب
- قابلیت استفاده مجدد مجموعه
- مجموعههای آزمایشی TREC
- حقیقت مبنا برای ارزیابی
Key theories
- الگوی کرانفیلد
- ثابت کردن اسناد، پرسشها و قضاوتهای مرتبط بودن، یک محیط آزمایشگاهی کنترلشده ایجاد میکند که در آن خروجی رتبهبندی شده هر سیستمی میتواند در برابر قضاوتها امتیازدهی شود و آزمایشهای بازیابی را قابل بازتولید و مقایسه میکند.
- استحکام مقایسهها در برابر عدم توافق قضاوتکنندگان
- اگرچه ارزیابان انسانی در مورد تصمیمات مرتبط بودن فردی اختلاف نظر دارند، مطالعات نشان میدهند که رتبهبندی نسبی سیستمها در یک مجموعه تا حد زیادی در بین ارزیابان پایدار است و اعتبار مقایسههای مجموعه آزمایشی را تأیید میکند.
Clinical relevance
مجموعههای آزمایشی مشترک، ارز رایج تحقیقات بازیابی اطلاعات هستند که به محققان در سراسر جهان اجازه میدهند سیستمها را در وظایف یکسان مقایسه کرده و نتایج را بازتولید کنند. مجموعههای حاصل از کمپینهای ارزیابی مانند TREC، CLEF و NTCIR دههها پیشرفت را شکل دادهاند و معیارهای استاندارد برای روشهای بازیابی جدید باقی ماندهاند.
History
روششناسی مجموعه آزمایشی با آزمایشهای کرانفیلد Cleverdon در دهه 1960 آغاز شد، که رویکردهای نمایهسازی را با استفاده از پرسشها و قضاوتهای ثابت مقایسه کرد. راهاندازی TREC در سال 1992 این الگو را به مجموعههای بزرگ و واقعبینانه و وظایف متعدد گسترش داد و مجموعههای استاندارد شده و قابل استفاده مجددی را تولید کرد که ارزیابی مدرن بازیابی اطلاعات را پایه ریزی میکنند.
Key figures
- Cyril Cleverdon
- Ellen M. Voorhees
- Donna Harman
Related topics
Seminal works
- cleverdon1967
- voorhees2005
Frequently asked questions
- «qrels» چیست؟
- Qrels (قضاوتهای مرتبط بودن پرسش) سوابقی هستند که برای هر موضوع در یک مجموعه آزمایشی، مشخص میکنند کدام اسناد مرتبط تشخیص داده شدهاند و با چه درجهای. ابزارهای ارزیابی، خروجی رتبهبندی شده یک سیستم را با qrels مقایسه میکنند تا معیارهای اثربخشی را محاسبه کنند.
- آیا اختلافات بین قضاوتکنندگان انسانی، مجموعههای آزمایشی را بیاعتبار میکند؟
- ارزیابان در مورد اسناد فردی اختلاف نظر دارند، اما تحقیقات بارها نشان داده است که ترتیب نسبی سیستمها در بین ارزیابان مختلف پایدار باقی میماند. بنابراین، در حالی که نمرات مطلق تغییر میکنند، نتیجهگیریها در مورد اینکه کدام سیستم بهتر است، معمولاً قوی هستند.