ادغام و ارزیابی ارتباط
ادغام روشی است که ارزیابی در مقیاس بزرگ بازیابی اطلاعات (IR) را با قضاوت تنها اسنادی که سیستمهای شرکتکننده رتبه بالایی به آنها میدهند، به جای هر سند در مجموعه، امکانپذیر میسازد.
Definition
ادغام یک استراتژی نمونهبرداری برای ارزیابی ارتباط است که در آن اسناد با بالاترین رتبه از مجموعهای از اجراهای بازیابی مشارکتکننده، پس از حذف موارد تکراری، در یک مجموعه ادغام میشوند که ارزیابان انسانی آن را قضاوت میکنند، و اسناد خارج از مجموعه به طور معمول نامرتبط در نظر گرفته میشوند.
Scope
این موضوع به چگونگی جمعآوری کارآمد قضاوتهای ارتباط برای مجموعههای بزرگ، عمدتاً روش ادغام مورد استفاده در TREC و کمپینهای مشابه، میپردازد؛ جایی که اسناد با رتبه بالا از سیستمهای متعدد در یک مجموعه ادغام میشوند که ارزیابان آن را قضاوت میکنند. این موضوع به عمق مجموعه، برخورد با اسناد قضاوتنشده به عنوان نامرتبط، قابلیت استفاده مجدد و سوگیری احتمالی مجموعههای ادغامشده، و تلاش و توافق ارزیاب میپردازد. این موضوع شامل معیارهای محاسبهشده پس از آن و تعریف خود مجموعه نمیشود.
Core questions
- چگونه ادغام تعداد اسنادی را که باید قضاوت شوند کاهش میدهد؟
- عمق مجموعه چگونه انتخاب میشود و چگونه بر پوشش اسناد مرتبط تأثیر میگذارد؟
- چرا اسناد قضاوتنشده معمولاً نامرتبط در نظر گرفته میشوند و این چه سوگیری میتواند ایجاد کند؟
- مجموعههای ادغامشده برای سیستمهایی که در ایجاد مجموعه مشارکت نداشتهاند، چقدر قابل استفاده مجدد هستند؟
- تلاش، توافق و کیفیت ارزیاب چگونه مدیریت میشود؟
Key concepts
- روش ادغام
- عمق مجموعه
- اجراهای مشارکتکننده
- فرض قضاوتنشده-بهعنوان-نامرتبط
- سوگیری و قابلیت استفاده مجدد مجموعه
- توافق ارزیاب
- اطلاعات ناقص ارتباط
- ارزیابی ارتباط با کمک جمعی
Key theories
- ادغام برای ارزیابی مقیاسپذیر
- با قضاوت تنها اجتماع اسناد با رتبه بالا از سیستمهای متنوع متعدد، ادغام ارزیابی مجموعههای بزرگ را عملی میسازد، در حالی که بیشتر اسناد مرتبطی را که هر سیستم معقولی ممکن است آشکار کند، پیدا میکند.
- نگرانیهای قابلیت اطمینان و استفاده مجدد
- ادغام ممکن است اسناد مرتبطی را که فقط توسط سیستمهای آینده یافت میشوند، کمتر نشان دهد، که سؤالاتی را در مورد سوگیری و قابلیت استفاده مجدد مطرح میکند که انگیزهای برای مجموعههای عمیقتر، مشارکتکنندگان متنوع و معیارهای قوی برای قضاوتهای ناقص است.
Clinical relevance
ادغام چیزی است که مجموعههای آزمایشی مشترک و قابل استفاده مجدد را مقرون به صرفه میسازد و مبنای قضاوتهای پشت دههها نتایج معیار است. درک مفروضات آن هنگام استفاده مجدد از مجموعههای قدیمی برای ارزیابی روشهای جدید، به ویژه سیستمهای عصبی که ممکن است اسناد مرتبطی را که مجموعههای اصلی هرگز قضاوت نکردهاند، آشکار کنند، اهمیت دارد.
History
ادغام از ابتدای TREC در سال 1992 برای قابل مدیریت کردن قضاوت مجموعههای بزرگ به کار گرفته شد. تحلیل زوبل در سال 1998 قابلیت اطمینان و قابلیت استفاده مجدد مجموعههای ادغامشده را بررسی کرد و کارهای بعدی در مورد قضاوتهای ناقص، معیارها و استراتژیهای ادغام عمیقتر یا هوشمندانهتر را برای کاهش سوگیری با تکامل مجموعهها و جمعیت سیستمها ارائه داد.
Key figures
- Ellen M. Voorhees
- Justin Zobel
- Chris Buckley
Related topics
Seminal works
- voorhees2005
- zobel1998
- buckley2004
Frequently asked questions
- چرا هر سند در مجموعه قضاوت نمیشود؟
- مجموعههای بزرگ شامل میلیونها سند هستند، بنابراین قضاوت همه آنها برای هر موضوع غیرممکن است. ادغام تنها اسنادی را قضاوت میکند که سیستمهای مشارکتکننده رتبه بالایی به آنها میدهند، که بیشتر اسناد مرتبط را در بر میگیرد در حالی که تلاش ارزیابی را قابل مدیریت نگه میدارد.
- خطر برخورد با اسناد قضاوتنشده به عنوان نامرتبط چیست؟
- یک سیستم بعدی ممکن است اسناد مرتبطی را بازیابی کند که هرگز در مجموعه نبودهاند و بنابراین نامرتبط شمرده شدهاند، که به طور ناعادلانهای امتیاز اندازهگیری شده آن را کاهش میدهد. این سوگیری مجموعه دلیلی است که هنگام استفاده مجدد از مجموعهها، از مجموعههای عمیقتر و متنوعتر و معیارهای مقاوم در برابر قضاوت استفاده میشود.