درهمآمیزی (interleaving) چیست و چرا استفاده میشود؟

درهمآمیزی نتایج دو سیستم رتبهبندی را در یک لیست واحد که به هر کاربر نشان داده میشود، ادغام میکند و کلیکها را به هر سیستمی که نتیجه کلیک شده را ارائه داده است، نسبت میدهد. از آنجا که هر کاربر به طور مؤثر هر دو سیستم را به طور همزمان مقایسه میکند، درهمآمیزی اغلب برای تشخیص بهبودهای رتبهبندی حساستر از آزمون A/B است.

چرا نمیتوان کلیکها را به عنوان مرتبط بودن، به صورت ظاهری پذیرفت؟

کاربران تمایل دارند نتایج با رتبه بالاتر را بدون توجه به مرتبط بودن واقعی (سوگیری موقعیت) کلیک کنند و تحت تأثیر نحوه ارائه نتایج قرار میگیرند. مدلهای کلیک این سوگیریها را اصلاح میکنند تا کلیکها بتوانند به عنوان شواهد قابل اعتمادتر مرتبط بودن تفسیر شوند.

ارزیابی کاربر و ارزیابی آنلاین

ارزیابی کاربر و ارزیابی آنلاین کیفیت بازیابی را از طریق تعامل واقعی یا شبیه‌سازی شده کاربر، با استفاده از مطالعات، داده‌های کلیک، آزمون‌های A/B و درهم‌آمیزی (interleaving) به جای قضاوت‌های ثابت مرتبط بودن، اندازه‌گیری می‌کنند.

یافتن موضوع با PaperMindبه‌زودیFind papers & topics

Tools & resources

دریافت اسلایدها

Learn & explore

ویدیوبه‌زودی

Definition

ارزیابی کاربر و ارزیابی آنلاین شامل روش‌هایی است که سیستم‌های بازیابی را از طریق تعامل کاربر ارزیابی می‌کنند، از مطالعات آزمایشگاهی کنترل‌شده عملکرد وظیفه و رضایت گرفته تا آزمایش‌های آنلاین در مقیاس بزرگ مانند آزمون‌های A/B و درهم‌آمیزی که سیستم‌ها را با مشاهده رفتار کاربران واقعی مقایسه می‌کنند.

Scope

این موضوع ارزیابی‌هایی را پوشش می‌دهد که بر کاربران و رفتار آن‌ها متمرکز است: مطالعات تعاملی کاربر در مورد موفقیت و رضایت از وظیفه، استفاده از سیگنال‌های ضمنی مانند کلیک‌ها و زمان ماندگاری، مدل‌های کلیک که رفتار را تفسیر می‌کنند، و آزمایش‌های آنلاین کنترل‌شده شامل آزمون A/B و درهم‌آمیزی. این موضوع به چگونگی اندازه‌گیری مزایای واقعی کاربر، سوگیری‌های سیگنال‌های رفتاری، و طراحی و تحلیل آزمایش‌های آنلاین می‌پردازد. این مبحث مکمل ارزیابی مجموعه آزمون آفلاین است که در موضوعات مرتبط پوشش داده شده است.

Core questions

چگونه می‌توان رضایت واقعی کاربر و موفقیت در انجام وظیفه را اندازه‌گیری کرد، نه فقط مرتبط بودن در برابر قضاوت‌ها؟
کاربران چه سیگنال‌های ضمنی ارائه می‌دهند و این سیگنال‌ها چقدر قابل اعتماد هستند؟
مدل‌های کلیک چگونه سوگیری موقعیت و ارائه را در نظر می‌گیرند؟
آزمون A/B و درهم‌آمیزی چگونه سیستم‌ها را به صورت آنلاین مقایسه می‌کنند؟
چرا درهم‌آمیزی اغلب برای مقایسه‌های رتبه‌بندی حساس‌تر از آزمون A/B است؟

Key concepts

مطالعه تعاملی کاربر
موفقیت و رضایت از وظیفه
بازخورد ضمنی (کلیک‌ها، زمان ماندگاری)
مدل‌های کلیک (موقعیت، آبشاری)
سوگیری موقعیت و ارائه
آزمون A/B
درهم‌آمیزی (interleaving)
معیارهای آنلاین و حساسیت

Key theories

بازخورد ضمنی و مدل‌های کلیک: کلیک‌های کاربر و سایر تعاملات، سیگنال‌های مرتبط بودن فراوان اما سوگیرانه را فراهم می‌کنند؛ مدل‌های کلیک مانند مدل‌های موقعیت و آبشاری، نحوه بررسی نتایج توسط کاربران را رسمی می‌کنند تا کلیک‌ها بتوانند به عنوان شواهدی از مرتبط بودن تفسیر شوند.
آزمایش آنلاین کنترل‌شده: آزمون A/B کاربران را به طور تصادفی به نسخه‌های مختلف سیستم اختصاص می‌دهد و معیارهای نتیجه را مقایسه می‌کند، در حالی که درهم‌آمیزی دو رتبه‌بندی را در یک لیست ترکیب می‌کند و کلیک‌ها را به هر سیستمی که نتیجه کلیک شده را ارائه داده است، نسبت می‌دهد، که اغلب مقایسه‌های درون‌کاربری حساس‌تری از کیفیت رتبه‌بندی به دست می‌دهد.

Clinical relevance

ارزیابی آنلاین روش اصلی است که سیستم‌های جستجو، توصیه و تجارت الکترونیک بزرگ برای تصمیم‌گیری در مورد اعمال تغییرات استفاده می‌کنند، زیرا تأثیر واقعی کاربر را اندازه‌گیری می‌کند. آزمون A/B و درهم‌آمیزی، که از طریق مدل‌های کلیک که سوگیری را اصلاح می‌کنند تفسیر می‌شوند، بهبود مستمر رتبه‌بندی تولید در مقیاس بزرگ را هدایت می‌کنند.

History

ارزیابی بازیابی اطلاعات (IR) کاربرمحور مدت‌هاست که رفتار جستجوی تعاملی را مطالعه کرده است، اما ظهور جستجوی وب، ارزیابی آنلاین در مقیاس بزرگ را عملی ساخت. کار یواخیمز در سال ۲۰۰۲ داده‌های کلیک‌ترا (clickthrough) را به عنوان یک سیگنال مرتبط بودن تثبیت کرد و درهم‌آمیزی را معرفی نمود، آزمایش‌های وب کنترل‌شده در طول دهه ۲۰۰۰ در صنعت به بلوغ رسید، و بررسی سال ۲۰۱۶ روش‌های ارزیابی آنلاین را یکپارچه کرد.

Key figures

Thorsten Joachims
Filip Radlinski
Katja Hofmann
Ron Kohavi

Seminal works

hofmann2016
joachims2002
kohavi2009

Frequently asked questions

درهم‌آمیزی (interleaving) چیست و چرا استفاده می‌شود؟: درهم‌آمیزی نتایج دو سیستم رتبه‌بندی را در یک لیست واحد که به هر کاربر نشان داده می‌شود، ادغام می‌کند و کلیک‌ها را به هر سیستمی که نتیجه کلیک شده را ارائه داده است، نسبت می‌دهد. از آنجا که هر کاربر به طور مؤثر هر دو سیستم را به طور همزمان مقایسه می‌کند، درهم‌آمیزی اغلب برای تشخیص بهبودهای رتبه‌بندی حساس‌تر از آزمون A/B است.
چرا نمی‌توان کلیک‌ها را به عنوان مرتبط بودن، به صورت ظاهری پذیرفت؟: کاربران تمایل دارند نتایج با رتبه بالاتر را بدون توجه به مرتبط بودن واقعی (سوگیری موقعیت) کلیک کنند و تحت تأثیر نحوه ارائه نتایج قرار می‌گیرند. مدل‌های کلیک این سوگیری‌ها را اصلاح می‌کنند تا کلیک‌ها بتوانند به عنوان شواهد قابل اعتمادتر مرتبط بودن تفسیر شوند.