ارزیابی کاربر و ارزیابی آنلاین
ارزیابی کاربر و ارزیابی آنلاین کیفیت بازیابی را از طریق تعامل واقعی یا شبیهسازی شده کاربر، با استفاده از مطالعات، دادههای کلیک، آزمونهای A/B و درهمآمیزی (interleaving) به جای قضاوتهای ثابت مرتبط بودن، اندازهگیری میکنند.
Definition
ارزیابی کاربر و ارزیابی آنلاین شامل روشهایی است که سیستمهای بازیابی را از طریق تعامل کاربر ارزیابی میکنند، از مطالعات آزمایشگاهی کنترلشده عملکرد وظیفه و رضایت گرفته تا آزمایشهای آنلاین در مقیاس بزرگ مانند آزمونهای A/B و درهمآمیزی که سیستمها را با مشاهده رفتار کاربران واقعی مقایسه میکنند.
Scope
این موضوع ارزیابیهایی را پوشش میدهد که بر کاربران و رفتار آنها متمرکز است: مطالعات تعاملی کاربر در مورد موفقیت و رضایت از وظیفه، استفاده از سیگنالهای ضمنی مانند کلیکها و زمان ماندگاری، مدلهای کلیک که رفتار را تفسیر میکنند، و آزمایشهای آنلاین کنترلشده شامل آزمون A/B و درهمآمیزی. این موضوع به چگونگی اندازهگیری مزایای واقعی کاربر، سوگیریهای سیگنالهای رفتاری، و طراحی و تحلیل آزمایشهای آنلاین میپردازد. این مبحث مکمل ارزیابی مجموعه آزمون آفلاین است که در موضوعات مرتبط پوشش داده شده است.
Core questions
- چگونه میتوان رضایت واقعی کاربر و موفقیت در انجام وظیفه را اندازهگیری کرد، نه فقط مرتبط بودن در برابر قضاوتها؟
- کاربران چه سیگنالهای ضمنی ارائه میدهند و این سیگنالها چقدر قابل اعتماد هستند؟
- مدلهای کلیک چگونه سوگیری موقعیت و ارائه را در نظر میگیرند؟
- آزمون A/B و درهمآمیزی چگونه سیستمها را به صورت آنلاین مقایسه میکنند؟
- چرا درهمآمیزی اغلب برای مقایسههای رتبهبندی حساستر از آزمون A/B است؟
Key concepts
- مطالعه تعاملی کاربر
- موفقیت و رضایت از وظیفه
- بازخورد ضمنی (کلیکها، زمان ماندگاری)
- مدلهای کلیک (موقعیت، آبشاری)
- سوگیری موقعیت و ارائه
- آزمون A/B
- درهمآمیزی (interleaving)
- معیارهای آنلاین و حساسیت
Key theories
- بازخورد ضمنی و مدلهای کلیک
- کلیکهای کاربر و سایر تعاملات، سیگنالهای مرتبط بودن فراوان اما سوگیرانه را فراهم میکنند؛ مدلهای کلیک مانند مدلهای موقعیت و آبشاری، نحوه بررسی نتایج توسط کاربران را رسمی میکنند تا کلیکها بتوانند به عنوان شواهدی از مرتبط بودن تفسیر شوند.
- آزمایش آنلاین کنترلشده
- آزمون A/B کاربران را به طور تصادفی به نسخههای مختلف سیستم اختصاص میدهد و معیارهای نتیجه را مقایسه میکند، در حالی که درهمآمیزی دو رتبهبندی را در یک لیست ترکیب میکند و کلیکها را به هر سیستمی که نتیجه کلیک شده را ارائه داده است، نسبت میدهد، که اغلب مقایسههای درونکاربری حساستری از کیفیت رتبهبندی به دست میدهد.
Clinical relevance
ارزیابی آنلاین روش اصلی است که سیستمهای جستجو، توصیه و تجارت الکترونیک بزرگ برای تصمیمگیری در مورد اعمال تغییرات استفاده میکنند، زیرا تأثیر واقعی کاربر را اندازهگیری میکند. آزمون A/B و درهمآمیزی، که از طریق مدلهای کلیک که سوگیری را اصلاح میکنند تفسیر میشوند، بهبود مستمر رتبهبندی تولید در مقیاس بزرگ را هدایت میکنند.
History
ارزیابی بازیابی اطلاعات (IR) کاربرمحور مدتهاست که رفتار جستجوی تعاملی را مطالعه کرده است، اما ظهور جستجوی وب، ارزیابی آنلاین در مقیاس بزرگ را عملی ساخت. کار یواخیمز در سال ۲۰۰۲ دادههای کلیکترا (clickthrough) را به عنوان یک سیگنال مرتبط بودن تثبیت کرد و درهمآمیزی را معرفی نمود، آزمایشهای وب کنترلشده در طول دهه ۲۰۰۰ در صنعت به بلوغ رسید، و بررسی سال ۲۰۱۶ روشهای ارزیابی آنلاین را یکپارچه کرد.
Key figures
- Thorsten Joachims
- Filip Radlinski
- Katja Hofmann
- Ron Kohavi
Related topics
Seminal works
- hofmann2016
- joachims2002
- kohavi2009
Frequently asked questions
- درهمآمیزی (interleaving) چیست و چرا استفاده میشود؟
- درهمآمیزی نتایج دو سیستم رتبهبندی را در یک لیست واحد که به هر کاربر نشان داده میشود، ادغام میکند و کلیکها را به هر سیستمی که نتیجه کلیک شده را ارائه داده است، نسبت میدهد. از آنجا که هر کاربر به طور مؤثر هر دو سیستم را به طور همزمان مقایسه میکند، درهمآمیزی اغلب برای تشخیص بهبودهای رتبهبندی حساستر از آزمون A/B است.
- چرا نمیتوان کلیکها را به عنوان مرتبط بودن، به صورت ظاهری پذیرفت؟
- کاربران تمایل دارند نتایج با رتبه بالاتر را بدون توجه به مرتبط بودن واقعی (سوگیری موقعیت) کلیک کنند و تحت تأثیر نحوه ارائه نتایج قرار میگیرند. مدلهای کلیک این سوگیریها را اصلاح میکنند تا کلیکها بتوانند به عنوان شواهد قابل اعتمادتر مرتبط بودن تفسیر شوند.