ScholarGate
المساعد

تقييم المستخدم والتقييم عبر الإنترنت

يقيس تقييم المستخدم والتقييم عبر الإنترنت جودة الاسترجاع من خلال تفاعل المستخدم الحقيقي أو المحاكي، باستخدام الدراسات، وبيانات النقرات، واختبارات A/B، والتشابك (interleaving) بدلاً من أحكام الملاءمة الثابتة.

اعثر على موضوع باستخدام PaperMindقريبًاFind papers & topics
Tools & resources
تنزيل الشرائح
Learn & explore
فيديوقريبًا

Definition

يشمل تقييم المستخدم والتقييم عبر الإنترنت أساليب تقييم أنظمة الاسترجاع من خلال تفاعل المستخدم، بدءًا من الدراسات المخبرية الخاضعة للتحكم لأداء المهام ورضا المستخدم وصولاً إلى التجارب واسعة النطاق عبر الإنترنت مثل اختبارات A/B والتشابك التي تقارن الأنظمة من خلال مراقبة سلوك المستخدمين الحقيقيين.

Scope

يغطي هذا الموضوع التقييم الذي يركز على المستخدمين وسلوكهم: دراسات المستخدم التفاعلية لنجاح المهام ورضا المستخدم، واستخدام الإشارات الضمنية مثل النقرات ووقت المكوث، ونماذج النقرات التي تفسر السلوك، والتجارب الخاضعة للتحكم عبر الإنترنت بما في ذلك اختبار A/B والتشابك. ويتناول كيفية قياس الفائدة الحقيقية للمستخدم، وتحيزات الإشارات السلوكية، وتصميم وتحليل التجارب عبر الإنترنت. ويكمل تقييم مجموعة الاختبار دون اتصال بالإنترنت الذي تغطيه الموضوعات المجاورة.

Core questions

  • كيف يمكن قياس رضا المستخدم الحقيقي ونجاح المهام بدلاً من مجرد الملاءمة مقابل الأحكام؟
  • ما هي الإشارات الضمنية التي يقدمها المستخدمون، وما مدى موثوقيتها؟
  • كيف تفسر نماذج النقرات تحيز الموضع والعرض؟
  • كيف تقارن اختبارات A/B والتشابك الأنظمة عبر الإنترنت؟
  • لماذا غالبًا ما يكون التشابك أكثر حساسية من اختبار A/B لمقارنات الترتيب؟

Key concepts

  • دراسة المستخدم التفاعلية
  • نجاح المهام ورضا المستخدم
  • التغذية الراجعة الضمنية (النقرات، وقت المكوث)
  • نماذج النقرات (الموضع، المتتالية)
  • تحيز الموضع والعرض
  • اختبار A/B
  • التشابك
  • المقاييس عبر الإنترنت والحساسية

Key theories

التغذية الراجعة الضمنية ونماذج النقرات
توفر نقرات المستخدم وتفاعلاته الأخرى إشارات ملاءمة وفيرة ولكنها متحيزة؛ وتُضفي نماذج النقرات مثل نماذج الموضع والمتتالية طابعًا رسميًا على كيفية فحص المستخدمين للنتائج بحيث يمكن تفسير النقرات كدليل على الملاءمة.
التجارب الخاضعة للتحكم عبر الإنترنت
يُخصص اختبار A/B المستخدمين عشوائيًا لمتغيرات النظام ويقارن مقاييس النتائج، بينما يمزج التشابك ترتيبين في قائمة واحدة تُعرض لكل مستخدم وينسب النقرات إلى أي نظام ساهم في كل نتيجة تم النقر عليها، مما يؤدي غالبًا إلى مقارنات أكثر حساسية لجودة الترتيب داخل المستخدم.

Clinical relevance

يُعد التقييم عبر الإنترنت الطريقة الأساسية التي تقرر بها أنظمة البحث والتوصية والتجارة الإلكترونية الكبيرة التغييرات التي يجب تطبيقها، لأنه يقيس التأثير الحقيقي على المستخدم. ويؤدي اختبار A/B والتشابك، اللذان يتم تفسيرهما من خلال نماذج النقرات التي تصحح التحيز، إلى تحسين مستمر في ترتيب الإنتاج على نطاق واسع.

History

لطالما درست تقييمات استرجاع المعلومات (IR) التي تركز على المستخدم سلوك البحث التفاعلي، لكن ظهور البحث عبر الويب جعل التقييم واسع النطاق عبر الإنترنت عمليًا. وقد أرسى عمل يواكيمز (Joachims) عام 2002 بيانات النقر (clickthrough data) كإشارة للملاءمة وقدم التشابك، وتطورت التجارب الويب الخاضعة للتحكم في الصناعة خلال العقد الأول من القرن الحادي والعشرين، وعزز المسح الذي تم عام 2016 أساليب التقييم عبر الإنترنت.

Key figures

  • Thorsten Joachims
  • Filip Radlinski
  • Katja Hofmann
  • Ron Kohavi

Related topics

Seminal works

  • hofmann2016
  • joachims2002
  • kohavi2009

Frequently asked questions

ما هو التشابك ولماذا يُستخدم؟
يُدمج التشابك نتائج نظامي ترتيب في قائمة واحدة تُعرض لكل مستخدم وينسب النقرات إلى أي نظام ساهم في كل نتيجة تم النقر عليها. ولأن كل مستخدم يقارن فعليًا كلا النظامين في وقت واحد، غالبًا ما يكون التشابك أكثر حساسية من اختبار A/B في اكتشاف تحسينات الترتيب.
لماذا لا يمكن أخذ النقرات على محمل الجد كدليل على الملاءمة؟
يميل المستخدمون إلى النقر على النتائج ذات الترتيب الأعلى بغض النظر عن الملاءمة الحقيقية (تحيز الموضع) ويتأثرون بكيفية عرض النتائج. وتُصحح نماذج النقرات هذه التحيزات بحيث يمكن تفسير النقرات كدليل أكثر موثوقية على الملاءمة.

Methods for this concept

Related concepts