Evaluación de Usuarios y en Línea
La evaluación de usuarios y en línea mide la calidad de la recuperación a través de la interacción real o simulada del usuario, utilizando estudios, datos de clics, pruebas A/B e interleaving en lugar de juicios de relevancia fijos.
Definition
La evaluación de usuarios y en línea comprende métodos que evalúan los sistemas de recuperación a través de la interacción del usuario, que van desde estudios de laboratorio controlados sobre el rendimiento y la satisfacción de las tareas hasta experimentos en línea a gran escala, como las pruebas A/B y el interleaving, que comparan sistemas observando el comportamiento de usuarios reales.
Scope
Este tema abarca la evaluación que se centra en los usuarios y su comportamiento: estudios interactivos de usuarios sobre el éxito y la satisfacción de las tareas, el uso de señales implícitas como clics y tiempo de permanencia, modelos de clics que interpretan el comportamiento y experimentos en línea controlados que incluyen pruebas A/B e interleaving. Aborda cómo medir el beneficio real para el usuario, los sesgos de las señales conductuales y el diseño y análisis de experimentos en línea. Complementa la evaluación de colecciones de prueba fuera de línea cubierta en temas adyacentes.
Core questions
- ¿Cómo se pueden medir la satisfacción real del usuario y el éxito de la tarea en lugar de solo la relevancia frente a los juicios?
- ¿Qué señales implícitas proporcionan los usuarios y qué tan fiables son?
- ¿Cómo explican los modelos de clics el sesgo de posición y presentación?
- ¿Cómo comparan los sistemas en línea las pruebas A/B y el interleaving?
- ¿Por qué el interleaving suele ser más sensible que las pruebas A/B para las comparaciones de clasificación?
Key concepts
- estudio interactivo de usuarios
- éxito y satisfacción de la tarea
- retroalimentación implícita (clics, tiempo de permanencia)
- modelos de clics (posición, cascada)
- sesgo de posición y presentación
- pruebas A/B
- interleaving
- métricas en línea y sensibilidad
Key theories
- Retroalimentación implícita y modelos de clics
- Los clics de los usuarios y otras interacciones proporcionan señales de relevancia abundantes pero sesgadas; los modelos de clics, como los modelos de posición y cascada, formalizan cómo los usuarios examinan los resultados para que los clics puedan interpretarse como evidencia de relevancia.
- Experimentación en línea controlada
- Las pruebas A/B asignan aleatoriamente a los usuarios a variantes del sistema y comparan las métricas de resultados, mientras que el interleaving combina dos clasificaciones en una sola lista y atribuye los clics, lo que a menudo produce comparaciones más sensibles de la calidad de la clasificación dentro del usuario.
Clinical relevance
La evaluación en línea es la forma principal en que los grandes sistemas de búsqueda, recomendación y comercio electrónico deciden qué cambios implementar, porque mide el impacto real en el usuario. Las pruebas A/B y el interleaving, interpretados a través de modelos de clics que corrigen el sesgo, impulsan la mejora continua de la clasificación de producción a escala.
History
La evaluación de IR centrada en el usuario ha estudiado durante mucho tiempo el comportamiento de búsqueda interactiva, pero el auge de la búsqueda web hizo que la evaluación en línea a gran escala fuera práctica. El trabajo de Joachims de 2002 estableció los datos de clics como una señal de relevancia e introdujo el interleaving, la experimentación web controlada maduró en la industria a lo largo de la década de 2000, y la encuesta de 2016 consolidó los métodos de evaluación en línea.
Key figures
- Thorsten Joachims
- Filip Radlinski
- Katja Hofmann
- Ron Kohavi
Related topics
Seminal works
- hofmann2016
- joachims2002
- kohavi2009
Frequently asked questions
- ¿Qué es el interleaving y por qué se utiliza?
- El interleaving fusiona los resultados de dos sistemas de clasificación en una sola lista que se muestra a cada usuario y atribuye los clics a cualquiera de los sistemas que contribuyó a cada resultado clicado. Debido a que cada usuario compara efectivamente ambos sistemas a la vez, el interleaving suele ser más sensible que las pruebas A/B para detectar mejoras en la clasificación.
- ¿Por qué no se pueden tomar los clics al pie de la letra como relevancia?
- Los usuarios tienden a hacer clic en los resultados mejor clasificados independientemente de la relevancia real (sesgo de posición) y están influenciados por cómo se presentan los resultados. Los modelos de clics corrigen estos sesgos para que los clics puedan interpretarse como evidencia más fiable de relevancia.