Qu'est-ce que l'entrelacement et pourquoi est-il utilisé ?

L'entrelacement fusionne les résultats de deux systèmes de classement en une seule liste présentée à chaque utilisateur et attribue les clics au système qui a contribué à chaque résultat cliqué. Étant donné que chaque utilisateur compare effectivement les deux systèmes simultanément, l'entrelacement est souvent plus sensible que les tests A/B pour détecter les améliorations de classement.

Pourquoi les clics ne peuvent-ils pas être pris pour argent comptant comme indicateur de pertinence ?

Les utilisateurs ont tendance à cliquer sur les résultats mieux classés, quelle que soit leur pertinence réelle (biais de position), et sont influencés par la manière dont les résultats sont présentés. Les modèles de clics corrigent ces biais afin que les clics puissent être interprétés comme des preuves de pertinence plus fiables.

Évaluation par l'utilisateur et en ligne

L'évaluation par l'utilisateur et en ligne mesure la qualité de la récupération d'information par le biais d'interactions utilisateur réelles ou simulées, en utilisant des études, des données de clics, des tests A/B et l'entrelacement, plutôt que des jugements de pertinence fixes.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

L'évaluation par l'utilisateur et en ligne comprend des méthodes qui évaluent les systèmes de récupération d'information par l'interaction utilisateur, allant des études de laboratoire contrôlées sur la performance des tâches et la satisfaction aux expériences en ligne à grande échelle telles que les tests A/B et l'entrelacement qui comparent les systèmes en observant le comportement d'utilisateurs réels.

Scope

Ce sujet aborde l'évaluation centrée sur les utilisateurs et leur comportement : les études utilisateur interactives sur le succès des tâches et la satisfaction, l'utilisation de signaux implicites tels que les clics et le temps de consultation (dwell time), les modèles de clics qui interprètent le comportement, et les expériences en ligne contrôlées, y compris les tests A/B et l'entrelacement. Il traite de la manière de mesurer le bénéfice réel pour l'utilisateur, des biais des signaux comportementaux, ainsi que de la conception et de l'analyse des expériences en ligne. Il complète l'évaluation hors ligne basée sur des collections de test, abordée dans des sujets connexes.

Core questions

Comment mesurer la satisfaction réelle de l'utilisateur et le succès des tâches plutôt que la simple pertinence par rapport à des jugements ?
Quels signaux implicites les utilisateurs fournissent-ils, et quelle est leur fiabilité ?
Comment les modèles de clics tiennent-ils compte des biais de position et de présentation ?
Comment les tests A/B et l'entrelacement comparent-ils les systèmes en ligne ?
Pourquoi l'entrelacement est-il souvent plus sensible que les tests A/B pour les comparaisons de classement ?

Key concepts

étude utilisateur interactive
succès des tâches et satisfaction
retour d'information implicite (clics, temps de consultation)
modèles de clics (position, cascade)
biais de position et de présentation
tests A/B
entrelacement
métriques en ligne et sensibilité

Key theories

Retour d'information implicite et modèles de clics: Les clics des utilisateurs et autres interactions fournissent des signaux de pertinence abondants mais biaisés ; les modèles de clics, tels que les modèles de position et de cascade, formalisent la manière dont les utilisateurs examinent les résultats afin que les clics puissent être interprétés comme des preuves de pertinence.
Expérimentation en ligne contrôlée: Les tests A/B attribuent aléatoirement les utilisateurs à des variantes de système et comparent les métriques de résultat, tandis que l'entrelacement fusionne deux classements en une seule liste et attribue les clics, ce qui permet souvent des comparaisons intra-utilisateur plus sensibles de la qualité du classement.

Clinical relevance

L'évaluation en ligne est le principal moyen par lequel les grands systèmes de recherche, de recommandation et de commerce électronique décident des modifications à déployer, car elle mesure l'impact réel sur l'utilisateur. Les tests A/B et l'entrelacement, interprétés via des modèles de clics qui corrigent les biais, favorisent l'amélioration continue du classement de production à grande échelle.

History

L'évaluation de la RI (récupération d'information) centrée sur l'utilisateur a longtemps étudié le comportement de recherche interactif, mais l'essor de la recherche sur le web a rendu l'évaluation en ligne à grande échelle réalisable. Les travaux de Joachims en 2002 ont établi les données de clics (clickthrough data) comme un signal de pertinence et ont introduit l'entrelacement ; l'expérimentation web contrôlée a mûri dans l'industrie tout au long des années 2000 ; et l'enquête de 2016 a consolidé les méthodes d'évaluation en ligne.

Key figures

Thorsten Joachims
Filip Radlinski
Katja Hofmann
Ron Kohavi

Seminal works

hofmann2016
joachims2002
kohavi2009

Frequently asked questions

Qu'est-ce que l'entrelacement et pourquoi est-il utilisé ?: L'entrelacement fusionne les résultats de deux systèmes de classement en une seule liste présentée à chaque utilisateur et attribue les clics au système qui a contribué à chaque résultat cliqué. Étant donné que chaque utilisateur compare effectivement les deux systèmes simultanément, l'entrelacement est souvent plus sensible que les tests A/B pour détecter les améliorations de classement.
Pourquoi les clics ne peuvent-ils pas être pris pour argent comptant comme indicateur de pertinence ?: Les utilisateurs ont tendance à cliquer sur les résultats mieux classés, quelle que soit leur pertinence réelle (biais de position), et sont influencés par la manière dont les résultats sont présentés. Les modèles de clics corrigent ces biais afin que les clics puissent être interprétés comme des preuves de pertinence plus fiables.