Was ist Interleaving und warum wird es verwendet?

Interleaving führt die Ergebnisse zweier Ranking-Systeme zu einer einzigen Liste zusammen, die jedem Benutzer angezeigt wird, und ordnet Klicks dem System zu, das das jeweilige angeklickte Ergebnis beigesteuert hat. Da jeder Benutzer effektiv beide Systeme gleichzeitig vergleicht, ist Interleaving oft sensitiver als A/B-Tests, um Verbesserungen im Ranking zu erkennen.

Warum können Klicks nicht einfach als Relevanz interpretiert werden?

Benutzer neigen dazu, höher platzierte Ergebnisse unabhängig von der tatsächlichen Relevanz anzuklicken (Positionsverzerrung) und werden von der Präsentation der Ergebnisse beeinflusst. Klickmodelle korrigieren diese Verzerrungen, sodass Klicks als zuverlässigere Evidenz für Relevanz interpretiert werden können.

Benutzer- und Online-Evaluierung

Die Benutzer- und Online-Evaluierung misst die Abrufqualität durch reale oder simulierte Benutzerinteraktion, wobei Studien, Klickdaten, A/B-Tests und Interleaving anstelle fester Relevanzurteile verwendet werden.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Die Benutzer- und Online-Evaluierung umfasst Methoden, die Abrufsysteme durch Benutzerinteraktion bewerten, von kontrollierten Laborstudien zur Aufgabenleistung und Zufriedenheit bis hin zu groß angelegten Online-Experimenten wie A/B-Tests und Interleaving, die Systeme durch Beobachtung des Verhaltens realer Benutzer vergleichen.

Scope

Dieses Thema behandelt die Evaluierung, die sich auf Benutzer und deren Verhalten konzentriert: interaktive Benutzerstudien zum Aufgabenerfolg und zur Zufriedenheit, die Nutzung impliziter Signale wie Klicks und Verweildauer, Klickmodelle, die das Verhalten interpretieren, und kontrollierte Online-Experimente einschließlich A/B-Tests und Interleaving. Es befasst sich damit, wie der tatsächliche Nutzen für den Benutzer gemessen werden kann, mit den Verzerrungen von Verhaltenssignalen und mit dem Design und der Analyse von Online-Experimenten. Es ergänzt die Offline-Evaluierung von Testkollektionen, die in angrenzenden Themen behandelt wird.

Core questions

Wie können die tatsächliche Benutzerzufriedenheit und der Aufgabenerfolg gemessen werden, anstatt nur die Relevanz anhand von Urteilen?
Welche impliziten Signale liefern Benutzer, und wie zuverlässig sind diese?
Wie berücksichtigen Klickmodelle Positions- und Präsentationsverzerrungen?
Wie vergleichen A/B-Tests und Interleaving Systeme online?
Warum ist Interleaving bei Ranking-Vergleichen oft sensitiver als A/B-Tests?

Key concepts

interaktive Benutzerstudie
Aufgabenerfolg und Zufriedenheit
implizites Feedback (Klicks, Verweildauer)
Klickmodelle (Position, Kaskade)
Positions- und Präsentationsverzerrung
A/B-Testing
Interleaving
Online-Metriken und Sensitivität

Key theories

Implizites Feedback und Klickmodelle: Benutzerklicks und andere Interaktionen liefern reichlich, aber voreingenommene Relevanzsignale; Klickmodelle wie das Positions- und Kaskadenmodell formalisieren, wie Benutzer Ergebnisse untersuchen, sodass Klicks als Evidenz für Relevanz interpretiert werden können.
Kontrollierte Online-Experimente: A/B-Tests weisen Benutzern zufällig Systemvarianten zu und vergleichen Ergebnis-Metriken, während Interleaving zwei Rankings zu einer Liste zusammenführt und Klicks zuordnet, was oft sensitivere Vergleiche der Ranking-Qualität innerhalb eines Benutzers ermöglicht.

Clinical relevance

Die Online-Evaluierung ist die primäre Methode, mit der große Such-, Empfehlungs- und E-Commerce-Systeme entscheiden, welche Änderungen implementiert werden sollen, da sie den tatsächlichen Benutzereinfluss misst. A/B-Tests und Interleaving, interpretiert durch Klickmodelle, die Verzerrungen korrigieren, treiben die kontinuierliche Verbesserung des Produktionsrankings in großem Maßstab voran.

History

Die benutzerzentrierte IR-Evaluierung hat lange interaktives Suchverhalten untersucht, aber der Aufstieg der Websuche machte die groß angelegte Online-Evaluierung praktikabel. Joachims' Arbeit von 2002 etablierte Klickdaten als Relevanzsignal und führte Interleaving ein, kontrollierte Web-Experimente reiften in der Industrie in den 2000er Jahren, und die Übersicht von 2016 konsolidierte Online-Evaluierungsmethoden.

Key figures

Thorsten Joachims
Filip Radlinski
Katja Hofmann
Ron Kohavi

Seminal works

hofmann2016
joachims2002
kohavi2009

Frequently asked questions

Was ist Interleaving und warum wird es verwendet?: Interleaving führt die Ergebnisse zweier Ranking-Systeme zu einer einzigen Liste zusammen, die jedem Benutzer angezeigt wird, und ordnet Klicks dem System zu, das das jeweilige angeklickte Ergebnis beigesteuert hat. Da jeder Benutzer effektiv beide Systeme gleichzeitig vergleicht, ist Interleaving oft sensitiver als A/B-Tests, um Verbesserungen im Ranking zu erkennen.
Warum können Klicks nicht einfach als Relevanz interpretiert werden?: Benutzer neigen dazu, höher platzierte Ergebnisse unabhängig von der tatsächlichen Relevanz anzuklicken (Positionsverzerrung) und werden von der Präsentation der Ergebnisse beeinflusst. Klickmodelle korrigieren diese Verzerrungen, sodass Klicks als zuverlässigere Evidenz für Relevanz interpretiert werden können.