Benutzer- und Online-Evaluierung
Die Benutzer- und Online-Evaluierung misst die Abrufqualität durch reale oder simulierte Benutzerinteraktion, wobei Studien, Klickdaten, A/B-Tests und Interleaving anstelle fester Relevanzurteile verwendet werden.
Definition
Die Benutzer- und Online-Evaluierung umfasst Methoden, die Abrufsysteme durch Benutzerinteraktion bewerten, von kontrollierten Laborstudien zur Aufgabenleistung und Zufriedenheit bis hin zu groß angelegten Online-Experimenten wie A/B-Tests und Interleaving, die Systeme durch Beobachtung des Verhaltens realer Benutzer vergleichen.
Scope
Dieses Thema behandelt die Evaluierung, die sich auf Benutzer und deren Verhalten konzentriert: interaktive Benutzerstudien zum Aufgabenerfolg und zur Zufriedenheit, die Nutzung impliziter Signale wie Klicks und Verweildauer, Klickmodelle, die das Verhalten interpretieren, und kontrollierte Online-Experimente einschließlich A/B-Tests und Interleaving. Es befasst sich damit, wie der tatsächliche Nutzen für den Benutzer gemessen werden kann, mit den Verzerrungen von Verhaltenssignalen und mit dem Design und der Analyse von Online-Experimenten. Es ergänzt die Offline-Evaluierung von Testkollektionen, die in angrenzenden Themen behandelt wird.
Core questions
- Wie können die tatsächliche Benutzerzufriedenheit und der Aufgabenerfolg gemessen werden, anstatt nur die Relevanz anhand von Urteilen?
- Welche impliziten Signale liefern Benutzer, und wie zuverlässig sind diese?
- Wie berücksichtigen Klickmodelle Positions- und Präsentationsverzerrungen?
- Wie vergleichen A/B-Tests und Interleaving Systeme online?
- Warum ist Interleaving bei Ranking-Vergleichen oft sensitiver als A/B-Tests?
Key concepts
- interaktive Benutzerstudie
- Aufgabenerfolg und Zufriedenheit
- implizites Feedback (Klicks, Verweildauer)
- Klickmodelle (Position, Kaskade)
- Positions- und Präsentationsverzerrung
- A/B-Testing
- Interleaving
- Online-Metriken und Sensitivität
Key theories
- Implizites Feedback und Klickmodelle
- Benutzerklicks und andere Interaktionen liefern reichlich, aber voreingenommene Relevanzsignale; Klickmodelle wie das Positions- und Kaskadenmodell formalisieren, wie Benutzer Ergebnisse untersuchen, sodass Klicks als Evidenz für Relevanz interpretiert werden können.
- Kontrollierte Online-Experimente
- A/B-Tests weisen Benutzern zufällig Systemvarianten zu und vergleichen Ergebnis-Metriken, während Interleaving zwei Rankings zu einer Liste zusammenführt und Klicks zuordnet, was oft sensitivere Vergleiche der Ranking-Qualität innerhalb eines Benutzers ermöglicht.
Clinical relevance
Die Online-Evaluierung ist die primäre Methode, mit der große Such-, Empfehlungs- und E-Commerce-Systeme entscheiden, welche Änderungen implementiert werden sollen, da sie den tatsächlichen Benutzereinfluss misst. A/B-Tests und Interleaving, interpretiert durch Klickmodelle, die Verzerrungen korrigieren, treiben die kontinuierliche Verbesserung des Produktionsrankings in großem Maßstab voran.
History
Die benutzerzentrierte IR-Evaluierung hat lange interaktives Suchverhalten untersucht, aber der Aufstieg der Websuche machte die groß angelegte Online-Evaluierung praktikabel. Joachims' Arbeit von 2002 etablierte Klickdaten als Relevanzsignal und führte Interleaving ein, kontrollierte Web-Experimente reiften in der Industrie in den 2000er Jahren, und die Übersicht von 2016 konsolidierte Online-Evaluierungsmethoden.
Key figures
- Thorsten Joachims
- Filip Radlinski
- Katja Hofmann
- Ron Kohavi
Related topics
Seminal works
- hofmann2016
- joachims2002
- kohavi2009
Frequently asked questions
- Was ist Interleaving und warum wird es verwendet?
- Interleaving führt die Ergebnisse zweier Ranking-Systeme zu einer einzigen Liste zusammen, die jedem Benutzer angezeigt wird, und ordnet Klicks dem System zu, das das jeweilige angeklickte Ergebnis beigesteuert hat. Da jeder Benutzer effektiv beide Systeme gleichzeitig vergleicht, ist Interleaving oft sensitiver als A/B-Tests, um Verbesserungen im Ranking zu erkennen.
- Warum können Klicks nicht einfach als Relevanz interpretiert werden?
- Benutzer neigen dazu, höher platzierte Ergebnisse unabhängig von der tatsächlichen Relevanz anzuklicken (Positionsverzerrung) und werden von der Präsentation der Ergebnisse beeinflusst. Klickmodelle korrigieren diese Verzerrungen, sodass Klicks als zuverlässigere Evidenz für Relevanz interpretiert werden können.