Learning to Rank
„Learning to Rank“ wendet maschinelles Lernen an, um Ranking-Funktionen zu erstellen, die viele Merkmale kombinieren und anhand von gelabelten Relevanzdaten oder Benutzerfeedback trainiert werden, um Dokumente besser zu ordnen als eine einzelne, manuell abgestimmte Formel.
Definition
„Learning to Rank“ ist die Anwendung von Methoden des maschinellen Lernens, um eine Funktion zu induzieren, die eine Menge von Dokumenten für eine Abfrage nach Relevanz ordnet, trainiert aus Beispielen, in denen die relative oder absolute Relevanz von Dokumenten bekannt ist, formuliert als punktweise Regression oder Klassifikation, paarweises Präferenzlernen oder direkte listenweise Optimierung.
Scope
Dieses Thema behandelt überwachte und feedbackgesteuerte Ansätze zum Erlernen von Ranking-Funktionen für die Informationsbeschaffung. Es befasst sich mit den punktweisen, paarweisen und listenweisen Formulierungen, der Verwendung von Relevanz-Labels und Clickthrough-Daten, repräsentativen Methoden wie RankNet und gradientenverstärkten Ranking-Bäumen sowie der Optimierung von rangbasierten Metriken. Es wird behandelt, wie ein Ranker als Modell gelernt und evaluiert wird, während die Zusammenstellung von Merkmalen und die breitere Bereitstellungspipeline unter Web-Such-Ranking behandelt werden.
Core questions
- Wie werden Ranking-Probleme als punktweises, paarweises oder listenweises Lernen formuliert?
- Welche Trainingssignale, wie Relevanz-Labels oder Clickthrough-Daten, steuern das Lernen?
- Wie können rangbasierte Bewertungsmetriken, die nicht differenzierbar sind, optimiert werden?
- Wie werden viele heterogene Merkmale zu einem einzigen gelernten Ranker kombiniert?
- Wie führt Klickdaten zu Verzerrungen, und wie kann dem begegnet werden?
Key concepts
- Ranking-Funktion
- punktweises / paarweises / listenweises Lernen
- Relevanz-Labels und abgestufte Relevanz
- Clickthrough und implizites Feedback
- RankNet und gradientenverstärkte Bäume
- rangbasierte Verlust- und Metrikoptimierung
- Merkmalskombination
- Positionsverzerrung
Key theories
- Punktweise, paarweise und listenweise Formulierungen
- Das Ranking kann gelernt werden, indem die Relevanz jedes Dokuments unabhängig vorhergesagt wird (punktweise), indem die korrekte Reihenfolge von Dokumentpaaren gelernt wird (paarweise) oder indem ein Verlust über ganze Ergebnislisten optimiert wird (listenweise), wobei letzteres am direktesten mit rangbasierten Metriken übereinstimmt.
- Lernen aus Clickthrough-Daten
- Benutzerklicks liefern reichlich, aber voreingenommenes implizites Relevanz-Feedback; die Behandlung von Klicks als relative Präferenzen innerhalb einer Ergebnisliste ermöglicht es, Ranking-Funktionen aus Interaktionsprotokollen anstatt nur aus teuren manuellen Labels zu trainieren.
Clinical relevance
„Learning to Rank“ ist die Standardmethode, mit der moderne Such- und Empfehlungssysteme Signale kombinieren, und maschinell gelernte Ranker, die auf gradientenverstärkten Bäumen und neuronalen Modellen basieren, steuern die Ergebnisreihenfolge großer Web-Suchmaschinen, des E-Commerce-Suchbereichs und des Anzeigen-Rankings.
History
Da die Websuche viele Ranking-Signale akkumulierte, wurde die manuelle Abstimmung unpraktisch, was zu maschinell gelerntem Ranking motivierte. Joachims' Arbeit von 2002 zeigte, dass Clickthrough-Daten Ranker trainieren konnten; Burges und Kollegen' RankNet (2005) führte neuronales paarweises Ranking und seine Nachfolger LambdaRank und LambdaMART ein; und Lius Übersicht von 2009 konsolidierte das Feld um punktweise, paarweise und listenweise Paradigmen.
Key figures
- Tie-Yan Liu
- Christopher Burges
- Thorsten Joachims
Related topics
Seminal works
- liu2009
- burges2005
- joachims2002
Frequently asked questions
- Was ist der Unterschied zwischen punktweisem, paarweisem und listenweisem „Learning to Rank“?
- Punktweise Methoden prognostizieren einen Relevanzwert für jedes Dokument unabhängig; paarweise Methoden lernen, welches von zwei Dokumenten höher rangieren sollte; listenweise Methoden optimieren einen Verlust, der über eine gesamte Rangliste definiert ist. Listenweise Ansätze stimmen am engsten mit den Metriken auf Listenebene überein, die für Benutzer tatsächlich relevant sind.
- Warum werden Klickdaten verwendet, obwohl sie voreingenommen sind?
- Klicks sind weitaus kostengünstiger und zahlreicher als manuelle Relevanzbewertungen, sodass sie ein Training in großem Maßstab ermöglichen. Der Haken ist die Positions- und Präsentationsverzerrung, weshalb Methoden Klicks als relative Präferenzen behandeln und zunehmend unverzerrte oder kontrafaktische Lernkorrekturen anwenden.