¿Cuál es la diferencia entre el aprendizaje de clasificación puntual, por pares y por listas?

Los métodos puntuales predicen una puntuación de relevancia para cada documento de forma independiente; los métodos por pares aprenden cuál de dos documentos debe clasificarse más alto; los métodos por listas optimizan una pérdida definida sobre una lista clasificada completa. Los enfoques por listas se alinean más estrechamente con las métricas a nivel de lista que realmente interesan a los usuarios.

¿Por qué usar datos de clics si están sesgados?

Los clics son mucho más baratos y abundantes que los juicios de relevancia manuales, por lo que permiten el entrenamiento a gran escala. El inconveniente es el sesgo de posición y presentación, por lo que los métodos tratan los clics como preferencias relativas y aplican cada vez más correcciones de aprendizaje imparciales o contrafactuales.

Aprendizaje de clasificación (Learning to Rank)

El aprendizaje de clasificación aplica el aprendizaje automático para construir funciones de clasificación que combinan muchas características, entrenándose con datos de relevancia etiquetados o retroalimentación del usuario para ordenar documentos mejor que una única fórmula ajustada manualmente.

Encontrar tema con PaperMindPróximamenteFind papers & topics

Tools & resources

Descargar diapositivas

Learn & explore

VídeoPróximamente

Definition

El aprendizaje de clasificación es el uso de métodos de aprendizaje automático para inducir una función que ordena un conjunto de documentos para una consulta por relevancia, entrenada a partir de ejemplos en los que se conoce la relevancia relativa o absoluta de los documentos, formulada como regresión o clasificación puntual, aprendizaje de preferencias por pares u optimización directa por listas.

Scope

Este tema abarca los enfoques supervisados y basados en retroalimentación para aprender funciones de clasificación para la recuperación. Aborda las formulaciones puntuales, por pares y por listas, el uso de etiquetas de relevancia y datos de clics (clickthrough data), métodos representativos como RankNet y árboles de clasificación potenciados por gradiente, y la optimización de métricas basadas en la clasificación. Trata cómo se aprende y evalúa un clasificador como modelo, mientras que el ensamblaje de características y el proceso de servicio más amplio se cubren en la clasificación de búsqueda web.

Core questions

¿Cómo se plantean los problemas de clasificación como aprendizaje puntual, por pares o por listas?
¿Qué señales de entrenamiento, como etiquetas de relevancia o datos de clics, impulsan el aprendizaje?
¿Cómo se pueden optimizar las métricas de evaluación basadas en la clasificación, que no son diferenciables?
¿Cómo se combinan muchas características heterogéneas en un único clasificador aprendido?
¿Cómo introducen los datos de clics un sesgo y cómo se puede abordar?

Key concepts

función de clasificación
aprendizaje puntual / por pares / por listas
etiquetas de relevancia y relevancia graduada
clics (clickthrough) y retroalimentación implícita
RankNet y árboles potenciados por gradiente
pérdida basada en la clasificación y optimización de métricas
combinación de características
sesgo de posición

Key theories

Formulaciones puntuales, por pares y por listas: La clasificación se puede aprender prediciendo la relevancia de cada documento de forma independiente (puntual), aprendiendo los órdenes correctos de pares de documentos (por pares) o optimizando una pérdida sobre listas de resultados completas (por listas), siendo esta última la que se alinea más directamente con las métricas basadas en la clasificación.
Aprendizaje a partir de datos de clics: Los clics de los usuarios proporcionan una retroalimentación de relevancia implícita abundante pero sesgada; tratar los clics como preferencias relativas dentro de una lista de resultados permite entrenar funciones de clasificación a partir de registros de interacción en lugar de solo etiquetas manuales costosas.

Clinical relevance

El aprendizaje de clasificación es la forma estándar en que los sistemas modernos de búsqueda y recomendación combinan señales, y los clasificadores aprendidos por máquina basados en árboles potenciados por gradiente y modelos neuronales impulsan el orden de los resultados de los principales motores de búsqueda web, la búsqueda de comercio electrónico y la clasificación de anuncios.

History

A medida que la búsqueda web acumuló muchas señales de clasificación, el ajuste manual se volvió poco práctico, lo que motivó la clasificación aprendida por máquina. El trabajo de Joachims de 2002 mostró que los datos de clics podían entrenar clasificadores; RankNet (2005) de Burges y sus colegas introdujo la clasificación neuronal por pares y sus descendientes LambdaRank y LambdaMART; y la encuesta de Liu de 2009 consolidó el campo en torno a los paradigmas puntual, por pares y por listas.

Key figures

Tie-Yan Liu
Christopher Burges
Thorsten Joachims

Seminal works

liu2009
burges2005
joachims2002

Frequently asked questions

¿Cuál es la diferencia entre el aprendizaje de clasificación puntual, por pares y por listas?: Los métodos puntuales predicen una puntuación de relevancia para cada documento de forma independiente; los métodos por pares aprenden cuál de dos documentos debe clasificarse más alto; los métodos por listas optimizan una pérdida definida sobre una lista clasificada completa. Los enfoques por listas se alinean más estrechamente con las métricas a nivel de lista que realmente interesan a los usuarios.
¿Por qué usar datos de clics si están sesgados?: Los clics son mucho más baratos y abundantes que los juicios de relevancia manuales, por lo que permiten el entrenamiento a gran escala. El inconveniente es el sesgo de posición y presentación, por lo que los métodos tratan los clics como preferencias relativas y aplican cada vez más correcciones de aprendizaje imparciales o contrafactuales.