Aprendizagem para Classificação (Learning to Rank)
A aprendizagem para classificação aplica aprendizado de máquina para construir funções de classificação que combinam muitas características, treinando em dados de relevância rotulados ou feedback do usuário para ordenar documentos melhor do que uma única fórmula ajustada manualmente.
Definition
Aprendizagem para classificação é o uso de métodos de aprendizado de máquina para induzir uma função que ordena um conjunto de documentos para uma consulta por relevância, treinada a partir de exemplos nos quais a relevância relativa ou absoluta dos documentos é conhecida, formulada como regressão ou classificação pontual, aprendizado de preferência pareada ou otimização direta em lista.
Scope
Este tópico abrange abordagens supervisionadas e baseadas em feedback para aprender funções de classificação para recuperação. Ele aborda as formulações pontuais, pareadas e em lista, o uso de rótulos de relevância e dados de cliques (clickthrough data), métodos representativos como RankNet e árvores de classificação impulsionadas por gradiente, e a otimização de métricas baseadas em classificação. Ele trata de como um classificador é aprendido e avaliado como um modelo, enquanto a montagem de características e o pipeline de serviço mais amplo são abordados em classificação de busca na web.
Core questions
- Como os problemas de classificação são formulados como aprendizagem pontual, pareada ou em lista?
- Quais sinais de treinamento, como rótulos de relevância ou dados de cliques, impulsionam a aprendizagem?
- Como as métricas de avaliação baseadas em classificação, que não são diferenciáveis, podem ser otimizadas?
- Como muitas características heterogêneas são combinadas em um único classificador aprendido?
- Como os dados de cliques introduzem viés e como isso pode ser abordado?
Key concepts
- função de classificação
- aprendizagem pontual / pareada / em lista
- rótulos de relevância e relevância graduada
- dados de cliques e feedback implícito
- RankNet e árvores impulsionadas por gradiente
- perda baseada em classificação e otimização de métricas
- combinação de características
- viés de posição
Key theories
- Formulações pontuais, pareadas e em lista
- A classificação pode ser aprendida prevendo a relevância de cada documento independentemente (pontual), aprendendo as ordenações corretas de pares de documentos (pareada), ou otimizando uma perda sobre listas de resultados inteiras (em lista), com esta última alinhando-se mais diretamente com as métricas baseadas em classificação.
- Aprendizagem a partir de dados de cliques
- Os cliques do usuário fornecem feedback de relevância implícito abundante, mas enviesado; tratar os cliques como preferências relativas dentro de uma lista de resultados permite que as funções de classificação sejam treinadas a partir de logs de interação, em vez de apenas rótulos manuais caros.
Clinical relevance
A aprendizagem para classificação é a maneira padrão pela qual os sistemas modernos de busca e recomendação combinam sinais, e classificadores aprendidos por máquina baseados em árvores impulsionadas por gradiente e modelos neurais impulsionam a ordenação de resultados de grandes motores de busca na web, busca em comércio eletrônico e classificação de anúncios.
History
À medida que a busca na web acumulava muitos sinais de classificação, o ajuste manual tornou-se impraticável, motivando a classificação aprendida por máquina. O trabalho de Joachims de 2002 mostrou que os dados de cliques poderiam treinar classificadores; o RankNet de Burges e colegas (2005) introduziu a classificação neural pareada e seus descendentes LambdaRank e LambdaMART; e a pesquisa de Liu de 2009 consolidou o campo em torno dos paradigmas pontual, pareado e em lista.
Key figures
- Tie-Yan Liu
- Christopher Burges
- Thorsten Joachims
Related topics
Seminal works
- liu2009
- burges2005
- joachims2002
Frequently asked questions
- Qual é a diferença entre aprendizagem para classificação pontual, pareada e em lista?
- Métodos pontuais preveem uma pontuação de relevância para cada documento independentemente; métodos pareados aprendem qual de dois documentos deve ter uma classificação mais alta; métodos em lista otimizam uma perda definida sobre uma lista classificada inteira. As abordagens em lista alinham-se mais de perto com as métricas de nível de lista que os usuários realmente se importam.
- Por que usar dados de cliques quando eles são enviesados?
- Os cliques são muito mais baratos e abundantes do que os julgamentos manuais de relevância, permitindo o treinamento em escala. O problema é o viés de posição e apresentação, razão pela qual os métodos tratam os cliques como preferências relativas e aplicam cada vez mais correções de aprendizagem imparciais ou contrafactuais.