O que é intercalação e por que é usada?

A intercalação mescla os resultados de dois sistemas de classificação em uma única lista mostrada a cada usuário e atribui cliques a qualquer sistema que contribuiu com cada resultado clicado. Como cada usuário compara efetivamente ambos os sistemas ao mesmo tempo, a intercalação é frequentemente mais sensível que o teste A/B para detectar melhorias na classificação.

Por que os cliques não podem ser tomados como relevância pura e simples?

Os usuários tendem a clicar em resultados de classificação mais alta, independentemente da verdadeira relevância (viés de posição), e são influenciados pela forma como os resultados são apresentados. Os modelos de cliques corrigem esses vieses para que os cliques possam ser interpretados como evidência mais confiável de relevância.

Avaliação do Usuário e Online

A avaliação do usuário e online mede a qualidade da recuperação através da interação real ou simulada do usuário, utilizando estudos, dados de cliques, testes A/B e intercalação, em vez de julgamentos de relevância fixos.

Encontrar tema com PaperMindEm breveFind papers & topics

Tools & resources

Baixar slides

Learn & explore

VídeoEm breve

Definition

A avaliação do usuário e online compreende métodos que avaliam sistemas de recuperação através da interação do usuário, variando desde estudos laboratoriais controlados de desempenho e satisfação da tarefa até experimentos online em larga escala, como testes A/B e intercalação, que comparam sistemas observando o comportamento de usuários reais.

Scope

Este tópico abrange a avaliação centrada nos usuários e seu comportamento: estudos interativos de usuários sobre sucesso e satisfação da tarefa, o uso de sinais implícitos como cliques e tempo de permanência, modelos de cliques que interpretam o comportamento e experimentos online controlados, incluindo testes A/B e intercalação. Aborda como medir o benefício real para o usuário, os vieses dos sinais comportamentais e o design e análise de experimentos online. Complementa a avaliação offline de coleções de teste abordada em tópicos adjacentes.

Core questions

Como a satisfação real do usuário e o sucesso da tarefa podem ser medidos, em vez de apenas a relevância em relação aos julgamentos?
Que sinais implícitos os usuários fornecem e quão confiáveis são eles?
Como os modelos de cliques explicam o viés de posição e apresentação?
Como os testes A/B e a intercalação comparam sistemas online?
Por que a intercalação é frequentemente mais sensível que o teste A/B para comparações de classificação?

Key concepts

estudo interativo do usuário
sucesso e satisfação da tarefa
feedback implícito (cliques, tempo de permanência)
modelos de cliques (posição, cascata)
viés de posição e apresentação
teste A/B
intercalação
métricas online e sensibilidade

Key theories

Feedback implícito e modelos de cliques: Cliques do usuário e outras interações fornecem sinais de relevância abundantes, mas enviesados; modelos de cliques, como os modelos de posição e cascata, formalizam como os usuários examinam os resultados para que os cliques possam ser interpretados como evidência de relevância.
Experimentação online controlada: O teste A/B atribui aleatoriamente usuários a variantes do sistema e compara métricas de resultado, enquanto a intercalação combina duas classificações em uma única lista e atribui cliques, frequentemente produzindo comparações mais sensíveis da qualidade da classificação dentro do usuário.

Clinical relevance

A avaliação online é a principal forma pela qual grandes sistemas de busca, recomendação e e-commerce decidem quais mudanças implementar, pois mede o impacto real no usuário. Testes A/B e intercalação, interpretados através de modelos de cliques que corrigem vieses, impulsionam a melhoria contínua da classificação de produção em escala.

History

A avaliação de RI centrada no usuário há muito estuda o comportamento de busca interativa, mas o surgimento da busca na web tornou a avaliação online em larga escala prática. O trabalho de Joachims em 2002 estabeleceu os dados de clickthrough como um sinal de relevância e introduziu a intercalação; a experimentação web controlada amadureceu na indústria ao longo dos anos 2000, e a pesquisa de 2016 consolidou os métodos de avaliação online.

Key figures

Thorsten Joachims
Filip Radlinski
Katja Hofmann
Ron Kohavi

Seminal works

hofmann2016
joachims2002
kohavi2009

Frequently asked questions

O que é intercalação e por que é usada?: A intercalação mescla os resultados de dois sistemas de classificação em uma única lista mostrada a cada usuário e atribui cliques a qualquer sistema que contribuiu com cada resultado clicado. Como cada usuário compara efetivamente ambos os sistemas ao mesmo tempo, a intercalação é frequentemente mais sensível que o teste A/B para detectar melhorias na classificação.
Por que os cliques não podem ser tomados como relevância pura e simples?: Os usuários tendem a clicar em resultados de classificação mais alta, independentemente da verdadeira relevância (viés de posição), e são influenciados pela forma como os resultados são apresentados. Os modelos de cliques corrigem esses vieses para que os cliques possam ser interpretados como evidência mais confiável de relevância.