Avaliação do Usuário e Online
A avaliação do usuário e online mede a qualidade da recuperação através da interação real ou simulada do usuário, utilizando estudos, dados de cliques, testes A/B e intercalação, em vez de julgamentos de relevância fixos.
Definition
A avaliação do usuário e online compreende métodos que avaliam sistemas de recuperação através da interação do usuário, variando desde estudos laboratoriais controlados de desempenho e satisfação da tarefa até experimentos online em larga escala, como testes A/B e intercalação, que comparam sistemas observando o comportamento de usuários reais.
Scope
Este tópico abrange a avaliação centrada nos usuários e seu comportamento: estudos interativos de usuários sobre sucesso e satisfação da tarefa, o uso de sinais implícitos como cliques e tempo de permanência, modelos de cliques que interpretam o comportamento e experimentos online controlados, incluindo testes A/B e intercalação. Aborda como medir o benefício real para o usuário, os vieses dos sinais comportamentais e o design e análise de experimentos online. Complementa a avaliação offline de coleções de teste abordada em tópicos adjacentes.
Core questions
- Como a satisfação real do usuário e o sucesso da tarefa podem ser medidos, em vez de apenas a relevância em relação aos julgamentos?
- Que sinais implícitos os usuários fornecem e quão confiáveis são eles?
- Como os modelos de cliques explicam o viés de posição e apresentação?
- Como os testes A/B e a intercalação comparam sistemas online?
- Por que a intercalação é frequentemente mais sensível que o teste A/B para comparações de classificação?
Key concepts
- estudo interativo do usuário
- sucesso e satisfação da tarefa
- feedback implícito (cliques, tempo de permanência)
- modelos de cliques (posição, cascata)
- viés de posição e apresentação
- teste A/B
- intercalação
- métricas online e sensibilidade
Key theories
- Feedback implícito e modelos de cliques
- Cliques do usuário e outras interações fornecem sinais de relevância abundantes, mas enviesados; modelos de cliques, como os modelos de posição e cascata, formalizam como os usuários examinam os resultados para que os cliques possam ser interpretados como evidência de relevância.
- Experimentação online controlada
- O teste A/B atribui aleatoriamente usuários a variantes do sistema e compara métricas de resultado, enquanto a intercalação combina duas classificações em uma única lista e atribui cliques, frequentemente produzindo comparações mais sensíveis da qualidade da classificação dentro do usuário.
Clinical relevance
A avaliação online é a principal forma pela qual grandes sistemas de busca, recomendação e e-commerce decidem quais mudanças implementar, pois mede o impacto real no usuário. Testes A/B e intercalação, interpretados através de modelos de cliques que corrigem vieses, impulsionam a melhoria contínua da classificação de produção em escala.
History
A avaliação de RI centrada no usuário há muito estuda o comportamento de busca interativa, mas o surgimento da busca na web tornou a avaliação online em larga escala prática. O trabalho de Joachims em 2002 estabeleceu os dados de clickthrough como um sinal de relevância e introduziu a intercalação; a experimentação web controlada amadureceu na indústria ao longo dos anos 2000, e a pesquisa de 2016 consolidou os métodos de avaliação online.
Key figures
- Thorsten Joachims
- Filip Radlinski
- Katja Hofmann
- Ron Kohavi
Related topics
Seminal works
- hofmann2016
- joachims2002
- kohavi2009
Frequently asked questions
- O que é intercalação e por que é usada?
- A intercalação mescla os resultados de dois sistemas de classificação em uma única lista mostrada a cada usuário e atribui cliques a qualquer sistema que contribuiu com cada resultado clicado. Como cada usuário compara efetivamente ambos os sistemas ao mesmo tempo, a intercalação é frequentemente mais sensível que o teste A/B para detectar melhorias na classificação.
- Por que os cliques não podem ser tomados como relevância pura e simples?
- Os usuários tendem a clicar em resultados de classificação mais alta, independentemente da verdadeira relevância (viés de posição), e são influenciados pela forma como os resultados são apresentados. Os modelos de cliques corrigem esses vieses para que os cliques possam ser interpretados como evidência mais confiável de relevância.