ScholarGate
Asistente
Hypothesis test

Bandido Multi-Brazo (UCB, Muestreo de Thompson)

El bandido multi-brazo (MAB, por sus siglas en inglés) es un marco experimental adaptativo que asigna ensayos secuencialmente entre brazos competidores para minimizar el arrepentimiento acumulado mientras aprende simultáneamente qué brazo funciona mejor. Formalizado por Robbins en 1952 y con garantías de tiempo finito por Auer et al. (2002), equilibra la exploración de opciones inciertas con la explotación de las opciones actualmente conocidas como mejores, superando las pruebas A/B clásicas siempre que la detención temprana o la asignación sensible al costo sean importantes.

Encontrar tema con PaperMindPróximamenteVídeoPróximamenteDescargar diapositivas

Leer el método completo

Solo para miembros

Inicia sesión con una cuenta gratuita para leer esta sección.

Iniciar sesión

Mapa de métodos

El vecindario de métodos relacionados: selecciona un nodo para explorarlo.

Fuentes

  1. Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352
  2. Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070

Cómo citar esta página

ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/es/experimental-design/multiarm-bandit

¿Qué método?

Coloca este método junto a sus parientes más cercanos y léelos lado a lado: la biblioteca pone los libros sobre la mesa; la elección es tuya.

Comparar lado a lado

Citado por

ScholarGateMulti-Armed Bandit (Multi-Armed Bandit (UCB, Thompson Sampling)). Recuperado el 2026-06-15 de https://scholargate.app/es/experimental-design/multiarm-bandit · Conjunto de datos: https://doi.org/10.5281/zenodo.20539026