Bandido Multi-Brazo (UCB, Muestreo de Thompson)
El bandido multi-brazo (MAB, por sus siglas en inglés) es un marco experimental adaptativo que asigna ensayos secuencialmente entre brazos competidores para minimizar el arrepentimiento acumulado mientras aprende simultáneamente qué brazo funciona mejor. Formalizado por Robbins en 1952 y con garantías de tiempo finito por Auer et al. (2002), equilibra la exploración de opciones inciertas con la explotación de las opciones actualmente conocidas como mejores, superando las pruebas A/B clásicas siempre que la detención temprana o la asignación sensible al costo sean importantes.
Leer el método completo
Inicia sesión con una cuenta gratuita para leer esta sección.
Mapa de métodos
El vecindario de métodos relacionados: selecciona un nodo para explorarlo.
Fuentes
- Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352 ↗
- Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070 ↗
Cómo citar esta página
ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/es/experimental-design/multiarm-bandit
¿Qué método?
Coloca este método junto a sus parientes más cercanos y léelos lado a lado: la biblioteca pone los libros sobre la mesa; la elección es tuya.
- Prueba A/B (Experimento Controlado en Línea)Diseño experimental↔ comparar
- Diseño Adaptativo de Ensayos ClínicosDiseño experimental↔ comparar
- Ensayo Controlado Aleatorizado (ECA)Diseño experimental↔ comparar
- Diseño de Ensayos Secuenciales / Secuenciales GrupalesDiseño experimental↔ comparar
Citado por
¿Has visto un problema en esta página? Infórmanos o sugiere una corrección →