Banditul cu mai multe brațe (UCB, Eșantionare Thompson)
Banditul cu mai multe brațe (MAB) este un cadru experimental adaptiv care alocă secvențial încercări între brațe concurente pentru a minimiza regretul cumulativ, învățând simultan care braț performează cel mai bine. Formalizat de Robbins în 1952 și având garanții de timp finit oferite de Auer et al. (2002), acesta echilibrează explorarea opțiunilor incerte cu exploatarea celor mai bune opțiuni cunoscute în prezent — depășind testarea A/B clasică ori de câte ori contează oprirea timpurie sau alocarea sensibilă la cost.
Citește metoda completă
Autentifică-te cu un cont gratuit pentru a citi această secțiune.
Harta metodelor
Vecinătatea metodelor înrudite — selectați un nod pentru a explora.
Surse
- Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352 ↗
- Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070 ↗
Cum se citează această pagină
ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/ro/experimental-design/multiarm-bandit
Ce metodă?
Așezați această metodă lângă cele mai apropiate rude și citiți-le alăturat — biblioteca pune cărțile pe masă; alegerea vă aparține.
- Test A/B (Experiment Controlat Online)Design experimental↔ compară
- Concepția adaptativă a studiilor cliniceDesign experimental↔ compară
- Studiul clinic randomizat (SCR)Design experimental↔ compară
- Proiectare secvențială / secvențială de grup a studiuluiDesign experimental↔ compară
Citat de
Ai observat o problemă pe această pagină? Raportează sau sugerează o corectură →