Multi-Armed Bandit (UCB, Thompson Sampling)
Multi-armed bandit (MAB) ialah kerangka eksperimen adaptif yang memperuntukkan percubaan secara berurutan merentasi lengan bersaing untuk meminimumkan penyesalan kumulatif sambil mempelajari lengan mana yang berprestasi terbaik. Diformalkan oleh Robbins pada tahun 1952 dan diberikan jaminan masa terhingga oleh Auer et al. (2002), ia mengimbangi penerokaan pilihan yang tidak pasti dengan eksploitasi pilihan terbaik yang diketahui — mengatasi ujian A/B klasik apabila penghentian awal atau peruntukan sensitif kos adalah penting.
Baca kaedah sepenuhnya
Log masuk dengan akaun percuma untuk membaca bahagian ini.
Method map
The neighbourhood of related methods — select a node to explore.
Sumber
- Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352 ↗
- Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070 ↗
Cara memetik halaman ini
ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/ms/experimental-design/multiarm-bandit
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Ujian A/B (Eksperimen Terkawal Dalam Talian)Reka Bentuk Eksperimen↔ compare
- Reka Bentuk Ujian Klinikal AdaptifReka Bentuk Eksperimen↔ compare
- Ujian Terkawal Rawak (RCT)Reka Bentuk Eksperimen↔ compare
- Reka Bentuk Ujian Berturutan / Kumpulan BerturutanReka Bentuk Eksperimen↔ compare
Dirujuk oleh
Terjumpa masalah pada halaman ini? Laporkan atau cadangkan pembetulan →