ScholarGate
Pembantu
Hypothesis test

Multi-Armed Bandit (UCB, Thompson Sampling)

Multi-armed bandit (MAB) ialah kerangka eksperimen adaptif yang memperuntukkan percubaan secara berurutan merentasi lengan bersaing untuk meminimumkan penyesalan kumulatif sambil mempelajari lengan mana yang berprestasi terbaik. Diformalkan oleh Robbins pada tahun 1952 dan diberikan jaminan masa terhingga oleh Auer et al. (2002), ia mengimbangi penerokaan pilihan yang tidak pasti dengan eksploitasi pilihan terbaik yang diketahui — mengatasi ujian A/B klasik apabila penghentian awal atau peruntukan sensitif kos adalah penting.

Cari Topik dengan PaperMindTidak lama lagiVideoTidak lama lagiDownload slides

Baca kaedah sepenuhnya

Ahli sahaja

Log masuk dengan akaun percuma untuk membaca bahagian ini.

Log masuk

Method map

The neighbourhood of related methods — select a node to explore.

Sumber

  1. Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352
  2. Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070

Cara memetik halaman ini

ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/ms/experimental-design/multiarm-bandit

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Dirujuk oleh

ScholarGateMulti-Armed Bandit (Multi-Armed Bandit (UCB, Thompson Sampling)). Dicapai 2026-06-15 daripada https://scholargate.app/ms/experimental-design/multiarm-bandit · Set data: https://doi.org/10.5281/zenodo.20539026