ScholarGate
Asisten
Hypothesis test

Multi-Armed Bandit (UCB, Thompson Sampling)

Multi-Armed Bandit (MAB) adalah kerangka kerja eksperimental adaptif yang mengalokasikan percobaan secara sekuensial ke berbagai lengan (arm) yang bersaing untuk meminimalkan penyesalan kumulatif (cumulative regret) sambil secara bersamaan mempelajari lengan mana yang berkinerja terbaik. Diformalisasi oleh Robbins pada tahun 1952 dan diberikan jaminan waktu terbatas oleh Auer dkk. (2002), MAB menyeimbangkan eksplorasi opsi yang tidak pasti terhadap eksploitasi opsi terbaik yang diketahui saat ini — mengungguli pengujian A/B klasik kapan pun penghentian dini atau alokasi yang sensitif terhadap biaya menjadi penting.

Temukan Topik dengan PaperMindSegeraVideoSegeraUnduh salindia

Baca metode selengkapnya

Khusus anggota

Masuk dengan akun gratis untuk membaca bagian ini.

Masuk

Peta metode

Lingkup metode terkait — pilih sebuah simpul untuk menjelajah.

Sumber

  1. Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352
  2. Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070

Cara menyitasi halaman ini

ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/id/experimental-design/multiarm-bandit

Metode yang mana?

Letakkan metode ini berdampingan dengan kerabat terdekatnya dan baca secara bersisian — pustaka menata bukunya di atas meja; pilihan ada di tangan Anda.

Bandingkan berdampingan

Dirujuk oleh

ScholarGateMulti-Armed Bandit (Multi-Armed Bandit (UCB, Thompson Sampling)). Diakses 2026-06-15 dari https://scholargate.app/id/experimental-design/multiarm-bandit · Set data: https://doi.org/10.5281/zenodo.20539026