Multi-Armed Bandit (UCB, Thompson Sampling)
Multi-Armed Bandit (MAB) adalah kerangka kerja eksperimental adaptif yang mengalokasikan percobaan secara sekuensial ke berbagai lengan (arm) yang bersaing untuk meminimalkan penyesalan kumulatif (cumulative regret) sambil secara bersamaan mempelajari lengan mana yang berkinerja terbaik. Diformalisasi oleh Robbins pada tahun 1952 dan diberikan jaminan waktu terbatas oleh Auer dkk. (2002), MAB menyeimbangkan eksplorasi opsi yang tidak pasti terhadap eksploitasi opsi terbaik yang diketahui saat ini — mengungguli pengujian A/B klasik kapan pun penghentian dini atau alokasi yang sensitif terhadap biaya menjadi penting.
Baca metode selengkapnya
Masuk dengan akun gratis untuk membaca bagian ini.
Peta metode
Lingkup metode terkait — pilih sebuah simpul untuk menjelajah.
Sumber
- Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352 ↗
- Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070 ↗
Cara menyitasi halaman ini
ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/id/experimental-design/multiarm-bandit
Metode yang mana?
Letakkan metode ini berdampingan dengan kerabat terdekatnya dan baca secara bersisian — pustaka menata bukunya di atas meja; pilihan ada di tangan Anda.
- Uji-A/B (Eksperimen Terkendali Daring)Desain Eksperimen↔ bandingkan
- Desain Uji Klinis AdaptifDesain Eksperimen↔ bandingkan
- Uji Coba Terkendali Acak (RCT)Desain Eksperimen↔ bandingkan
- Desain Uji Coba Sekuensial / Sekuensial KelompokDesain Eksperimen↔ bandingkan
Dirujuk oleh
Menemukan masalah di halaman ini? Laporkan atau usulkan perbaikan →