باندیت چند-بازویی (UCB، نمونهگیری تامپسون)
باندیت چند-بازویی (MAB) یک چارچوب آزمایشی تطبیقی است که آزمایشها را به صورت متوالی در میان بازوهای رقیب تخصیص میدهد تا زیان تجمعی را به حداقل برساند و همزمان یاد بگیرد کدام بازو بهترین عملکرد را دارد. این چارچوب که توسط رابینز در سال ۱۹۵۲ فرمولبندی شد و توسط اور و همکاران (۲۰۰۲) تضمینهای زمانی محدود برای آن ارائه شد، بین اکتشاف گزینههای نامطمئن و بهرهبرداری از بهترین گزینههای شناخته شده فعلی تعادل برقرار میکند — و در مواردی که توقف زودهنگام یا تخصیص حساس به هزینه اهمیت دارد، از تست A/B کلاسیک بهتر عمل میکند.
مطالعهٔ کامل روش
برای خواندن این بخش با حساب رایگان وارد شوید.
نقشهٔ روش
همسایگی روشهای مرتبط — برای کاوش، یک گره را برگزینید.
منابع
- Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352 ↗
- Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070 ↗
نحوهٔ استناد به این صفحه
ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/fa/experimental-design/multiarm-bandit
کدام روش؟
این روش را در کنار نزدیکترین روشهای خویشاوندش بگذارید و آنها را کنار هم بخوانید — کتابخانه کتابها را روی میز میگشاید؛ انتخاب با شماست.
- آزمون A/B (آزمایش کنترلشده آنلاین)طراحی آزمایش↔ مقایسه
- طراحی کارآزمایی بالینی تطبیقیطراحی آزمایش↔ مقایسه
- آزمایش تصادفی کنترلشده (RCT)طراحی آزمایش↔ مقایسه
- طراحی کارآزماییهای ترتیبی / گروهی ترتیبیطراحی آزمایش↔ مقایسه
ارجاعشده در
در این صفحه مشکلی دیدید؟ گزارش دهید یا اصلاحی پیشنهاد کنید →