ScholarGate
دستیار
Hypothesis test

باندیت چند-بازویی (UCB، نمونه‌گیری تامپسون)

باندیت چند-بازویی (MAB) یک چارچوب آزمایشی تطبیقی است که آزمایش‌ها را به صورت متوالی در میان بازوهای رقیب تخصیص می‌دهد تا زیان تجمعی را به حداقل برساند و همزمان یاد بگیرد کدام بازو بهترین عملکرد را دارد. این چارچوب که توسط رابینز در سال ۱۹۵۲ فرمول‌بندی شد و توسط اور و همکاران (۲۰۰۲) تضمین‌های زمانی محدود برای آن ارائه شد، بین اکتشاف گزینه‌های نامطمئن و بهره‌برداری از بهترین گزینه‌های شناخته شده فعلی تعادل برقرار می‌کند — و در مواردی که توقف زودهنگام یا تخصیص حساس به هزینه اهمیت دارد، از تست A/B کلاسیک بهتر عمل می‌کند.

یافتن موضوع با PaperMindبه‌زودیویدیوبه‌زودیدریافت اسلایدها

مطالعهٔ کامل روش

ویژهٔ اعضا

برای خواندن این بخش با حساب رایگان وارد شوید.

ورود

نقشهٔ روش

همسایگی روش‌های مرتبط — برای کاوش، یک گره را برگزینید.

منابع

  1. Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352
  2. Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070

نحوهٔ استناد به این صفحه

ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/fa/experimental-design/multiarm-bandit

کدام روش؟

این روش را در کنار نزدیک‌ترین روش‌های خویشاوندش بگذارید و آن‌ها را کنار هم بخوانید — کتابخانه کتاب‌ها را روی میز می‌گشاید؛ انتخاب با شماست.

مقایسهٔ کنار هم

ارجاع‌شده در

ScholarGateMulti-Armed Bandit (Multi-Armed Bandit (UCB, Thompson Sampling)). بازیابی‌شده در 2026-06-15 از https://scholargate.app/fa/experimental-design/multiarm-bandit · مجموعه‌داده: https://doi.org/10.5281/zenodo.20539026