רב-זרועי (UCB, Thompson Sampling)
הבעיה של 'רב-זרועי' (Multi-Armed Bandit, MAB) היא מסגרת ניסויית אדפטיבית המקצה ניסיונות באופן סדרתי בין זרועות מתחרות כדי למזער את החרטה המצטברת תוך כדי למידה איזו זרוע מניבה את התוצאות הטובות ביותר. הבעיה פורמלה על ידי רובינס (Robbins) ב-1952 וניתנו לה ערבויות לזמן סופי על ידי Auer ואח' (2002). היא מאזנת בין חקירה (exploration) של אפשרויות לא ודאיות לבין ניצול (exploitation) של האפשרויות הידועות כטובות ביותר כעת — ומשיגה ביצועים עדיפים על פני מבחני A/B קלאסיים כאשר עצירה מוקדמת או הקצאה רגישה לעלות חשובות.
קראו את השיטה במלואה
התחברו עם חשבון חינמי כדי לקרוא חלק זה.
מפת שיטות
סביבת השיטות הקרובות — בחרו צומת כדי לחקור.
מקורות
- Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352 ↗
- Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070 ↗
איך לצטט עמוד זה
ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/he/experimental-design/multiarm-bandit
איזו שיטה?
הציבו שיטה זו לצד קרובותיה הקרובות וקראו אותן זו לצד זו — הספרייה מניחה את הספרים על השולחן; הבחירה בידיכם.
- מבחן A/B (ניסוי מבוקר מקוון)תכנון ניסויים↔ השוואה
- תכנון ניסויים קליניים אדפטיבייםתכנון ניסויים↔ השוואה
- ניסוי מבוקר אקראי (RCT)תכנון ניסויים↔ השוואה
- תכנון ניסויים עוקבים / עוקבים מקובציםתכנון ניסויים↔ השוואה