ScholarGate
עוזר
Hypothesis test

רב-זרועי (UCB, Thompson Sampling)

הבעיה של 'רב-זרועי' (Multi-Armed Bandit, MAB) היא מסגרת ניסויית אדפטיבית המקצה ניסיונות באופן סדרתי בין זרועות מתחרות כדי למזער את החרטה המצטברת תוך כדי למידה איזו זרוע מניבה את התוצאות הטובות ביותר. הבעיה פורמלה על ידי רובינס (Robbins) ב-1952 וניתנו לה ערבויות לזמן סופי על ידי Auer ואח' (2002). היא מאזנת בין חקירה (exploration) של אפשרויות לא ודאיות לבין ניצול (exploitation) של האפשרויות הידועות כטובות ביותר כעת — ומשיגה ביצועים עדיפים על פני מבחני A/B קלאסיים כאשר עצירה מוקדמת או הקצאה רגישה לעלות חשובות.

מציאת נושא עם PaperMindבקרובוידאובקרובהורדת מצגת

קראו את השיטה במלואה

לחברים בלבד

התחברו עם חשבון חינמי כדי לקרוא חלק זה.

התחברות

מפת שיטות

סביבת השיטות הקרובות — בחרו צומת כדי לחקור.

מקורות

  1. Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352
  2. Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070

איך לצטט עמוד זה

ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/he/experimental-design/multiarm-bandit

איזו שיטה?

הציבו שיטה זו לצד קרובותיה הקרובות וקראו אותן זו לצד זו — הספרייה מניחה את הספרים על השולחן; הבחירה בידיכם.

השוואה זה לצד זה

מאוזכר על ידי

ScholarGateMulti-Armed Bandit (Multi-Armed Bandit (UCB, Thompson Sampling)). אוחזר בתאריך 2026-06-15 מתוך https://scholargate.app/he/experimental-design/multiarm-bandit · מערך נתונים: https://doi.org/10.5281/zenodo.20539026