बहु-भुज बन्धु (UCB, थॉम्पसन सैंपलिंग)
बहु-भुज बन्धु (MAB) एक अनुकूली प्रयोगात्मक ढाँचा है जो संचयी पश्चाताप को कम करने के लिए प्रतिस्पर्धी भुजाओं में परीक्षणों को क्रमिक रूप से आवंटित करता है, साथ ही यह भी सीखता है कि कौन सी भुजा सबसे अच्छा प्रदर्शन करती है। इसे 1952 में रॉबिन्स द्वारा औपचारिक रूप दिया गया था और 2002 में ऑवर एट अल. (Auer et al.) द्वारा परिमित-समय की गारंटी दी गई थी, यह अनिश्चित विकल्पों की खोज को वर्तमान में ज्ञात सर्वोत्तम विकल्पों के शोषण के विरुद्ध संतुलित करता है — जब भी प्रारंभिक रोक या लागत-संवेदनशील आवंटन मायने रखता है, तो यह शास्त्रीय A/B परीक्षण से बेहतर प्रदर्शन करता है।
पूरी विधि पढ़ें
यह खंड पढ़ने के लिए निःशुल्क खाते से साइन इन करें।
पद्धति मानचित्र
सम्बन्धित पद्धतियों का परिवेश — अन्वेषण हेतु किसी नोड का चयन करें।
स्रोत
- Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352 ↗
- Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070 ↗
इस पृष्ठ का उद्धरण कैसे दें
ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/hi/experimental-design/multiarm-bandit
कौन-सी पद्धति?
इस पद्धति को उसकी निकटतम सजातीय पद्धतियों के साथ रखकर उन्हें साथ-साथ पढ़ें — पुस्तकालय पुस्तकें मेज़ पर रख देता है; चुनाव आपका है।
- ए/बी परीक्षण (ऑनलाइन नियंत्रित प्रयोग)प्रयोगात्मक अभिकल्प↔ तुलना करें
- अनुकूली नैदानिक परीक्षण डिजाइनप्रयोगात्मक अभिकल्प↔ तुलना करें
- यादृच्छिक नियंत्रित परीक्षण (RCT)प्रयोगात्मक अभिकल्प↔ तुलना करें
- क्रमिक / समूह क्रमिक परीक्षण डिज़ाइनप्रयोगात्मक अभिकल्प↔ तुलना करें