Banditi me shumë krahë (UCB, Thompson Sampling)
Problemi i banditi me shumë krahë (MAB) është një kornizë eksperimentale adaptive që alokon provat sekencialisht në krahë konkurrues për të minimizuar humbjen kumulative, ndërkohë që mëson cilin krah performon më mirë. Formalizuar nga Robbins në 1952 dhe me garanci për kohë të fundme nga Auer et al. (2002), ai balancon eksplorimin e opsioneve të pasigurta kundrejt shfrytëzimit të opsioneve aktualisht më të mira të njohura — duke tejkaluar testin klasik A/B kur ndalimi i hershëm ose alokimi i ndjeshëm ndaj kostos ka rëndësi.
Lexoni metodën e plotë
Hyni me një llogari falas për ta lexuar këtë seksion.
Harta e metodave
Lagjja e metodave të lidhura — zgjidhni një nyje për të eksploruar.
Burimet
- Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352 ↗
- Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070 ↗
Si ta citoni këtë faqe
ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/sq/experimental-design/multiarm-bandit
Cila metodë?
Vendoseni këtë metodë pranë të afërmeve të saj më të ngushta dhe lexojini krah për krah — biblioteka i shtron librat mbi tryezë; zgjedhja është e juaja.
- Test A/B (Eksperiment i Kontrolluar Online)Dizajni eksperimental↔ krahaso
- Dizajni i përshtatshëm i provave klinikeDizajni eksperimental↔ krahaso
- Provë e Kontrolluar e Randomizuar (RCT)Dizajni eksperimental↔ krahaso
- Dizajni i provave sekuese / grup-sekueseDizajni eksperimental↔ krahaso
Cituar nga
Vutë re një problem në këtë faqe? Raportojeni ose sugjeroni një korrigjim →