Πολυβραχίονες Κλέφτες (UCB, Δειγματοληψία Thompson)
Ο πολυβραχίωνας κλέφτης (MAB) είναι ένα προσαρμοστικό πειραματικό πλαίσιο που κατανέμει δοκιμές διαδοχικά σε ανταγωνιστικούς βραχίονες για την ελαχιστοποίηση του σωρευτικού απωλεσθέντος, ενώ ταυτόχρονα μαθαίνει ποιος βραχίονας αποδίδει καλύτερα. Τυποποιημένο από τον Robbins το 1952 και με εγγυήσεις πεπερασμένου χρόνου από τους Auer et al. (2002), εξισορροπεί την εξερεύνηση αβέβαιων επιλογών έναντι της εκμετάλλευσης των επί του παρόντος γνωστών καλύτερων επιλογών — υπεραποδίδοντας έναντι των κλασικών δοκιμών Α/Β όποτε η πρόωρη διακοπή ή η ευαίσθητη στο κόστος κατανομή έχει σημασία.
Διαβάστε ολόκληρη τη μέθοδο
Συνδεθείτε με δωρεάν λογαριασμό για να διαβάσετε αυτή την ενότητα.
Χάρτης μεθόδων
Η γειτονιά των σχετιζόμενων μεθόδων — επιλέξτε έναν κόμβο για εξερεύνηση.
Πηγές
- Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352 ↗
- Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070 ↗
Πώς να παραπέμψετε σε αυτή τη σελίδα
ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/el/experimental-design/multiarm-bandit
Ποια μέθοδος;
Τοποθετήστε αυτή τη μέθοδο δίπλα στις πιο συγγενείς της και διαβάστε τις παράλληλα — η βιβλιοθήκη απλώνει τα βιβλία στο τραπέζι· η επιλογή είναι δική σας.
- Δοκιμή A/B (Διαδικτυακό Ελεγχόμενο Πείραμα)Πειραματικός Σχεδιασμός↔ σύγκριση
- Προσαρμοστικός Σχεδιασμός Κλινικών ΔοκιμώνΠειραματικός Σχεδιασμός↔ σύγκριση
- Τυχαιοποιημένη Ελεγχόμενη Δοκιμή (ΤΕΔ)Πειραματικός Σχεδιασμός↔ σύγκριση
- Σχεδιασμός διαδοχικών / ομαδικών διαδοχικών δοκιμώνΠειραματικός Σχεδιασμός↔ σύγκριση
Αναφέρεται από
Εντοπίσατε πρόβλημα σε αυτή τη σελίδα; Αναφέρετέ το ή προτείνετε διόρθωση →