ScholarGate
Βοηθός
Hypothesis test

Πολυβραχίονες Κλέφτες (UCB, Δειγματοληψία Thompson)

Ο πολυβραχίωνας κλέφτης (MAB) είναι ένα προσαρμοστικό πειραματικό πλαίσιο που κατανέμει δοκιμές διαδοχικά σε ανταγωνιστικούς βραχίονες για την ελαχιστοποίηση του σωρευτικού απωλεσθέντος, ενώ ταυτόχρονα μαθαίνει ποιος βραχίονας αποδίδει καλύτερα. Τυποποιημένο από τον Robbins το 1952 και με εγγυήσεις πεπερασμένου χρόνου από τους Auer et al. (2002), εξισορροπεί την εξερεύνηση αβέβαιων επιλογών έναντι της εκμετάλλευσης των επί του παρόντος γνωστών καλύτερων επιλογών — υπεραποδίδοντας έναντι των κλασικών δοκιμών Α/Β όποτε η πρόωρη διακοπή ή η ευαίσθητη στο κόστος κατανομή έχει σημασία.

Εύρεση θέματος με το PaperMindΣύντομαΒίντεοΣύντομαΛήψη διαφανειών

Διαβάστε ολόκληρη τη μέθοδο

Μόνο για μέλη

Συνδεθείτε με δωρεάν λογαριασμό για να διαβάσετε αυτή την ενότητα.

Σύνδεση

Χάρτης μεθόδων

Η γειτονιά των σχετιζόμενων μεθόδων — επιλέξτε έναν κόμβο για εξερεύνηση.

Πηγές

  1. Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352
  2. Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070

Πώς να παραπέμψετε σε αυτή τη σελίδα

ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/el/experimental-design/multiarm-bandit

Ποια μέθοδος;

Τοποθετήστε αυτή τη μέθοδο δίπλα στις πιο συγγενείς της και διαβάστε τις παράλληλα — η βιβλιοθήκη απλώνει τα βιβλία στο τραπέζι· η επιλογή είναι δική σας.

Συγκρίνετε παράλληλα

Αναφέρεται από

ScholarGateMulti-Armed Bandit (Multi-Armed Bandit (UCB, Thompson Sampling)). Ανακτήθηκε στις 2026-06-15 από https://scholargate.app/el/experimental-design/multiarm-bandit · Σύνολο δεδομένων: https://doi.org/10.5281/zenodo.20539026