Multi-Armed Bandit (UCB, Thompson Sampling)
Der Multi-Armed Bandit (MAB) ist ein adaptives experimentelles Framework, das Versuche sequenziell über konkurrierende Arme verteilt, um die kumulative Bedauern zu minimieren und gleichzeitig zu lernen, welcher Arm am besten abschneidet. Formalisiert von Robbins im Jahr 1952 und mit Endzeitgarantien von Auer et al. (2002) versehen, balanciert er die Exploration unsicherer Optionen gegen die Ausbeutung der derzeit bekannten besten Optionen aus – und übertrifft damit klassische A/B-Tests, wann immer ein frühzeitiger Abbruch oder eine kostenempfindliche Allokation wichtig ist.
Die vollständige Methode lesen
Melden Sie sich mit einem kostenlosen Konto an, um diesen Abschnitt zu lesen.
Methodenkarte
Die Nachbarschaft verwandter Methoden — wählen Sie einen Knoten, um sie zu erkunden.
Quellen
- Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352 ↗
- Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070 ↗
So zitieren Sie diese Seite
ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/de/experimental-design/multiarm-bandit
Welche Methode?
Stellen Sie diese Methode neben ihre nächsten Verwandten und lesen Sie sie nebeneinander — die Bibliothek legt die Bücher auf den Tisch; die Wahl liegt bei Ihnen.
- A/B-Test (Online kontrolliertes Experiment)Versuchsplanung↔ vergleichen
- Adaptive Clinical Trial DesignVersuchsplanung↔ vergleichen
- Randomisierte kontrollierte Studie (RCT)Versuchsplanung↔ vergleichen
- Sequentielle / Gruppensequentielle StudiendesignsVersuchsplanung↔ vergleichen
Referenziert von
Einen Fehler auf dieser Seite entdeckt? Melden oder Korrektur vorschlagen →