ScholarGate
Assistent
Hypothesis test

Multi-Armed Bandit (UCB, Thompson Sampling)

Der Multi-Armed Bandit (MAB) ist ein adaptives experimentelles Framework, das Versuche sequenziell über konkurrierende Arme verteilt, um die kumulative Bedauern zu minimieren und gleichzeitig zu lernen, welcher Arm am besten abschneidet. Formalisiert von Robbins im Jahr 1952 und mit Endzeitgarantien von Auer et al. (2002) versehen, balanciert er die Exploration unsicherer Optionen gegen die Ausbeutung der derzeit bekannten besten Optionen aus – und übertrifft damit klassische A/B-Tests, wann immer ein frühzeitiger Abbruch oder eine kostenempfindliche Allokation wichtig ist.

Thema finden mit PaperMindDemnächstVideoDemnächstFolien herunterladen

Die vollständige Methode lesen

Nur für Mitglieder

Melden Sie sich mit einem kostenlosen Konto an, um diesen Abschnitt zu lesen.

Anmelden

Methodenkarte

Die Nachbarschaft verwandter Methoden — wählen Sie einen Knoten, um sie zu erkunden.

Quellen

  1. Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352
  2. Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070

So zitieren Sie diese Seite

ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/de/experimental-design/multiarm-bandit

Welche Methode?

Stellen Sie diese Methode neben ihre nächsten Verwandten und lesen Sie sie nebeneinander — die Bibliothek legt die Bücher auf den Tisch; die Wahl liegt bei Ihnen.

Nebeneinander vergleichen

Referenziert von

ScholarGateMulti-Armed Bandit (Multi-Armed Bandit (UCB, Thompson Sampling)). Abgerufen am 2026-06-15 von https://scholargate.app/de/experimental-design/multiarm-bandit · Datensatz: https://doi.org/10.5281/zenodo.20539026