Warum wird eine Markov-Kette verwendet, um Stichproben zu ziehen?

Für hochdimensionale oder unnormalisierte Zielverteilungen ist eine direkte Stichprobenziehung undurchführbar; eine Markov-Kette, die gegen das Ziel konvergiert, ermöglicht es, abhängige, aber korrekt verteilte Stichproben zu generieren, nachdem sie das Gleichgewicht erreicht hat.

Es ist der anfängliche Teil der Kette, der verworfen wird, weil die Kette noch nicht zu ihrer stationären Verteilung konvergiert ist, sodass diese frühen Zustände die Schätzungen verzerren würden.

Markov-Kette-Monte-Carlo

Markov-Kette-Monte-Carlo (MCMC) entnimmt Stichproben aus einer komplexen Zielverteilung, indem eine Markov-Kette simuliert wird, die so konstruiert ist, dass sie diese Verteilung als ihre eindeutige stationäre Gesetzmäßigkeit besitzt.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Markov-Kette-Monte-Carlo ist eine Familie von Algorithmen, die Erwartungswerte unter einer Zielwahrscheinlichkeitsverteilung schätzen, indem eine ergodische Markov-Kette ausgeführt wird, deren stationäre Verteilung das Ziel ist, und eine Funktion über den Pfad der Kette gemittelt wird.

Scope

Dieses Thema behandelt den Entwurf von Übergangskernen mit einer vorgegebenen stationären Verteilung, den Metropolis-Hastings-Algorithmus und seine Akzeptanzregel, den Gibbs-Sampler für bedingte Aktualisierungen, Konvergenzdiagnosen und Burn-in, den Einfluss der Autokorrelation auf die Varianz des Schätzers sowie den Zusammenhang zwischen Mischzeiten und den Rechenkosten der Stichprobenziehung.

Core questions

Wie wird eine Markov-Kette konstruiert, um eine gewünschte stationäre Verteilung zu haben?
Warum erzeugt die Metropolis-Hastings-Akzeptanzregel die korrekte stationäre Gesetzmäßigkeit?
Wie nutzt der Gibbs-Sampler bedingte Verteilungen aus?
Wie lange muss eine Kette laufen, bevor ihre Stichproben verwendbar sind, und wie wird dies beurteilt?

Key theories

Metropolis-Hastings-Konstruktion: Das Vorschlagen von Bewegungen aus einem beliebigen Kernel und deren Akzeptanz mit einer Wahrscheinlichkeit, die aus dem Verhältnis der Zieldichte gebildet wird, erzeugt eine reversible Kette, deren stationäre Verteilung genau das Ziel ist, wobei nur das Ziel bis auf eine Normierungskonstante benötigt wird.
Ergodische Mittelwerte und Monte-Carlo-Schätzung: Da die Kette ergodisch ist und die Zielverteilung als ihre stationäre Gesetzmäßigkeit hat, konvergieren Zeitmittelwerte einer Funktion entlang der Kette fast sicher zum Zielerwartungswert, was die Verwendung simulierter Pfade als Stichproben rechtfertigt.

Clinical relevance

Markov-Kette-Monte-Carlo ist das Kernstück der modernen Bayes'schen Statistik, der statistischen Physik und des maschinellen Lernens. Sie ermöglicht Inferenz über hochdimensionale Posterior-Verteilungen, Zustandssummen und Energielandschaften, die nicht analytisch integriert werden können. Ihre Zuverlässigkeit hängt davon ab, dass die zugrunde liegende Kette schnell genug mischt.

History

Die Akzeptanz-Ablehnungs-Kette entstand im Metropolis-Algorithmus von 1953 für die statistische Physik, wurde 1970 von Hastings verallgemeinert und für die Statistik durch den Gibbs-Sampler von Geman und Geman im Jahr 1984 sowie die einflussreichen Bayes'schen Anwendungen von Gelfand und Smith um 1990 neu formuliert, was die rechnergestützte Bayes'sche Revolution einleitete.

Key figures

Nicholas Metropolis
W. Keith Hastings
Stuart Geman
Donald Geman

Seminal works

robertCasella2004
hastings1970

Frequently asked questions

Warum wird eine Markov-Kette verwendet, um Stichproben zu ziehen?: Für hochdimensionale oder unnormalisierte Zielverteilungen ist eine direkte Stichprobenziehung undurchführbar; eine Markov-Kette, die gegen das Ziel konvergiert, ermöglicht es, abhängige, aber korrekt verteilte Stichproben zu generieren, nachdem sie das Gleichgewicht erreicht hat.
Was ist Burn-in?: Es ist der anfängliche Teil der Kette, der verworfen wird, weil die Kette noch nicht zu ihrer stationären Verteilung konvergiert ist, sodass diese frühen Zustände die Schätzungen verzerren würden.