Was ist der Unterschied zwischen einem M-Schätzer und einem Z-Schätzer?

Ein M-Schätzer maximiert eine Stichproben-Zielfunktion, während ein Z-Schätzer ein System von Schätzgleichungen löst; wenn die Zielfunktion differenzierbar ist, stimmen die beiden überein, da der Maximierer eine Wurzel des Gradienten ist.

Warum ist die Theorie der empirischen Prozesse für maschinelles Lernen wichtig?

Gleichmäßige Grenzwertsätze über Funktionsklassen begrenzen, wie weit der empirische Fehler vom wahren Fehler über alle Kandidatenmodelle abweichen kann, was genau das ist, was Verallgemeinerungsgarantien erfordern.

M-Schätzung und empirische Prozesse

Die M-Schätzung behandelt Schätzer, die durch die Optimierung eines Stichprobenkriteriums definiert werden, als eine einzige Familie, und die Theorie der empirischen Prozesse liefert die benötigten gleichmäßigen Grenzwertsätze zu deren Analyse.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Ein M-Schätzer ist der Maximierer eines Stichprobenmittelwerts einer Kriteriumsfunktion, und ein Z-Schätzer die Wurzel eines Stichprobenmittelwerts einer Schätzfunktion; der empirische Prozess ist die reskalierte Differenz zwischen der empirischen und der wahren Verteilung, indiziert durch eine Klasse von Funktionen.

Scope

Dieses Thema behandelt M-Schätzer, die ein Ziel maximieren, und Z-Schätzer, die Schätzgleichungen lösen, die Vereinheitlichung von Maximum-Likelihood-, Kleinste-Quadrate-, Quantil- und robusten Schätzern, die Konsistenz und asymptotische Normalität von M-Schätzern durch gleichmäßige Konvergenz, die empirische Verteilung und den empirischen Prozess, die schwache Konvergenz zu einem Gaußschen Prozess, Glivenko-Cantelli- und Donsker-Klassen sowie Entropie- und Bracketing-Bedingungen, die die Komplexität steuern.

Core questions

Wie vereinheitlichen M- und Z-Schätzung Maximum-Likelihood-, Kleinste-Quadrate- und robuste Schätzer?
Welche gleichmäßige Konvergenz ist erforderlich, um die Konsistenz und asymptotische Normalität eines M-Schätzers zu beweisen?
Wann konvergiert der empirische Prozess schwach gegen einen Gaußschen Prozess, d.h. wann ist eine Klasse Donsker?
Wie steuern Entropie- und Bracketing-Bedingungen die Komplexität einer Funktionsklasse?

Key theories

M- und Z-Schätzung: Schätzer, die durch Optimierung oder durch Nullsetzen eines Stichprobenmittelwerts definiert sind, teilen eine gemeinsame asymptotische Analyse: Ein gleichmäßiges Gesetz der großen Zahlen liefert Konsistenz, und eine Linearisierung liefert asymptotische Normalität mit einer Sandwich-Varianz.
Schwache Konvergenz empirischer Prozesse: Über einer Donsker-Klasse von Funktionen konvergiert der empirische Prozess schwach gegen einen Gaußschen Prozess, was den zentralen Grenzwertsatz von einer einzelnen Statistik auf eine ganze Funktionsklasse verallgemeinert und die moderne Asymptotik untermauert.

Clinical relevance

Die M-Schätzung liefert die Sandwich- oder robusten Standardfehler, die verwendet werden, wenn ein Modell fehlspezifiziert sein könnte, und die Theorie der empirischen Prozesse bietet die theoretischen Garantien für Verallgemeinerungsgrenzen im statistischen Lernen, wodurch klassische Statistik mit maschinellem Lernen verbunden wird.

History

Huber führte 1964 die M-Schätzung für robuste Statistiken ein. Das Programm der empirischen Prozesse, das von Dudley, Pollard und anderen in den 1970er und 1980er Jahren vorangetrieben und in der Monographie von van der Vaart und Wellner aus dem Jahr 1996 zusammengefasst wurde, lieferte die gleichmäßige Grenztheorie, die heute in der Asymptotik Standard ist.

Key figures

Peter J. Huber
Aad van der Vaart
Richard M. Dudley
Jon A. Wellner

Seminal works

vanderVaart1998

Frequently asked questions

Was ist der Unterschied zwischen einem M-Schätzer und einem Z-Schätzer?: Ein M-Schätzer maximiert eine Stichproben-Zielfunktion, während ein Z-Schätzer ein System von Schätzgleichungen löst; wenn die Zielfunktion differenzierbar ist, stimmen die beiden überein, da der Maximierer eine Wurzel des Gradienten ist.
Warum ist die Theorie der empirischen Prozesse für maschinelles Lernen wichtig?: Gleichmäßige Grenzwertsätze über Funktionsklassen begrenzen, wie weit der empirische Fehler vom wahren Fehler über alle Kandidatenmodelle abweichen kann, was genau das ist, was Verallgemeinerungsgarantien erfordern.