Wie unterscheidet sich Klassifikation von Clustering?

Klassifikation ist überwacht: Die Gruppen sind im Voraus bekannt und eine gelabelte Trainingsstichprobe ist verfügbar. Clustering ist unüberwacht und entdeckt Gruppierungen ohne vordefinierte Labels.

Warum wird der Fehler an zurückgehaltenen Daten geschätzt?

Der Fehler, der an denselben Daten gemessen wird, die zur Anpassung eines Klassifikators verwendet wurden, ist optimistisch verzerrt, daher sind Out-of-Sample-Schätzungen aus der Kreuzvalidierung oder einem Testsatz erforderlich, um die wahre Vorhersageleistung zu beurteilen.

Klassifikation und Diskriminanzanalyse

Klassifikation und Diskriminanzanalyse umfassen multivariate Methoden, die Beobachtungen anhand gemessener Merkmale und einer Stichprobe von gelabelten Fällen vordefinierten Gruppen zuordnen.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Diskriminanzanalyse und Klassifikation sind die Konstruktion von Regeln, die eine multivariate Beobachtung einer von mehreren bekannten Gruppen zuordnen, um die erwarteten Kosten oder den Fehler einer Fehlklassifikation zu minimieren.

Scope

Dieser Bereich behandelt die überwachte Klassifikation multivariater Beobachtungen. Er umfasst Fishers lineare Diskriminanz und ihre Gauß-Modell-Interpretation, die quadratische Diskriminanzanalyse für ungleiche Gruppenkovarianzen, die logistische Diskriminanz als direktes Modell der Klassenzugehörigkeitswahrscheinlichkeiten und randbasierte Methoden wie Support Vector Machines. Der Fokus liegt auf der Konstruktion, Geometrie und Bewertung von Entscheidungsgrenzen.

Sub-topics

Core questions

Wie sollte eine Beobachtung anhand ihrer gemessenen Merkmale einer von mehreren bekannten Gruppen zugeordnet werden?
Welche Entscheidungsgrenze minimiert die erwarteten Fehlklassifikationskosten?
Wann sind lineare Grenzen ausreichend und wann sind quadratische oder nichtlineare Grenzen erforderlich?
Wie wird die Klassifikatorleistung ohne optimistische Verzerrung geschätzt?

Key theories

Bayes-optimale Klassifikation: Die Zuordnung jeder Beobachtung zur Gruppe mit der höchsten A-posteriori-Wahrscheinlichkeit minimiert den erwarteten Fehlklassifikationsfehler; parametrische Diskriminanzmethoden schätzen diese A-posteriori-Wahrscheinlichkeiten unter Verteilungsannahmen.
Fishers lineare Diskriminanz: Fisher suchte die lineare Kombination von Merkmalen, die die Gruppenmittelwerte relativ zur Streuung innerhalb der Gruppe maximal trennt, was eine Diskriminanzrichtung ergibt, die unter gleichen Gaußschen Kovarianzen mit der Bayes-Regel übereinstimmt.

Clinical relevance

Klassifikationsmethoden werden überall dort eingesetzt, wo Fälle aus multivariaten Messungen in bekannte Kategorien sortiert werden müssen, einschließlich medizinischer Diagnosen, Kreditwürdigkeitsprüfung, Artenidentifikation und Fernerkundungskartierung der Landbedeckung.

History

Das Feld begann mit Fishers linearer Diskriminanz von 1936, angewendet auf taxonomische Messungen. Probabilistische und Gaußsche Formulierungen folgten, die logistische Diskriminanz lieferte ein direktes Modell der Klassenwahrscheinlichkeiten, und die Entwicklung randbasierter und Kernel-Methoden im späten 20. Jahrhundert erweiterte die Klassifikation auf hochdimensionale und nichtlineare Einstellungen.

Debates

Generative versus diskriminative Klassifikation: Generative Methoden wie die Diskriminanzanalyse modellieren die Merkmalsverteilung innerhalb jeder Klasse, während diskriminative Methoden wie die logistische Regression und Support Vector Machines die Grenze oder Klassenwahrscheinlichkeit direkt modellieren; ihre relativen Vorzüge hängen von der Stichprobengröße und davon ab, wie gut Verteilungsannahmen zutreffen.

Key figures

Ronald A. Fisher
Vladimir Vapnik

Seminal works

fisher1936
hastie2009
johnson2007

Frequently asked questions

Wie unterscheidet sich Klassifikation von Clustering?: Klassifikation ist überwacht: Die Gruppen sind im Voraus bekannt und eine gelabelte Trainingsstichprobe ist verfügbar. Clustering ist unüberwacht und entdeckt Gruppierungen ohne vordefinierte Labels.
Warum wird der Fehler an zurückgehaltenen Daten geschätzt?: Der Fehler, der an denselben Daten gemessen wird, die zur Anpassung eines Klassifikators verwendet wurden, ist optimistisch verzerrt, daher sind Out-of-Sample-Schätzungen aus der Kreuzvalidierung oder einem Testsatz erforderlich, um die wahre Vorhersageleistung zu beurteilen.