Was ist der Unterschied zwischen Erkennung und Detektion?

Erkennung sagt, was in einem Bild ist, z. B. dass es eine Katze enthält, während Detektion auch sagt, wo, indem sie einen Kasten um jede Katze zieht und sie beschriftet, und kann mehrere Instanzen gleichzeitig finden.

Warum hat Deep Learning die Erkennung so stark verbessert?

Konvolutionale Netzwerke lernen die relevanten visuellen Merkmale direkt aus großen beschrifteten Datensätzen, anstatt sich auf handentworfene zu verlassen, erfassen Muster, die manuell schwer zu spezifizieren sind, und skalieren mit Daten und Rechenleistung.

Objekterkennung und -detektion

Die Objekterkennung bestimmt, was in einem Bild vorhanden ist, und die Objektdetektion lokalisiert zusätzlich jede Instanz mit einem Begrenzungsrahmen oder einer Region.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Objekterkennung ist die Zuweisung von Kategorielabels zu Bildern oder Regionen, und Objektdetektion ist die gemeinsame Aufgabe der Lokalisierung und Beschriftung jeder Objektinstanz in einem Bild.

Scope

Dieses Thema behandelt Bildklassifikation, gleitende Fenster und Region-Proposal-Detektion, den klassischen Boosted-Cascade-Gesichtsdetektor und die Convolutional Neural Networks, die heute die Erkennung dominieren, sowie die Rolle großer beschrifteter Datensätze und Benchmarks bei der Förderung des Fortschritts.

Core questions

Wie wird die Kategorie eines Objekts in einem Bild bestimmt?
Wie werden Objekte lokalisiert und klassifiziert?
Welche Merkmale und Modelle generalisieren über Blickwinkel und Erscheinungsbild hinweg?
Warum haben gelernte Repräsentationen handentworfene Merkmale übertroffen?

Key concepts

Bildklassifikation
Bounding-Box-Detektion
Region Proposals
Boosted Cascades
Convolutional Neural Networks
Benchmark-Datensätze

Key theories

Boosted-Cascade-Detektion: Echtzeit-Detektion wurde durch die Kombination einfacher rechteckiger Merkmale mit einem geboosteten Klassifikator erreicht, der in einer Kaskade angeordnet ist, die Nicht-Objekt-Regionen schnell ablehnt, exemplarisch dargestellt durch den Viola-Jones-Gesichtsdetektor.
Tiefe konvolutionale Erkennung: Auf großen beschrifteten Datensätzen trainierte Convolutional Neural Networks lernen hierarchische visuelle Merkmale End-to-End, wodurch die Erkennungsgenauigkeit erheblich verbessert und gelernte Repräsentationen als dominierender Ansatz etabliert werden.

Clinical relevance

Erkennung und Detektion ermöglichen Gesichtserkennung, Wahrnehmung in autonomen Fahrzeugen und Robotik, medizinische Bilddiagnose, Inhaltsmoderation und Bildsuche, Einzelhandels- und Überwachungsanalysen sowie viele Augmented-Reality-Anwendungen.

History

Die Detektion verlagerte sich von handgefertigten Merkmalen und Boosted Cascades um 2001 zu teilbasierten Modellen, und der Erfolg tiefer Convolutional Networks auf ImageNet im Jahr 2012 löste eine schnelle Umstellung auf gelernte Repräsentationen in Erkennung und Detektion aus.

Debates

Handgefertigte Merkmale versus gelernte Repräsentationen: Jahrzehntelang basierte die Erkennung auf entwickelten Merkmalen wie Gradientenhistogrammen; Deep Learning ersetzte diese durch aus Daten gelernte Merkmale, was Fragen zur Interpretierbarkeit, Daten- und Rechenanforderungen sowie Robustheit aufwirft, die weiterhin aktiv sind.

Key figures

Paul Viola
Michael Jones
Geoffrey Hinton

Seminal works

viola2001
krizhevsky2012

Frequently asked questions

Was ist der Unterschied zwischen Erkennung und Detektion?: Erkennung sagt, was in einem Bild ist, z. B. dass es eine Katze enthält, während Detektion auch sagt, wo, indem sie einen Kasten um jede Katze zieht und sie beschriftet, und kann mehrere Instanzen gleichzeitig finden.
Warum hat Deep Learning die Erkennung so stark verbessert?: Konvolutionale Netzwerke lernen die relevanten visuellen Merkmale direkt aus großen beschrifteten Datensätzen, anstatt sich auf handentworfene zu verlassen, erfassen Muster, die manuell schwer zu spezifizieren sind, und skalieren mit Daten und Rechenleistung.