Ist Computer Vision dasselbe wie Bildverarbeitung?

Bildverarbeitung transformiert hauptsächlich Bilder in andere Bilder oder niedrigstufige Beschreibungen, während Computer Vision darauf abzielt, Bilder zu interpretieren, um Szeneninformationen wie 3D-Struktur, Bewegung und Objektidentität wiederherzustellen; Computer Vision baut auf Bildverarbeitung auf.

Warum ist Sehen für Computer schwierig, obwohl es für Menschen einfach ist?

Ein Bild ist eine mehrdeutige Projektion einer 3D-Welt: Viele Szenen können dasselbe Bild erzeugen, und Beleuchtung, Blickwinkel, Verdeckung und Unordnung variieren enorm, sodass die Wiederherstellung der zugrunde liegenden Szene starke Modelle oder große Mengen an gelerntem Vorwissen erfordert.

Computer Vision

Computer Vision ist das Fachgebiet, das sich damit befasst, Maschinen in die Lage zu versetzen, Bilder und Videos zu interpretieren und dabei die Geometrie, Bewegung und den Inhalt der Szenen, die sie erzeugt haben, wiederherzustellen.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Computer Vision ist die Untersuchung von Methoden, die Bilder oder Videos als Eingabe verwenden und Beschreibungen der Szenenstruktur, Bewegung oder des semantischen Inhalts als Ausgabe erzeugen.

Scope

Dieser Bereich umfasst die Geometrie der Bilderzeugung und Kamerakalibrierung, die Wiederherstellung von dreidimensionaler Struktur und Kameraposition aus mehreren Ansichten, die Schätzung von Bewegung und optischem Fluss über die Zeit sowie die Erkennung, Detektion und Lokalisierung von Objekten und Szenen, zunehmend mittels gelernter Modelle.

Sub-topics

Core questions

Wie verknüpft die Geometrie einer Kamera 3D-Szenen mit 2D-Bildern?
Wie können 3D-Struktur und Kamerabewegung aus Bildern wiederhergestellt werden?
Wie wird Bewegung in einer Szene aus einer Videosequenz geschätzt?
Wie werden Objekte und Kategorien in Bildern erkannt und lokalisiert?

Key concepts

Kameraprojektion
Mehrbildgeometrie
3D-Rekonstruktion
Optischer Fluss
Objekterkennung und -detektion
Gelernte visuelle Repräsentationen

Key theories

Projektive Geometrie der Bilderzeugung: Kameras werden als projektive Geräte modelliert, die 3D-Punkte auf Bildpunkte abbilden, und die Beziehungen zwischen mehreren Ansichten werden durch Entitäten wie die Fundamental- und Essentielle Matrix erfasst, die das geometrische Rückgrat der Rekonstruktion bilden.
Sehen als Inferenz der Szenenstruktur: Marr fasste das Sehen als einen rechnerischen Prozess auf, der zunehmend explizite Szenenbeschreibungen aus Bildern wiederherstellt, eine geschichtete Theorie, die prägte, wie das Feld das Problem von frühen Merkmalen bis zu Objekten zerlegt.

Clinical relevance

Computer Vision treibt autonome Fahrzeuge und Robotik, Gesichts- und biometrische Erkennung, medizinische Bilddiagnose, industrielle Inspektion, erweiterte Realität und Bildsuche an und ist eines der aktivsten Anwendungsgebiete des Deep Learning.

History

Computer Vision begann in den 1960er und 1970er Jahren mit Strichzeichnungen und Shape from Shading; Marrs rechnerische Theorie prägte die 1980er Jahre, geometrische Multi-View-Methoden reiften in den 1990er und 2000er Jahren, und tiefe Faltungsnetzwerke transformierten die Erkennung ab den 2010er Jahren.

Debates

Geometrie-getriebene versus lern-getriebene Bildverarbeitung: Die klassische Bildverarbeitung betonte explizite physikalische und geometrische Modelle der Bilderzeugung, während modernes Deep Learning datengesteuerte Repräsentationen bevorzugt; das Feld kombiniert zunehmend beides, indem es geometrische Strukturen in gelernte Systeme einbettet.

Key figures

David Marr
Richard Hartley
Andrew Zisserman

Seminal works

hartley2004
marr1982
szeliski2022

Frequently asked questions

Ist Computer Vision dasselbe wie Bildverarbeitung?: Bildverarbeitung transformiert hauptsächlich Bilder in andere Bilder oder niedrigstufige Beschreibungen, während Computer Vision darauf abzielt, Bilder zu interpretieren, um Szeneninformationen wie 3D-Struktur, Bewegung und Objektidentität wiederherzustellen; Computer Vision baut auf Bildverarbeitung auf.
Warum ist Sehen für Computer schwierig, obwohl es für Menschen einfach ist?: Ein Bild ist eine mehrdeutige Projektion einer 3D-Welt: Viele Szenen können dasselbe Bild erzeugen, und Beleuchtung, Blickwinkel, Verdeckung und Unordnung variieren enorm, sodass die Wiederherstellung der zugrunde liegenden Szene starke Modelle oder große Mengen an gelerntem Vorwissen erfordert.