Computer Vision
Computer Vision ist das Fachgebiet, das sich damit befasst, Maschinen in die Lage zu versetzen, Bilder und Videos zu interpretieren und dabei die Geometrie, Bewegung und den Inhalt der Szenen, die sie erzeugt haben, wiederherzustellen.
Definition
Computer Vision ist die Untersuchung von Methoden, die Bilder oder Videos als Eingabe verwenden und Beschreibungen der Szenenstruktur, Bewegung oder des semantischen Inhalts als Ausgabe erzeugen.
Scope
Dieser Bereich umfasst die Geometrie der Bilderzeugung und Kamerakalibrierung, die Wiederherstellung von dreidimensionaler Struktur und Kameraposition aus mehreren Ansichten, die Schätzung von Bewegung und optischem Fluss über die Zeit sowie die Erkennung, Detektion und Lokalisierung von Objekten und Szenen, zunehmend mittels gelernter Modelle.
Sub-topics
Core questions
- Wie verknüpft die Geometrie einer Kamera 3D-Szenen mit 2D-Bildern?
- Wie können 3D-Struktur und Kamerabewegung aus Bildern wiederhergestellt werden?
- Wie wird Bewegung in einer Szene aus einer Videosequenz geschätzt?
- Wie werden Objekte und Kategorien in Bildern erkannt und lokalisiert?
Key concepts
- Kameraprojektion
- Mehrbildgeometrie
- 3D-Rekonstruktion
- Optischer Fluss
- Objekterkennung und -detektion
- Gelernte visuelle Repräsentationen
Key theories
- Projektive Geometrie der Bilderzeugung
- Kameras werden als projektive Geräte modelliert, die 3D-Punkte auf Bildpunkte abbilden, und die Beziehungen zwischen mehreren Ansichten werden durch Entitäten wie die Fundamental- und Essentielle Matrix erfasst, die das geometrische Rückgrat der Rekonstruktion bilden.
- Sehen als Inferenz der Szenenstruktur
- Marr fasste das Sehen als einen rechnerischen Prozess auf, der zunehmend explizite Szenenbeschreibungen aus Bildern wiederherstellt, eine geschichtete Theorie, die prägte, wie das Feld das Problem von frühen Merkmalen bis zu Objekten zerlegt.
Clinical relevance
Computer Vision treibt autonome Fahrzeuge und Robotik, Gesichts- und biometrische Erkennung, medizinische Bilddiagnose, industrielle Inspektion, erweiterte Realität und Bildsuche an und ist eines der aktivsten Anwendungsgebiete des Deep Learning.
History
Computer Vision begann in den 1960er und 1970er Jahren mit Strichzeichnungen und Shape from Shading; Marrs rechnerische Theorie prägte die 1980er Jahre, geometrische Multi-View-Methoden reiften in den 1990er und 2000er Jahren, und tiefe Faltungsnetzwerke transformierten die Erkennung ab den 2010er Jahren.
Debates
- Geometrie-getriebene versus lern-getriebene Bildverarbeitung
- Die klassische Bildverarbeitung betonte explizite physikalische und geometrische Modelle der Bilderzeugung, während modernes Deep Learning datengesteuerte Repräsentationen bevorzugt; das Feld kombiniert zunehmend beides, indem es geometrische Strukturen in gelernte Systeme einbettet.
Key figures
- David Marr
- Richard Hartley
- Andrew Zisserman
Related topics
Seminal works
- hartley2004
- marr1982
- szeliski2022
Frequently asked questions
- Ist Computer Vision dasselbe wie Bildverarbeitung?
- Bildverarbeitung transformiert hauptsächlich Bilder in andere Bilder oder niedrigstufige Beschreibungen, während Computer Vision darauf abzielt, Bilder zu interpretieren, um Szeneninformationen wie 3D-Struktur, Bewegung und Objektidentität wiederherzustellen; Computer Vision baut auf Bildverarbeitung auf.
- Warum ist Sehen für Computer schwierig, obwohl es für Menschen einfach ist?
- Ein Bild ist eine mehrdeutige Projektion einer 3D-Welt: Viele Szenen können dasselbe Bild erzeugen, und Beleuchtung, Blickwinkel, Verdeckung und Unordnung variieren enorm, sodass die Wiederherstellung der zugrunde liegenden Szene starke Modelle oder große Mengen an gelerntem Vorwissen erfordert.