Vision par ordinateur
La vision par ordinateur est le domaine qui vise à permettre aux machines d'interpréter les images et les vidéos, en récupérant la géométrie, le mouvement et le contenu des scènes qui les ont produites.
Definition
La vision par ordinateur est l'étude des méthodes qui prennent des images ou des vidéos en entrée et produisent en sortie des descriptions de la structure de la scène, du mouvement ou du contenu sémantique.
Scope
Ce domaine couvre la géométrie de la formation des images et le calibrage des caméras, la récupération de la structure tridimensionnelle et de la pose de la caméra à partir de vues multiples, l'estimation du mouvement et du flux optique au fil du temps, ainsi que la reconnaissance, la détection et la localisation d'objets et de scènes, de plus en plus via des modèles appris.
Sub-topics
Core questions
- Comment la géométrie d'une caméra relie-t-elle les scènes 3D aux images 2D ?
- Comment la structure 3D et le mouvement de la caméra peuvent-ils être récupérés à partir d'images ?
- Comment le mouvement dans une scène est-il estimé à partir d'une séquence vidéo ?
- Comment les objets et les catégories sont-ils reconnus et localisés dans les images ?
Key concepts
- Projection de caméra
- Géométrie multi-vues
- Reconstruction 3D
- Flux optique
- Reconnaissance et détection d'objets
- Représentations visuelles apprises
Key theories
- Géométrie projective de la formation d'images
- Les caméras sont modélisées comme des dispositifs projectifs qui mappent les points 3D sur des points d'image, et les relations entre plusieurs vues sont capturées par des entités telles que les matrices fondamentale et essentielle, fournissant l'ossature géométrique de la reconstruction.
- La vision comme inférence de la structure de la scène
- Marr a conceptualisé la vision comme un processus computationnel récupérant des descriptions de scène de plus en plus explicites à partir d'images, une théorie stratifiée qui a façonné la manière dont le domaine décompose le problème, des caractéristiques initiales aux objets.
Clinical relevance
La vision par ordinateur alimente les véhicules autonomes et la robotique, la reconnaissance faciale et biométrique, le diagnostic par imagerie médicale, l'inspection industrielle, la réalité augmentée et la recherche d'images, et elle constitue l'un des domaines d'application les plus actifs de l'apprentissage profond.
History
La vision par ordinateur a débuté dans les années 1960 et 1970 avec les dessins au trait et la forme à partir de l'ombrage (shape from shading) ; la théorie computationnelle de Marr a façonné les années 1980, les méthodes géométriques multi-vues ont mûri dans les années 1990 et 2000, et les réseaux convolutifs profonds ont transformé la reconnaissance à partir des années 2010.
Debates
- Vision basée sur la géométrie versus vision basée sur l'apprentissage
- La vision classique mettait l'accent sur des modèles physiques et géométriques explicites de la formation d'images, tandis que l'apprentissage profond moderne privilégie les représentations basées sur les données ; le domaine combine de plus en plus les deux, en intégrant la structure géométrique dans les systèmes appris.
Key figures
- David Marr
- Richard Hartley
- Andrew Zisserman
Related topics
Seminal works
- hartley2004
- marr1982
- szeliski2022
Frequently asked questions
- La vision par ordinateur est-elle identique au traitement d'images ?
- Le traitement d'images transforme principalement les images en d'autres images ou en descriptions de bas niveau, tandis que la vision par ordinateur vise à interpréter les images pour récupérer des informations sur la scène, telles que la structure 3D, le mouvement et l'identité des objets ; la vision s'appuie sur le traitement d'images.
- Pourquoi la vision est-elle difficile pour les ordinateurs alors qu'elle est facile pour les humains ?
- Une image est une projection ambiguë d'un monde 3D : de nombreuses scènes peuvent produire la même image, et l'éclairage, le point de vue, l'occlusion et l'encombrement varient énormément, de sorte que la récupération de la scène sous-jacente nécessite des modèles robustes ou de grandes quantités de connaissances préalables apprises.