Quelle est la différence entre la reconnaissance et la détection ?

La reconnaissance indique ce qui se trouve dans une image, par exemple qu'elle contient un chat, tandis que la détection indique également où, en traçant une boîte autour de chaque chat et en l'étiquetant, et peut trouver plusieurs instances à la fois.

Pourquoi l'apprentissage profond a-t-il tant amélioré la reconnaissance ?

Les réseaux convolutifs apprennent les caractéristiques visuelles pertinentes directement à partir de grands ensembles de données étiquetées au lieu de s'appuyer sur des caractéristiques conçues manuellement, capturant des motifs difficiles à spécifier manuellement et s'adaptant avec les données et la puissance de calcul.

Reconnaissance et détection d'objets

La reconnaissance d'objets détermine ce qui est présent dans une image, tandis que la détection d'objets localise en outre chaque instance à l'aide d'une boîte englobante ou d'une région.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

La reconnaissance d'objets est l'attribution d'étiquettes de catégorie à des images ou des régions, et la détection d'objets est la tâche conjointe de localisation et d'étiquetage de chaque instance d'objet dans une image.

Scope

Ce sujet couvre la classification d'images, la détection par fenêtre glissante et par proposition de régions, le détecteur de visages classique à cascade boostée, et les réseaux neuronaux convolutifs qui dominent désormais la reconnaissance, ainsi que le rôle des grands ensembles de données étiquetées et des bancs d'essai dans l'avancement des progrès.

Core questions

Comment la catégorie d'un objet dans une image est-elle déterminée ?
Comment les objets sont-ils localisés et classifiés ?
Quelles caractéristiques et quels modèles se généralisent-ils à travers les points de vue et les apparences ?
Pourquoi les représentations apprises ont-elles supplanté les caractéristiques conçues manuellement ?

Key concepts

Classification d'images
Détection par boîte englobante
Propositions de régions
Cascades boostées
Réseaux neuronaux convolutifs
Ensembles de données de référence

Key theories

Détection par cascade boostée: La détection en temps réel a été réalisée en combinant des caractéristiques rectangulaires simples avec un classifieur boosté arrangé en cascade qui rejette rapidement les régions ne contenant pas d'objet, illustrée par le détecteur de visages de Viola-Jones.
Reconnaissance convolutionnelle profonde: Les réseaux neuronaux convolutifs entraînés sur de grands ensembles de données étiquetées apprennent des caractéristiques visuelles hiérarchiques de bout en bout, améliorant considérablement la précision de la reconnaissance et établissant les représentations apprises comme l'approche dominante.

Clinical relevance

La reconnaissance et la détection permettent la reconnaissance faciale, la perception pour les véhicules autonomes et la robotique, le diagnostic par imagerie médicale, la modération de contenu et la recherche d'images, l'analyse pour le commerce de détail et la surveillance, et de nombreuses applications de réalité augmentée.

History

La détection est passée des caractéristiques conçues manuellement et des cascades boostées vers 2001 aux modèles basés sur les parties, et le succès en 2012 des réseaux neuronaux convolutifs profonds sur ImageNet a déclenché un changement rapide vers des représentations apprises dans les domaines de la reconnaissance et de la détection.

Debates

Caractéristiques conçues manuellement versus représentations apprises: Pendant des décennies, la reconnaissance s'est appuyée sur des caractéristiques conçues manuellement, telles que les histogrammes de gradients ; l'apprentissage profond les a remplacées par des caractéristiques apprises à partir des données, soulevant des questions sur l'interprétabilité, les exigences en matière de données et de calcul, et la robustesse, qui restent d'actualité.

Key figures

Paul Viola
Michael Jones
Geoffrey Hinton

Seminal works

viola2001
krizhevsky2012

Frequently asked questions

Quelle est la différence entre la reconnaissance et la détection ?: La reconnaissance indique ce qui se trouve dans une image, par exemple qu'elle contient un chat, tandis que la détection indique également où, en traçant une boîte autour de chaque chat et en l'étiquetant, et peut trouver plusieurs instances à la fois.
Pourquoi l'apprentissage profond a-t-il tant amélioré la reconnaissance ?: Les réseaux convolutifs apprennent les caractéristiques visuelles pertinentes directement à partir de grands ensembles de données étiquetées au lieu de s'appuyer sur des caractéristiques conçues manuellement, capturant des motifs difficiles à spécifier manuellement et s'adaptant avec les données et la puissance de calcul.