¿Cuál es la diferencia entre reconocimiento y detección?

El reconocimiento dice qué hay en una imagen, como que contiene un gato, mientras que la detección también dice dónde, dibujando un cuadro alrededor de cada gato y etiquetándolo, y puede encontrar varias instancias a la vez.

¿Por qué el aprendizaje profundo mejoró tanto el reconocimiento?

Las redes convolucionales aprenden las características visuales relevantes directamente de grandes conjuntos de datos etiquetados en lugar de depender de las diseñadas a mano, capturando patrones que son difíciles de especificar manualmente y escalando con los datos y la computación.

Reconocimiento y Detección de Objetos

El reconocimiento de objetos determina qué está presente en una imagen, y la detección de objetos localiza adicionalmente cada instancia con un cuadro delimitador o una región.

Encontrar tema con PaperMindPróximamenteFind papers & topics

Tools & resources

Descargar diapositivas

Learn & explore

VídeoPróximamente

Definition

El reconocimiento de objetos es la asignación de etiquetas de categoría a imágenes o regiones, y la detección de objetos es la tarea conjunta de localizar y etiquetar cada instancia de objeto en una imagen.

Scope

Este tema abarca la clasificación de imágenes, la detección por ventana deslizante y propuesta de región, el clásico detector de rostros de cascada potenciada, y las redes neuronales convolucionales que ahora dominan el reconocimiento, junto con el papel de los grandes conjuntos de datos etiquetados y los puntos de referencia en el impulso del progreso.

Core questions

¿Cómo se determina la categoría de un objeto en una imagen?
¿Cómo se localizan y clasifican los objetos?
¿Qué características y modelos se generalizan a través del punto de vista y la apariencia?
¿Por qué las representaciones aprendidas superaron a las características diseñadas a mano?

Key concepts

Clasificación de imágenes
Detección por cuadro delimitador
Propuestas de región
Cascadas potenciadas
Redes neuronales convolucionales
Conjuntos de datos de referencia

Key theories

Detección por cascada potenciada: La detección en tiempo real se logró combinando características rectangulares simples con un clasificador potenciado dispuesto en cascada que rechaza rápidamente las regiones que no son objetos, ejemplificado por el detector facial de Viola-Jones.
Reconocimiento convolucional profundo: Las redes neuronales convolucionales entrenadas en grandes conjuntos de datos etiquetados aprenden características visuales jerárquicas de extremo a extremo, mejorando drásticamente la precisión del reconocimiento y estableciendo las representaciones aprendidas como el enfoque dominante.

Clinical relevance

El reconocimiento y la detección permiten el reconocimiento facial, la percepción en vehículos autónomos y robótica, el diagnóstico por imágenes médicas, la moderación de contenido y la búsqueda de imágenes, el análisis minorista y de vigilancia, y muchas aplicaciones de realidad aumentada.

History

La detección pasó de características artesanales y cascadas potenciadas alrededor de 2001 a modelos basados en partes, y el éxito de las redes convolucionales profundas en ImageNet en 2012 provocó un rápido cambio hacia representaciones aprendidas en el reconocimiento y la detección.

Debates

Características artesanales versus representaciones aprendidas: Durante décadas, el reconocimiento se basó en características diseñadas, como histogramas de gradiente; el aprendizaje profundo las reemplazó con características aprendidas de los datos, lo que plantea preguntas sobre la interpretabilidad, los requisitos de datos y computación, y la robustez que siguen siendo activas.

Key figures

Paul Viola
Michael Jones
Geoffrey Hinton

Seminal works

viola2001
krizhevsky2012

Frequently asked questions

¿Cuál es la diferencia entre reconocimiento y detección?: El reconocimiento dice qué hay en una imagen, como que contiene un gato, mientras que la detección también dice dónde, dibujando un cuadro alrededor de cada gato y etiquetándolo, y puede encontrar varias instancias a la vez.
¿Por qué el aprendizaje profundo mejoró tanto el reconocimiento?: Las redes convolucionales aprenden las características visuales relevantes directamente de grandes conjuntos de datos etiquetados en lugar de depender de las diseñadas a mano, capturando patrones que son difíciles de especificar manualmente y escalando con los datos y la computación.