Reconocimiento y Detección de Objetos
El reconocimiento de objetos determina qué está presente en una imagen, y la detección de objetos localiza adicionalmente cada instancia con un cuadro delimitador o una región.
Definition
El reconocimiento de objetos es la asignación de etiquetas de categoría a imágenes o regiones, y la detección de objetos es la tarea conjunta de localizar y etiquetar cada instancia de objeto en una imagen.
Scope
Este tema abarca la clasificación de imágenes, la detección por ventana deslizante y propuesta de región, el clásico detector de rostros de cascada potenciada, y las redes neuronales convolucionales que ahora dominan el reconocimiento, junto con el papel de los grandes conjuntos de datos etiquetados y los puntos de referencia en el impulso del progreso.
Core questions
- ¿Cómo se determina la categoría de un objeto en una imagen?
- ¿Cómo se localizan y clasifican los objetos?
- ¿Qué características y modelos se generalizan a través del punto de vista y la apariencia?
- ¿Por qué las representaciones aprendidas superaron a las características diseñadas a mano?
Key concepts
- Clasificación de imágenes
- Detección por cuadro delimitador
- Propuestas de región
- Cascadas potenciadas
- Redes neuronales convolucionales
- Conjuntos de datos de referencia
Key theories
- Detección por cascada potenciada
- La detección en tiempo real se logró combinando características rectangulares simples con un clasificador potenciado dispuesto en cascada que rechaza rápidamente las regiones que no son objetos, ejemplificado por el detector facial de Viola-Jones.
- Reconocimiento convolucional profundo
- Las redes neuronales convolucionales entrenadas en grandes conjuntos de datos etiquetados aprenden características visuales jerárquicas de extremo a extremo, mejorando drásticamente la precisión del reconocimiento y estableciendo las representaciones aprendidas como el enfoque dominante.
Clinical relevance
El reconocimiento y la detección permiten el reconocimiento facial, la percepción en vehículos autónomos y robótica, el diagnóstico por imágenes médicas, la moderación de contenido y la búsqueda de imágenes, el análisis minorista y de vigilancia, y muchas aplicaciones de realidad aumentada.
History
La detección pasó de características artesanales y cascadas potenciadas alrededor de 2001 a modelos basados en partes, y el éxito de las redes convolucionales profundas en ImageNet en 2012 provocó un rápido cambio hacia representaciones aprendidas en el reconocimiento y la detección.
Debates
- Características artesanales versus representaciones aprendidas
- Durante décadas, el reconocimiento se basó en características diseñadas, como histogramas de gradiente; el aprendizaje profundo las reemplazó con características aprendidas de los datos, lo que plantea preguntas sobre la interpretabilidad, los requisitos de datos y computación, y la robustez que siguen siendo activas.
Key figures
- Paul Viola
- Michael Jones
- Geoffrey Hinton
Related topics
Seminal works
- viola2001
- krizhevsky2012
Frequently asked questions
- ¿Cuál es la diferencia entre reconocimiento y detección?
- El reconocimiento dice qué hay en una imagen, como que contiene un gato, mientras que la detección también dice dónde, dibujando un cuadro alrededor de cada gato y etiquetándolo, y puede encontrar varias instancias a la vez.
- ¿Por qué el aprendizaje profundo mejoró tanto el reconocimiento?
- Las redes convolucionales aprenden las características visuales relevantes directamente de grandes conjuntos de datos etiquetados en lugar de depender de las diseñadas a mano, capturando patrones que son difíciles de especificar manualmente y escalando con los datos y la computación.