Visión por Computadora
La visión por computadora es el campo que se ocupa de permitir que las máquinas interpreten imágenes y videos, recuperando la geometría, el movimiento y el contenido de las escenas que los produjeron.
Definition
La visión por computadora es el estudio de métodos que toman imágenes o videos como entrada y producen descripciones de la estructura de la escena, el movimiento o el contenido semántico como salida.
Scope
Esta área abarca la geometría de la formación de imágenes y la calibración de cámaras, la recuperación de la estructura tridimensional y la pose de la cámara a partir de múltiples vistas, la estimación del movimiento y el flujo óptico a lo largo del tiempo, y el reconocimiento, detección y localización de objetos y escenas, cada vez más a través de modelos aprendidos.
Sub-topics
Core questions
- ¿Cómo relaciona la geometría de una cámara las escenas 3D con las imágenes 2D?
- ¿Cómo se pueden recuperar la estructura 3D y el movimiento de la cámara a partir de imágenes?
- ¿Cómo se estima el movimiento en una escena a partir de una secuencia de video?
- ¿Cómo se reconocen y localizan objetos y categorías en las imágenes?
Key concepts
- Proyección de cámara
- Geometría multivista
- Reconstrucción 3D
- Flujo óptico
- Reconocimiento y detección de objetos
- Representaciones visuales aprendidas
Key theories
- Geometría proyectiva de la formación de imágenes
- Las cámaras se modelan como dispositivos proyectivos que mapean puntos 3D a puntos de imagen, y las relaciones entre múltiples vistas se capturan mediante entidades como las matrices fundamental y esencial, proporcionando la columna vertebral geométrica de la reconstrucción.
- La visión como inferencia de la estructura de la escena
- Marr enmarcó la visión como un proceso computacional que recupera descripciones de escenas cada vez más explícitas a partir de imágenes, una teoría en capas que dio forma a cómo el campo descompone el problema desde las características iniciales hasta los objetos.
Clinical relevance
La visión por computadora impulsa los vehículos autónomos y la robótica, el reconocimiento facial y biométrico, el diagnóstico por imágenes médicas, la inspección industrial, la realidad aumentada y la búsqueda de imágenes, y es una de las áreas de aplicación más activas del aprendizaje profundo.
History
La visión por computadora comenzó en las décadas de 1960 y 1970 con dibujos lineales y la forma a partir del sombreado; la teoría computacional de Marr dio forma a la década de 1980, los métodos geométricos de múltiples vistas maduraron en las décadas de 1990 y 2000, y las redes convolucionales profundas transformaron el reconocimiento a partir de la década de 2010.
Debates
- Visión basada en la geometría versus visión basada en el aprendizaje
- La visión clásica enfatizaba los modelos físicos y geométricos explícitos de la formación de imágenes, mientras que el aprendizaje profundo moderno favorece las representaciones basadas en datos; el campo combina cada vez más ambos, incrustando la estructura geométrica en sistemas aprendidos.
Key figures
- David Marr
- Richard Hartley
- Andrew Zisserman
Related topics
Seminal works
- hartley2004
- marr1982
- szeliski2022
Frequently asked questions
- ¿Es la visión por computadora lo mismo que el procesamiento de imágenes?
- El procesamiento de imágenes transforma principalmente imágenes en otras imágenes o descripciones de bajo nivel, mientras que la visión por computadora tiene como objetivo interpretar imágenes para recuperar información de la escena, como la estructura 3D, el movimiento y la identidad del objeto; la visión se basa en el procesamiento de imágenes.
- ¿Por qué la visión es difícil para las computadoras a pesar de ser fácil para las personas?
- Una imagen es una proyección ambigua de un mundo 3D: muchas escenas pueden producir la misma imagen, y la iluminación, el punto de vista, la oclusión y el desorden varían enormemente, por lo que recuperar la escena subyacente requiere modelos sólidos o grandes cantidades de conocimiento previo aprendido.