¿Es la visión por computadora lo mismo que el procesamiento de imágenes?

El procesamiento de imágenes transforma principalmente imágenes en otras imágenes o descripciones de bajo nivel, mientras que la visión por computadora tiene como objetivo interpretar imágenes para recuperar información de la escena, como la estructura 3D, el movimiento y la identidad del objeto; la visión se basa en el procesamiento de imágenes.

¿Por qué la visión es difícil para las computadoras a pesar de ser fácil para las personas?

Una imagen es una proyección ambigua de un mundo 3D: muchas escenas pueden producir la misma imagen, y la iluminación, el punto de vista, la oclusión y el desorden varían enormemente, por lo que recuperar la escena subyacente requiere modelos sólidos o grandes cantidades de conocimiento previo aprendido.

Visión por Computadora

La visión por computadora es el campo que se ocupa de permitir que las máquinas interpreten imágenes y videos, recuperando la geometría, el movimiento y el contenido de las escenas que los produjeron.

Encontrar tema con PaperMindPróximamenteFind papers & topics

Tools & resources

Descargar diapositivas

Learn & explore

VídeoPróximamente

Definition

La visión por computadora es el estudio de métodos que toman imágenes o videos como entrada y producen descripciones de la estructura de la escena, el movimiento o el contenido semántico como salida.

Scope

Esta área abarca la geometría de la formación de imágenes y la calibración de cámaras, la recuperación de la estructura tridimensional y la pose de la cámara a partir de múltiples vistas, la estimación del movimiento y el flujo óptico a lo largo del tiempo, y el reconocimiento, detección y localización de objetos y escenas, cada vez más a través de modelos aprendidos.

Sub-topics

Core questions

¿Cómo relaciona la geometría de una cámara las escenas 3D con las imágenes 2D?
¿Cómo se pueden recuperar la estructura 3D y el movimiento de la cámara a partir de imágenes?
¿Cómo se estima el movimiento en una escena a partir de una secuencia de video?
¿Cómo se reconocen y localizan objetos y categorías en las imágenes?

Key concepts

Proyección de cámara
Geometría multivista
Reconstrucción 3D
Flujo óptico
Reconocimiento y detección de objetos
Representaciones visuales aprendidas

Key theories

Geometría proyectiva de la formación de imágenes: Las cámaras se modelan como dispositivos proyectivos que mapean puntos 3D a puntos de imagen, y las relaciones entre múltiples vistas se capturan mediante entidades como las matrices fundamental y esencial, proporcionando la columna vertebral geométrica de la reconstrucción.
La visión como inferencia de la estructura de la escena: Marr enmarcó la visión como un proceso computacional que recupera descripciones de escenas cada vez más explícitas a partir de imágenes, una teoría en capas que dio forma a cómo el campo descompone el problema desde las características iniciales hasta los objetos.

Clinical relevance

La visión por computadora impulsa los vehículos autónomos y la robótica, el reconocimiento facial y biométrico, el diagnóstico por imágenes médicas, la inspección industrial, la realidad aumentada y la búsqueda de imágenes, y es una de las áreas de aplicación más activas del aprendizaje profundo.

History

La visión por computadora comenzó en las décadas de 1960 y 1970 con dibujos lineales y la forma a partir del sombreado; la teoría computacional de Marr dio forma a la década de 1980, los métodos geométricos de múltiples vistas maduraron en las décadas de 1990 y 2000, y las redes convolucionales profundas transformaron el reconocimiento a partir de la década de 2010.

Debates

Visión basada en la geometría versus visión basada en el aprendizaje: La visión clásica enfatizaba los modelos físicos y geométricos explícitos de la formación de imágenes, mientras que el aprendizaje profundo moderno favorece las representaciones basadas en datos; el campo combina cada vez más ambos, incrustando la estructura geométrica en sistemas aprendidos.

Key figures

David Marr
Richard Hartley
Andrew Zisserman

Seminal works

hartley2004
marr1982
szeliski2022

Frequently asked questions

¿Es la visión por computadora lo mismo que el procesamiento de imágenes?: El procesamiento de imágenes transforma principalmente imágenes en otras imágenes o descripciones de bajo nivel, mientras que la visión por computadora tiene como objetivo interpretar imágenes para recuperar información de la escena, como la estructura 3D, el movimiento y la identidad del objeto; la visión se basa en el procesamiento de imágenes.
¿Por qué la visión es difícil para las computadoras a pesar de ser fácil para las personas?: Una imagen es una proyección ambigua de un mundo 3D: muchas escenas pueden producir la misma imagen, y la iluminación, el punto de vista, la oclusión y el desorden varían enormemente, por lo que recuperar la escena subyacente requiere modelos sólidos o grandes cantidades de conocimiento previo aprendido.