La visión computacional es un campo interdisciplinario que trata sobre cómo se pueden hacer las computadoras para obtener un alto nivel de comprensión a partir de imágenes digitales o videos. Desde la perspectiva de la ingeniería, busca automatizar las tareas que puede realizar el sistema visual humano.

Las tareas de visión artificial incluyen métodos para adquirir, procesar, analizar y comprender imágenes digitales y extraer datos de alta dimensión del mundo real para producir información numérica o simbólica, por ejemplo, en las formas de decisiones. Entender en este contexto significa la transformación de las imágenes visuales (la entrada de la retina) en descripciones del mundo que pueden interactuar con otros procesos de pensamiento y obtener la acción apropiada. Esta comprensión de la imagen se puede ver como el desenredo de la información simbólica de los datos de la imagen utilizando modelos construidos con la ayuda de la geometría, la física, las estadísticas y la teoría del aprendizaje.

Como disciplina científica, la visión computacional se ocupa de la teoría detrás de los sistemas artificiales que extraen información de las imágenes. Los datos de imagen pueden tomar muchas formas, como secuencias de video, vistas desde múltiples cámaras o datos multidimensionales de un escáner médico. Como disciplina tecnológica, la visión artificial busca aplicar sus teorías y modelos para la construcción de sistemas de visión artificial.

Los subdominios de la visión por computador incluyen reconstrucción de escenas, detección de eventos, seguimiento de video, reconocimiento de objetos, estimación de pose 3D, aprendizaje, indexación, estimación de movimiento y restauración de imágenes.

Definición
La visión computacional es un campo interdisciplinario que trata sobre cómo se pueden hacer las computadoras para obtener un alto nivel de comprensión a partir de imágenes digitales o videos. Desde la perspectiva de la ingeniería, busca automatizar las tareas que puede realizar el sistema visual humano. «La visión artificial se ocupa de la extracción automática, el análisis y la comprensión de información útil de una sola imagen o una secuencia de imágenes. Implica el desarrollo de una base teórica y algorítmica para lograr la comprensión visual automática». Como disciplina científica, la visión computacional se ocupa de la teoría detrás de los sistemas artificiales que extraen información de las imágenes. Los datos de imagen pueden tomar muchas formas, como secuencias de video, vistas desde múltiples cámaras o datos multidimensionales de un escáner médico. Como disciplina tecnológica, la visión artificial busca aplicar sus teorías y modelos para la construcción de sistemas de visión artificial.

Historia
A fines de la década de 1960, la visión por computadora comenzó en universidades que eran pioneras en inteligencia artificial. Estaba destinado a imitar el sistema visual humano, como un trampolín para dotar a los robots de un comportamiento inteligente. En 1966, se creía que esto podría lograrse a través de un proyecto de verano, al conectar una cámara a una computadora y hacer que «describa lo que vio».

Lo que distinguió la visión por computadora del campo predominante del procesamiento de imágenes digitales en ese momento fue el deseo de extraer una estructura tridimensional de las imágenes con el objetivo de lograr la comprensión completa de la escena. Los estudios en la década de 1970 formaron los cimientos iniciales de muchos de los algoritmos de visión por computadora que existen hoy en día, como la extracción de bordes de imágenes, el etiquetado de líneas, el modelado no poliédrico y poliédrico, la representación de objetos como interconexiones de estructuras más pequeñas, flujo óptico y estimación del movimiento.

La siguiente década vio estudios basados ​​en análisis matemáticos más rigurosos y aspectos cuantitativos de la visión por computadora. Estos incluyen el concepto de espacio de escala, la inferencia de formas a partir de varias señales tales como sombreado, textura y enfoque, y modelos de contorno conocidos como serpientes. Los investigadores también se dieron cuenta de que muchos de estos conceptos matemáticos podrían tratarse dentro del mismo marco de optimización que la regularización y los campos aleatorios de Markov. En la década de 1990, algunos de los temas de investigación anteriores se volvieron más activos que los otros. La investigación en reconstrucciones proyectivas en 3D llevó a una mejor comprensión de la calibración de la cámara. Con el advenimiento de los métodos de optimización para la calibración de cámaras, se observó que muchas de las ideas ya se habían explorado en la teoría de ajuste de paquetes desde el campo de la fotogrametría. Esto condujo a métodos para reconstrucciones en 3D dispersas de escenas a partir de múltiples imágenes. Se avanzó en el problema de la correspondencia estéreo densa y otras técnicas estéreo de múltiples vistas. Al mismo tiempo, se utilizaron variaciones de corte de gráfico para resolver la segmentación de la imagen. Esta década también marcó la primera vez que se usaron técnicas de aprendizaje estadístico en la práctica para reconocer caras en imágenes (ver Eigenface). Hacia fines de la década de 1990, se produjo un cambio significativo con la mayor interacción entre los campos de los gráficos por computadora y la visión por computadora. Esto incluía la representación basada en imágenes, la transformación de imágenes, la interpolación de vistas, la costura panorámica de imágenes y la representación temprana de campos de luz.

Trabajos recientes han visto el resurgimiento de métodos basados ​​en características, utilizados en conjunto con técnicas de aprendizaje automático y marcos de optimización complejos.

Campos relacionados

Inteligencia artificial
Las áreas de inteligencia artificial tienen que ver con la planificación autónoma o la deliberación de los sistemas robóticos para navegar a través de un entorno. Se requiere una comprensión detallada de estos entornos para navegar a través de ellos. Un sistema de visión por ordenador podría proporcionar información sobre el entorno, actuando como un sensor de visión y proporcionando información de alto nivel sobre el entorno y el robot.

La inteligencia artificial y la visión artificial comparten otros temas, como el reconocimiento de patrones y las técnicas de aprendizaje. En consecuencia, la visión por computadora a veces se considera parte del campo de la inteligencia artificial o del campo de la informática en general.

Ingeniería de Información
La visión por computadora a menudo se considera parte de la ingeniería de la información.

Física del estado sólido
La física del estado sólido es otro campo que está estrechamente relacionado con la visión por ordenador. La mayoría de los sistemas de visión artificial se basan en sensores de imagen, que detectan la radiación electromagnética, que generalmente se presenta en forma de luz visible o infrarroja. Los sensores están diseñados utilizando la física cuántica. El proceso mediante el cual la luz interactúa con las superficies se explica utilizando la física. La física explica el comportamiento de la óptica, que es una parte fundamental de la mayoría de los sistemas de imágenes. Los sensores de imagen sofisticados incluso requieren una mecánica cuántica para proporcionar una comprensión completa del proceso de formación de la imagen. Además, varios problemas de medición en la física pueden abordarse mediante la visión artificial, por ejemplo, el movimiento en fluidos.

Neurobiología
Un tercer campo que desempeña un papel importante es la neurobiología, específicamente el estudio del sistema de visión biológica. Durante el último siglo, se ha realizado un extenso estudio de los ojos, las neuronas y las estructuras cerebrales dedicadas al procesamiento de estímulos visuales tanto en humanos como en varios animales. Esto ha llevado a una descripción aproximada, pero complicada, de cómo funcionan los sistemas de visión «reales» para resolver ciertas tareas relacionadas con la visión. Estos resultados han conducido a un subcampo dentro de la visión por computadora donde los sistemas artificiales están diseñados para imitar el procesamiento y el comportamiento de los sistemas biológicos, en diferentes niveles de complejidad. Además, algunos de los métodos basados ​​en el aprendizaje desarrollados dentro de la visión por computadora (por ejemplo, la red neuronal y el análisis y clasificación de las funciones y la imagen basados ​​en el aprendizaje profundo) tienen su fondo en biología.

Algunos aspectos de la investigación en visión artificial están estrechamente relacionados con el estudio de la visión biológica; de hecho, al igual que muchos aspectos de la investigación en IA están estrechamente relacionados con la investigación sobre la conciencia humana y el uso de conocimientos almacenados para interpretar, integrar y utilizar información visual. El campo de la visión biológica estudia y modela los procesos fisiológicos detrás de la percepción visual en humanos y otros animales. La visión por computadora, por otro lado, estudia y describe los procesos implementados en software y hardware detrás de los sistemas de visión artificial. El intercambio interdisciplinario entre la visión biológica y la visión por computadora ha resultado fructífero para ambos campos.

Procesamiento de la señal
Otro campo relacionado con la visión por computadora es el procesamiento de señales. Muchos métodos para procesar señales de una variable, típicamente señales temporales, pueden extenderse de manera natural al procesamiento de señales de dos variables o señales de múltiples variables en la visión de computadora. Sin embargo, debido a la naturaleza específica de las imágenes, hay muchos métodos desarrollados dentro de la visión por computadora que no tienen una contrapartida en el procesamiento de señales de una variable. Junto con la multidimensionalidad de la señal, esto define un subcampo en el procesamiento de señales como parte de la visión de computadora.

Otros campos
Además de las opiniones antes mencionadas sobre la visión por computador, muchos de los temas de investigación relacionados también pueden estudiarse desde un punto de vista puramente matemático. Por ejemplo, muchos métodos en visión de computadora se basan en estadísticas, optimización o geometría. Finalmente, una parte significativa del campo está dedicada al aspecto de la implementación de la visión por computadora; cómo se pueden realizar los métodos existentes en varias combinaciones de software y hardware, o cómo se pueden modificar estos métodos para ganar velocidad de procesamiento sin perder demasiado rendimiento.

Distinciones
Los campos más estrechamente relacionados con la visión artificial son el procesamiento de imágenes, el análisis de imágenes y la visión artificial. Existe una superposición significativa en el rango de técnicas y aplicaciones que cubren. Esto implica que las técnicas básicas que se utilizan y desarrollan en estos campos son similares, algo que se puede interpretar ya que solo hay un campo con nombres diferentes. Por otro lado, parece ser necesario que los grupos de investigación, las revistas científicas, las conferencias y las empresas se presenten o comercialicen como pertenecientes específicamente a uno de estos campos y, por lo tanto, se han descrito varias caracterizaciones que distinguen cada uno de los campos de los otros. presentado

Los gráficos de computadora producen datos de imagen a partir de modelos 3D, la visión por computadora a menudo produce modelos 3D a partir de datos de imagen. También hay una tendencia hacia una combinación de las dos disciplinas, por ejemplo, como se explora en la realidad aumentada.

Las siguientes caracterizaciones parecen relevantes, pero no deben tomarse como aceptadas universalmente:

El procesamiento de imágenes y el análisis de imágenes tienden a centrarse en imágenes en 2D, cómo transformar una imagen en otra, por ejemplo, mediante operaciones de píxeles, como la mejora de contraste, operaciones locales como extracción de bordes o eliminación de ruido, o transformaciones geométricas como la rotación de la imagen . Esta caracterización implica que el procesamiento / análisis de la imagen no requiere suposiciones ni produce interpretaciones sobre el contenido de la imagen.
La visión por ordenador incluye análisis 3D a partir de imágenes 2D. Esto analiza la escena 3D proyectada en una o varias imágenes, por ejemplo, cómo reconstruir la estructura u otra información sobre la escena 3D a partir de una o varias imágenes. La visión por computadora a menudo se basa en suposiciones más o menos complejas sobre la escena representada en una imagen.
La visión artificial es el proceso de aplicar una gama de tecnologías y métodos para proporcionar inspección automática basada en imágenes, control de procesos y guía de robots en aplicaciones industriales. La visión artificial tiende a centrarse en las aplicaciones, principalmente en la fabricación, por ejemplo, robots y sistemas basados ​​en la visión para la inspección, medición o selección basadas en la visión (como la recolección de contenedores). Esto implica que las tecnologías de sensores de imagen y la teoría de control a menudo se integran con el procesamiento de datos de imagen para controlar un robot y que el procesamiento en tiempo real se enfatiza mediante implementaciones eficientes en hardware y software. También implica que las condiciones externas, como la iluminación, pueden ser y con frecuencia están más controladas en la visión artificial que en la visión general por computadora, lo que puede permitir el uso de diferentes algoritmos.
También hay un campo llamado imágenes que se enfoca principalmente en el proceso de producción de imágenes, pero a veces también trata el procesamiento y análisis de imágenes. Por ejemplo, las imágenes médicas incluyen un trabajo sustancial en el análisis de datos de imágenes en aplicaciones médicas.
Finalmente, el reconocimiento de patrones es un campo que utiliza varios métodos para extraer información de señales en general, principalmente en base a enfoques estadísticos y redes neuronales artificiales. Una parte significativa de este campo está dedicada a aplicar estos métodos a los datos de imagen.

Aplicaciones
Las aplicaciones van desde tareas como los sistemas de visión industrial de la máquina que, por ejemplo, inspeccionan las botellas a gran velocidad en una línea de producción, hasta la investigación en inteligencia artificial y computadoras o robots que pueden comprender el mundo que los rodea. Los campos de la visión artificial y de la visión artificial tienen una importante superposición. La visión computacional cubre la tecnología central del análisis de imágenes automatizado que se utiliza en muchos campos. La visión artificial generalmente se refiere a un proceso de combinación de análisis de imágenes automatizado con otros métodos y tecnologías para proporcionar inspección automatizada y guía de robots en aplicaciones industriales. En muchas aplicaciones de visión artificial, las computadoras están preprogramadas para resolver una tarea en particular, pero los métodos basados ​​en el aprendizaje son cada vez más comunes. Ejemplos de aplicaciones de la visión por ordenador incluyen sistemas para:

Inspección automática, por ejemplo, en aplicaciones de fabricación;
Ayudar a los humanos en tareas de identificación, por ejemplo, un sistema de identificación de especies;
Procesos de control, por ejemplo, un robot industrial;
Detectar eventos, por ejemplo, para vigilancia visual o conteo de personas;
Interacción, por ejemplo, como la entrada a un dispositivo para la interacción ordenador-humano;
Modelado de objetos o entornos, por ejemplo, análisis de imágenes médicas o modelado topográfico;
Navegación, por ejemplo, por un vehículo autónomo o robot móvil; y
Organización de información, por ejemplo, para indexar bases de datos de imágenes y secuencias de imágenes.

Uno de los campos de aplicación más destacados es la visión por computadora médica o el procesamiento de imágenes médicas, que se caracteriza por la extracción de información de datos de imagen para diagnosticar a un paciente. Un ejemplo de esto es la detección de tumores, arteriosclerosis u otros cambios malignos; Las mediciones de las dimensiones de los órganos, el flujo sanguíneo, etc. son otro ejemplo. También apoya la investigación médica al proporcionar nueva información: por ejemplo, sobre la estructura del cerebro o sobre la calidad de los tratamientos médicos. Las aplicaciones de la visión por computadora en el área médica también incluyen la mejora de las imágenes interpretadas por humanos, por ejemplo, las imágenes ultrasónicas o las imágenes de rayos X, para reducir la influencia del ruido.

Una segunda área de aplicación en visión computacional es en la industria, a veces llamada visión artificial, donde la información se extrae con el propósito de respaldar un proceso de fabricación. Un ejemplo es el control de calidad donde los detalles o los productos finales se inspeccionan automáticamente para encontrar defectos. Otro ejemplo es la medición de la posición y la orientación de los detalles que debe recoger un brazo robot. La visión artificial también se usa mucho en el proceso agrícola para eliminar alimentos no deseados del material a granel, un proceso llamado clasificación óptica.

Las aplicaciones militares son probablemente una de las áreas más grandes para la visión por computadora. Los ejemplos obvios son la detección de soldados o vehículos enemigos y la guía de misiles. Los sistemas más avanzados para la guía de misiles envían el misil a un área en lugar de a un objetivo específico, y la selección del objetivo se realiza cuando el misil alcanza el área según los datos de imagen adquiridos localmente. Los conceptos militares modernos, como la «conciencia del campo de batalla», implican que varios sensores, incluidos los sensores de imagen, proporcionan un rico conjunto de información sobre una escena de combate que se puede usar para apoyar decisiones estratégicas. En este caso, el procesamiento automático de los datos se utiliza para reducir la complejidad y fusionar la información de varios sensores para aumentar la confiabilidad.

Una de las áreas de aplicación más nuevas son los vehículos autónomos, que incluyen sumergibles, vehículos terrestres (pequeños robots con ruedas, automóviles o camiones), vehículos aéreos y vehículos aéreos no tripulados (UAV). El nivel de autonomía abarca desde vehículos totalmente autónomos (no tripulados) hasta vehículos en los que los sistemas basados ​​en la visión por ordenador admiten un conductor o un piloto en diversas situaciones. Los vehículos totalmente autónomos suelen utilizar la visión artificial para la navegación, es decir, para saber dónde está o para producir un mapa de su entorno (SLAM) y para detectar obstáculos. También se puede usar para detectar ciertos eventos específicos de la tarea, por ejemplo, un UAV que busca incendios forestales. Ejemplos de sistemas de soporte son los sistemas de alerta de obstáculos en automóviles y los sistemas para el aterrizaje autónomo de aeronaves. Varios fabricantes de automóviles han demostrado sistemas para la conducción autónoma de automóviles, pero esta tecnología aún no ha alcanzado un nivel en el que se pueda comercializar. Hay numerosos ejemplos de vehículos militares autónomos que van desde misiles avanzados hasta UAV para misiones de reconocimiento u orientación de misiles. La exploración espacial ya se está realizando con vehículos autónomos que usan visión por computadora, por ejemplo, Mars Exploration Rover de la NASA y ExoMars Rover de la ESA.

Otras áreas de aplicación incluyen:

Related Post

Soporte de creación de efectos visuales para cine y transmisión, por ejemplo, seguimiento de cámara (matchmoving).
Vigilancia.
Seguimiento y conteo de organismos en las ciencias biológicas.

Tareas tipicas
Cada una de las áreas de aplicación descritas anteriormente emplea una variedad de tareas de visión computacional; Problemas de medición más o menos bien definidos o problemas de procesamiento, que pueden resolverse utilizando una variedad de métodos. A continuación se presentan algunos ejemplos de tareas típicas de visión artificial.

Las tareas de visión artificial incluyen métodos para adquirir, procesar, analizar y comprender imágenes digitales y extraer datos de alta dimensión del mundo real para producir información numérica o simbólica, por ejemplo, en las formas de decisiones. Entender en este contexto significa la transformación de las imágenes visuales (la entrada de la retina) en descripciones del mundo que pueden interactuar con otros procesos de pensamiento y obtener la acción apropiada. Esta comprensión de la imagen se puede ver como el desenredo de la información simbólica de los datos de la imagen utilizando modelos construidos con la ayuda de la geometría, la física, las estadísticas y la teoría del aprendizaje.

Reconocimiento
El problema clásico en la visión por computador, el procesamiento de imágenes y la visión artificial es el de determinar si los datos de la imagen contienen algún objeto, característica o actividad específica. Las diferentes variedades del problema de reconocimiento se describen en la literatura:

Reconocimiento de objetos (también llamado clasificación de objetos): se pueden reconocer uno o varios objetos predefinidos o aprendidos o clases de objetos, generalmente junto con sus posiciones 2D en la imagen o poses 3D en la escena. Blippar, Google Goggles y LikeThat proporcionan programas independientes que ilustran esta funcionalidad.
Identificación: se reconoce una instancia individual de un objeto. Los ejemplos incluyen la identificación de la cara o huella digital de una persona específica, la identificación de dígitos escritos a mano o la identificación de un vehículo específico.
Detección: los datos de la imagen se escanean para una condición específica. Los ejemplos incluyen la detección de posibles células o tejidos anormales en imágenes médicas o la detección de un vehículo en un sistema automático de peaje. La detección basada en cálculos relativamente simples y rápidos a veces se usa para encontrar regiones más pequeñas de datos de imagen interesantes que pueden analizarse más a fondo mediante técnicas más exigentes computacionalmente para producir una interpretación correcta.

Actualmente, los mejores algoritmos para tales tareas se basan en redes neuronales convolucionales. Una ilustración de sus capacidades está dada por el desafío de reconocimiento visual a gran escala de ImageNet; Este es un punto de referencia en la clasificación y detección de objetos, con millones de imágenes y cientos de clases de objetos. El rendimiento de las redes neuronales convolucionales, en las pruebas de ImageNet, ahora es similar al de los humanos. Los mejores algoritmos aún luchan con los objetos que son pequeños o delgados, como una pequeña hormiga en el tallo de una flor o una persona que tiene una pluma en la mano. También tienen problemas con las imágenes que han sido distorsionadas con filtros (un fenómeno cada vez más común con las cámaras digitales modernas). Por el contrario, ese tipo de imágenes rara vez molesta a los humanos. Los humanos, sin embargo, tienden a tener problemas con otras cuestiones. Por ejemplo, no son buenos para clasificar objetos en clases de grano fino, como la raza particular de perro o especie de ave, mientras que las redes neuronales convolucionales manejan esto con facilidad.

Existen varias tareas especializadas basadas en el reconocimiento, tales como:

Recuperación de imágenes basada en contenido: busca todas las imágenes en un conjunto más grande de imágenes que tienen un contenido específico. El contenido se puede especificar de diferentes maneras, por ejemplo, en términos de similitud relativa a una imagen de destino (darme todas las imágenes similares a la imagen X), o en términos de criterios de búsqueda de alto nivel dados como entrada de texto (darme todas las imágenes que contengan muchas casas, se toman durante el invierno, y no tienen coches en ellas).
Estimación de posición: estimación de la posición u orientación de un objeto específico en relación con la cámara. Una aplicación de ejemplo para esta técnica sería ayudar a un brazo robótico a recuperar objetos de una cinta transportadora en una situación de línea de ensamblaje o recoger piezas de un contenedor.
Reconocimiento óptico de caracteres (OCR): identificación de caracteres en imágenes de texto impreso o manuscrito, generalmente con el fin de codificar el texto en un formato más susceptible de edición o indexación (por ejemplo, ASCII).
Lectura de códigos 2D Lectura de códigos 2D como matriz de datos y códigos QR.
Reconocimiento facial
La Tecnología de Reconocimiento de Formas (SRT) en sistemas de contador de personas que diferencian a los seres humanos (patrones de cabeza y hombros) de los objetos

Análisis de movimiento
Varias tareas se relacionan con la estimación de movimiento donde se procesa una secuencia de imágenes para producir una estimación de la velocidad en cada punto de la imagen o en la escena 3D, o incluso de la cámara que produce las imágenes. Ejemplos de tales tareas son:

Egomotion: determinación del movimiento rígido 3D (rotación y traslación) de la cámara a partir de una secuencia de imágenes producida por la cámara.
Seguimiento: siguiendo los movimientos de un conjunto (generalmente) más pequeño de puntos de interés u objetos (por ejemplo, vehículos, humanos u otros organismos) en la secuencia de la imagen.
Flujo óptico: para determinar, para cada punto de la imagen, cómo se mueve ese punto en relación con el plano de la imagen, es decir, su movimiento aparente. Este movimiento es el resultado de cómo se mueve el punto 3D correspondiente en la escena y cómo se mueve la cámara en relación con la escena.

Reconstrucción de la escena
Dada una o (típicamente) más imágenes de una escena, o un video, la reconstrucción de la escena tiene como objetivo calcular un modelo 3D de la escena. En el caso más simple, el modelo puede ser un conjunto de puntos 3D. Métodos más sofisticados producen un modelo de superficie 3D completo. La llegada de imágenes en 3D que no requieren movimiento o escaneo, y los algoritmos de procesamiento relacionados están permitiendo avances rápidos en este campo. La detección 3D basada en cuadrícula se puede utilizar para adquirir imágenes en 3D desde múltiples ángulos. Ahora hay algoritmos disponibles para unir múltiples imágenes en 3D en nubes de puntos y modelos en 3D.

Restauración de imagen
El objetivo de la restauración de la imagen es eliminar el ruido (ruido del sensor, desenfoque de movimiento, etc.) de las imágenes. El enfoque más simple posible para la eliminación de ruido es varios tipos de filtros, como los filtros de paso bajo o los filtros de mediana. Los métodos más sofisticados asumen un modelo de cómo se ven las estructuras de la imagen local, un modelo que las distingue del ruido. Al analizar primero los datos de la imagen en términos de las estructuras de la imagen local, como líneas o bordes, y luego controlar el filtrado en función de la información local de la etapa de análisis, generalmente se obtiene un mejor nivel de eliminación de ruido en comparación con los enfoques más simples.

Un ejemplo en este campo es pintar.

Métodos del sistema
La organización de un sistema de visión por computadora es altamente dependiente de la aplicación. Algunos sistemas son aplicaciones independientes que resuelven un problema específico de medición o detección, mientras que otros constituyen un subsistema de un diseño más grande que, por ejemplo, también contiene subsistemas para el control de actuadores mecánicos, planificación, bases de datos de información, man- interfaces de la máquina, etc. La implementación específica de un sistema de visión artificial también depende de si su funcionalidad está preespecificada o si parte de ella puede aprenderse o modificarse durante la operación. Muchas funciones son exclusivas de la aplicación. Sin embargo, existen funciones típicas que se encuentran en muchos sistemas de visión artificial.

Adquisición de imágenes: una imagen digital es producida por uno o varios sensores de imágenes que, además de varios tipos de cámaras sensibles a la luz, incluyen sensores de alcance, dispositivos de tomografía, radar, cámaras de ultrasonido, etc. Dependiendo del tipo de sensor, los datos de imagen resultantes son una imagen 2D ordinaria, un volumen 3D o una secuencia de imágenes. Los valores de píxel normalmente corresponden a la intensidad de la luz en una o varias bandas espectrales (imágenes grises o imágenes en color), pero también pueden relacionarse con varias medidas físicas, como la profundidad, la absorción o la reflectancia de las ondas sónicas o electromagnéticas, o la resonancia magnética nuclear.

Preprocesamiento: antes de que se pueda aplicar un método de visión artificial a los datos de imagen para extraer cierta información específica, generalmente es necesario procesar los datos para asegurar que cumpla con ciertas suposiciones implícitas en el método. Los ejemplos son
Re-muestreo para asegurar que el sistema de coordenadas de la imagen es correcto.
Reducción de ruido para asegurar que el ruido del sensor no introduzca información falsa.
Mejora del contraste para asegurar que la información relevante pueda ser detectada.
Representación del espacio de escala para mejorar las estructuras de la imagen en escalas localmente apropiadas.

Extracción de características: las características de la imagen en varios niveles de complejidad se extraen de los datos de la imagen. Ejemplos típicos de tales características son
Líneas, bordes y crestas.
Puntos de interés localizados como esquinas, manchas o puntos.
Las características más complejas pueden estar relacionadas con la textura, la forma o el movimiento.

Detección / segmentación: en algún punto del procesamiento, se toma una decisión sobre qué puntos o regiones de la imagen son relevantes para un procesamiento posterior. Los ejemplos son
Selección de un conjunto específico de puntos de interés.
Segmentación de una o varias regiones de imagen que contienen un objeto específico de interés.
La segmentación de la imagen en la arquitectura de escena anidada comprendía el primer plano, los grupos de objetos, los objetos individuales o las partes de objetos sobresalientes (también conocida como jerarquía de escena del taxón espacial), mientras que la prominencia visual se implementa a menudo como atención espacial y temporal.
Segmentación o co-segmentación de uno o varios videos en una serie de máscaras de primer plano por fotograma, manteniendo su continuidad semántica temporal.

Procesamiento de alto nivel: en este paso, la entrada suele ser un pequeño conjunto de datos, por ejemplo, un conjunto de puntos o una región de imagen que se supone que contiene un objeto específico. El procesamiento restante se ocupa de, por ejemplo:
Verificación de que los datos satisfacen supuestos basados ​​en modelos y aplicaciones específicas.
Estimación de los parámetros específicos de la aplicación, como la pose del objeto o el tamaño del objeto.
Reconocimiento de imágenes: clasificación de un objeto detectado en diferentes categorías.
Registro de imágenes: comparación y combinación de dos vistas diferentes del mismo objeto.

Toma de decisiones Tomar la decisión final requerida para la aplicación, por ejemplo:
Pasa / falla en aplicaciones de inspección automática
Match / no match en aplicaciones de reconocimiento
Bandera para mayor revisión humana en aplicaciones médicas, militares, de seguridad y de reconocimiento.

Sistemas de comprensión de la imagen
Los sistemas de comprensión de imagen (IUS) incluyen tres niveles de abstracción de la siguiente manera: El nivel bajo incluye primitivas de imagen como bordes, elementos de textura o regiones; El nivel intermedio incluye límites, superficies y volúmenes; y alto nivel incluye objetos, escenas o eventos. Muchos de estos requisitos son realmente temas para futuras investigaciones.

Los requisitos de representación en el diseño de IUS para estos niveles son: representación de conceptos prototípicos, organización de conceptos, conocimiento espacial, conocimiento temporal, escalamiento y descripción por comparación y diferenciación.

Mientras que la inferencia se refiere al proceso de derivar hechos nuevos, no representados explícitamente a partir de hechos conocidos actualmente, el control se refiere al proceso que selecciona cuál de las muchas técnicas de inferencia, búsqueda y comparación se deben aplicar en una etapa particular del procesamiento. Los requisitos de inferencia y control para el SIU son: búsqueda y activación de hipótesis, comparación y prueba de hipótesis, generación y uso de expectativas, cambio y enfoque de atención, certeza y fortaleza de la creencia, inferencia y satisfacción de la meta.

Hardware
Hay muchos tipos de sistemas de visión artificial, sin embargo, todos ellos contienen estos elementos básicos: una fuente de alimentación, al menos un dispositivo de adquisición de imágenes (es decir, cámara, ccd, etc.), un procesador, así como cables de control y comunicación o algún tipo del mecanismo de interconexión inalámbrica. Además, un sistema de visión práctica contiene software, así como una pantalla para monitorear el sistema. Los sistemas de visión para espacios interiores, como la mayoría de los industriales, contienen un sistema de iluminación y pueden colocarse en un entorno controlado. Además, un sistema completo incluye muchos accesorios como soportes de cámara, cables y conectores.

La mayoría de los sistemas de visión artificial utilizan cámaras de luz visible que ven pasivamente una escena a velocidades de cuadro de a lo sumo 60 cuadros por segundo (generalmente mucho más lento).

Algunos sistemas de visión artificial utilizan hardware de adquisición de imágenes con iluminación activa o algo distinto a la luz visible o ambos. Por ejemplo, un escáner 3D de luz estructurada, una cámara termográfica, una cámara hiperespectral, imágenes de radar, un escáner lidar, una imagen de resonancia magnética, un sonar de barrido lateral, un sonar de apertura sintética, etc. Este hardware captura «imágenes» que luego se procesan a menudo utilizando los mismos algoritmos de visión de computadora utilizados para procesar imágenes con luz visible.

Mientras que los sistemas tradicionales de transmisión y video de consumo funcionan a una velocidad de 30 cuadros por segundo, los avances en el procesamiento de señales digitales y el hardware de gráficos de consumo han hecho posible la adquisición, el procesamiento y la visualización de imágenes a alta velocidad para sistemas en tiempo real del orden de cientos de personas. Miles de cuadros por segundo. Para aplicaciones en robótica, los sistemas de video rápidos y en tiempo real son de importancia crítica y, a menudo, pueden simplificar el procesamiento necesario para ciertos algoritmos. Cuando se combina con un proyector de alta velocidad, la adquisición rápida de imágenes permite realizar mediciones en 3D y realizar un seguimiento de características.

Los sistemas de visión egocéntricos están compuestos por una cámara portátil que toma fotos automáticamente desde una perspectiva en primera persona.

A partir de 2016, las unidades de procesamiento de visión están emergiendo como una nueva clase de procesador, para complementar las CPU y las unidades de procesamiento de gráficos (GPU) en este rol.

Share