Vision par ordinateur – HiSoUR Art Culture Histoire

La vision par ordinateur est un domaine interdisciplinaire qui traite de la façon dont les ordinateurs peuvent être conçus pour acquérir une compréhension de haut niveau à partir d’images ou de vidéos numériques. Du point de vue de l’ingénierie, il cherche à automatiser les tâches que le système visuel humain peut effectuer.

Les tâches de vision par ordinateur comprennent des méthodes pour acquérir, traiter, analyser et comprendre des images numériques et extraire des données de grande dimension du monde réel afin de produire des informations numériques ou symboliques, par exemple sous la forme de décisions. Comprendre dans ce contexte signifie transformer des images visuelles (l’introduction de la rétine) en descriptions du monde pouvant s’interfacer avec d’autres processus de la pensée et susciter une action appropriée. Cette compréhension de l’image peut être vue comme le démêlage d’informations symboliques à partir de données d’images à l’aide de modèles construits à l’aide de la géométrie, de la physique, des statistiques et de la théorie de l’apprentissage.

En tant que discipline scientifique, la vision par ordinateur s’intéresse à la théorie sous-jacente aux systèmes artificiels qui extraient des informations à partir d’images. Les données d’image peuvent prendre de nombreuses formes, telles que des séquences vidéo, des vues de plusieurs caméras ou des données multidimensionnelles d’un scanner médical. En tant que discipline technologique, la vision par ordinateur cherche à appliquer ses théories et ses modèles à la construction de systèmes de vision par ordinateur.

Les sous-domaines de la vision par ordinateur comprennent la reconstruction de scène, la détection d’événements, le suivi vidéo, la reconnaissance d’objets, l’estimation de pose en 3D, l’apprentissage, l’indexation, l’estimation de mouvement et la restauration d’images.

Définition
La vision par ordinateur est un domaine interdisciplinaire qui traite de la façon dont les ordinateurs peuvent être conçus pour acquérir une compréhension de haut niveau à partir d’images ou de vidéos numériques. Du point de vue de l’ingénierie, il cherche à automatiser les tâches que le système visuel humain peut effectuer. « La vision par ordinateur concerne l’extraction, l’analyse et la compréhension automatiques des informations utiles d’une image unique ou d’une séquence d’images. Elle implique le développement d’une base théorique et algorithmique permettant la compréhension visuelle automatique. » En tant que discipline scientifique, la vision par ordinateur s’intéresse à la théorie sous-jacente aux systèmes artificiels qui extraient des informations à partir d’images. Les données d’image peuvent prendre de nombreuses formes, telles que des séquences vidéo, des vues de plusieurs caméras ou des données multidimensionnelles d’un scanner médical. En tant que discipline technologique, la vision par ordinateur cherche à appliquer ses théories et ses modèles à la construction de systèmes de vision par ordinateur.

L’histoire
À la fin des années 1960, la vision par ordinateur a commencé dans des universités pionnières en intelligence artificielle. Il visait à imiter le système visuel humain en tant que tremplin pour doter les robots d’un comportement intelligent. En 1966, on pensait que cela pouvait être réalisé grâce à un projet d’été, en connectant une caméra à un ordinateur et en la faisant « décrire ce qu’elle voyait ».

À cette époque, la vision par ordinateur du domaine prédominant du traitement d’images numériques était la volonté d’extraire une structure tridimensionnelle à partir d’images afin de parvenir à une compréhension complète de la scène. Les études menées dans les années 1970 ont été à l’origine des fondements de nombreux algorithmes de vision par ordinateur existants, notamment l’extraction des contours d’images, l’étiquetage des lignes, la modélisation non polyédrique et polyédrique, la représentation d’objets comme interconnexions de petites structures, le flux optique estimation de mouvement.

La prochaine décennie a vu des études basées sur une analyse mathématique plus rigoureuse et des aspects quantitatifs de la vision par ordinateur. Celles-ci incluent le concept d’espace-échelle, l’inférence de forme à partir de divers indices tels que l’ombrage, la texture et la mise au point, ainsi que des modèles de contour connus sous le nom de serpents. Les chercheurs ont également compris que nombre de ces concepts mathématiques pouvaient être traités dans le même cadre d’optimisation que la régularisation et les champs aléatoires de Markov. Dans les années 1990, certains des sujets de recherche précédents sont devenus plus actifs que les autres. La recherche sur les reconstructions tridimensionnelles projectives a permis de mieux comprendre le calibrage de la caméra. Avec l’avènement des méthodes d’optimisation pour le calibrage de la caméra, on s’est rendu compte que beaucoup d’idées avaient déjà été explorées dans la théorie de l’ajustement de faisceaux du domaine de la photogrammétrie. Cela a conduit à des méthodes de reconstruction 3D de scènes à partir de plusieurs images. Des progrès ont été réalisés sur le problème de la correspondance stéréo dense et sur d’autres techniques stéréoscopiques à vues multiples. Dans le même temps, des variations de la coupe de graphique ont été utilisées pour résoudre la segmentation d’image. Cette décennie a également été la première fois que des techniques d’apprentissage statistique ont été utilisées pour reconnaître des visages dans des images (voir Eigenface). Vers la fin des années 90, l’interaction accrue entre les domaines de l’infographie et de la vision par ordinateur s’est transformée. Cela incluait le rendu basé sur les images, le morphing des images, l’interpolation de vues, l’assemblage d’images panoramiques et le premier rendu du champ lumineux.

Des travaux récents ont vu la résurgence de méthodes basées sur les fonctionnalités, utilisées conjointement avec des techniques d’apprentissage automatique et des cadres d’optimisation complexes.

Domaines connexes

Intelligence artificielle
Les domaines de l’intelligence artificielle traitent de la planification autonome ou de la délibération pour que les systèmes robotiques puissent naviguer dans un environnement. Une compréhension détaillée de ces environnements est nécessaire pour naviguer à travers eux. Les informations sur l’environnement pourraient être fournies par un système de vision par ordinateur, jouant le rôle de capteur de vision et fournissant des informations de haut niveau sur l’environnement et le robot.

L’intelligence artificielle et la vision par ordinateur partagent d’autres sujets tels que la reconnaissance des formes et les techniques d’apprentissage. Par conséquent, la vision par ordinateur est parfois considérée comme faisant partie du domaine de l’intelligence artificielle ou du domaine de l’informatique en général.

Ingénierie de l’information
La vision par ordinateur est souvent considérée comme faisant partie de l’ingénierie de l’information.

Physique du solide
La physique du solide est un autre domaine étroitement lié à la vision par ordinateur. La plupart des systèmes de vision par ordinateur reposent sur des capteurs d’image, qui détectent le rayonnement électromagnétique, généralement sous forme de lumière visible ou infrarouge. Les capteurs sont conçus en utilisant la physique quantique. Le processus par lequel la lumière interagit avec les surfaces est expliqué à l’aide de la physique. La physique explique le comportement de l’optique, élément essentiel de la plupart des systèmes d’imagerie. Les capteurs d’image sophistiqués ont même besoin de la mécanique quantique pour fournir une compréhension complète du processus de formation d’image. En outre, divers problèmes de mesure en physique peuvent être résolus à l’aide de la vision par ordinateur, par exemple le mouvement dans les fluides.

Neurobiologie
Un troisième domaine qui joue un rôle important est la neurobiologie, en particulier l’étude du système de vision biologique. Au cours du siècle dernier, une étude approfondie des yeux, des neurones et des structures cérébrales a été consacrée au traitement des stimuli visuels chez l’homme et divers animaux. Cela a conduit à une description grossière, mais compliquée, du fonctionnement de « vrais » systèmes de vision afin de résoudre certaines tâches liées à la vision. Ces résultats ont conduit à un sous-domaine de la vision par ordinateur où les systèmes artificiels sont conçus pour imiter le traitement et le comportement des systèmes biologiques, à différents niveaux de complexité. En outre, certaines des méthodes basées sur l’apprentissage développées dans le cadre de la vision par ordinateur (par exemple l’analyse et la classification d’images et de fonctions neuronales et d’apprentissage en profondeur) ont leur base en biologie.

Certains domaines de la recherche en vision par ordinateur sont étroitement liés à l’étude de la vision biologique. En effet, de nombreux domaines de la recherche sur l’IA sont étroitement liés à la recherche sur la conscience humaine et à l’utilisation des connaissances stockées pour interpréter, intégrer et utiliser les informations visuelles. Le domaine de la vision biologique étudie et modélise les processus physiologiques à l’origine de la perception visuelle chez l’homme et d’autres animaux. La vision par ordinateur, d’autre part, étudie et décrit les processus mis en œuvre dans les logiciels et le matériel informatique derrière des systèmes de vision artificielle. L’échange interdisciplinaire entre vision biologique et vision par ordinateur s’est avéré fructueux pour les deux domaines.

Traitement de signal
Un autre domaine lié à la vision par ordinateur est le traitement du signal. De nombreuses méthodes de traitement de signaux à une variable, généralement des signaux temporels, peuvent être étendues de manière naturelle au traitement de signaux à deux variables ou de signaux à plusieurs variables en vision artificielle. Cependant, en raison de la nature spécifique des images, de nombreuses méthodes développées dans le domaine de la vision par ordinateur n’ont pas d’équivalent dans le traitement des signaux à une variable. Associé à la multidimensionnalité du signal, il définit un sous-champ du traitement du signal comme faisant partie de la vision par ordinateur.

Autres champs
Outre les points de vue susmentionnés sur la vision par ordinateur, bon nombre des sujets de recherche connexes peuvent également être étudiés d’un point de vue purement mathématique. Par exemple, de nombreuses méthodes en vision par ordinateur sont basées sur des statistiques, l’optimisation ou la géométrie. Enfin, une partie importante du domaine est consacrée à l’aspect mise en œuvre de la vision par ordinateur; comment les méthodes existantes peuvent être réalisées dans diverses combinaisons de logiciels et de matériel, ou comment ces méthodes peuvent être modifiées afin d’accroître la vitesse de traitement sans perdre trop de performances.

Distinctions
Les domaines les plus étroitement liés à la vision par ordinateur sont le traitement d’images, l’analyse d’images et la vision artificielle. Il existe un important chevauchement dans la gamme de techniques et d’applications couvertes par celles-ci. Cela implique que les techniques de base utilisées et développées dans ces domaines sont similaires, ce qui peut être interprété dans la mesure où il existe un seul champ portant des noms différents. Par ailleurs, il apparaît nécessaire que les groupes de recherche, les revues scientifiques, les conférences et les entreprises se présentent ou se présentent comme appartenant spécifiquement à l’un de ces domaines et, par conséquent, diverses caractérisations ont été distinguées. présenté.

L’infographie génère des données d’image à partir de modèles 3D, la vision par ordinateur génère souvent des modèles 3D à partir de données d’image. Il existe également une tendance à la combinaison des deux disciplines, par exemple comme dans la réalité augmentée.

Les caractérisations suivantes semblent pertinentes mais ne doivent pas être considérées comme universellement acceptées:

Le traitement et l’analyse des images ont tendance à se focaliser sur les images 2D, sur la transformation d’une image en une autre, par exemple, au moyen d’opérations au niveau des pixels telles que l’amélioration du contraste, des opérations locales telles que l’extraction des bords ou la suppression du bruit, ou des transformations géométriques telles que la rotation de l’image. . Cette caractérisation implique que le traitement / l’analyse des images ne nécessite ni hypothèses, ni interprétations du contenu de l’image.
La vision par ordinateur comprend l’analyse 3D à partir d’images 2D. Ceci analyse la scène 3D projetée sur une ou plusieurs images, par exemple, comment reconstruire la structure ou d’autres informations relatives à la scène 3D à partir d’une ou plusieurs images. La vision par ordinateur repose souvent sur des hypothèses plus ou moins complexes concernant la scène représentée dans une image.
La vision par machine est le processus d’application d’une gamme de technologies et de méthodes pour fournir une inspection automatique basée sur l’imagerie, un contrôle de processus et un guidage par robot dans des applications industrielles. La vision artificielle a tendance à se concentrer sur les applications, principalement dans la fabrication, par exemple les robots et les systèmes basés sur la vision, pour l’inspection, la mesure ou la collecte basée sur la vision (telle que la collecte de bacs). Cela implique que les technologies de capteur d’image et la théorie de commande sont souvent intégrées au traitement de données d’image pour commander un robot et que le traitement en temps réel est accentué au moyen d’implémentations efficaces du matériel et du logiciel. Cela implique également que les conditions extérieures telles que l’éclairage peuvent être et sont souvent plus contrôlées en vision artificielle qu’elles ne le sont en vision par ordinateur, ce qui peut permettre l’utilisation de différents algorithmes.
Il existe également un domaine appelé imagerie qui se concentre principalement sur le processus de production d’images, mais traite parfois aussi du traitement et de l’analyse d’images. Par exemple, l’imagerie médicale comprend des travaux importants sur l’analyse des données d’image dans les applications médicales.
Enfin, la reconnaissance de formes est un domaine qui utilise diverses méthodes pour extraire des informations de signaux en général, principalement basées sur des approches statistiques et des réseaux de neurones artificiels. Une partie importante de ce champ est consacrée à l’application de ces méthodes aux données d’image.

Applications
Les applications couvrent des tâches telles que les systèmes de vision industrielle, par exemple l’inspection de flacons sur une chaîne de production, la recherche sur l’intelligence artificielle et les ordinateurs ou robots capables de comprendre le monde qui les entoure. Les champs de vision par ordinateur et de vision par machine se chevauchent de manière significative. La vision par ordinateur couvre la technologie de base de l’analyse d’image automatisée utilisée dans de nombreux domaines. La vision par machine désigne généralement un processus consistant à combiner l’analyse d’image automatisée avec d’autres méthodes et technologies afin de fournir une inspection automatisée et un guidage par robot dans les applications industrielles. Dans de nombreuses applications de vision par ordinateur, les ordinateurs sont préprogrammés pour résoudre une tâche particulière, mais les méthodes basées sur l’apprentissage deviennent de plus en plus courantes. Les exemples d’applications de vision par ordinateur comprennent les systèmes pour:

Inspection automatique, par exemple dans les applications de fabrication;
Assister les humains dans les tâches d’identification, par exemple, un système d’identification des espèces;
Contrôler des processus, par exemple un robot industriel;
Détecter des événements, par exemple pour la surveillance visuelle ou le comptage de personnes;
Interaction, par exemple, en tant qu’entrée dans un dispositif pour une interaction ordinateur-humain;
Modélisation d’objets ou d’environnements, p. Ex. Analyse d’images médicales ou modélisation topographique;
Navigation, par exemple, par un véhicule autonome ou un robot mobile; et
Organisation de l’information, par exemple pour indexer des bases de données d’images et de séquences d’images.

L’un des domaines d’application les plus importants est la vision par ordinateur ou le traitement d’images médicales, caractérisé par l’extraction d’informations à partir de données d’images pour diagnostiquer un patient. Un exemple en est la détection de tumeurs, d’artériosclérose ou d’autres modifications malignes; les mesures des dimensions des organes, du débit sanguin, etc. en sont un autre exemple. Il soutient également la recherche médicale en fournissant de nouvelles informations, par exemple sur la structure du cerveau ou sur la qualité des traitements médicaux. Les applications de la vision par ordinateur dans le domaine médical comprennent également l’amélioration des images interprétées par l’homme – images ultrasonores ou radiographiques par exemple – afin de réduire l’influence du bruit.

Le secteur de la vision par ordinateur est un autre domaine d’application, parfois appelé vision par ordinateur, dans lequel des informations sont extraites afin de soutenir un processus de fabrication. Un exemple est le contrôle de la qualité où les détails ou les produits finis sont automatiquement inspectés afin de détecter les défauts. Un autre exemple est la mesure de la position et de l’orientation des détails à saisir par un bras de robot. La vision artificielle est également largement utilisée dans les processus agricoles pour éliminer les aliments indésirables des produits en vrac, un processus appelé tri optique.

Les applications militaires sont probablement l’un des domaines les plus importants en matière de vision par ordinateur. Les exemples les plus évidents sont la détection de soldats ou de véhicules ennemis et le guidage de missiles. Des systèmes plus avancés de guidage des missiles envoient le missile dans une zone plutôt que vers une cible spécifique. La sélection de la cible est effectuée lorsque le missile atteint la zone en fonction des données d’image acquises localement. Les concepts militaires modernes, tels que la « connaissance du champ de bataille », impliquent que divers capteurs, y compris des capteurs d’image, fournissent un riche ensemble d’informations sur une scène de combat qui peut être utilisé pour appuyer des décisions stratégiques. Dans ce cas, le traitement automatique des données est utilisé pour réduire la complexité et fusionner les informations provenant de plusieurs capteurs afin d’accroître la fiabilité.

Les véhicules autonomes, qui comprennent les véhicules submersibles, les véhicules terrestres (petits robots à roues, voitures ou camions), les véhicules aériens et les véhicules aériens sans pilote (UAV) sont l’un des nouveaux domaines d’application. Le niveau d’autonomie va des véhicules entièrement autonomes (sans pilote) aux véhicules où les systèmes basés sur la vision par ordinateur assistent le conducteur ou le pilote dans diverses situations. Les véhicules entièrement autonomes utilisent généralement la vision par ordinateur pour la navigation, c’est-à-dire pour savoir où elle se trouve, ou pour produire une carte de son environnement (SLAM) et pour détecter les obstacles. Il peut également être utilisé pour détecter certains événements spécifiques à une tâche, par exemple un UAV à la recherche d’incendies de forêt. Les systèmes d’alerte d’obstacle dans les voitures et les systèmes d’atterrissage autonome des aéronefs sont des exemples de systèmes de soutien. Plusieurs constructeurs automobiles ont présenté des systèmes de conduite autonome de voitures, mais cette technologie n’a toujours pas atteint un niveau tel qu’elle puisse être mise sur le marché. Il existe de nombreux exemples de véhicules militaires autonomes, allant des missiles avancés aux drones pour les missions de reconnaissance ou de guidage de missiles. L’exploration spatiale se fait déjà avec des véhicules autonomes faisant appel à la vision par ordinateur, par exemple le robot d’exploration de la NASA Mars et le robot de l’ESA ExoMars.

Les autres domaines d’application comprennent:

Prise en charge de la création d’effets visuels pour le cinéma et la diffusion, p. Ex. Suivi par caméra (matchmoving).
Surveillance.
Suivi et comptage d’organismes en sciences biologiques

Tâches typiques
Chacun des domaines d’application décrits ci-dessus emploie une gamme de tâches de vision par ordinateur; problèmes de mesure ou de traitement plus ou moins bien définis, qui peuvent être résolus en utilisant diverses méthodes. Quelques exemples de tâches de vision par ordinateur typiques sont présentés ci-dessous.

Reconnaissance
Le problème classique de la vision par ordinateur, du traitement des images et de la vision par ordinateur consiste à déterminer si les données d’image contiennent ou non un objet, une caractéristique ou une activité spécifique. Différentes variétés du problème de reconnaissance sont décrites dans la littérature:

Reconnaissance d’objets (également appelée classification d’objets) – un ou plusieurs objets ou classes d’objets prédéfinis ou appris peuvent être reconnus, généralement avec leurs positions 2D dans l’image ou des poses 3D dans la scène. Blippar, Google Goggles et LikeThat fournissent des programmes autonomes illustrant cette fonctionnalité.
Identification – une instance individuelle d’un objet est reconnue. Les exemples incluent l’identification du visage ou des empreintes digitales d’une personne spécifique, l’identification de chiffres manuscrits ou l’identification d’un véhicule spécifique.
Détection – les données d’image sont analysées pour une condition spécifique. Les exemples incluent la détection de cellules ou de tissus anormaux possibles sur des images médicales ou la détection d’un véhicule dans un système de péage automatique. Une détection basée sur des calculs relativement simples et rapides est parfois utilisée pour trouver de plus petites régions de données d’image intéressantes, qui peuvent être analysées plus en détail au moyen de techniques plus exigeantes en calcul afin de produire une interprétation correcte.

Actuellement, les meilleurs algorithmes pour de telles tâches sont basés sur les réseaux de neurones convolutionnels. Une illustration de leurs capacités est donnée par le défi de reconnaissance visuelle ImageNet à grande échelle; C’est une référence en matière de classification et de détection d’objets, avec des millions d’images et des centaines de classes d’objets. Les performances des réseaux de neurones convolutifs, sur les tests ImageNet, sont maintenant proches de celles de l’homme. Les meilleurs algorithmes ont encore du mal à utiliser des objets petits ou fins, comme une petite fourmi sur une tige de fleur ou une personne tenant une plume à la main. Ils ont également des problèmes avec les images qui ont été déformées par les filtres (un phénomène de plus en plus commun avec les appareils photo numériques modernes). En revanche, ce type d’images inquiète rarement les humains. Les humains, cependant, ont tendance à avoir des problèmes avec d’autres problèmes. Par exemple, ils ne sont pas doués pour classer les objets dans des classes à grain fin, telles que la race particulière de chien ou d’espèce d’oiseau, alors que les réseaux de neurones convolutionnels gèrent cela facilement.

Plusieurs tâches spécialisées basées sur la reconnaissance existent, telles que:

Recherche d’images basée sur le contenu – recherche de toutes les images dans un plus grand ensemble d’images ayant un contenu spécifique. Le contenu peut être spécifié de différentes manières, par exemple en termes de similarité par rapport à une image cible (donnez-moi toutes les images similaires à l’image X), ou en termes de critères de recherche de haut niveau donnés sous forme de saisie de texte (donnez-moi toutes les images qui contiennent beaucoup de maisons sont prises en hiver et n’ont pas de voiture).
Estimation de pose – estimation de la position ou de l’orientation d’un objet spécifique par rapport à la caméra. Un exemple d’application de cette technique serait d’aider un bras de robot à récupérer des objets d’un tapis roulant dans une situation de chaîne de montage ou de prélever des pièces dans un bac.
Reconnaissance optique des caractères (OCR) – identification des caractères dans les images de texte imprimé ou manuscrit, généralement dans le but de coder le texte dans un format plus propice à l’édition ou à l’indexation (par exemple, ASCII).
Lecture de codes 2D Lecture de codes 2D tels que la matrice de données et les codes QR.
La reconnaissance faciale
Technologie de reconnaissance de forme (SRT) dans les systèmes de compteur de personnes différenciant les êtres humains (motifs de tête et d’épaule) des objets

Analyse de mouvement
Plusieurs tâches concernent l’estimation du mouvement, au cours de laquelle une séquence d’images est traitée afin de produire une estimation de la vitesse soit à chaque point de l’image, soit dans la scène 3D, ou même de la caméra qui produit les images. Des exemples de telles tâches sont:

Egomotion – Détermination du mouvement rigide 3D (rotation et translation) de la caméra à partir d’une séquence d’images produite par la caméra.
Suivi – suivre les mouvements d’un ensemble (généralement) plus petit de points d’intérêt ou d’objets (par exemple, des véhicules, des humains ou d’autres organismes) dans la séquence d’images.
Flux optique – pour déterminer, pour chaque point de l’image, comment ce point se déplace par rapport au plan de l’image, c’est-à-dire son mouvement apparent. Ce mouvement résulte à la fois de la manière dont le point 3D correspondant se déplace dans la scène et de la manière dont la caméra se déplace par rapport à la scène.

Reconstruction de la scène
Étant donné qu’une ou plusieurs images d’une scène ou d’une vidéo (généralement), la reconstruction de la scène vise à calculer un modèle 3D de la scène. Dans le cas le plus simple, le modèle peut être un ensemble de points 3D. Des méthodes plus sophistiquées produisent un modèle de surface 3D complet. L’avènement de l’imagerie 3D ne nécessitant pas de mouvement ou de numérisation, et les algorithmes de traitement associés permettent des avancées rapides dans ce domaine. La détection 3D basée sur une grille peut être utilisée pour acquérir des images 3D sous plusieurs angles. Des algorithmes sont maintenant disponibles pour assembler plusieurs images 3D en nuages de points et modèles 3D.

Restauration d’image
Le but de la restauration d’image est d’éliminer le bruit (bruit de capteur, flou de mouvement, etc.) des images. L’approche la plus simple pour l’élimination du bruit consiste à utiliser différents types de filtres, tels que les filtres passe-bas ou les filtres médians. Des méthodes plus sophistiquées supposent un modèle de la structure des images locales, un modèle qui les distingue du bruit. En analysant d’abord les données d’image en termes de structures d’image locales, telles que des lignes ou des arêtes, puis en contrôlant le filtrage en fonction des informations locales issues de l’étape d’analyse, on obtient généralement un meilleur niveau d’élimination du bruit par rapport aux approches plus simples.

Un exemple dans ce domaine est inpainting.

Méthodes système
L’organisation d’un système de vision par ordinateur dépend fortement de l’application. Certains systèmes sont des applications autonomes qui résolvent un problème de mesure ou de détection spécifique, tandis que d’autres constituent un sous-système de conception plus vaste, qui contient par exemple également des sous-systèmes de contrôle des actionneurs mécaniques, de la planification, des bases de données interfaces machine, etc. L’implémentation spécifique d’un système de vision par ordinateur dépend également de la pré-spécification de sa fonctionnalité ou de la possibilité d’en apprendre une partie ou de la modifier en cours de fonctionnement. De nombreuses fonctions sont uniques à l’application. Il existe cependant des fonctions typiques que l’on retrouve dans de nombreux systèmes de vision par ordinateur.

Acquisition d’images – Une image numérique est produite par un ou plusieurs capteurs d’image qui, outre divers types de caméras sensibles à la lumière, comprennent des capteurs de distance, des appareils de tomographie, des radars, des caméras à ultrasons, etc. Selon le type de capteur, Les données d’image résultantes sont une image 2D ordinaire, un volume 3D ou une séquence d’images. Les valeurs de pixels correspondent généralement à l’intensité lumineuse dans une ou plusieurs bandes spectrales (images grises ou images couleur), mais peuvent également être associées à diverses mesures physiques, telles que la profondeur, l’absorption ou la réflectance des ondes sonores ou électromagnétiques, ou la résonance magnétique nucléaire.

Prétraitement – Avant de pouvoir appliquer une méthode de vision par ordinateur aux données d’image afin d’extraire une information spécifique, il est généralement nécessaire de traiter les données afin de s’assurer qu’elles répondent à certaines hypothèses impliquées par la méthode. Des exemples sont
Ré-échantillonnez afin de vous assurer que le système de coordonnées de l’image est correct.
Réduction du bruit afin de garantir que le bruit du capteur n’introduit pas de fausses informations.
Amélioration du contraste pour assurer la détection des informations pertinentes.
Représentation d’espace d’échelle pour améliorer les structures d’image à des échelles localement appropriées.

Extraction de caractéristiques – Les caractéristiques d’images à différents niveaux de complexité sont extraites des données d’image. Des exemples typiques de telles caractéristiques sont
Lignes, arêtes et arêtes.
Points d’intérêt localisés tels que des coins, des blobs ou des points.
Des caractéristiques plus complexes peuvent être liées à la texture, à la forme ou au mouvement.

Détection / segmentation – À un moment donné du traitement, une décision est prise sur les points ou les régions de l’image qui sont pertinents pour un traitement ultérieur. Des exemples sont
Sélection d’un ensemble spécifique de points d’intérêt
Segmentation d’une ou de plusieurs régions d’image contenant un objet d’intérêt spécifique.
La segmentation de l’image en architecture de scène imbriquée comprend des éléments de premier plan, des groupes d’objets, des objets uniques ou des parties d’objets saillants (également appelée hiérarchie de scène de taxon spatial), tandis que la visibilité visuelle est souvent mise en œuvre sous la forme d’une attention spatiale et temporelle.
Segmentation ou co-segmentation d’une ou de plusieurs vidéos en une série de masques de premier plan par image, tout en maintenant sa continuité sémantique temporelle.

Traitement de haut niveau – A cette étape, l’entrée est généralement un petit ensemble de données, par exemple un ensemble de points ou une région d’image supposée contenir un objet spécifique. Le traitement restant concerne, par exemple:
Vérification que les données répondent à des hypothèses basées sur un modèle et spécifiques à une application.
Estimation des paramètres spécifiques à l’application, tels que la pose ou la taille de l’objet.
Reconnaissance d’image – classer un objet détecté dans différentes catégories.
Enregistrement d’image – comparer et combiner deux vues différentes du même objet.

Prise de décision Prise de la décision finale requise pour la demande, par exemple:
Réussite / échec sur les applications d’inspection automatique
Correspondance / non-correspondance dans les applications de reconnaissance
Indicateur pour un examen humain approfondi dans les applications médicales, militaires, de sécurité et de reconnaissance

Systèmes de compréhension d’images
Les systèmes de compréhension d’image (IUS) comprennent les trois niveaux d’abstraction suivants: Le niveau bas inclut les primitives d’image telles que les bords, les éléments de texture ou les régions; niveau intermédiaire comprend les limites, les surfaces et les volumes; et haut niveau comprend des objets, des scènes ou des événements. Beaucoup de ces exigences sont vraiment des sujets de recherche ultérieure.

Les exigences de représentation dans la conception de SIU pour ces niveaux sont les suivantes: représentation de concepts prototypiques, organisation de concept, connaissance spatiale, connaissance temporelle, mise à l’échelle et description par comparaison et différenciation.

Tandis que l’inférence fait référence au processus permettant de dériver des faits nouveaux non explicitement représentés à partir de faits connus, le contrôle désigne le processus qui sélectionne les nombreuses techniques d’inférence, de recherche et d’appariement à appliquer à une étape donnée du traitement. Les exigences d’inférence et de contrôle pour le SIU sont les suivantes: activation de la recherche et des hypothèses, correspondance et test des hypothèses, génération et utilisation des attentes, changement et focalisation de l’attention, certitude et force de la conviction, inférence et satisfaction des objectifs.

Matériel
Il existe de nombreux types de systèmes de vision par ordinateur, mais ils contiennent tous ces éléments de base: une source d’alimentation, au moins un périphérique d’acquisition d’images (caméra, caméra, etc.), un processeur, ainsi que des câbles de commande et de communication, etc. du mécanisme d’interconnexion sans fil. En outre, un système de vision pratique contient un logiciel, ainsi qu’un écran permettant de surveiller le système. Les systèmes de vision pour les espaces intérieurs, comme la plupart des systèmes industriels, contiennent un système d’éclairage et peuvent être placés dans un environnement contrôlé. En outre, un système complet comprend de nombreux accessoires tels que des supports de caméra, des câbles et des connecteurs.

La plupart des systèmes de vision par ordinateur utilisent des caméras à lumière visible pour visionner passivement une scène à une cadence maximale de 60 images par seconde (généralement beaucoup plus lente).

Quelques systèmes de vision par ordinateur utilisent un matériel d’acquisition d’images avec éclairage actif ou autre chose que la lumière visible, ou les deux. Par exemple, un scanner 3D à lumière structurée, une caméra thermographique, un imageur hyperspectral, une imagerie radar, un scanner lidar, une image à résonance magnétique, un sonar à balayage latéral, un sonar à ouverture synthétique, etc. Un tel matériel capture des « images ». qui sont ensuite traités en utilisant souvent les mêmes algorithmes de vision par ordinateur que ceux utilisés pour traiter les images en lumière visible.

Alors que les systèmes de diffusion traditionnels et les systèmes vidéo grand public fonctionnent à une vitesse de 30 images par seconde, les progrès du traitement du signal numérique et du matériel graphique grand public ont rendu possible l’acquisition, le traitement et l’affichage d’images à grande vitesse. des milliers d’images par seconde. Pour les applications en robotique, les systèmes vidéo rapides en temps réel sont d’une importance capitale et peuvent souvent simplifier le traitement requis par certains algorithmes. Associée à un projecteur haute vitesse, l’acquisition rapide d’images permet de réaliser des mesures 3D et un suivi des caractéristiques.

Les systèmes de vision égocentriques sont composés d’une caméra portable qui prend automatiquement des photos à la première personne.

À partir de 2016, les unités de traitement de la vision sont en train de devenir une nouvelle classe de processeurs, qui viennent compléter les processeurs et les unités de traitement graphique (GPU) dans ce rôle.