Perception visuelle

La perception visuelle est la capacité d’interpréter l’environnement environnant en utilisant la lumière dans le spectre visible réfléchi par les objets dans l’environnement.

La perception qui en résulte est aussi appelée perception visuelle, vue, vision ou vision (forme adjectivale: visuelle, optique ou oculaire). Les divers composants physiologiques impliqués dans la vision sont collectivement appelés le système visuel, et sont l’objet de nombreuses recherches en linguistique, en psychologie, en sciences cognitives, en neurosciences et en biologie moléculaire, collectivement appelées science de la vision.

Système visuel
Le système visuel chez les animaux permet aux individus d’assimiler les informations de leur environnement. L’acte de voir commence lorsque la cornée, puis la lentille de l’œil concentre la lumière de son environnement sur une membrane sensible à la lumière à l’arrière de l’œil, appelée la rétine. La rétine fait en réalité partie du cerveau qui est isolé pour servir de transducteur pour la conversion de la lumière en signaux neuronaux. Basée sur le retour du système visuel, la lentille de l’œil ajuste son épaisseur pour focaliser la lumière sur les cellules photoréceptrices de la rétine, également appelées tiges et cônes, qui détectent les photons de la lumière et répondent en produisant des impulsions neuronales. Ces signaux sont traités par des processus complexes de feed-feed et de rétroaction par différentes parties du cerveau, de la rétine en amont aux ganglions centraux dans le cerveau.

Notez que jusqu’à présent, une grande partie du paragraphe ci-dessus pouvait s’appliquer aux pieuvres, aux mollusques, aux vers, aux insectes et aux choses plus primitives; quelque chose avec un système nerveux plus concentré et de meilleurs yeux que de dire une méduse. Cependant, ce qui suit s’applique aux mammifères en général et aux oiseaux (sous forme modifiée): La rétine chez ces animaux plus complexes envoie des fibres (le nerf optique) au noyau genouillé latéral, au cortex visuel primaire et secondaire du cerveau. Les signaux de la rétine peuvent également voyager directement de la rétine au colliculus supérieur.

La perception des objets et la totalité de la scène visuelle est réalisée par le cortex d’association visuelle. Le cortex d’association visuelle combine toutes les informations sensorielles perçues par le cortex strié qui contient des milliers de modules faisant partie de réseaux neuronaux modulaires. Les neurones du cortex strié envoient des axones au cortex extrastrié, une région du cortex d’association visuelle qui entoure le cortex strié.

Le système visuel humain perçoit la lumière visible dans la gamme des longueurs d’onde comprises entre 370 et 730 nanomètres (0,00000037 à 0,00000073 mètres) du spectre électromagnétique.

Étude
Le problème majeur de la perception visuelle est que ce que les gens voient n’est pas simplement une traduction des stimuli rétiniens (c’est-à-dire l’image sur la rétine). Ainsi, les personnes intéressées par la perception ont longtemps eu du mal à expliquer ce que le traitement visuel fait pour créer ce qui est réellement vu.

Premières études

Le flux visuel dorsal (vert) et le flux ventral (violet) sont montrés. Une grande partie du cortex cérébral humain est impliqué dans la vision.
Il y avait deux grandes écoles grecques anciennes, fournissant une explication primitive de la façon dont la vision est réalisée dans le corps.

La première était la «théorie de l’émission» qui maintenait que la vision se produisait lorsque les rayons émanaient des yeux et étaient interceptés par des objets visuels. Si un objet était vu directement, c’était par les «rayons» qui sortaient des yeux et retombaient sur l’objet. Une image réfractée était cependant vue par des «rayons» qui sortaient des yeux, traversaient l’air et, après réfraction, tombaient sur l’objet visible observé à la suite du mouvement des rayons. de l’oeil. Cette théorie a été défendue par des érudits comme Euclide et Ptolémée et leurs disciples.

La deuxième école préconisait l’approche dite de «intro-mission» qui voit la vision comme venant de quelque chose entrant dans les yeux représentatifs de l’objet. Avec ses principaux propagateurs, Aristote, Galien et leurs partisans, cette théorie semble avoir un certain contact avec les théories modernes de ce qu’est vraiment la vision, mais elle n’est restée qu’une spéculation dépourvue de tout fondement expérimental. (Au XVIIIe siècle Angleterre , Isaac Newton, John Locke et d’autres, ont avancé la théorie d’intromission / intromittist en insistant sur le fait que la vision impliquait un processus dans lequel les rayons – composés de matière corporelle réelle – émanaient des objets observés et pénétraient dans l’esprit / sensorium du voyant par l’ouverture de l’oeil. )

Les deux écoles de pensée s’appuyaient sur le principe que «le semblable n’est connu que par le même» et donc sur la notion que l’œil était composé de «feu interne» qui interagissait avec le «feu extérieur» de la lumière visible et rendait la vision possible. Platon fait cette assertion dans son dialogue Timée, comme Aristote, dans son De Sensu.

Leonardo da Vinci: L’œil a une ligne centrale et tout ce qui atteint l’œil à travers cette ligne centrale peut être vu distinctement.
Alhazen (965 – vers 1040) a réalisé de nombreuses recherches et expériences sur la perception visuelle, a étendu le travail de Ptolémée sur la vision binoculaire et a commenté les travaux anatomiques de Galen. Il a été le premier à expliquer que la vision se produit lorsque la lumière rebondit sur un objet et qu’elle est ensuite dirigée vers les yeux.

On pense que Léonard de Vinci (1452-1519) est le premier à reconnaître les qualités optiques spéciales de l’œil. Il a écrit: «La fonction de l’œil humain […] a été décrite par un grand nombre d’auteurs d’une certaine manière, mais je l’ai trouvée complètement différente». Sa découverte expérimentale principale était qu’il n’y a qu’une vision claire et distincte sur la ligne de visée – la ligne optique qui aboutit à la fovéa. Bien qu’il n’utilise pas ces mots littéralement, il est en fait le père de la distinction moderne entre vision fovéale et vision périphérique.

Issac Newton (1642-1726 / 27) fut le premier à découvrir par l’expérimentation, en isolant les couleurs individuelles du spectre de la lumière traversant un prisme, que la couleur perçue visuellement des objets apparaissait en raison du caractère de la lumière que les objets reflétaient, et que ces couleurs divisées ne pouvaient être changées en une autre couleur, ce qui était contraire à l’attente scientifique du jour.

Inférence inconsciente
Hermann von Helmholtz est souvent crédité de la première étude de la perception visuelle dans les temps modernes. Helmholtz a examiné l’œil humain et a conclu qu’il était, optiquement, plutôt pauvre. L’information de mauvaise qualité recueillie par l’œil lui semblait rendre la vision impossible. Il a donc conclu que la vision ne pouvait être que le résultat d’une certaine forme d’inférence inconsciente: il s’agissait de faire des suppositions et des conclusions à partir de données incomplètes, basées sur des expériences antérieures.

L’inférence nécessite une expérience préalable du monde.

Des exemples d’hypothèses bien connues, basées sur l’expérience visuelle, sont:

la lumière vient d’en haut
les objets ne sont normalement pas vus d’en bas
les visages sont vus (et reconnus) droits.
des objets plus proches peuvent bloquer la vue d’objets plus éloignés, mais pas vice versa
les figures (c.-à-d. les objets de premier plan) ont tendance à avoir des bordures convexes

L’étude des illusions visuelles (les cas où le processus d’inférence se passe mal) a donné un bon aperçu du genre d’hypothèses que le système visuel fait.

Un autre type d’hypothèse d’inférence inconsciente (basée sur des probabilités) a récemment été relancé dans des études dites bayésiennes de la perception visuelle. Les partisans de cette approche considèrent que le système visuel effectue une certaine forme d’inférence bayésienne pour dériver une perception à partir de données sensorielles. Cependant, il n’est pas clair comment les tenants de ce point de vue dérivent, en principe, des probabilités pertinentes requises par l’équation bayésienne. Des modèles basés sur cette idée ont été utilisés pour décrire diverses fonctions perceptuelles visuelles, telles que la perception du mouvement, la perception de la profondeur et la perception de la figure. La «théorie totalement empirique de la perception» est une approche connexe et plus récente qui rationalise la perception visuelle sans invoquer explicitement les formalismes bayésiens.

Théorie de la Gestalt
Les psychologues de la Gestalt travaillant principalement dans les années 1930 et 1940 ont soulevé de nombreuses questions de recherche qui sont étudiées par les scientifiques de la vision aujourd’hui.

Les lois de l’organisation de la Gestalt ont guidé l’étude de la façon dont les gens perçoivent les composants visuels comme des schémas ou des ensembles organisés, au lieu de nombreuses parties différentes. « Gestalt » est un mot allemand qui se traduit partiellement par « configuration ou modèle » avec « structure entière ou émergente ». Selon cette théorie, il y a huit facteurs principaux qui déterminent comment le système visuel groupe automatiquement les éléments en motifs: Proximité, Similarité, Fermeture, Symétrie, Destin Commun (mouvement commun), Continuité ainsi que Good Gestalt (pattern qui est régulier, simple et ordonnée) et expérience passée.

Analyse du mouvement des yeux
Au cours des années 1960, le développement technique a permis l’enregistrement continu du mouvement des yeux pendant la lecture lors de la visualisation des images et plus tard dans la résolution des problèmes visuels et lorsque les caméras à écouteurs sont disponibles, également pendant la conduite.

L’image à droite montre ce qui peut arriver pendant les deux premières secondes de l’inspection visuelle. Alors que le fond est flou, représentant la vision périphérique, le premier mouvement de l’œil va aux bottes de l’homme (juste parce qu’elles sont très proches de la fixation de départ et ont un contraste raisonnable).

Les fixations suivantes sautent de face à face. Ils pourraient même permettre des comparaisons entre les visages.

On peut en conclure que le visage de l’icône est une icône de recherche très attrayante dans le champ de vision périphérique. La vision fovéale ajoute des informations détaillées à la première impression périphérique.

On peut également noter qu’il existe quatre types de mouvements oculaires différents: les fixations, les mouvements de vergence, les mouvements saccadés et les mouvements de poursuite. Les fixations sont des points statiquement comparables où l’œil repose. Cependant, l’œil n’est jamais complètement immobile, mais la position du regard va dériver. Ces dérives sont à leur tour corrigées par des microsaccades, de très petits mouvements oculaires de fixation. Les mouvements de vergence impliquent la coopération des deux yeux pour permettre à une image de tomber sur la même zone des deux rétines. Cela résulte en une seule image focalisée. Les mouvements saccadés sont le type de mouvement oculaire qui fait des sauts d’une position à une autre et permet de balayer rapidement une scène / image particulière. Enfin, le mouvement de poursuite est un mouvement des yeux lisse et est utilisé pour suivre les objets en mouvement.

Reconnaissance de visage et d’objet
Il existe de nombreuses preuves que la reconnaissance du visage et des objets est accomplie par des systèmes distincts. Par exemple, les patients prosopagnosiques présentent des déficits dans le visage, mais pas dans le traitement des objets, alors que les patients agnosiques (en particulier le patient CK) présentent des déficits dans le traitement des objets avec traitement du visage épargné. Sur le plan comportemental, il a été montré que les visages, mais pas les objets, sont sujets à des effets d’inversion, ce qui conduit à affirmer que les visages sont «spéciaux». De plus, le traitement du visage et des objets recrute des systèmes neuronaux distincts. Certains ont soutenu que la spécialisation apparente du cerveau humain pour le traitement du visage ne reflète pas la véritable spécificité du domaine, mais plutôt un processus plus général de discrimination au niveau des experts dans une classe donnée de stimulus, même si cette dernière demande débat. En utilisant l’IRMf et l’électrophysiologie, Doris Tsao et ses collègues ont décrit des régions du cerveau et un mécanisme de reconnaissance du visage chez les singes macaques.

Les approches cognitives et computationnelles
Dans les années 1970, David Marr a développé une théorie de la vision à plusieurs niveaux, qui a analysé le processus de vision à différents niveaux d’abstraction. Afin de se concentrer sur la compréhension de problèmes spécifiques dans la vision, il a identifié trois niveaux d’analyse: les niveaux de calcul, algorithmique et de mise en œuvre. De nombreux scientifiques de la vision, y compris Tomaso Poggio, ont adopté ces niveaux d’analyse et les ont utilisés pour caractériser davantage la vision d’un point de vue informatique.

Le niveau de calcul aborde, à un haut niveau d’abstraction, les problèmes que le système visuel doit surmonter. Le niveau algorithmique tente d’identifier la stratégie qui peut être utilisée pour résoudre ces problèmes. Enfin, le niveau d’implémentation tente d’expliquer comment les solutions à ces problèmes sont réalisées dans les circuits neuronaux.

Marr a suggéré qu’il est possible d’étudier la vision à n’importe lequel de ces niveaux indépendamment. Marr a décrit la vision comme passant d’un tableau visuel bidimensionnel (sur la rétine) à une description tridimensionnelle du monde en tant que sortie. Ses étapes de vision comprennent:

Une esquisse 2D ou primale de la scène, basée sur l’extraction de caractéristiques des composants fondamentaux de la scène, y compris les bords, les régions, etc. Notez la similitude de concept à un croquis au crayon dessiné rapidement par un artiste comme une impression.
Une esquisse de 2½ D de la scène, où les textures sont reconnues, etc. Notez la similitude dans le concept à l’étape du dessin où un artiste met en valeur ou nuance les zones d’une scène, pour fournir de la profondeur.
Un modèle 3D, où la scène est visualisée dans une carte continue en trois dimensions.
L’esquisse 2.5D de Marr suppose qu’une carte de profondeur est construite, et que cette carte est la base de la perception de la forme 3D. Cependant, la perception stéréoscopique et picturale, ainsi que la vision monoculaire, montrent clairement que la perception de la forme 3D précède et ne dépend pas de la perception de la profondeur des points. Il n’est pas clair comment une carte de profondeur préliminaire pourrait, en principe, être construite, ni comment cela traiterait la question de l’organisation figurée ou du groupement. Le rôle des contraintes d’organisation perceptuelle, négligé par Marr, dans la production de percepts de forme 3D à partir d’objets 3D visualisés de manière binoculaire a été démontré empiriquement dans le cas d’objets filaires 3D, p.ex. Pizlo (2008).

Transduction
La transduction est le processus par lequel l’énergie des stimuli environnementaux est convertie en activité neurale pour que le cerveau la comprenne et la traite. Le dos de l’œil contient trois couches cellulaires différentes: une couche de photorécepteur, une couche de cellules bipolaires et une couche de cellules ganglionnaires. La couche de photorécepteur se trouve tout au fond et contient des photorécepteurs en bâtonnets et des photorécepteurs coniques. Les cônes sont responsables de la perception des couleurs. Il y a trois cônes différents: rouge, vert et bleu. Rods, sont responsables de la perception des objets en basse lumière. Les photorécepteurs contiennent en leur sein un produit chimique spécial appelé photopigment, qui sont noyés dans la membrane des lamelles; une seule tige humaine en contient environ 10 millions. Les molécules de photopigment sont constituées de deux parties: une opsine (une protéine) et un rétinal (un lipide). Il y a 3 photopigments spécifiques (chacun avec leur propre couleur) qui répondent aux longueurs d’onde spécifiques de la lumière. Lorsque la longueur d’onde de lumière appropriée frappe le photorécepteur, son photopigment se divise en deux, ce qui envoie un message à la couche de cellules bipolaires, qui à son tour envoie un message aux cellules ganglionnaires qui envoient l’information au cerveau par le nerf optique. Si le photopigment approprié n’est pas dans le photorécepteur approprié (par exemple, un photopigment vert à l’intérieur d’un cône rouge), une condition appelée déficience de la vision des couleurs se produira.

Processus d’opposition
La transduction implique des messages chimiques envoyés des photorécepteurs aux cellules bipolaires aux cellules ganglionnaires. Plusieurs photorécepteurs peuvent envoyer leurs informations à une cellule ganglionnaire. Il existe deux types de cellules ganglionnaires: rouge / vert et jaune / bleu. Ces cellules neuronales tirent constamment, même lorsqu’elles ne sont pas stimulées. Le cerveau interprète différentes couleurs (et avec beaucoup d’informations, une image) lorsque le taux de déclenchement de ces neurones change. La lumière rouge stimule le cône rouge, qui à son tour stimule la cellule ganglionnaire rouge / vert. De même, la lumière verte stimule le cône vert, qui stimule la cellule ganglionnaire rouge / verte et la lumière bleue stimule le cône bleu qui stimule la cellule ganglionnaire jaune / bleu. Le taux de tir des cellules ganglionnaires est augmenté quand il est signalé par un cône et diminué (inhibé) quand il est signalé par l’autre cône. La première couleur au nom de la cellule ganglionnaire est la couleur qui l’excite et la seconde est la couleur qui l’inhibe. ie: Un cône rouge exciterait la cellule ganglionnaire rouge / verte et le cône vert inhiberait la cellule ganglionnaire rouge / vert. C’est un processus d’adversaire. Si le taux de tir d’une cellule ganglionnaire rouge / verte est augmenté, le cerveau devrait savoir que la lumière était rouge, si le taux était diminué, le cerveau saurait que la couleur de la lumière était verte.

Perception visuelle artificielle
Les théories et les observations de la perception visuelle ont été la principale source d’inspiration de la vision par ordinateur (aussi appelée vision artificielle ou vision artificielle). Des structures matérielles spéciales et des algorithmes logiciels permettent aux machines d’interpréter les images provenant d’une caméra ou d’un capteur. La perception visuelle artificielle a longtemps été utilisée dans l’industrie et entre maintenant dans les domaines de l’automobile et de la robotique.