Visuelle Wahrnehmung

Visuelle Wahrnehmung ist die Fähigkeit, die Umgebung mit Licht im sichtbaren Spektrum zu interpretieren, das von den Objekten in der Umgebung reflektiert wird.

Die resultierende Wahrnehmung wird auch als visuelle Wahrnehmung, Sehvermögen, Sehen oder Sehen bezeichnet (Adjektivform: visuell, optisch oder okular). Die verschiedenen physiologischen Komponenten, die am Sehen beteiligt sind, werden kollektiv als das visuelle System bezeichnet und stehen im Mittelpunkt vieler Forschungen in Linguistik, Psychologie, Kognitionswissenschaft, Neurowissenschaften und Molekularbiologie, die gemeinsam als Visionsforschung bezeichnet werden.

Visuelles System
Das visuelle System in Tieren ermöglicht Individuen, Informationen aus ihrer Umgebung zu assimilieren. Der Akt des Sehens beginnt, wenn die Hornhaut und dann die Linse des Auges das Licht aus seiner Umgebung auf eine lichtempfindliche Membran im hinteren Augenbereich, die Netzhaut, fokussiert. Die Retina ist tatsächlich ein Teil des Gehirns, das isoliert ist, um als Wandler für die Umwandlung von Licht in neuronale Signale zu dienen. Basierend auf der Rückmeldung des visuellen Systems passt die Linse des Auges ihre Dicke an, um Licht auf die photorezeptiven Zellen der Netzhaut, auch Stäbchen und Zapfen genannt, zu richten, die die Photonen des Lichts erfassen und durch die Erzeugung neuraler Impulse reagieren. Diese Signale werden über komplexe Feedforward- und Feedback-Prozesse von verschiedenen Teilen des Gehirns, von der Retina stromaufwärts bis zu den zentralen Ganglien im Gehirn, verarbeitet.

Beachten Sie, dass bis jetzt ein großer Teil des obigen Absatzes für Kraken, Mollusken, Würmer, Insekten und primitivere Dinge gelten könnte; alles mit einem konzentrierterem Nervensystem und besseren Augen als eine Qualle. Das Folgende gilt jedoch für Säugetiere im Allgemeinen und Vögel (in modifizierter Form): Die Retina in diesen komplexeren Tieren sendet Fasern (den Sehnerv) zum Nucleus laterale geniculate, zum primären und sekundären visuellen Cortex des Gehirns. Signale von der Netzhaut können auch direkt von der Netzhaut zum Colliculus superior wandern.

Die Wahrnehmung von Objekten und die Gesamtheit der visuellen Szene wird durch den visuellen Assoziationskortex erreicht. Der visuelle Assoziationskortex kombiniert alle sensorischen Informationen, die vom striatären Kortex wahrgenommen werden, der Tausende von Modulen enthält, die Teil von modularen neuronalen Netzwerken sind. Die Neuronen im striatären Kortex senden Axone zum extrastriären Kortex, einer Region im visuellen Assoziationskortex, die den striierten Kortex umgibt.

Das menschliche Sehsystem nimmt sichtbares Licht im Wellenlängenbereich zwischen 370 und 730 Nanometer (0,00000037 bis 0,00000073 Meter) des elektromagnetischen Spektrums wahr.

Studie
Das Hauptproblem der visuellen Wahrnehmung besteht darin, dass das, was Menschen sehen, nicht einfach eine Übersetzung retinaler Reize ist (dh das Bild auf der Netzhaut). Daher haben sich die an der Wahrnehmung interessierten Menschen lange darum gekümmert, zu erklären, was visuelle Verarbeitung zur Schaffung dessen leistet, was tatsächlich gesehen wird.

Frühe Studien

Der visuelle dorsale Strom (grün) und der ventrale Strom (lila) werden gezeigt. Ein Großteil der menschlichen Großhirnrinde ist an der Sicht beteiligt.
Es gab zwei große antike griechische Schulen, die eine primitive Erklärung dafür lieferten, wie das Sehen im Körper ausgeführt wird.

Die erste war die „Emissionstheorie“, die behauptete, dass die Vision auftritt, wenn Strahlen von den Augen ausgehen und von visuellen Objekten abgefangen werden. Wenn ein Objekt direkt gesehen wurde, kam es durch ‚Strahlen‘ aus den Augen und fiel wieder auf das Objekt. Ein gebrochenes Bild wurde aber auch von Strahlen gesehen, die aus den Augen kamen, durch die Luft gingen und nach der Brechung auf das sichtbare Objekt fielen, das durch die Bewegung der Strahlen gesichtet wurde aus dem Auge. Diese Theorie wurde von Gelehrten wie Euklid und Ptolemäus und ihren Anhängern verfochten.

Die zweite Schule befürwortete den so genannten „Intro-Mission“ -Ansatz, bei dem die Vision von etwas kommt, das in die Augen eintritt, die für das Objekt repräsentativ sind. Mit ihren Hauptpropagatoren Aristoteles, Galen und ihren Anhängern scheint diese Theorie einen gewissen Kontakt mit modernen Theorien darüber zu haben, was Vision wirklich ist, aber es blieb nur eine Spekulation, die keine experimentelle Grundlage hatte. (Im achtzehnten Jahrhundert England , Isaac Newton, John Locke und andere, trugen die Intromissions- / Intromittent-Theorie voran, indem sie darauf bestanden, dass die Vision einen Prozess beinhaltet, bei dem Strahlen – zusammengesetzt aus tatsächlich körperlicher Materie – von gesehenen Objekten ausstrahlten und durch die Augenöffnung in den Geist des Sehers eindringen. )

Beide Denkschulen stützten sich auf das Prinzip „Gleiches ist nur mit Gleichem bekannt“ und damit auf die Vorstellung, dass das Auge aus einem „inneren Feuer“ zusammengesetzt sei, das mit dem „äußeren Feuer“ des sichtbaren Lichts interagiere und das Sehen möglich mache. Plato macht diese Behauptung in seinem Dialog Timaios ebenso wie Aristoteles in seinem De Sensu.

Leonardo da Vinci: Das Auge hat eine zentrale Linie und alles, was durch diese zentrale Linie das Auge erreicht, ist deutlich zu sehen.
Alhazen (965 – ca. 1040) führte viele Untersuchungen und Experimente zur visuellen Wahrnehmung durch, erweiterte die Arbeit von Ptolemäus auf das binokulare Sehen und kommentierte die anatomischen Arbeiten von Galen. Er war der erste, der erklärte, dass die Vision entsteht, wenn Licht auf ein Objekt prallt und dann auf die Augen gerichtet wird.

Leonardo da Vinci (1452-1519) gilt als der erste, der die besonderen optischen Eigenschaften des Auges erkennt. Er schrieb: „Die Funktion des menschlichen Auges … wurde von einer großen Anzahl von Autoren in gewisser Weise beschrieben. Aber ich fand es ganz anders.“ Sein hauptsächlicher experimenteller Befund war, dass es nur eine deutliche und klare Sicht auf die Sichtlinie gibt – die optische Linie, die an der Fovea endet. Obwohl er diese Worte nicht wörtlich verwendete, ist er tatsächlich der Vater der modernen Unterscheidung zwischen fovealem und peripherem Sehen.

Issac Newton (1642-1726 / 27) entdeckte erstmals experimentell, indem er einzelne Farben des durch ein Prisma gehenden Lichtspektrums isolierte, dass die visuell wahrgenommene Farbe von Objekten aufgrund des Lichtcharakters der reflektierten Objekte auftrat dass diese geteilten Farben nicht in irgendeine andere Farbe geändert werden konnten, was der wissenschaftlichen Erwartung des Tages widersprach.

Unbewusste Schlussfolgerung
Hermann von Helmholtz wird oft die erste Studie der visuellen Wahrnehmung in modernen Zeiten zugeschrieben. Helmholtz untersuchte das menschliche Auge und kam zu dem Schluss, dass es optisch ziemlich arm war. Die Informationen schlechter Qualität, die über das Auge gesammelt wurden, schienen ihm das Sehen unmöglich zu machen. Er kam daher zu dem Schluss, dass die Vision nur das Ergebnis einer Form unbewusster Schlüsse sein könnte: eine Frage der Annahme von Annahmen und Schlussfolgerungen aus unvollständigen Daten, basierend auf früheren Erfahrungen.

Inferenz erfordert vorherige Erfahrung der Welt.

Beispiele für bekannte Annahmen, basierend auf visueller Erfahrung, sind:

Licht kommt von oben
Objekte werden normalerweise nicht von unten betrachtet
Gesichter werden aufrecht gesehen (und erkannt).
nähere Objekte können die Ansicht von weiter entfernten Objekten blockieren, aber nicht umgekehrt
Figuren (dh Vordergrundobjekte) neigen dazu, konvexe Ränder zu haben

Das Studium visueller Illusionen (Fälle, in denen der Inferenzprozess schief läuft) hat viel Aufschluss darüber gegeben, welche Art von Annahmen das visuelle System trifft.

Eine andere Art der unwahrscheinlichen Inferenzhypothese (basierend auf Wahrscheinlichkeiten) wurde kürzlich in sogenannten Bayes’schen Studien der visuellen Wahrnehmung wiederbelebt. Befürworter dieses Ansatzes berücksichtigen, dass das visuelle System eine Form von Bayes-Inferenz durchführt, um eine Wahrnehmung aus sensorischen Daten abzuleiten. Es ist jedoch nicht klar, wie Befürworter dieser Sichtweise im Prinzip die relevanten Wahrscheinlichkeiten ableiten, die von der Bayes’schen Gleichung gefordert werden. Modelle, die auf dieser Idee basieren, wurden verwendet, um verschiedene visuelle Wahrnehmungsfunktionen zu beschreiben, wie zum Beispiel die Wahrnehmung von Bewegung, die Wahrnehmung von Tiefe und die Figur-Boden-Wahrnehmung. Die „völlig empirische Theorie der Wahrnehmung“ ist ein verwandter und neuerer Ansatz, der die visuelle Wahrnehmung rationalisiert, ohne Bayes’sche Formalismen explizit anzuführen.

Gestalttheorie
Gestaltpsychologen, die vor allem in den 1930er und 1940er Jahren arbeiteten, haben viele der Forschungsfragen aufgeworfen, die heute von Visionswissenschaftlern untersucht werden.

Die Gestaltgesetze der Organisation haben die Untersuchung darüber geleitet, wie Menschen visuelle Komponenten als organisierte Muster oder Ganzheiten wahrnehmen, anstatt vieler verschiedener Teile. „Gestalt“ ist ein deutsches Wort, das teilweise „Konfiguration oder Muster“ zusammen mit „ganzer oder emergenter Struktur“ bedeutet. Nach dieser Theorie gibt es acht Hauptfaktoren, die bestimmen, wie das visuelle System automatisch Elemente in Muster gruppiert: Nähe, Ähnlichkeit, Schließung, Symmetrie, gemeinsames Schicksal (dh gemeinsame Bewegung), Kontinuität sowie gute Gestalt (Muster, das regelmäßig ist, einfach und ordentlich) und vergangene Erfahrung.

Analyse der Augenbewegung
In den 1960er Jahren ermöglichte die technische Entwicklung die kontinuierliche Registrierung der Augenbewegung beim Lesen in der Bildbetrachtung und später bei der visuellen Problemlösung und wenn Kopfhörer-Kameras verfügbar wurden, auch während des Fahrens.

Das Bild rechts zeigt, was während der ersten zwei Sekunden der Sichtprüfung passieren kann. Während der Hintergrund unscharf ist und die periphere Sicht repräsentiert, geht die erste Augenbewegung zu den Stiefeln des Mannes (nur weil sie sehr nah an der Anfangsfixierung sind und einen vernünftigen Kontrast haben).

Die folgenden Fixierungen springen von Angesicht zu Angesicht. Sie könnten sogar Vergleiche zwischen Gesichtern erlauben.

Es kann geschlussfolgert werden, dass das Icon-Gesicht ein sehr attraktives Suchsymbol innerhalb des peripheren Sichtfeldes ist. Die foveale Sicht fügt dem peripheren ersten Eindruck detaillierte Informationen hinzu.

Es kann auch festgestellt werden, dass es vier verschiedene Arten von Augenbewegungen gibt: Fixationen, Vergenzbewegungen, Sakkadenbewegungen und Verfolgungsbewegungen. Fixationen sind vergleichbar statische Punkte, wo das Auge ruht. Das Auge ist jedoch nie ganz still, aber die Blickposition wird schwinden. Diese Drifts werden wiederum durch Mikrosaccaden, sehr kleine fixative Augenbewegungen, korrigiert. Vergenzbewegungen beinhalten die Kooperation beider Augen, damit ein Bild auf den gleichen Bereich beider Netzhäute fallen kann. Dies führt zu einem einzelnen fokussierten Bild. Saccadic Bewegungen ist die Art der Augenbewegung, die Sprünge von einer Position zu einer anderen Position macht und wird verwendet, um schnell eine bestimmte Szene / Bild zu scannen. Schließlich ist die Bewegung der Verfolgung eine glatte Augenbewegung und wird verwendet, um Objekten in Bewegung zu folgen.

Gesicht und Objekterkennung
Es gibt beträchtliche Beweise dafür, dass Gesichtserkennung und Objekterkennung von unterschiedlichen Systemen durchgeführt werden. Zum Beispiel zeigen prosopagnostische Patienten Defizite in der Gesichts-, jedoch nicht in der Objektverarbeitung, während Objekt-agnosische Patienten (vor allem Patienten CK) Defizite in der Objektverarbeitung mit geschützter Gesichtsbehandlung zeigen. Im Verhalten wurde gezeigt, dass Gesichter, aber keine Objekte, Inversionseffekten unterliegen, was zu der Behauptung führt, dass Gesichter „besonders“ sind. Ferner rekrutiert die Gesichts- und Objektverarbeitung unterschiedliche neurale Systeme. Bemerkenswerterweise haben einige argumentiert, dass die offensichtliche Spezialisierung des menschlichen Gehirns für die Gesichtsverarbeitung nicht die wahre Domänenspezifität widerspiegelt, sondern eher einen allgemeineren Prozess der Diskriminierung auf Expertenebene innerhalb einer gegebenen Reizklasse, obwohl dieser letztere Anspruch substanziell ist Debatte. Mit fMRT und Elektrophysiologie beschrieben Doris Tsao und Kollegen Gehirnregionen und einen Mechanismus zur Gesichtserkennung bei Makaken.

Die kognitiven und rechnerischen Ansätze
In den 1970er Jahren entwickelte David Marr eine Multi-Level-Theorie der Vision, die den Prozess des Sehens auf verschiedenen Abstraktionsebenen analysierte. Um sich auf das Verständnis spezifischer Sehprobleme zu konzentrieren, identifizierte er drei Analyseebenen: die rechnerischen, algorithmischen und implementierenden Ebenen. Viele Vision-Wissenschaftler, einschließlich Tomaso Poggio, haben diese Analyseebenen angenommen und sie eingesetzt, um das Sehen aus einer rechnerischen Perspektive weiter zu charakterisieren.

Die Rechenebene adressiert auf hohem Abstraktionsniveau die Probleme, die das visuelle System überwinden muss. Die algorithmische Ebene versucht, die Strategie zu identifizieren, die zur Lösung dieser Probleme verwendet werden kann. Schließlich versucht die Implementierungsebene zu erklären, wie Lösungen für diese Probleme in neuronalen Schaltkreisen realisiert werden.

Marr schlug vor, dass es möglich ist, das Sehen auf jeder dieser Ebenen unabhängig voneinander zu untersuchen. Marr beschrieb Vision als von einer zweidimensionalen visuellen Anordnung (auf der Retina) zu einer dreidimensionalen Beschreibung der Welt als Ausgabe fortschreitend. Seine Sichtweisen umfassen:

Eine 2D- oder Urskizze der Szene basierend auf der Merkmalsextraktion von grundlegenden Komponenten der Szene, einschließlich Kanten, Regionen usw. Beachten Sie die Ähnlichkeit im Konzept zu einer Bleistiftskizze, die ein Künstler schnell als eine Impression gezeichnet hat.
Eine 2½ D-Skizze der Szene, in der Texturen bestätigt werden, etc. Beachten Sie die Ähnlichkeit im Konzept zur Stufe in der Zeichnung, wo ein Künstler Bereiche einer Szene hervorhebt oder abtastet, um Tiefe zu schaffen.
Ein 3D-Modell, bei dem die Szene in einer fortlaufenden dreidimensionalen Karte visualisiert wird.
Marrs 2.5D-Skizze geht davon aus, dass eine Tiefenkarte erstellt wurde und dass diese Karte die Grundlage der 3D-Formwahrnehmung ist. Sowohl die stereoskopische und die bildliche Wahrnehmung als auch die monokulare Betrachtung machen jedoch deutlich, dass die Wahrnehmung der 3D-Form der Wahrnehmung der Tiefe von Punkten vorausgeht und nicht darauf angewiesen ist. Es ist nicht klar, wie eine vorläufige Tiefenkarte im Prinzip konstruiert werden könnte und wie dies die Frage der Figur-Boden-Organisation oder Gruppierung angehen würde. Die von Marr übersehene Rolle der perzeptuellen Organisationsbeschränkungen bei der Erzeugung von 3D-Formwahrnehmungen aus binokular betrachteten 3D-Objekten wurde empirisch für den Fall von 3D-Drahtobjekten demonstriert, zB Für eine detailliertere Diskussion siehe Pizlo (2008).

Transduktion
Transduktion ist der Prozess, durch den Energie von Umweltreizen in neuronale Aktivität umgewandelt wird, die das Gehirn verstehen und verarbeiten kann. Der hintere Teil des Auges enthält drei verschiedene Zellschichten: Photorezeptorschicht, bipolare Zellschicht und Ganglienzellschicht. Die Photorezeptorschicht befindet sich ganz hinten und enthält Stäbchenphotorezeptoren und Zapfenphotorezeptoren. Kegel sind für die Farbwahrnehmung verantwortlich. Es gibt drei verschiedene Kegel: Rot, Grün und Blau. Stäbe, sind verantwortlich für die Wahrnehmung von Objekten bei schwachem Licht. Photorezeptoren enthalten in ihnen eine spezielle Chemikalie, genannt Photopigment, die in die Membran der Lamellen eingebettet sind; ein einziger menschlicher Stab enthält ungefähr 10 Millionen von ihnen. Die Photopigment-Moleküle bestehen aus zwei Teilen: einem Opsin (einem Protein) und einem Retinal (einem Lipid). Es gibt 3 spezifische Photopigmente (jede mit ihrer eigenen Farbe), die auf bestimmte Wellenlängen des Lichts reagieren. Wenn die geeignete Lichtwellenlänge den Photorezeptor trifft, teilt sich dessen Photopigment in zwei Teile, die eine Nachricht an die bipolare Zellschicht senden, die wiederum eine Nachricht an die Ganglienzellen sendet, die dann die Information durch den Sehnerv an das Gehirn senden. Wenn sich das geeignete Photopigment nicht in dem richtigen Photorezeptor befindet (zum Beispiel ein grünes Photopigment in einem roten Konus), tritt ein Zustand auf, der Farbfehlsichtigkeit genannt wird.

Gegner Prozess
Die Transduktion umfasst chemische Nachrichten, die von den Photorezeptoren zu den bipolaren Zellen zu den Ganglienzellen gesendet werden. Mehrere Photorezeptoren können ihre Informationen an eine Ganglienzelle senden. Es gibt zwei Arten von Ganglienzellen: rot / grün und gelb / blau. Diese Neuronenzellen feuern ständig – auch wenn sie nicht stimuliert werden. Das Gehirn interpretiert verschiedene Farben (und mit einer Menge Information, ein Bild), wenn die Rate der Zündung dieser Neuronen sich ändert. Rotes Licht stimuliert den roten Kegel, der wiederum die rot / grüne Ganglienzelle stimuliert. Ebenso stimuliert grünes Licht den grünen Kegel, der die rot / grüne Ganglienzelle stimuliert und blaues Licht stimuliert den blauen Kegel, der die gelb / blaue Ganglienzelle stimuliert. Die Geschwindigkeit des Abfeuerns der Ganglienzellen ist erhöht, wenn sie durch einen Konus signalisiert wird und verringert (gehemmt) wird, wenn sie durch den anderen Konus signalisiert wird. Die erste Farbe im Namen der Ganglienzelle ist die Farbe, die sie erregt, und die zweite ist die Farbe, die sie hemmt. Dh: Ein roter Kegel würde die rot / grüne Ganglienzelle anregen und der grüne Kegel würde die rot / grüne Ganglienzelle hemmen. Dies ist ein gegnerischer Prozess. Wenn die Rate des Feuerns einer rot / grünen Ganglienzelle erhöht wird, würde das Gehirn wissen, dass das Licht rot war. Wenn die Rate verringert würde, würde das Gehirn wissen, dass die Farbe des Lichts grün ist.

Künstliche visuelle Wahrnehmung
Theorien und Beobachtungen der visuellen Wahrnehmung waren die Hauptquelle der Inspiration für das Computer-Sehen (auch als maschinelles Sehen oder rechnerisches Sehen bezeichnet). Spezielle Hardwarestrukturen und Softwarealgorithmen bieten Maschinen die Möglichkeit, die Bilder von einer Kamera oder einem Sensor zu interpretieren. Künstliche visuelle Wahrnehmung wird seit langem in der Industrie eingesetzt und dringt nun in die Bereiche Automotive und Robotik ein.