Percezione visiva

La percezione visiva è la capacità di interpretare l’ambiente circostante utilizzando la luce nello spettro visibile riflesso dagli oggetti nell’ambiente.

La percezione risultante è anche conosciuta come percezione visiva, vista, vista o visione (forma aggettivale: visiva, ottica o oculare). Le varie componenti fisiologiche coinvolte nella visione sono indicate collettivamente come il sistema visivo e sono al centro di molte ricerche in linguistica, psicologia, scienze cognitive, neuroscienze e biologia molecolare, indicate collettivamente come scienza della visione.

Sistema visivo
Il sistema visivo negli animali consente alle persone di assimilare le informazioni dai loro dintorni. L’atto del vedere inizia quando la cornea e poi la lente dell’occhio focalizzano la luce dai suoi dintorni su una membrana sensibile alla luce nella parte posteriore dell’occhio, chiamata retina. La retina è in realtà una parte del cervello isolata che funge da trasduttore per la conversione della luce in segnali neuronali. Sulla base del feedback del sistema visivo, la lente dell’occhio regola il suo spessore per focalizzare la luce sulle cellule fotorecettriche della retina, note anche come coni e bastoncelli, che rilevano i fotoni di luce e rispondono producendo impulsi neuronali. Questi segnali vengono elaborati tramite complessi processi feedforward e feedback da diverse parti del cervello, dalla retina a monte ai gangli centrali nel cervello.

Si noti che fino ad ora gran parte del paragrafo precedente poteva applicarsi a polpi, molluschi, vermi, insetti e cose più primitive; qualsiasi cosa abbia un sistema nervoso più concentrato e occhi migliori di una medusa. Tuttavia, quanto segue si applica ai mammiferi in generale e agli uccelli (in forma modificata): la retina in questi animali più complessi invia le fibre (il nervo ottico) al nucleo del genicolato laterale, alla corteccia visiva primaria e secondaria del cervello. I segnali dalla retina possono anche viaggiare direttamente dalla retina al collicolo superiore.

La percezione degli oggetti e la totalità della scena visiva è realizzata dalla corteccia di associazione visiva. La corteccia associativa visiva combina tutte le informazioni sensoriali percepite dalla corteccia striata che contiene migliaia di moduli che fanno parte di reti neurali modulari. I neuroni nella corteccia striata inviano assoni alla corteccia extrastriata, una regione nella corteccia associativa visiva che circonda la corteccia striata.

Il sistema visivo umano percepisce la luce visibile nell’intervallo di lunghezze d’onda tra 370 e 730 nanometri (da 0,00000037 a 0,00000073 metri) dello spettro elettromagnetico.

Studia
Il principale problema nella percezione visiva è che ciò che le persone vedono non è semplicemente una traduzione di stimoli retinici (cioè l’immagine sulla retina). Quindi le persone interessate alla percezione si sono a lungo dibattute per spiegare quale elaborazione visiva fa per creare ciò che è effettivamente visto.

Primi studi

Il flusso dorsale visivo (verde) e il flusso ventrale (viola) sono mostrati. Gran parte della corteccia cerebrale umana è coinvolta nella visione.
C’erano due importanti scuole greche antiche, fornendo una spiegazione primitiva di come la visione viene eseguita nel corpo.

La prima era la “teoria delle emissioni” che sosteneva che la visione si verifica quando i raggi emanano dagli occhi e vengono intercettati dagli oggetti visivi. Se un oggetto veniva visto direttamente, era “mezzo di raggi” che usciva dagli occhi e cadeva nuovamente sull’oggetto. Un’immagine rifratta, tuttavia, è stata vista anche da “mezzi di raggi”, che sono usciti dagli occhi, attraversati attraverso l’aria, e dopo la rifrazione, sono caduti sull’oggetto visibile che è stato avvistato come risultato del movimento dei raggi dall’occhio Questa teoria fu sostenuta da studiosi come Euclide e Tolomeo e dai loro seguaci.

La seconda scuola sosteneva il cosiddetto approccio di “intro-missione” che vede la visione come proveniente da qualcosa che entra negli occhi rappresentativo dell’oggetto. Con i suoi principali propagatori Aristotele, Galeno e i loro seguaci, questa teoria sembra avere un qualche contatto con le teorie moderne su cosa sia realmente la visione, ma è rimasta solo una speculazione priva di qualsiasi fondamento sperimentale. (Nell’Inghilterra del diciottesimo secolo, Isaac Newton, John Locke e altri, portarono avanti la teoria dell’intromissione / intromittista insistendo sul fatto che la visione implicava un processo in cui i raggi, composti da materia corporea reale, emanavano da oggetti visti e entravano nella mente del veggente / sensorio attraverso l’apertura dell’occhio).

Entrambe le scuole di pensiero si basavano sul principio che “come è conosciuto solo da simili”, e quindi sulla nozione che l’occhio era composto da un “fuoco interno” che interagiva con il “fuoco esterno” della luce visibile e rendeva possibile la visione. Platone fa questa affermazione nel suo dialogo Timeo, così come Aristotele, nel suo De Sensu.

Leonardo da Vinci: l’occhio ha una linea centrale e tutto ciò che raggiunge l’occhio attraverso questa linea centrale può essere visto distintamente.
Alhazen (965 – 1040) ha condotto molte ricerche ed esperimenti sulla percezione visiva, ha esteso il lavoro di Tolomeo alla visione binoculare e ha commentato le opere anatomiche di Galen. Fu la prima persona a spiegare che la visione si verifica quando la luce rimbalza su un oggetto e poi viene diretta verso i propri occhi.

Leonardo da Vinci (1452-1519) è ritenuto il primo a riconoscere le speciali qualità ottiche dell’occhio. Ha scritto “La funzione dell’occhio umano … è stata descritta da un gran numero di autori in un certo modo, ma l’ho trovata completamente diversa”. La sua principale scoperta sperimentale fu che c’era solo una visione chiara e distinta alla linea di vista: la linea ottica che termina alla fovea. Sebbene non abbia usato queste parole letteralmente, in realtà è il padre della moderna distinzione tra visione foveale e visione periferica.

Issac Newton (1642-1726 / 27) fu il primo a scoprire attraverso la sperimentazione, isolando i singoli colori dello spettro di luce che passava attraverso un prisma, che il colore visivamente percepito degli oggetti appariva a causa del carattere di luce che gli oggetti riflettevano, e che questi colori divisi non potevano essere cambiati in nessun altro colore, il che era contrario alle aspettative scientifiche del giorno.

Inferenza inconscia
Hermann von Helmholtz è spesso accreditato del primo studio sulla percezione visiva nei tempi moderni. Helmholtz esaminò l’occhio umano e concluse che era, otticamente, piuttosto povero. Le informazioni di scarsa qualità raccolte attraverso l’occhio gli sembravano rendere la visione impossibile. Ha quindi concluso che la visione potrebbe essere solo il risultato di qualche forma di inferenze inconsce: una questione di formulare ipotesi e conclusioni da dati incompleti, basati su esperienze precedenti.

L’inferenza richiede una precedente esperienza del mondo.

Esempi di assunti noti, basati sull’esperienza visiva, sono:

la luce viene dall’alto
gli oggetti non sono normalmente visti dal basso
i volti sono visti (e riconosciuti) in posizione verticale.
oggetti più vicini possono bloccare la vista di oggetti più distanti, ma non viceversa
le figure (cioè gli oggetti in primo piano) tendono ad avere bordi convessi

Lo studio delle illusioni visive (casi in cui il processo di inferenza va storto) ha fornito molte informazioni su quali siano le ipotesi del sistema visivo.

Un altro tipo di ipotesi di inferenza inconscia (basata sulle probabilità) è stato recentemente riproposto nei cosiddetti studi bayesiani sulla percezione visiva. I fautori di questo approccio considerano che il sistema visivo esegue una qualche forma di inferenza bayesiana per ricavare una percezione dai dati sensoriali. Tuttavia, non è chiaro in che modo i sostenitori di questa tesi derivino, in linea di principio, le pertinenti probabilità richieste dall’equazione bayesiana. I modelli basati su questa idea sono stati usati per descrivere varie funzioni percettive visive, come la percezione del movimento, la percezione della profondità e la percezione del piano terra. La “teoria della percezione interamente empirica” ​​è un approccio correlato e più recente che razionalizza la percezione visiva senza invocare espressamente i formalismi bayesiani.

Teoria della Gestalt
Gli psicologi della Gestalt che lavoravano principalmente negli anni ’30 e ’40 sollevarono molte delle domande di ricerca studiate oggi dagli scienziati della visione.

Le leggi di organizzazione della Gestalt hanno guidato lo studio di come le persone percepiscono le componenti visive come modelli o interi organizzati, invece di molte parti differenti. “Gestalt” è una parola tedesca che si traduce parzialmente in “configurazione o modello” insieme a “struttura intera o emergente”. Secondo questa teoria, ci sono otto fattori principali che determinano il modo in cui il sistema visivo raggruppa automaticamente gli elementi in pattern: Prossimità, Somiglianza, Chiusura, Simmetria, Destino comune (cioè movimento comune), Continuità e Buona Gestalt (modello regolare, semplice e ordinato) e esperienza passata.

Analisi del movimento degli occhi
Durante gli anni ’60, lo sviluppo tecnico permise la registrazione continua del movimento degli occhi durante la lettura nella visione di immagini e successivamente nella risoluzione dei problemi visivi e quando le telecamere degli auricolari diventarono disponibili, anche durante la guida.

L’immagine a destra mostra cosa può accadere durante i primi due secondi di ispezione visiva. Mentre lo sfondo è fuori fuoco, rappresentando la visione periferica, il primo movimento degli occhi va agli stivali dell’uomo (solo perché sono molto vicini alla fissazione iniziale e hanno un ragionevole contrasto).

Le seguenti fissazioni saltano da faccia a faccia. Potrebbero persino consentire il confronto tra le facce.

Si può concludere che la faccia dell’icona è un’icona di ricerca molto attraente all’interno del campo visivo periferico. La visione foveale aggiunge informazioni dettagliate alla prima impressione periferica.

Si può anche notare che ci sono quattro diversi tipi di movimenti oculari: fissazioni, movimenti di vergenza, movimenti saccadici e movimenti di inseguimento. Le fissazioni sono punti statici comparabili su cui poggia l’occhio. Tuttavia, l’occhio non è mai completamente fermo, ma la posizione dello sguardo andrà alla deriva. Questi drift sono a loro volta corretti da microsaccadici, movimenti oculari fissi molto piccoli. I movimenti di Vergence implicano la cooperazione di entrambi gli occhi per consentire a un’immagine di cadere sulla stessa area di entrambe le retine. Ciò si traduce in una singola immagine focalizzata. I movimenti saccadici sono il tipo di movimento oculare che fa salti da una posizione a un’altra posizione e viene utilizzato per scansionare rapidamente una scena / immagine particolare. Infine, il movimento dell’inseguimento è il movimento degli occhi e viene utilizzato per seguire gli oggetti in movimento.

Riconoscimento di volti e oggetti
Vi sono prove considerevoli del fatto che il riconoscimento di volti e oggetti è realizzato da sistemi distinti. Ad esempio, i pazienti prosopagnosici mostrano deficit nella faccia, ma non l’elaborazione degli oggetti, mentre i pazienti agnosici (in particolare la CK paziente) mostrano deficit nell’elaborazione degli oggetti con l’elaborazione del volto risparmiata. Comportamentalmente, è stato dimostrato che i volti, ma non gli oggetti, sono soggetti a effetti di inversione, portando a sostenere che i volti sono “speciali”. Inoltre, l’elaborazione di volti e oggetti recluta sistemi neuronali distinti. In particolare, alcuni hanno sostenuto che l’apparente specializzazione del cervello umano per l’elaborazione del volto non riflette la vera specificità del dominio, ma piuttosto un processo più generale di discriminazione a livello di esperti all’interno di una determinata classe di stimoli, sebbene quest’ultima affermazione sia oggetto di discussione. Utilizzando fMRI ed elettrofisiologia Doris Tsao e colleghi hanno descritto regioni cerebrali e un meccanismo per il riconoscimento facciale nelle scimmie macaco.

Gli approcci cognitivi e computazionali
Negli anni ’70, David Marr sviluppò una teoria della visione a più livelli, che analizzò il processo di visione a diversi livelli di astrazione. Al fine di concentrarsi sulla comprensione di problemi specifici nella visione, ha identificato tre livelli di analisi: i livelli computazionale, algoritmico e implementativo. Molti visionisti, tra cui Tomaso Poggio, hanno abbracciato questi livelli di analisi e li hanno impiegati per caratterizzare ulteriormente la visione da una prospettiva computazionale.

Il livello computazionale affronta, ad un alto livello di astrazione, i problemi che il sistema visivo deve superare. Il livello algoritmico tenta di identificare la strategia che può essere utilizzata per risolvere questi problemi. Infine, il livello implementativo tenta di spiegare come le soluzioni a questi problemi siano realizzate nei circuiti neurali.

Marr ha suggerito che è possibile indagare la visione in uno qualsiasi di questi livelli in modo indipendente. Marr descrisse la visione come procedendo da una matrice visiva bidimensionale (sulla retina) a una descrizione tridimensionale del mondo come uscita. Le sue fasi di visione includono:

Uno schizzo 2D o primordiale della scena, basato sull’estrazione di elementi fondamentali della scena, inclusi bordi, regioni, ecc. Si noti la somiglianza nel concetto con uno schizzo a matita disegnato rapidamente da un artista come un’impressione.
Uno schizzo di 2½ D della scena, in cui le trame vengono riconosciute, ecc. Si noti la somiglianza in termini di concetto con la fase del disegno in cui un artista evidenzia o ombreggia le aree di una scena, per fornire profondità.
Un modello 3 D, in cui la scena viene visualizzata in una mappa tridimensionale continua.
Lo schizzo di Marr 2.5D presume che sia stata costruita una mappa di profondità e che questa mappa sia alla base della percezione della forma 3D. Tuttavia, sia la percezione stereoscopica e pittorica, sia la visione monoculare, rendono chiaro che la percezione della forma 3D precede e non si basa sulla percezione della profondità dei punti. Non è chiaro come una mappa preliminare di profondità possa, in linea di principio, essere costruita, né come questo possa indirizzare la questione di organizzazione a terra, o raggruppamento. Il ruolo dei vincoli organizzativi percettivi, trascurato da Marr, nella produzione di percezioni di forme tridimensionali da oggetti 3D binoculari è stato dimostrato empiricamente per il caso di oggetti in filo 3D, ad es. Per una discussione più dettagliata, vedere Pizlo (2008).

trasduzione
La trasduzione è il processo attraverso il quale l’energia proveniente dagli stimoli ambientali viene convertita in attività neurale affinché il cervello possa capire ed elaborare. La parte posteriore dell’occhio contiene tre diversi strati cellulari: strato di fotorecettori, strato di cellule bipolari e strato di cellule gangliari. Lo strato fotoricettore si trova nella parte posteriore e contiene fotorecettori a bastoncino e fotorecettori a cono. I coni sono responsabili della percezione del colore. Ci sono tre coni diversi: rosso, verde e blu. Canne, sono responsabili per la percezione di oggetti in condizioni di scarsa illuminazione. I fotorecettori contengono al loro interno una speciale sostanza chimica chiamata photopigment, che è incorporata nella membrana delle lamelle; una singola verga umana contiene circa 10 milioni di essi. Le molecole di fotopigmento consistono di due parti: un opsin (una proteina) e una retina (un lipide). Esistono 3 fotopigmenti specifici (ciascuno con il proprio colore) che rispondono a specifiche lunghezze d’onda della luce. Quando la lunghezza d’onda della luce appropriata colpisce il fotoricettore, la sua fotopittura si divide in due, che invia un messaggio allo strato di cellule bipolari, che a sua volta invia un messaggio alle cellule del ganglio, che quindi inviano l’informazione attraverso il nervo ottico al cervello. Se il fotopigmento appropriato non si trova nel fotorecettore appropriato (ad esempio, un fotopigmento verde all’interno di un cono rosso), si verificherà una condizione chiamata deficienza della visione a colori.

Processo dell’avversario
La trasduzione coinvolge messaggi chimici inviati dai fotorecettori alle cellule bipolari alle cellule gangliari. Diversi fotorecettori possono inviare le loro informazioni a una cellula gangliare. Esistono due tipi di cellule gangliari: rosso / verde e giallo / blu. Queste cellule neuronali sparano costantemente, anche se non sono stimolate. Il cervello interpreta diversi colori (e con molte informazioni, un’immagine) quando la velocità di fuoco di questi neuroni si altera. La luce rossa stimola il cono rosso, che a sua volta stimola la cellula del ganglio rosso / verde. Allo stesso modo, la luce verde stimola il cono verde, che stimola la cellula del ganglio rosso / verde e la luce blu stimola il cono blu che stimola la cellula del ganglio giallo / blu. La velocità di cottura delle cellule gangliari aumenta quando viene segnalata da un cono e diminuita (inibita) quando viene segnalata dall’altra cono. Il primo colore nel nome della cellula del ganglio è il colore che lo eccita e il secondo è il colore che lo inibisce. vale a dire: un cono rosso ecciterebbe la cellula del ganglio rosso / verde e il cono verde inibirebbe la cellula del ganglio rosso / verde. Questo è un processo avversario. Se la frequenza di fuoco di una cellula gangliare rosso / verde aumenta, il cervello dovrebbe sapere che la luce era rossa, se la velocità fosse diminuita, il cervello avrebbe saputo che il colore della luce era verde.

Percezione visiva artificiale
Le teorie e le osservazioni della percezione visiva sono state la principale fonte di ispirazione per la visione artificiale (chiamata anche visione artificiale o visione computazionale). Strutture hardware e algoritmi software speciali offrono alle macchine la capacità di interpretare le immagini provenienti da una fotocamera o da un sensore. La percezione visiva artificiale è stata a lungo utilizzata nel settore e ora sta entrando nei domini dell’automotive e della robotica.