Percepção visual

A percepção visual é a capacidade de interpretar o ambiente circundante usando luz no espectro visível refletido pelos objetos no ambiente.

A percepção resultante também é conhecida como percepção visual, visão, visão ou visão (forma adjetival: visual, óptica ou ocular). Os vários componentes fisiológicos envolvidos na visão são referidos coletivamente como o sistema visual, e são o foco de muitas pesquisas em lingüística, psicologia, ciência cognitiva, neurociência e biologia molecular, coletivamente referidas como ciência da visão.

Sistema visual
O sistema visual em animais permite que os indivíduos assimilem informações de seus arredores. O ato de ver começa quando a córnea e, em seguida, a lente do olho focaliza a luz de seus arredores em uma membrana sensível à luz na parte de trás do olho, chamada retina. A retina é na verdade parte do cérebro que é isolado para servir como um transdutor para a conversão da luz em sinais neuronais. Com base no feedback do sistema visual, a lente do olho ajusta sua espessura para focalizar a luz nas células fotorreceptoras da retina, também conhecidas como bastonetes e cones, que detectam os fótons de luz e respondem produzindo impulsos neurais. Esses sinais são processados ​​através de processos complexos de feedforward e feedback por diferentes partes do cérebro, desde a retina a montante até os gânglios centrais no cérebro.

Note que até agora muito do parágrafo acima poderia ser aplicado a polvos, moluscos, vermes, insetos e coisas mais primitivas; qualquer coisa com um sistema nervoso mais concentrado e olhos melhores do que uma medusa. No entanto, o seguinte se aplica a mamíferos em geral e aves (em forma modificada): A retina nestes animais mais complexos envia fibras (o nervo óptico) para o núcleo geniculado lateral, para o córtex visual primário e secundário do cérebro. Sinais da retina também podem viajar diretamente da retina para o colículo superior.

A percepção dos objetos e a totalidade da cena visual é realizada pelo córtex de associação visual. O córtex de associação visual combina todas as informações sensoriais percebidas pelo córtex estriado, que contém milhares de módulos que fazem parte de redes neurais modulares. Os neurônios do córtex estriado enviam axônios para o córtex extra-estriado, uma região no córtex de associação visual que envolve o córtex estriado.

O sistema visual humano percebe a luz visível na faixa de comprimentos de onda entre 370 e 730 nanômetros (0,00000037 a 0,00000073 metros) do espectro eletromagnético.

Estude
O principal problema na percepção visual é que o que as pessoas vêem não é simplesmente uma tradução dos estímulos da retina (isto é, a imagem na retina). Assim, as pessoas interessadas na percepção lutam há muito tempo para explicar o que o processamento visual faz para criar o que realmente é visto.

Estudos iniciais

O fluxo visual dorsal (verde) e o fluxo ventral (roxo) são mostrados. Muito do córtex cerebral humano está envolvido na visão.
Havia duas grandes escolas gregas antigas, fornecendo uma explicação primitiva de como a visão é realizada no corpo.

A primeira foi a “teoria das emissões”, que sustentava que a visão ocorre quando os raios emanam dos olhos e são interceptados por objetos visuais. Se um objeto foi visto diretamente, foi por meio de “raios” saindo dos olhos e caindo novamente sobre o objeto. Uma imagem refratada foi, no entanto, vista também por “meios de raios”, que saíram dos olhos, atravessaram o ar e, após a refração, caíram sobre o objeto visível que foi avistado como resultado do movimento dos raios. do olho. Esta teoria foi defendida por estudiosos como Euclides e Ptolomeu e seus seguidores.

A segunda escola defendia a chamada abordagem de “intro-missão”, que vê a visão como algo proveniente de algo que entra nos olhos representativos do objeto. Com seus principais propagadores, Aristóteles, Galeno e seus seguidores, essa teoria parece ter algum contato com as teorias modernas do que a visão realmente é, mas permaneceu apenas uma especulação sem qualquer base experimental. (No século XVIII Inglaterra Isaac Newton, John Locke, e outros, levaram adiante a teoria da intromissão / intromittista insistindo que a visão envolvia um processo no qual os raios – compostos de matéria corpórea real – emanavam de objetos vistos e entravam na mente / sensorium do observador através da abertura do olho. )

Ambas as escolas de pensamento baseavam-se no princípio de que “o semelhante só é conhecido por semelhante” e, portanto, a noção de que o olho era composto de algum “fogo interno” que interagia com o “fogo externo” da luz visível e tornava a visão possível. Platão faz essa afirmação em seu diálogo Timeu, assim como Aristóteles, em seu De Sensu.

Leonardo da Vinci: O olho tem uma linha central e tudo o que alcança o olho através dessa linha central pode ser visto distintamente.
Alhazen (965 – 1040) realizou muitas investigações e experimentos sobre percepção visual, ampliou o trabalho de Ptolomeu sobre a visão binocular e comentou sobre as obras anatômicas de Galeno. Ele foi a primeira pessoa a explicar que a visão ocorre quando a luz salta sobre um objeto e depois é direcionada para os olhos.

Acredita-se que Leonardo da Vinci (1452–1519) seja o primeiro a reconhecer as qualidades ópticas especiais do olho. Ele escreveu “A função do olho humano … foi descrita por um grande número de autores de uma certa maneira. Mas eu achei que fosse completamente diferente”. Sua principal descoberta experimental foi que há apenas uma visão clara e distinta na linha de visão – a linha ótica que termina na fóvea. Embora ele não tenha usado essas palavras literalmente, ele é o pai da moderna distinção entre visão foveal e visão periférica.

Issac Newton (1642–1726 / 27) foi o primeiro a descobrir através da experimentação, isolando as cores individuais do espectro de luz que passa através de um prisma, que a cor visualmente percebida dos objetos surgiu devido ao caráter da luz que os objetos refletiam, e que essas cores divididas não poderiam ser alteradas para qualquer outra cor, o que contrariava as expectativas científicas do dia.

Inferência Inconsciente
Hermann von Helmholtz é frequentemente creditado com o primeiro estudo da percepção visual nos tempos modernos. Helmholtz examinou o olho humano e concluiu que ele era opticamente bastante pobre. A informação de má qualidade recolhida através do olho parecia-lhe tornar a visão impossível. Ele concluiu, portanto, que a visão só poderia ser o resultado de alguma forma de inferências inconscientes: uma questão de fazer suposições e conclusões a partir de dados incompletos, baseados em experiências anteriores.

A inferência requer experiência prévia do mundo.

Exemplos de suposições bem conhecidas, baseadas na experiência visual, são:

a luz vem de cima
objetos normalmente não são vistos de baixo
faces são vistas (e reconhecidas) na vertical.
objetos mais próximos podem bloquear a visão de objetos mais distantes, mas não vice-versa
figuras (ou seja, objetos em primeiro plano) tendem a ter bordas convexas

O estudo das ilusões visuais (casos em que o processo de inferência dá errado) produziu muitas informações sobre o tipo de suposições que o sistema visual faz.

Outro tipo de hipótese de inferência inconsciente (baseada em probabilidades) foi recentemente revivido nos chamados estudos bayesianos de percepção visual. Os proponentes dessa abordagem consideram que o sistema visual realiza alguma forma de inferência bayesiana para derivar uma percepção a partir de dados sensoriais. No entanto, não está claro como os proponentes dessa visão derivam, em princípio, as probabilidades relevantes requeridas pela equação de Bayes. Modelos baseados nessa idéia têm sido usados ​​para descrever várias funções visuais perceptuais, como a percepção do movimento, a percepção da profundidade e a percepção figura-fundo. A “teoria totalmente empírica da percepção” é uma abordagem relacionada e mais nova que racionaliza a percepção visual sem invocar explicitamente formalismos bayesianos.

Teoria da Gestalt
Os psicólogos da Gestalt, trabalhando principalmente nas décadas de 1930 e 1940, levantaram muitas das questões de pesquisa que são estudadas por cientistas da visão atualmente.

As Leis Gestálticas da Organização guiaram o estudo de como as pessoas percebem os componentes visuais como padrões ou conjuntos organizados, em vez de muitas partes diferentes. “Gestalt” é uma palavra alemã que se traduz parcialmente em “configuração ou padrão” juntamente com “estrutura total ou emergente”. De acordo com essa teoria, há oito fatores principais que determinam como o sistema visual automaticamente agrupa elementos em padrões: proximidade, similaridade, fechamento, simetria, destino comum (ou seja, movimento comum), continuidade bem como boa Gestalt (padrão que é regular, simples, ordenada) e experiência passada.

Análise do movimento ocular
Durante a década de 1960, o desenvolvimento técnico permitiu o registro contínuo do movimento dos olhos durante a leitura na visualização de imagens e, posteriormente, na resolução visual de problemas e quando as câmeras de headset se tornaram disponíveis, também durante a condução.

A imagem à direita mostra o que pode acontecer durante os primeiros dois segundos de inspeção visual. Enquanto o fundo está fora de foco, representando a visão periférica, o primeiro movimento ocular vai para as botas do homem (só porque elas estão muito próximas da fixação inicial e têm um contraste razoável).

As seguintes fixações saltam de frente para frente. Eles podem até permitir comparações entre rostos.

Pode-se concluir que a face do ícone é um ícone de busca muito atraente dentro do campo de visão periférico. A visão foveal adiciona informações detalhadas à primeira impressão periférica.

Pode-se notar também que existem quatro tipos diferentes de movimentos oculares: fixações, movimentos de vergência, movimentos sacádicos e movimentos de busca. As fixações são comparativamente pontos estáticos onde o olho repousa. No entanto, o olho nunca está completamente parado, mas a posição do olhar se deslocará. Esses desvios, por sua vez, são corrigidos por microsacadas, movimentos oculares fixos muito pequenos. Movimentos de vergência envolvem a cooperação de ambos os olhos para permitir que uma imagem caia na mesma área de ambas as retinas. Isso resulta em uma única imagem focada. Movimentos sacádicos é o tipo de movimento ocular que faz saltos de uma posição para outra e é usado para varrer rapidamente uma cena / imagem em particular. Por fim, o movimento de perseguição é o movimento suave dos olhos e é usado para seguir objetos em movimento.

Reconhecimento de rosto e objeto
Existem evidências consideráveis ​​de que o reconhecimento de faces e objetos é realizado por sistemas distintos. Por exemplo, os pacientes prosopagnósicos apresentam déficits na face, mas não no processamento de objetos, enquanto os pacientes com agnoses objeto (mais notavelmente, CK do paciente) mostram déficits no processamento de objetos com processamento de face poupada. Comportamentalmente, foi demonstrado que rostos, mas não objetos, estão sujeitos a efeitos de inversão, levando à afirmação de que os rostos são “especiais”. Além disso, o processamento de faces e objetos recruta sistemas neurais distintos. Notavelmente, alguns argumentaram que a aparente especialização do cérebro humano para processamento facial não reflete a verdadeira especificidade de domínio, mas sim um processo mais geral de discriminação em nível de especialista dentro de uma determinada classe de estímulo, embora esta última afirmação seja objeto de substancial debate. Usando ressonância magnética funcional e eletrofisiologia, Doris Tsao e seus colegas descreveram as regiões do cérebro e um mecanismo de reconhecimento facial em macacos.

As abordagens cognitiva e computacional
Na década de 1970, David Marr desenvolveu uma teoria de visão multi-nível, que analisou o processo de visão em diferentes níveis de abstração. Para se concentrar no entendimento de problemas específicos da visão, ele identificou três níveis de análise: os níveis computacional, algorítmico e de implementação. Muitos cientistas da visão, incluindo o Tomaso Poggio, adotaram esses níveis de análise e os empregaram para caracterizar ainda mais a visão a partir de uma perspectiva computacional.

O nível computacional aborda, em um alto nível de abstração, os problemas que o sistema visual deve superar. O nível algorítmico tenta identificar a estratégia que pode ser usada para resolver esses problemas. Finalmente, o nível de implementação tenta explicar como as soluções para esses problemas são realizadas em circuitos neurais.

Marr sugeriu que é possível investigar a visão em qualquer um desses níveis de forma independente. Marr descreveu a visão como procedente de uma matriz visual bidimensional (na retina) para uma descrição tridimensional do mundo como saída. Seus estágios de visão incluem:

Um esboço 2D ou primitivo da cena, baseado na extração de características de componentes fundamentais da cena, incluindo bordas, regiões, etc. Observe a similaridade no conceito com um esboço a lápis desenhado rapidamente por um artista como uma impressão.
Um esboço de 2 ½ D da cena, onde as texturas são reconhecidas, etc. Note a similaridade no conceito com o estágio no desenho onde um artista destaca ou sombreia áreas de uma cena, para fornecer profundidade.
Um modelo 3 D, onde a cena é visualizada em um mapa tridimensional contínuo.
O esboço 2.5D de Marr assume que um mapa de profundidade é construído e que este mapa é a base da percepção da forma 3D. No entanto, tanto a percepção estereoscópica e pictórica, quanto a visualização monocular, deixam claro que a percepção da forma 3D precede e não depende da percepção da profundidade dos pontos. Não está claro como um mapa de profundidade preliminar poderia, em princípio, ser construído, nem como isso abordaria a questão da organização da figura-fundo, ou agrupamento. O papel das restrições de organização perceptiva, negligenciadas por Marr, na produção de percepções de forma 3D a partir de objetos 3D vistos binocularmente tem sido demonstrado empiricamente para o caso de objetos de arame 3D, por exemplo, para uma discussão mais detalhada, ver Pizlo (2008).

Transdução
Transdução é o processo pelo qual a energia dos estímulos ambientais é convertida em atividade neural para o cérebro entender e processar. A parte posterior do olho contém três camadas celulares diferentes: camada fotorreceptora, camada celular bipolar e camada de células ganglionares. A camada de fotorreceptores está bem atrás e contém fotorreceptores de haste e fotorreceptores de cone. Os cones são responsáveis ​​pela percepção das cores. Existem três cones diferentes: vermelho, verde e azul. Rods, são responsáveis ​​pela percepção de objetos com pouca luz. Os fotorreceptores contêm dentro deles uma substância química especial chamada fotopigmento, que está embutida na membrana das lamelas; uma única haste humana contém aproximadamente 10 milhões deles. As moléculas de fotopigmentos consistem em duas partes: uma opsina (uma proteína) e uma retina (um lipídio). Existem 3 fotopigmentos específicos (cada um com sua própria cor) que respondem a comprimentos de onda específicos da luz. Quando o comprimento de onda apropriado da luz atinge o fotorreceptor, seu photopigment se divide em dois, que envia uma mensagem para a camada de células bipolares, que por sua vez envia uma mensagem para as células ganglionares, que enviam a informação através do nervo óptico para o cérebro. Se o fotopigmento apropriado não estiver no fotorreceptor apropriado (por exemplo, um fotopigmento verde dentro de um cone vermelho), ocorrerá uma condição chamada deficiência de visão de cores.

Processo adversário
Transdução envolve mensagens químicas enviadas dos fotorreceptores para as células bipolares para as células ganglionares. Vários fotorreceptores podem enviar suas informações para uma célula ganglionar. Existem dois tipos de células ganglionares: vermelho / verde e amarelo / azul. Essas células neuronais disparam constantemente – mesmo quando não são estimuladas. O cérebro interpreta cores diferentes (e com muita informação, uma imagem) quando a taxa de disparo desses neurônios se altera. A luz vermelha estimula o cone vermelho, que por sua vez estimula a célula ganglionar vermelha / verde. Da mesma forma, a luz verde estimula o cone verde, que estimula a célula ganglionar vermelho / verde e a luz azul estimula o cone azul que estimula a célula ganglionária amarelo / azul. A taxa de disparo das células ganglionares é aumentada quando é sinalizada por um cone e diminuída (inibida) quando é sinalizada pelo outro cone. A primeira cor em nome da célula ganglionar é a cor que a excita e a segunda é a cor que a inibe. Ex: Um cone vermelho excitaria a célula ganglionar vermelho / verde e o cone verde inibiria a célula ganglionar vermelho / verde. Este é um processo adversário. Se a taxa de disparo de um gânglio vermelho / verde aumenta, o cérebro saberia que a luz era vermelha, se a taxa diminuísse, o cérebro saberia que a cor da luz era verde.

Percepção visual artificial
Teorias e observações da percepção visual têm sido a principal fonte de inspiração para a visão computacional (também chamada visão computacional ou visão computacional). Estruturas de hardware especiais e algoritmos de software fornecem às máquinas a capacidade de interpretar as imagens provenientes de uma câmera ou de um sensor. A Percepção Visual Artificial tem sido usada há muito tempo na indústria e agora está entrando nos domínios automotivo e robótico.