시각적 인식

시각적 인식은 환경 내의 물체에 의해 반사되는 가시 스펙트럼의 빛을 사용하여 주변 환경을 해석하는 능력입니다.

결과 지각은 시각 지각, 시력, 시력 또는 시력 (형용사 형태 : 시각, 광학 또는 안구)이라고도합니다. 비전과 관련된 다양한 생리 학적 구성 요소는 시각적 시스템으로 통칭되며 언어 과학, 심리학,인지 과학, 신경 과학 및 분자 생물학에 대한 많은 연구의 초점입니다 (집합 적으로 비전 과학이라고 함).

시각 시스템
동물의 시각 시스템은 개인이 주변 환경의 정보를 동화 할 수있게합니다. 보는 행동은 각막과 눈의 렌즈가 주변으로부터의 빛을 망막이라고 불리는 눈 뒤의 빛에 민감한 막에 집중시킬 때 시작됩니다. 망막은 실제로 빛을 연결 신호로 변환하는 변환기로 사용하기 위해 격리 된 뇌의 일부입니다. 시각 시스템의 피드백을 기반으로 눈의 렌즈는 빛의 광자를 감지하고 신경 자극을 생성하여 반응하는 망막의 감광성 세포에 빛을 집중시키기 위해 두께를 조절합니다. 이 신호는 망막의 상류에서부터 뇌의 중추 신경절에 이르기까지 뇌의 여러 부분에 의해 복잡한 피드 포워드 및 피드백 과정을 통해 처리됩니다.

지금까지 위의 단락의 많은 부분이 문어, 연체 동물, 벌레, 곤충 및 더 원시적 인 것들에 적용될 수 있음에 유의하십시오. 해파리보다 신경계가 더 집중되고 눈이 더 좋아진 것. 그러나 다음은 포유류와 일반적으로 조류 (변형 된 형태)에 적용됩니다.이 복잡한 동물의 망막은 섬유질 (시신경)을 외측 유문 핵, 뇌의 일차 및 이차 시각 피질로 보냅니다. 망막의 신호는 또한 망막에서 상지로 직접 이동할 수 있습니다.

물체의 인식과 시각적 장면의 총체 성은 시각적 인 연관성 피질에 의해 성취됩니다. 시각적 인 연관성 피질은 모듈 신경 네트워크의 일부인 수천 개의 모듈을 포함하는 줄무늬 피질에 의해 감지 된 모든 감각 정보를 결합합니다. 줄무늬 피질의 뉴런은 줄무늬 피질을 둘러싸는 시각적 인 연관성 피질의 외지 피질에 축색을 보냅니다.

인간 시각 시스템은 전자기 스펙트럼의 370 ~ 730 나노 미터 (0.00000037 ~ 0.00000073 미터) 범위의 파장 범위에서 가시 광선을인지합니다.

연구
시각적인지의 주요 문제점은 사람들이 보는 것은 망막 자극 (즉, 망막상의 이미지)의 단순한 번역이 아니라는 것입니다. 따라서 지각에 관심있는 사람들은 시각적 처리가 실제로 무엇이 생성되는지를 설명하기 위해 오랫동안 애 쓰고 있습니다.

초기 연구

시각적 지느러미 기류 (녹색)와 복부 기류 (보라색)가 표시됩니다. 인간 대뇌 피질의 대부분은 시력에 관련되어 있습니다.
두 개의 주요 고대 그리스 학교가 있었으며 시력이 신체에서 어떻게 수행되는지에 대한 원시적 인 설명을 제공했습니다.

첫 번째는 광선이 눈에서 나오고 시각적 물체에 의해 가로 챌 때 시력이 유지되는 “방출 이론”이었습니다. 물체가 직접 보였다면 눈에서 나오고 다시 물체에 떨어지는 광선의 수단에 의한 것입니다. 그러나 굴절 된 이미지는 ‘광선의 수단’에 의해서도 보이는데, 이것은 눈에서 나와 공중을 가로 지르며 굴절 후 광선의 움직임의 결과로서 발견 된 가시 물체에 떨어졌습니다 눈에서. 이 이론은 유클리드 (Euclid)와 프톨레마이오스 (Ptolemy)와 추종자들과 같은 학자들에 의해 옹호되었습니다.

두 번째 학교는 비전을 대상을 대표하는 눈에 들어오는 것으로부터 오는 것으로 보는 소위 ‘도입 선교 (intro-mission)’접근법을지지했다. 아리스토텔레스, 갈렌, 그리고 추종자들과 함께이 이론은 현대의 이론과 실제적인 시각이 어느 정도 일치하는 것으로 보이지만 실험적인 기초가 부족한 유일한 추측으로 남아 있습니다. (영국의 18 세기 잉글랜드 뉴턴 (Isaac Newton)과 존 로크 (John Locke) 등에서는 시야가 실제 물질적 물질로 구성된 광선이 관찰 된 물체에서 나오고 선견자의 마음 속에 들어가는 과정을 포함한다고 주장함으로써 진입 / 눈의 구경을 통한 감각 증).

두 사상 학교는 “그와 같은 것만이 알 수있다”는 원리와 눈이 가시 광선의 “외부 화재”와 상호 작용하고 시력을 가능하게하는 몇 가지 “내부 화재”로 구성되었다는 개념에 의존했다. 플라톤은 아리스토 텔레스 (Aristotle)와 마찬가지로 자신의 대화 인 팀에 우스 (Timaeus)에서 자신의 드 센스 (De Sensu)에서이 주장을한다.

Leonardo da Vinci : 눈에는 중심선이 있으며이 중심선을 통해 눈에 도달하는 모든 것이 분명하게 보입니다.
Alhazen (965 – c. 1040)은 시각적 인식에 대한 많은 조사와 실험을 수행했고 프톨레마이오스의 작업을 양안 시야로 확장했으며 Galen의 해부학 적 작품에 대해 논평했다. 그는 빛이 물체에 반사되어 자기 눈으로 향할 때 시력이 발생한다고 설명하는 최초의 사람이었습니다.

Leonardo da Vinci (1452-1519)는 눈의 특별한 광학적 특성을 처음으로 인정한 것으로 알려져 있습니다. 그는 “인간의 눈의 기능은 많은 저자들에 의해 일정한 방식으로 기술되었지만, 완전히 다른 것으로 판명되었다”고 썼다. 그의 주요 실험 결과는 시야 선에서 뚜렷하고 명확한 시야가 있다는 점이었습니다. 시야가 중심에서 끝나는 광 선입니다. 그는이 말을 그대로 사용하지는 않았지만 사실상 foveal과 peripheral vision 사이의 현대적인 구별의 아버지입니다.

Issac Newton (1642-1726 / 27)은 프리즘을 통과하는 빛의 스펙트럼의 개별 색을 격리하고, 물체가 시각적으로 인식 한 색이 물체의 반사 된 빛의 특성으로 인해 나타난다는 것을 실험을 통해 처음 발견했습니다. 이 분열 된 색을 다른 색으로 바꿀 수 없으므로 과학적인 기대에 어긋났습니다.

무의식 추론
헤르만 폰 헬름홀츠 (Hermann von Helmholtz)는 현대 시각적 인식에 대한 최초의 연구로 종종 알려져 있습니다. 헬름홀츠 (Helmholtz)는 인간의 눈을 검사하여 그것이 광학적으로 가난하다는 결론을 내렸다. 눈을 통해 수집 된 품질이 떨어지는 정보는 비전을 불가능하게 만드는 것처럼 보였습니다. 따라서 비전은 어떤 형태의 무의식 추론의 결과 일 수밖에 없다는 결론을 내 렸습니다. 이전 경험을 바탕으로 불완전한 데이터로부터 가정과 결론을 내리는 문제입니다.

추론은 세계의 이전 경험이 필요합니다.

시각적 경험을 바탕으로 잘 알려진 가정의 예는 다음과 같습니다.

빛은 위에서 온다.
객체는 일반적으로 아래에서 보지 않습니다.
얼굴은 똑바로 보입니다.
더 가까운 물체는 먼 물체의 시야를 가릴 수 있지만 반대는 할 수 없습니다.
도형 (즉, 전경 객체)은 볼록한 테두리를 갖는 경향이 있습니다.

시각 환상 (유추 과정이 잘못되었을 경우)에 대한 연구는 시각 체계가 어떤 종류의 가정을 만들 었는지에 대해 많은 통찰력을 제공합니다.

확률에 근거한 또 다른 유형의 무의식 추측 가설은 베이지안 (Bayesian)이라는 시각적 인식에 대한 연구에서 최근 부활했다. 이 접근법의 지지자는 시각 시스템이 베이지안 추론의 일부 형태를 수행하여 감각 데이터로부터 지각을 유도한다고 생각합니다. 그러나이 견해를지지하는 사람들이 베이 즈 방정식에서 요구되는 관련 확률을 원리 적으로 유도하는 방법은 분명하지 않다. 이 아이디어를 기반으로 한 모델은 동작의 인식, 깊이의 인식, 피겨 – 지각 인식과 같은 다양한 시각적 지각 기능을 설명하는 데 사용되었습니다. “경험에 대한 전적으로 경험적 이론”은 베이지안 형식주의를 명시 적으로 호출하지 않고 시각적 인식을 합리화하는 관련적이고 새로운 접근법입니다.

게슈탈트 이론
1930 년대와 1940 년대에 주로 일하는 게슈탈트 심리학자들은 오늘날 시각 과학자들이 연구 한 많은 연구 문제를 제기했습니다.

게슈탈트 조직의 법률 (Gestalt Laws of Organization)은 사람들이 시각적 구성 요소를 많은 다른 부분 대신 조직 된 패턴 또는 전체로 인식하는 방법에 대한 연구를 안내했습니다. “게슈탈트”는 부분적으로 “전체 또는 창 발적 구조”와 함께 “구성 또는 패턴”으로 번역되는 독일어 단어입니다. 이 이론에 따르면 시각 시스템이 요소를 패턴으로 자동으로 그룹화하는 방법을 결정하는 8 가지 주요 요소가 있습니다 : 근접성, 유사성, 폐쇄, 대칭, 공통 운명 (공통 운동), 연속성 및 양호한 제스탈 (규칙적인 패턴, 간단하고 질서 정연한) 과거 경험.

안구 운동 분석
1960 년대에 기술 개발을 통해 사진보기에서의 독서와 시각적 문제 해결에서, 그리고 운전 중에도 헤드셋 카메라를 사용할 수있게되었을 때 안구 운동을 지속적으로 등록 할 수있었습니다.

오른쪽 그림은 육안 검사의 처음 2 초 동안 발생할 수있는 상황을 보여줍니다. 주변부의 시야를 나타내는 배경은 초점이 맞지 않지만 첫 번째 눈 운동은 사람의 시동에 이릅니다 (단지 시작 고정에 매우 가깝고 적절한 대비가 있기 때문입니다).

다음과 같은 수정 사항들이 마주 보게됩니다. 그들은 얼굴 사이의 비교를 허용 할 수도 있습니다.

아이콘 얼굴은 주변 시야 내에서 매우 매력적인 검색 아이콘이라고 결론 지을 수 있습니다. 중심부 시각은 주변 정보 첫 번째 인상에 세부 정보를 추가합니다.

안구 운동의 4 가지 다른 종류가 있음을 알 수 있습니다 : 고정, 주저 운동, 단회 운동 및 추적 운동. 고정은 눈이 놓이는 고정 된 지점입니다. 그러나 눈은 완전히 정지하지 않지만 시선 위치는 표류합니다. 이러한 드리프트는 마이크로 세컨드 (microsaccade), 매우 작은 시력 교정 (fixational eye-movement)에 의해 차례로 수정됩니다. Vergence의 움직임은 이미지가 두 망막의 동일한 영역에 떨어지는 것을 허용하기 위해 양안의 협력을 필요로합니다. 이렇게하면 하나의 초점을 맞춘 이미지가됩니다. Saccadic 동작은 한 위치에서 다른 위치로 점프하고 특정 장면 / 이미지를 빠르게 스캔하는 데 사용되는 안구 운동 유형입니다. 마지막으로, 추격 운동은 매끄러운 눈 움직임이며 움직이는 물체를 추적하는 데 사용됩니다.

얼굴 인식 및 물체 인식
얼굴과 물체 인식이 별개의 시스템에 의해 수행된다는 상당한 증거가 있습니다. 예를 들어, prosopagnosic 환자는 얼굴에 적자를 나타내지 만 대상 처리는하지 않지만 대상 agnosic 환자 (특히 환자 CK)는 절약 된 얼굴 처리로 대상 처리에 결함이 있음을 나타냅니다. 행동 적으로, 얼굴이 아닌 얼굴은 반전 효과를 받아 얼굴이 “특별”하다는 주장이 제기되었습니다. 또한, 얼굴 및 대상 처리는 별개의 신경 시스템을 채용합니다. 특히, 일부는 얼굴 처리를위한 인간의 두뇌의 전문화가 진정한 도메인 특이성을 반영하는 것이 아니라 오히려 주어진 유형의 자극 내에서 전문가 수준의 차별의 더 일반적인 과정이라고 주장했다. 논쟁. fMRI와 전기 생리학 사용 Doris Tsao와 동료들은 원숭이 원숭이의 뇌 영역과 얼굴 인식 메커니즘에 대해 설명했습니다.

인지 및 계산 방법
1970 년대 데이비드 마르 (David Marr)은 다양한 수준의 추상화 과정에서 비전 프로세스를 분석 한 다단계 비전 이론을 개발했습니다. 비전의 특정 문제에 대한 이해에 초점을 맞추기 위해 그는 계산, 알고리즘 및 구현 수준의 세 가지 수준의 분석을 확인했습니다. Tomaso Poggio를 비롯한 많은 비전 과학자들은 이러한 분석 수준을 수용하여 전산적인 관점에서 시각을 특성화하는 데 활용했습니다.

전산 수준은 높은 추상화 수준에서 시각 시스템이 극복해야하는 문제를 해결합니다. 알고리즘 수준에서는 이러한 문제를 해결하는 데 사용할 수있는 전략을 식별하려고 시도합니다. 마지막으로 구현 단계에서는 이러한 문제에 대한 해결책이 신경 회로에서 어떻게 실현되는지 설명하려고 시도합니다.

Marr은 이러한 수준에서 독립적으로 비전을 조사하는 것이 가능하다고 제안했습니다. Marr은 비전을 2 차원 시각 배열 (망막에서)에서 출력으로서 세계의 3 차원 설명으로 진행하는 것으로 설명했습니다. 그의 비전 단계는 다음과 같습니다.

가장자리, 영역 등 장면의 기본 구성 요소의 피쳐 추출을 기반으로 장면의 2D 또는 기본 스케치. 인상으로 예술가가 빠르게 그린 연필 스케치와 개념 상 유사점을 유념하십시오.
텍스처가 인식되는 장면의 2½ D 스케치. 예술가가 장면의 영역을 강조하거나 음영 처리하여 깊이를 제공하는 드로잉의 무대와 개념 상 유사점을 유념하십시오.
장면이 연속적인 3 차원지도로 시각화되는 3D 모델.
Marr의 2.5D 스케치에서는 깊이 맵이 생성되고이 맵이 3D 쉐이프 인식의 기본이라고 가정합니다. 그러나 단안 관찰뿐만 아니라 입체적 및 그림 적 인식은 3D 모양의 인식이 점 깊이의 인식에 선행하고 의존하지 않는다는 것을 분명하게합니다. 예비 깊이지도가 원칙적으로 어떻게 구성 될 수 있는지, 이것이 어떻게 지형 기반 조직 또는 그룹화의 문제를 다루는 지 명확하지 않다. 쌍안경으로 보았던 3D 객체의 3D 모양 인식을 제작할 때 Marr이 간과하는 지각 구성 제약 조건의 역할은 3D 와이어 객체의 경우 경험적으로 증명되었습니다 (예 : 자세한 내용은 Pizlo (2008) 참조).

형질 도입
형질 도입은 환경 자극으로부터의 에너지가 뇌가 이해하고 처리 할 수있는 신경 활동으로 변환되는 과정입니다. 안구 뒤쪽에는 광 수용체 층, 양극성 세포층 및 신경절 세포층의 세 가지 세포층이 있습니다. 감광체 층은 맨 뒤에 있으며 막대 광 수용체와 원뿔 감광체가 있습니다. 콘은 색상 인식을 담당합니다. 빨강, 초록, 파랑의 세 가지 원뿔이 있습니다. 로드 (Rods)는 저조도의 사물에 대한 인식을 담당합니다. 광 수용체는 라멜라 막에 박혀있는 광분해 (photopigment) 라 불리는 특수 화학 물질을 포함하고 있습니다. 하나의 인간 막대에는 약 1 천만 개의 막대가 들어 있습니다. photopigment 분자는 두 부분으로 구성됩니다 : 옵신 (단백질)과 망막 (지질). 빛의 특정 파장에 반응하는 3 개의 특정 광색 안료 (각각 자체 색상이 있음)가 있습니다. 빛의 적절한 파장이 광 수용체에 부딪 칠 때 광 픽스먼트는 두 개로 나뉘어져 바이폴라 세포 층에 메시지를 보내고, 그 다음에 신경절 세포에 메시지를 보내고, 신경절 세포를 통해 시신경을 통해 뇌로 전달합니다. 적절한 photopigment가 적절한 photoreceptor (예를 들어, 빨간 원추 안의 녹색 photopigment)에 없다면, 색각 결함이라고 불리는 상태가 발생할 것입니다.

상대 프로세스
Transduction은 광 수용체에서 양극성 세포로 보내지는 신경절 세포로 전달되는 화학적 메시지를 포함합니다. 몇몇 photoreceptors는 1 개의 신경절 세포에 그들의 정보를 보낼지도 모른다. 신경절 세포에는 적색 / 녹색 및 황색 / 청색의 두 가지 유형이 있습니다. 이러한 뉴런 세포는 자극받지 않을 때에도 지속적으로 발화합니다. 두뇌는 이러한 뉴런의 발사 비율이 바뀔 때 다양한 색 (그리고 많은 정보, 이미지)을 해석합니다. 적색 빛은 적색 / 녹색 신경절 세포를 자극하는 적색 원뿔을 자극합니다. 마찬가지로, 녹색 빛은 녹색 / 녹색 신경절 세포를 자극하는 녹색 원뿔을 자극하고 푸른 빛은 노란색 / 파란색 신경절 세포를 자극하는 파란색 원뿔을 자극합니다. 신경절 세포의 발사 속도는 하나의 원뿔에 의해 신호가 보내고 다른 원뿔에 의해 신호가되었을 때 감소 (억제)됩니다. 신경절 세포의 이름에서 첫 번째 색은 그것을 자극하는 색이며 두 번째 색은 그것을 억제하는 색입니다. 즉 : 붉은 콘은 붉은 색 / 녹색 신경절 세포를 자극하고 녹색 콘은 붉은 색 / 녹색 신경절 세포를 억제합니다. 이것은 상대 프로세스입니다. 적색 / 녹색 신경절 세포의 발사율이 증가하면 뇌는 빛이 적색임을 알 것이며, 속도가 감소하면 뇌는 빛의 색이 녹색임을 알게됩니다.

인공 시각적 인식
시각적 인식에 대한 이론과 관찰은 컴퓨터 비전 (컴퓨터 비전 또는 전산 비전이라고도 함)의 영감을 얻는 주요 원인이었습니다. 특별한 하드웨어 구조와 소프트웨어 알고리즘은 기계에 카메라 나 센서에서 오는 이미지를 해석 할 수있는 기능을 제공합니다. Artificial Visual Perception은 오랫동안 업계에서 사용되어 왔으며 현재 자동차 및 로봇 분야에 진출하고 있습니다.