Визуальное восприятие

Визуальное восприятие — это способность интерпретировать окружающую среду, используя свет в видимом спектре, отраженный объектами в окружающей среде.

Полученное восприятие также известно как зрительное восприятие, зрение, зрение или видение (форма прилагательного: визуальный, оптический или окуляр). Различные физиологические компоненты, связанные с видением, в совокупности рассматриваются как визуальная система, и в центре внимания много исследований в области лингвистики, психологии, когнитивной науки, нейронауки и молекулярной биологии, которые все вместе называются наукой зрения.

Визуальная система
Визуальная система животных позволяет людям усваивать информацию из своего окружения. Акт наблюдения начинается, когда роговица, а затем линза глаза фокусирует свет от его окружения на светочувствительную мембрану в задней части глаза, называемую сетчаткой. Сетчатка на самом деле является частью мозга, который изолирован, чтобы служить в качестве преобразователя для преобразования света в сигналы нейронов. Основываясь на обратной связи с визуальной системой, линза глаза регулирует ее толщину, чтобы сфокусировать свет на фоторецептивных клетках сетчатки, также известных как стержни и конусы, которые обнаруживают фотоны света и реагируют, создавая нейронные импульсы. Эти сигналы обрабатываются сложными процессами обратной связи и обратной связи различными частями мозга, от сетчатки вверх по течению до центральных ганглиев в головном мозге.

Обратите внимание, что до сих пор большая часть вышеупомянутого абзаца могла применяться к осьминогам, моллюскам, червям, насекомым и вещам более примитивным; все с более концентрированной нервной системой и лучшими глазами, чем сказать медузу. Однако следующее правило относится к млекопитающим в целом и к птицам (в модифицированной форме): сетчатка у этих более сложных животных отправляет волокна (зрительный нерв) в латеральное коленчатое ядро, в первичную и вторичную зрительную кору головного мозга. Сигналы от сетчатки также могут перемещаться непосредственно из сетчатки в верхний колликулум.

Восприятие объектов и совокупность визуальной сцены осуществляется зрительной ассоциацией коры. Кора зрительной ассоциации объединяет всю сенсорную информацию, воспринимаемую полосатой корой, которая содержит тысячи модулей, которые являются частью модульных нейронных сетей. Нейроны в стропальной коре посылают аксоны в экстракратную кору, область в коре зрительной ассоциации, которая окружает полосатой коры.

Человеческая визуальная система воспринимает видимый свет в диапазоне длин волн от 370 до 730 нанометров (0,00000037 до 0,00000073 м) электромагнитного спектра.

Изучение
Основная проблема визуального восприятия заключается в том, что то, что люди видят, — это не просто перевод стимулов сетчатки (т. Е. Изображение на сетчатке). Таким образом, люди, заинтересованные в восприятии, долгое время пытались объяснить, что делает визуальная обработка, чтобы создать то, что на самом деле видно.

Ранние исследования

Показаны визуальный дорсальный поток (зеленый) и вентральный поток (фиолетовый). Большая часть коры головного мозга человека вовлечена в зрение.
Были две крупные древнегреческие школы, которые дали примитивное объяснение того, как видение осуществляется в организме.

Первой была «теория излучения», которая утверждала, что видение возникает, когда лучи исходят из глаз и перехватываются визуальными объектами. Если объект был замечен прямо, это было «средством лучей», выходящим из глаз и снова падающим на объект. Преломленное изображение, однако, было видно и «лучами», которое выходило из глаз, проходило сквозь воздух и после преломления падало на видимый объект, который был замечен в результате движения лучей от глаз. Эту теорию защищали такие ученые, как Евклид и Птолемей и их последователи.

Вторая школа выступала за так называемый «вводный подход», который рассматривает видение как нечто, входящее в глаза, представляющее объект. С его основными пропагандистами Аристотелем, Галеном и их последователями эта теория, похоже, имеет определенный контакт с современными теориями того, что такое видение на самом деле, но оно оставалось лишь предположением, лишенным какой-либо экспериментальной основы. (В восемнадцатом веке Англия , Исаак Ньютон, Джон Локк и другие, проводили теорию интромации / интромитизма вперед, настаивая на том, что зрение связано с процессом, в котором лучи, состоящие из фактического телесного вещества, исходят из видимых объектов и входят в сознание / сенсору провидца через отверстие глаза. )

Обе школы мышления полагались на принцип, что «как известно только как», и, таким образом, по понятию, что глаз состоит из какого-то «внутреннего огня», который взаимодействовал с «внешним огнем» видимого света и сделал возможным видение. Платон делает это утверждение в своем диалоге Тимей, как и Аристотель, в своем Де Сеншу.

Леонардо да Винчи: Глаз имеет центральную линию, и все, что попадает в глаза через эту центральную линию, можно увидеть отчетливо.
Альхазен (965 — 1040) провел множество исследований и экспериментов по визуальному восприятию, продолжил работу Птолемея по бинокулярному зрению и прокомментировал анатомические работы Галена. Он был первым, кто объяснил, что видение происходит, когда свет отскакивает от объекта, а затем направляется на глаза.

Леонардо да Винчи (1452-1519) считается первым, кто распознает особые оптические качества глаза. Он писал: «Функция человеческого глаза … была описана большим количеством авторов определенным образом, но я обнаружил, что это совершенно другое». Его основная экспериментальная находка заключалась в том, что на линии зрения есть только четкое и четкое видение — оптическая линия, которая заканчивается на ямке. Хотя он не использовал эти слова буквально, он на самом деле является отцом современного различия между фовеальным и периферическим зрением.

Исаак Ньютон (1642-1726 / 27) первым обнаружил посредством экспериментов выделение отдельных цветов спектра света, проходящего через призму, что визуально воспринимаемый цвет объектов появился из-за характера света, отраженного объектами, и что эти разделенные цвета не могут быть изменены ни на какой другой цвет, что противоречило научным ожиданиям дня.

Бессознательный вывод
Германну фон Гельмгольцу часто приписывают первое исследование визуального восприятия в наше время. Гельмгольц исследовал человеческий глаз и пришел к выводу, что он был оптически довольно бедным. Некачественная информация, собранная через глаз, казалась ему невозможной. Поэтому он пришел к выводу, что видение может быть результатом лишь каких-то бессознательных выводов: вопрос о допущениях и выводах из неполных данных, основанных на предыдущем опыте.

Вывод требует предварительного опыта мира.

Примерами известных предположений, основанных на визуальном опыте, являются:

свет приходит сверху
объекты обычно не просматриваются снизу
лица видны (и распознаются) вертикально.
более близкие объекты могут блокировать представление более отдаленных объектов, но не наоборот
фигуры (т.е. объекты переднего плана) имеют тенденцию иметь выпуклые границы

Изучение визуальных иллюзий (случаи, когда процесс вывода идет не так) дал много понимания того, какие предположения создает визуальная система.

Другой тип гипотезы неосознанного вывода (основанный на вероятностях) недавно был возрожден в так называемых байесовских исследованиях визуального восприятия. Сторонники этого подхода считают, что визуальная система выполняет какую-то форму байесовского вывода, чтобы получить восприятие из сенсорных данных. Однако неясно, как сторонники этой точки зрения в принципе получают соответствующие вероятности, требуемые байесовским уравнением. Модели, основанные на этой идее, были использованы для описания различных визуальных перцепционных функций, таких как восприятие движения, восприятие глубины и восприятие фигуры. «Полностью эмпирическая теория восприятия» — это связанный и более новый подход, который рационализирует зрительное восприятие без явного обращения к байесовским формализмам.

Теория гештальт
Гештальт-психологи, работавшие в основном в 1930-х и 1940-х годах, подняли многие исследовательские вопросы, которые сегодня изучаются учеными-видениями.

В гештальт-законах Организации было проведено исследование того, как люди воспринимают визуальные компоненты как организованные узоры или целые, а не много разных частей. «Гештальт» — это немецкое слово, которое частично переводится как «конфигурация или образец» вместе с «цельной или эмерджентной структурой». Согласно этой теории существует восемь основных факторов, которые определяют, как визуальная система автоматически группирует элементы в шаблоны: близость, сходство, закрытие, симметрия, общая судьба (т. Е. Общее движение), непрерывность, а также хороший гештальт (закономерность, простой и упорядоченный) и прошлый опыт.

Анализ движения глаз
В течение 1960-х годов техническая разработка позволила непрерывно регистрировать движение глаз во время чтения при просмотре изображений, а затем в визуальном решении проблем и при появлении минигарнитуры, также во время вождения.

На рисунке справа показано, что может произойти в течение первых двух секунд визуального осмотра. В то время как фон не в фокусе, представляя периферийное зрение, первое движение глаз идет к ботинкам человека (просто потому, что они очень близки к начальной фиксации и имеют разумный контраст).

Следующие фиксации прыгают от лица к лицу. Они могут даже допускать сравнения между лицами.

Можно сделать вывод, что иконка — очень привлекательный значок поиска в периферийном поле зрения. Фовеальное зрение добавляет подробную информацию к первому впечатлению периферии.

Можно также отметить, что существует четыре разных типа движений глаз: фиксации, движения верности, саккадические движения и движения преследования. Фиксации — это сравнительно статические точки, в которых глаз лежит. Тем не менее, глаз никогда не бывает полностью неподвижным, но положение взгляда будет дрейфовать. Эти дрифты, в свою очередь, исправлены микросакадами, очень маленькими фиксирующими движениями глаз. Движения по вертикали включают сотрудничество обоих глаз, чтобы изображение могло падать на одну и ту же область обеих сетчатки. Это приводит к одному сфокусированному изображению. Саккадические движения — это тип движения глаз, который делает прыжки с одного положения на другое и используется для быстрого сканирования определенной сцены / изображения. Наконец, движение преследования является плавным движением глаз и используется для наблюдения за движущимися объектами.

Распознавание лиц и объектов
Имеются значительные доказательства того, что распознавание лиц и объектов осуществляется отдельными системами. Например, пациенты с просопагнозом обнаруживают дефицит лица, но не обработку объекта, в то время как объектные агностические пациенты (в первую очередь, пациентки CK) проявляют дефицит в обработке объектов с обработкой обработанной поверхности. Поведенчески было показано, что лица, но не объекты, подвержены эффектам инверсии, что приводит к утверждению, что лица являются «особыми». Кроме того, обработка лица и объекта включает в себя различные нейронные системы. Примечательно, что некоторые утверждали, что кажущаяся специализация человеческого мозга для обработки лица не отражает истинную доменную специфику, а скорее более общий процесс дискриминации на уровне экспертов в рамках данного класса стимулов, хотя эта последняя претензия является предметом существенных дебаты. Используя МРТ и электрофизиологию Дорис Цао и его коллеги описали области головного мозга и механизм распознавания лиц у макак-обезьян.

Когнитивные и вычислительные подходы
В 1970-х годах Дэвид Марр разработал многоуровневую теорию видения, которая анализировала процесс зрения на разных уровнях абстракции. Чтобы сосредоточиться на понимании конкретных проблем в видении, он определил три уровня анализа: вычислительный, алгоритмический и уровень реализации. Многие ученые-исследователи, в том числе Томасо Поджио, приняли эти уровни анализа и использовали их для дальнейшей характеристики зрения с вычислительной точки зрения.

На уровне вычислений на высоком уровне абстракции обращаются к проблемам, которые должна преодолеть зрительная система. Алгоритмический уровень пытается определить стратегию, которая может быть использована для решения этих проблем. Наконец, уровень внедрения пытается объяснить, как решения этих проблем реализуются в нейронных схемах.

Марр предположил, что можно исследовать видение на любом из этих уровней независимо. Марр описал видение, исходя из двумерного визуального массива (на сетчатке), в трехмерное описание мира как результата. Его стадии видения включают:

2D или первичный эскиз сцены, основанный на извлечении элементов фундаментальных компонентов сцены, включая края, области и т. Д. Обратите внимание на сходство в концепции с эскизом карандаша, который художник нарисовал художником как впечатление.
2½ D эскиз сцены, где текстуры признаются и т. Д. Обратите внимание на сходство в концепции на этапе рисования, где художник выделяет или оттеняет области сцены, чтобы обеспечить глубину.
Модель 3 D, где сцена визуализируется в непрерывной 3-мерной карте.
Marr’s 2.5D-эскиз предполагает, что построена карта глубины и что эта карта является основой восприятия трехмерной фигуры. Тем не менее, как стереоскопическое, так и живописное восприятие, а также монокулярный просмотр, ясно показывают, что восприятие 3D-формы предшествует и не зависит от восприятия глубины точек. Неясно, как можно было бы в принципе создать предварительную карту глубин, и как это могло бы решить вопрос организации на основе фигуры или группировки. Роль перцепционных организационных ограничений, упущенных Марром, в производстве представлений о трехмерных фигурах из бинокулярно-трехмерных объектов была продемонстрирована эмпирически для случая трехмерных проводных объектов, например, для более подробного обсуждения см. Pizlo (2008).

трансдукция
Трансдукция — это процесс, посредством которого энергия от экологических стимулов преобразуется в нервную активность, чтобы мозг мог понять и обработать. Задняя часть глаза содержит три разных клеточных слоя: фоторецепторный слой, слой биполярных клеток и слой ганглиозных клеток. Фоторецепторный слой находится на самой задней части и содержит фоторецепторы и кодовые фоторецепторы. Конусы отвечают за восприятие цвета. Есть три разных конуса: красный, зеленый и синий. Роды, несут ответственность за восприятие объектов при слабом освещении. Фоторецепторы содержат в себе специальный химикат, называемый фотопигментом, который встроен в мембрану ламелей; один человеческий стержень содержит около 10 миллионов из них. Молекулы фотопигментации состоят из двух частей: opsin (белок) и сетчатки (липид). Есть 3 конкретных фотопигментации (каждый со своим цветом), которые реагируют на определенные длины волн света. Когда соответствующая длина волны света попадает на фоторецептор, его фотопигмент разделяется на две части, которые отправляют сообщение на слой биполярных клеток, который, в свою очередь, отправляет сообщение в ячейки ганглиона, которые затем отправляют информацию через зрительный нерв в мозг. Если соответствующий фотопигмент не находится в правильном фоторецепторе (например, зеленый фотопигмент внутри красного конуса), произойдет состояние, называемое дефицитом цветового зрения.

Противник
Трансдукция включает химические сообщения, отправленные из фоторецепторов в биполярные клетки в клетки ганглия. Несколько фоторецепторов могут отправлять свою информацию в одну ганглиозную ячейку. Существует два типа ганглиозных клеток: красный / зеленый и желтый / синий. Эти нейронные клетки постоянно загораются, даже если они не стимулируются. Мозг интерпретирует разные цвета (и с большим количеством информации, изображения), когда изменяется скорость стрельбы этих нейронов. Красный свет стимулирует красный конус, который, в свою очередь, стимулирует красную / зеленую ганглиозную клетку. Подобным же образом зеленый свет стимулирует зеленый конус, который стимулирует красную / зеленую ганглиозную клетку, а синий свет стимулирует синий конус, который стимулирует желто-голубую ганглиозную клетку. Скорость стрельбы ганглиозных клеток увеличивается, когда она сигнализируется одним конусом и уменьшается (ингибируется), когда она сигнализируется другим конусом. Первый цвет в названии ячейки ганглия — это цвет, который его возбуждает, а второй — цвет, который его блокирует. т. е. красный конус возбуждает красную / зеленую ганглиозную ячейку, а зеленый конус будет блокировать клетку ганглия красного / зеленого цвета. Это процесс противников. Если скорость стрельбы красно-зеленой ганглиозной клетки увеличивается, мозг будет знать, что свет был красным, если бы скорость была уменьшена, мозг знал бы, что цвет света был зеленым.

Искусственное визуальное восприятие
Теории и наблюдения зрительного восприятия были основным источником вдохновения для компьютерного зрения (также называемого машинным зрением или вычислительным зрением). Специальные аппаратные структуры и программные алгоритмы предоставляют машинам возможность интерпретировать изображения, поступающие с камеры или датчика. Искусственное визуальное восприятие уже давно используется в отрасли и в настоящее время входит в области автомобильной и робототехники.