视觉感知

视觉感知(Visual perception)是利用环境中的物体反射的可见光谱中的光来解释周围环境的能力。

由此产生的感知也被称为视觉,视力,视力或视觉(形容词形式:视觉,光学或眼睛)。 视觉中涉及的各种生理成分被统称为视觉系统,并且是语言学,心理学,认知科学,神经科学和分子生物学中统称为视觉科学的许多研究的焦点。

视觉系统
动物中的视觉系统允许个人吸收周围的信息。 当角膜,然后是眼睛的晶状体将来自其周围的光线聚焦到眼睛后面的感光膜(称为视网膜)时,开始看到动作。 视网膜实际上是大脑的一部分,被孤立起来作为将光转换为神经元信号的转换器。 根据视觉系统的反馈,眼睛的晶状体会调整其厚度,以将光线聚焦在视网膜的感光细胞上,也称为棒状和锥状,它们检测光子的光子并通过产生神经冲动作出反应。 这些信号通过大脑不同部分的复杂前馈和反馈过程进行处理,从视网膜上游到大脑中枢神经节。

请注意,到目前为止,上述段落中的大部分都适用于章鱼,软体动物,蠕虫,昆虫和更原始的东西; 任何神经系统更集中,眼睛更好的东西比说水母。 然而,以下适用于一般哺乳动物和鸟类(修饰形式):这些更复杂的动物中的视网膜将纤维(视神经)送到外侧膝状核,到达大脑的主要和次要视觉皮层。 来自视网膜的信号也可以直接从视网膜传播到上丘。

对象的感知和视觉场景的整体是由视觉关联皮层完成的。 视觉关联皮层结合了包含成千上万个模块化神经网络模块的条纹皮层所感知的所有感知信息。 纹状皮质中的神经元将轴突发送到外纹皮质区域,该区域位于围绕纹状皮层的视觉关联皮层中。

人类视觉系统感知波长范围在370至730纳米(0.00000037至0.00000073米)的电磁波谱范围内的可见光。

研究
视觉感知的主要问题是人们所看到的不仅仅是视网膜刺激(即视网膜上的图像)的翻译。 因此,对知觉感兴趣的人们一直在努力解释什么是视觉处理来创造真实的东西。

早期研究

显示了视觉背侧流(绿色)和腹侧流(紫色)。 大部分人类大脑皮层都参与视觉。
有两个主要的古希腊学派,提供了关于视觉如何在身体中进行的原始解释。

第一种是“放射理论”,认为当光线从眼睛发出并被视觉对象截取时,视觉就会发生。 如果一个物体被直接看到,它就是通过’光线’从眼睛里出来并再次落在物体上。 然而,被折射的图像也被“射线的手段”所看到,它从眼睛中出来,穿过空气,经过折射后,落在由于射线的移动而看到的可见物体上从眼睛看。 这一理论得到了欧几里德和托勒密等学者及其追随者的支持。

第二所学校倡导所谓的“介绍任务”方法,将视觉视为来自代表对象眼睛的东西。 由于它的主要传播者亚里士多德,盖伦及其追随者,这个理论似乎与现代理论有些接触,但它仍然只是一个缺乏实验基础的猜测。 (在十八世纪 英国 ,艾萨克牛顿,约翰洛克等人通过坚持认为视觉涉及一个过程,即由真实的物质组成的射线 – 从看到的物体发出,并通过眼睛的光圈进入先知的心智/感觉器,从而推进了插入/内插主义理论。 )

这两种思想都依赖于“像只被相似的人所知”这一原理,因此,人们认为眼睛是由一些与可见光的“外部火”相互作用并使视觉成为可能的“内部火”组成的。 柏拉图在他的对话中与亚里士多德一样在他的德斯特鲁对话中表达了这种观点。

达芬奇:眼睛有一条中心线,通过这条中心线到达眼睛的一切都可以清楚地看到。
Alhazen(965 – c。1040)对视觉感知进行了许多调查和实验,扩展了托勒密在双眼视觉上的工作,并评论了盖伦的解剖学作品。 他是第一个解释这种视觉的人,当光线在物体上反射,然后直射到人的眼睛时。

达芬奇(Leonardo da Vinci,1452-1519)被认为是第一个认识到眼睛特殊光学性质的人。 他写道:“人眼的功能……被大量作者以某种方式描述,但我发现它完全不同。” 他的主要实验结果是,在视线处只有清晰的视觉 – 以中央凹为终点的光线。 尽管他没有直接使用这些词,但他实际上是中心凹与周边视觉之间现代区别的父亲。

Issac牛顿(1642-1726 / 27)是第一个通过实验发现的,通过隔离通过棱镜的光谱的单独颜色,物体的视觉感知颜色由于物体反射的光的特性而出现,以及这些分开的颜色不能改变成任何其他颜色,这与科学期望的日子背道而驰。

无意识推理
Hermann von Helmholtz经常被认为是现代视觉感受的首次研究。 亥姆霍兹检查了人眼并得出结论,它在光学上相当差。 通过眼睛收集到的质量差的信息似乎让他无法实现视力。 因此,他总结认为,愿景只能是某种形式的无意识推论的结果:根据以往的经验,根据不完整的数据作出假设和结论。

推理需要世界的先前经验。

基于视觉体验的众所周知的假设的例子是:

光线来自上方
通常不从下面查看对象
脸部被看到(并被认出)直立。
更近的物体可以阻挡更远处物体的视野,但反之亦然
数字(即前景对象)倾向于具有凸起的边界

对视觉幻象的研究(推理过程出错的情况)已经使人们对视觉系统所做的假设有了很大的了解。

另一种无意识推理假设(基于概率)最近在所谓的视觉感知的贝叶斯研究中得到了恢复。 这种方法的支持者认为,视觉系统执行某种形式的贝叶斯推断以从感官数据中获得感知。 然而,目前还不清楚这种观点的支持者原则上是如何从贝叶斯方程所需的相关概率。 基于这种思想的模型已经被用于描述各种视觉感知功能,例如运动感知,深度感知以及形象感知。 “完全经验的感知理论”是一种相关的,更新的方法,在没有明确引用贝叶斯形式主义的情况下合理化视觉感知。

格式塔理论
主要在20世纪30年代和40年代工作的格式塔心理学家提出了许多今天由视觉科学家研究的研究问题。

组织格式塔法则指导人们如何将视觉组件视为有组织的模式或整体,而不是许多不同的部分。 “格式塔”是一个德语单词,部分翻译为“配置或模式”以及“整体或新兴结构”。 根据这个理论,有八个主要因素决定了视觉系统如何将元素自动分组为模式:接近性,相似性,封闭性,对称性,共同命运(即普通运动),连续性以及良好的格式塔(规则的模式,简单,有序)和过去的经验。

眼球运动分析
在二十世纪六十年代,技术发展允许在阅读图片期间以及随后在视觉问题解决期间以及在头戴式摄像头变得可用时(也在驾驶期间)持续注册眼睛移动。

右图显示了在视觉检查的前两秒钟内可能发生的情况。 虽然背景不够清晰,代表周边视觉,但第一只眼睛的运动是走向男人的靴子(只是因为它们非常靠近起始固定点并具有合理的对比度)。

以下注意事项从面对面跳转。 他们甚至可以允许在面孔之间进行比较。

可以得出这样的结论:图标面在外围视野内是非常有吸引力的搜索图标。 中心凹愿景为周围的第一印象添加了详细的信息。

还可以注意到,有四种不同类型的眼球运动:注视,聚散运动,扫视运动和追踪运动。 固定是眼睛静止的相对静止点。 然而,眼睛永远不会完全静止,但注视位置会漂移。 这些漂移反过来通过微型手术矫正,非常小的固定眼动。 Vergence运动涉及双眼的配合,以使图像落在两个视网膜的相同区域上。 这导致了一个单一的聚焦图像。 Saccadic运动是一种眼球运动,可以从一个位置跳到另一个位置,用于快速扫描特定场景/图像。 最后,追踪运动是光滑的眼球运动,用于跟踪运动中的物体。

面部和物体识别
有相当多的证据表明,面部和物体识别是由不同系统完成的。 例如,面部缺陷症患者的面部缺陷,而不是对象加工,而对象失禁患者(最显着的是患者CK)在面部处理方面表现出缺陷。 在行为上,已经表明面孔而不是物体受到反转效应,导致面孔是“特殊的”。 此外,面部和对象处理招聘不同的神经系统。 值得注意的是,一些人认为,人类大​​脑对面孔加工的明显专门化并不反映真正的领域特异性,而是在给定的一类刺激内的更普遍的专家级别歧视过程,尽管后一种要求是大量的辩论。 使用功能磁共振成像和电生理Doris Tsao及其同事描述了猕猴的大脑区域和人脸识别机制。

认知和计算方法
在20世纪70年代,David Marr开发了一个多层次的视觉理论,它分析了不同抽象层次的视觉过程。 为了专注于理解视觉中的具体问题,他确定了三个层次的分析:计算,算法和实施层面。 包括Tomaso Poggio在内的许多视觉科学家已经接受了这些层次的分析,并从计算的角度使用它们进一步描述了视觉特征。

计算层次在高度抽象层次上解决了视觉系统必须克服的问题。 算法级别试图确定可能用于解决这些问题的策略。 最后,实现层面试图解释如何在神经电路中实现这些问题的解决方案。

Marr建议可以独立调查任何这些级别的视觉。 Marr将视觉描述为从二维视觉阵列(在视网膜上)到三维描述世界的输出。 他的愿景阶段包括:

基于场景基本组成部分的特征提取(包括边缘,区域等)的场景的二维或原始草图。请注意,概念与由艺术家快速绘制的铅笔素描作为印象的相似性。
场景的2½D草图,纹理被确认等等。注意艺术家在场景中突出或遮蔽区域的概念与舞台中的相似处,以提供深度。
一个3D模型,场景在连续的三维地图中可视化。
Marr的2.5D草图假设构建了深度图,并且该图是3D形状感知的基础。 然而,立体和图像感知以及单眼观看都清楚地表明3D形状的感知先于而不是依赖于对点深度的感知。 原则上,如何构建初步深度图并不清楚,以及如何解决图形地面组织或分组问题。 Marr忽略了知觉组织约束的作用,即从双眼观看的3D对象产生3D形状感知,这在3D线对象的情况下经验性地得到证明,例如,有关更详细的讨论,请参见Pizlo(2008)。

转导
转导是一个过程,通过这个过程,环境刺激的能量转化为大脑理解和处理的神经活动。 眼睛后部包含三个不同的细胞层:感光层,双极细胞层和神经节细胞层。 感光层位于最后面,包含感光杆和感光锥。 锥体负责色彩感知。 有三个不同的锥体:红色,绿色和蓝色。 杆,负责在低光下对物体的感知。 感光器内含有一种称为光色素的特殊化学物质,它嵌入在薄片的膜中; 一个人的棒包含大约1000万个。 photopigment分子由两部分组成:视蛋白(一种蛋白质)和视网膜(一种脂质)。 有3种特定的光敏色素(每种都有自己的颜色)对特定波长的光有反应。 当适当波长的光照到感光器上时,它的光色素分裂成两个,它向双极细胞层发送消息,然后向双极细胞发送信息给神经节细胞,然后信息通过视神经传递给大脑。 如果合适的感光色素不在适当的感光器中(例如,红色圆锥内的绿色感光色素),则会出现称为色觉不足的情况。

对手流程
转导涉及从光感受器发送到双极细胞到神经节细胞的化学信息。 几个感光器可以将他们的信息发送给一个神经节细胞。 有两种类型的神经节细胞:红色/绿色和黄色/蓝色。 即使没有刺激,这些神经元细胞也会不断发射。 当这些神经元的发射率发生变化时,大脑会解释不同的颜色(以及大量的信息和图像)。 红光刺激红锥,红锥刺激红/绿神经节细胞。 同样,绿光刺激绿色锥体,刺激红色/绿色神经节细胞,蓝色光刺激刺激黄色/蓝色神经节细胞的蓝色锥体。 当它由一个锥体发出信号时,神经节细胞的发射速率增加,而当它由另一个锥体发出信号时,发射速率降低(抑制)。 神经节细胞名称中的第一种颜色是激发它的颜色,第二种颜色是抑制它的颜色。 即:红锥会激发红/绿神经节细胞,绿锥会抑制红/绿神经节细胞。 这是一个对手过程。 如果红色/绿色神经节细胞的发射速率增加,大脑就会知道光线是红色的,如果速度下降,大脑就会知道光线的颜色是绿色的。

人工视觉感知
视觉感知的理论和观察一直是计算机视觉(也称为机器视觉或计算视觉)的主要灵感来源。 特殊的硬件结构和软件算法使机器能够解读来自相机或传感器的图像。 人工视觉感知一直在业界使用,现在正在进入汽车和机器人领域。