視覚知覚(Visual perception)は、環境内の物体によって反射された可視スペクトルの光を用いて周囲の環境を解釈する能力である。

結果として生じる知覚は、視覚知覚、視力、視力、または視覚(形容詞形式:視覚、光学、または眼)としても知られている。 視覚に関わる様々な生理学的構成要素は、視覚システムと総称され、視覚科学と総称される言語学、心理学、認知科学、神経科学、および分子生物学における多くの研究の焦点である。

ビジュアルシステム
動物の視覚系は、個人が周囲の情報を同化することを可能にする。 観察の行為は、角膜と眼のレンズが周囲からの光を網膜と呼ばれる眼の後ろの光感応膜に集束するときに始まります。 網膜は実際には、光を神経信号に変換するための変換器として機能するように分離された脳の一部である。 視覚系からのフィードバックに基づいて、目のレンズは、光の光子を検出して神経インパルスを生成することによって応答する、網膜の受光細胞上に光を集束させるためにその厚さを調節する。 これらの信号は、網膜の上流から脳の中枢神経節まで、脳の異なる部分による複雑なフィードフォワードおよびフィードバックプロセスによって処理されます。

今までのところ、上記のパラグラフの多くは、タコ、軟体動物、虫、虫、そしてもっと原始的なものに適用できることに注意してください。 神経系がより集中していて、クラゲというよりも目が明るいもの。 しかし、以下は哺乳動物に一般的にも鳥類にも当てはまります(変更された形で):これらのより複雑な動物の網膜は、線維(視神経)を外側の膝状核、脳の一次および二次視覚野に送ります。 網膜からの信号も、網膜から上丘に直接移動することができる。

物体の知覚および視覚シーンの全体は、視覚関連皮質によって達成される。 視覚関連皮質は、モジュラーニューラルネットワークの一部である何千ものモジュールを含む線条皮質によって知覚されるすべての知覚情報を組み合わせる。 線条体皮質中のニューロンは軸索を、線条体皮質を取り囲む視覚関連皮質の領域である外側の皮質に送る。

人間の視覚システムは、電磁スペクトルの370〜730ナノメートル(0.00000037〜0.00000073メートル)の波長の範囲内の可視光を知覚する。

調査
視覚的知覚における主要な問題は、人々が見るものは単に網膜刺激(すなわち、網膜上の画像)の翻訳ではないということである。 このように、知覚に興味のある人々は、実際に見られるものを作り出すために視覚処理が何をしているのかを説明するのにずっと苦労してきました。

初期の研究

視覚的背側流れ(緑)および腹側流れ(紫色)が示されている。 人間の大脳皮質の多くは視力に関与している。
2つの主要な古代ギリシャの学校があり、視力が体内でどのように行われるかの原始的な説明を提供しています。

最初のものは、視力が目から発して視覚的物体によって傍受される時に起こる「放出理論」であった。 オブジェクトが直接見られた場合は、目から出てオブジェクトに落ちる「光の手段」によるものでした。 しかし、屈折された像は目から出て空気を横切って屈折した後、光線の動きの結果として目に見える目に見える物体に落ちた目から。 この理論はユークリッドとプトレマイオスとその信者のような学者によって支持されました。

2つ目の学校は、視覚が物体を代表する目に入るものから来ていると見なすいわゆる「イントロミッション」アプローチを提唱した。 アリストテレス、ガレン、そしてその追随者たちの主な啓蒙主義者たちは、この理論は、現実の視覚の現代理論と幾分かの接触を持っているようだが、それは実験的な基礎を欠いているだけの推測であった。 (18世紀に イングランド アイザック・ニュートン、ジョン・ロックなどは、視界が実際の肉体から構成された光線が見えている物体から発せられ、眼の開口を通して観察者の心・感覚器に入る過程を含むと主張して、進入/ )

どちらの学校も、「似ているだけで知られている」という原則に基づいており、目が可視光の「外部の火」と相互作用し、視力を可能にする何らかの「内部の火」で構成されていたという考えに基づいています。 プラトンは、アリストテレスのように、彼の会話のティムエウスで、デ・センスにこの主張をしています。

Leonardo da Vinci:目には中心線があり、この中心線を通って目に届くものすべてがはっきりと見える。
Alhazen(965 – c。1040)は、視覚に関する多くの研究と実験を行い、プトレマイオスの両眼視野を広げ、Galenの解剖学的作品についてコメントした。 彼は、光が物体に跳ね返って目に向かうときに視力が発生することを説明する最初の人物でした。

レオナルド・ダ・ヴィンチ(Leonardo da Vinci、1452-1519)は、目の特殊な光学特性を初めて認識すると信じられています。 彼は「人間の目の機能はある意味で多くの著者によって記述されていますが、私はそれがまったく異なっていることがわかりました」と書いています。 彼の主な実験結果は、視線に明確で明瞭なビジョン、すなわち中心窩で終わる光線しかないということでした。 彼は文字通りこれらの言葉を使用しませんでしたが、実際には、中心窩と周辺視力との間の現代的な区別の父親です。

アイザックニュートン(Issac Newton、1642-1726 / 27)は、プリズムを通過する光のスペクトルの個々の色を分離し、物体の視覚的に認識された色が反射された物体の光の性質により現れたことを実験により発見した最初のものであった。これらの分割された色を他の色に変えることはできなかったことは、当時の科学的期待に反していました。

無意識の推論
Hermann von Helmholtzは、現代の視覚認知に関する最初の研究によく寄付されています。 ヘルムホルツは人間の目を調べ、それが光学的にはむしろ貧弱であると結論づけた。 目を通って集められた品質の低い情報は、彼にビジョンを不可能にするように思われました。 したがって、ビジョンは、何らかの形の無意識の推論の結果であるに過ぎないと結論づけました。以前の経験に基づいて、不完全なデータから前提と結論を出す問題です。

Related Post

推論には世界の以前の経験が必要です。

視覚経験に基づくよく知られている仮定の例は次のとおりです。

光は上から来る
オブジェクトは通常下からは見えません
顔は直立して見える(認識される)。
近いオブジェクトは遠いオブジェクトのビューをブロックすることができますが、その逆はできません
図形(すなわち、前景オブジェクト)は凸状の境界線を持つ傾向があります

視覚錯視の研究(推論プロセスが間違っている場合)は、視覚システムがどのような仮定をするかについての多くの洞察をもたらしました。

他のタイプの無意識推論仮説(確率に基づく)は、最近の視覚知覚のベイジアン研究で再現されている。 このアプローチの支持者は、視覚システムが知覚データからの知覚を導き出すために何らかの形のベイズ推論を実行すると考える。 しかし、この見解の支持者が、ベイジアン方程式によって要求される関連確率を原則的にどのように導くかは明らかではない。 このアイデアに基づくモデルは、動きの知覚、深さの知覚、および地面の知覚などの様々な視覚知覚機能を記述するために使用されてきた。 「知覚の全経験的理論」は、ベイズの形式を明示的に呼び出すことなく、視覚的知覚を合理化する、より関連した新しいアプローチである。

ゲシュタルト理論
主に1930年代と1940年代に活動していたゲシュタルトの心理学者は、今日の視覚科学者によって研究された多くの研究課題を提起しました。

組織のゲシュタルト法は、多くの異なる部分ではなく、人々が視覚的な要素を組織的なパターンまたは全体としてどのように認識するかの研究を導いてきました。 「ゲシュタルト」はドイツ語で、部分的に「全体的または緊急の構造」とともに「構成またはパターン」に翻訳されています。 この理論によれば、ビジュアルシステムが要素をパターンに自動的にどのようにグループ化するかを決定する主な8つの要因があります:近接性、類似性、閉鎖性、対称性、共通運命(共通運動)、連続性および良好なゲシュタルトシンプルで秩序だった)と過去の経験。

眼の動きの分析
1960年代、技術開発により、画像閲覧時の視覚障??なくオブジェクトであることが逆効果の影響を受け、顔が「特別」であると主張することが示されている。 さらに、顔と目的の処理は、別個の神経系を動かす。 特に、顔面処理のための人間の脳の特殊化は、真のドメイン特異性を反映するのではなく、与えられたクラスの刺激の中で専門家レベルの差別化のより一般的なプロセスであると主張しているディベート。 fMRIと電気生理学を用いてDoris Tsaoらは、マカクザルにおける脳領域と顔認識のメカニズムについて述べた。

認知的および計算的アプローチ
1970年代、David Marrは、さまざまなレベルの抽象化におけるビジョンのプロセスを分析した、多レベルの視覚理論を開発しました。 視覚における特定の問題の理解に焦点を当てるために、彼は3つのレベルの分析を特定した:計算、アルゴリズム、および実装レベル。 Tomaso Poggioを含む多くの視覚科学者は、これらのレベルの分析を受け入れ、計算上の視点から視覚をさらに特徴づけるためにそれらを使用しました。

計算レベルは、抽象度の高いレベルで、ビジュアルシステムが克服しなければならない問題を解決します。 アルゴリズムレベルでは、これらの問題を解決するために使用できる戦略を特定しようとします。 最後に、実装レベルでは、これらの問題に対する解決策が神経回路でどのように実現されるかを説明しようとしています。

Marrは、これらのレベルのいずれかでビジョンを独立して調査することが可能であると提案しました。 Marrは、2次元視覚配列(網膜上)から世界の3次元記述への出力を視覚として記述しました。 彼のビジョンの段階は次のとおりです。

シーンの基本的なコンポーネント(エッジ、リージョンなど)のフィーチャ抽出に基づいて、シーンの2Dまたはプリミティブスケッチを作成します。アーティストとしての素早く描画された鉛筆スケッチのコンセプトの類似性に注目してください。
テクスチャが認識される場面の2½Dスケッチなど。アーティストがシーンの領域をハイライトまたはシェードして深さを提供する、描画におけるステージと概念の類似点に注意してください。
シーンが連続した3次元地図で視覚化される3Dモデル。
Marrの2.5Dスケッチでは、奥行きマップが構築されており、このマップが3D形状知覚の基礎であると仮定しています。 しかし、立体的および絵画的な知覚と単眼観察の両方は、3D形状の知覚が点の深さの知覚に先行し、それに依存しないことを明確にしている。 予備的な奥行きマップが、どのようにして原則的に構築されるのか、これがどのようにして地形の構成やグループ化の問題に対処するのかは明らかではない。 双眼鏡で観察される3D物体からの3D形状知覚の生成におけるMarrによって見過ごされる知覚的組織化制約の役割は、3Dワイヤー物体の場合に経験的に実証されている。例えば、より詳細な議論については、Pizlo(2008)を参照されたい。

形質導入
形質導入は、環境刺激からのエネルギーを脳が理解して処理するための神経活動に変換するプロセスです。 眼の後ろには、光受容体層、双極細胞層および神経節細胞層の3つの異なる細胞層が含まれる。 光受容体層は、非常に後ろにあり、ロッド光受容体およびコーン光受容体を含む。 コーンは色の知覚に責任があります。 赤、緑、青の3種類のコーンがあります。 ロッドは、低照度での物体の知覚を担う。 光受容体は、その中に薄片の膜に埋め込まれた光色素と呼ばれる特殊な化学物質を含む。 1本の人間の棒には約1千万のものが含まれています。 光色素分子は、オプシン(タンパク質)とレチナール(脂質)の2つの部分からなる。 特定の波長の光に反応する3つの特定のフォトピグメント(それぞれ独自の色を持つ)があります。 光の適切な波長が光受容体に当たると、そのフォトピグメントが2つに分かれ、バイポーラ細胞層にメッセージを送り、次いで、神経節細胞に情報を送り、視神経を介して情報を脳に送る。 適切なフォトピグメントが適切な受光体(例えば、赤色円錐の内側の緑色フォトピグメント)にない場合、色覚異常と呼ばれる状態が生じる。

敵対プロセス
形質導入は、光受容体からバイポーラ細胞に送られ、神経節細胞に送られる化学的メッセージを含む。 いくつかの光受容体は、それらの情報を1つの神経節細胞に送ることができる。 神経節細胞には、赤色/緑色と黄色/青色の2種類があります。 これらのニューロン細胞は刺激されていなくても常に発火する。 脳は、これらのニューロンの発射速度が変化すると、異なる色(および多くの情報、画像)を解釈する。 赤色光は赤色コーンを刺激し、赤色/緑色神経節細胞を刺激する。 同様に、緑色光は緑色コーンを刺激し、赤色/緑色神経節細胞を刺激し、青色光は黄色/青色神経節細胞を刺激する青色コーンを刺激する。 神経節細胞の発火率は、1つの円錐によって信号伝達され、他の円錐によって信号伝達されると減少する(阻害される)場合に増加する。 神経節細胞の名前の最初の色はそれを興奮させる色であり、第2の色はそれを抑制する色である。 すなわち、赤色コーンは赤色/緑色神経節細胞を励起し、緑色コーンは赤色/緑色神経節細胞を阻害するであろう。 これは相手方のプロセスです。 赤/緑の神経節細胞の発火率が増加すると、脳は光が赤であることを知り、速度が低下すると、脳は光の色が緑であることを知る。

人工的な視覚
視覚の理論や観察は、コンピュータビジョン(機械ビジョン、またはコンピュータビジョンとも呼ばれる)のインスピレーションの主な源であった。 特別なハードウェア構造およびソフトウェアアルゴリズムは、カメラまたはセンサからの画像を解釈する能力を機械に提供する。 Artificial Visual Perceptionは、長年この業界で使用されており、現在、自動車やロボットの分野に参入しています。

Share