الإدراك البصري

الإدراك البصري هو القدرة على تفسير البيئة المحيطة باستخدام الضوء في الطيف المرئي الذي تعكسه الكائنات الموجودة في البيئة.

يُعرف أيضًا التصور الناتج بالإدراك البصري أو البصر أو البصر أو الرؤية (شكل الصفة: بصري أو بصري أو بصري). يشار إلى المكونات الفسيولوجية المختلفة المشاركة في الرؤية بشكل جماعي كنظام مرئي ، وهي محور الكثير من الأبحاث في علم اللغة وعلم النفس والعلوم المعرفية وعلم الأعصاب والبيولوجيا الجزيئية ، والتي يشار إليها مجتمعة بعلم الرؤية.

البصرية
يسمح النظام البصري للحيوانات للأفراد باستيعاب المعلومات من محيطهم. يبدأ عمل الرؤية عندما تركز القرنية ثم عدسة العين الضوء من محيطها على غشاء حساس للضوء في الجزء الخلفي من العين ، يسمى شبكية العين. الشبكية هي في الواقع جزء من الدماغ المعزول ليكون بمثابة محول لتحويل الضوء إلى إشارات عصبية. استناداً إلى التغذية المرتدة من النظام البصري ، تقوم عدسة العين بتعديل سُمكها لتركيز الضوء على الخلايا المستقبلة للضوء في الشبكية ، والمعروفة أيضًا باسم القضبان والمخروطات ، والتي تكتشف فوتونات الضوء وتستجيب عن طريق إنتاج نبضات عصبية. تتم معالجة هذه الإشارات من خلال عمليات التغذية الراجعة والتغذية الراجعة المعقدة من قبل أجزاء مختلفة من الدماغ ، من شبكية العين في اتجاه المنبع إلى العقد المركزية في الدماغ.

لاحظ أنه حتى الآن يمكن تطبيق الكثير من الفقرة أعلاه على الأخطبوطات والرخويات والديدان والحشرات والأشياء أكثر بدائية. أي شيء مع نظام عصبي أكثر تركيزا وأعين أفضل من قول قناديل البحر. ومع ذلك ، ينطبق ما يلي على الثدييات بشكل عام والطيور (في شكل معدل): إن الشبكية في هذه الحيوانات الأكثر تعقيدًا ترسل ألياف (العصب البصري) إلى نواة الركبة الجانبية ، إلى القشرة البصرية الابتدائية والثانوية للدماغ. الإشارات من شبكية العين يمكن أن تنتقل مباشرة من شبكية العين إلى أكليل متفوقة.

يتم إنجاز إدراك الأشياء ومجمل المشهد البصري من خلال قشرة الارتباط البصري. تجمع قشرة الارتباط البصري جميع المعلومات الحسية التي تدركها القشرة المخية التي تحتوي على آلاف الوحدات التي تشكل جزءًا من الشبكات العصبية المعيارية. وترسل العصبونات الموجودة في القشرة المخية المندرة محاورًا إلى القشرة الخارجية ، وهي منطقة في قشرة الارتباط البصري التي تحيط بالقشرة المخية.

يدرك النظام البصري البشري الضوء المرئي في مدى الأطوال الموجية بين 370 و 730 نانومتر (0.00000037 إلى 0.00000073 متر) من الطيف الكهرومغناطيسي.

دراسة
تتمثل المشكلة الرئيسية في الإدراك البصري في أن ما يراه الناس ليس مجرد ترجمة للمنبهات الشبكية (أي الصورة على شبكية العين). وهكذا ناضل الأشخاص المهتمون بالإدراك منذ فترة طويلة لشرح ما تفعله المعالجة البصرية لإنشاء ما يُرى في الواقع.

الدراسات المبكرة

يتم عرض الدفق الظهري البصري (الأخضر) والتيار البطني (الأرجواني). جزء كبير من القشرة الدماغية البشرية يشارك في الرؤية.
كانت هناك مدرستين يونانيتين كبيرتين في اليونان ، حيث قدمتا شرحًا أوليًا لكيفية تنفيذ الرؤية في الجسم.

الأول كان “نظرية الانبعاثات” التي أبقت على أن الرؤية تحدث عندما تنبعث الأشعة من العين ويتم اعتراضها بواسطة كائنات بصرية. إذا كان الجسم قد شوهد بشكل مباشر ، فإنه كان عن طريق “الأشعة” التي تخرج من العين ثم تسقط مرة أخرى على الجسم. ومع ذلك ، فقد شوهدت صورة منكسرة بواسطة “وسائل الأشعة” أيضًا ، والتي خرجت من العين ، وعبرت في الهواء ، وبعد الانكسار ، سقطت على الجسم المرئي الذي كان ينظر إليه كنتيجة لحركة الأشعة من العين. هذه النظرية أيدها علماء مثل إقليدس وبطليموس وأتباعهم.

أيدت المدرسة الثانية ما يسمى نهج “المدخل-البعثة” الذي يرى أن الرؤية تأتي من شيء يدخل العينين ممثلا للجسم. بوجود هذه الدعاية الرئيسية لأرسطو وجالين وأتباعها ، يبدو أن هذه النظرية لها بعض الصلة مع النظريات الحديثة حول الرؤية الحقيقية ، ولكنها تظل مجرد تكهنات تفتقر إلى أي أساس تجريبي. (في القرن الثامن عشر إنكلترا قام إسحاق نيوتن وجون لوك وآخرون بنقل نظرية التطفل / التطفل إلى الأمام من خلال الإصرار على أن هذه الرؤية تنطوي على عملية تتكون فيها الأشعة ـ المكونة من مادة جسدية فعلية ـ من أجسام معروفة وتدخل عقل / مستشعر العين من خلال فتحة العين. )

اعتمدت كلتا الفكرتين على المبدأ القائل بأن “مثلما هو معروف فقط بالمثل” ، وبالتالي على فكرة أن العين كانت تتألف من بعض “النار الداخلية” التي تفاعلت مع “النيران الخارجية” للضوء المرئي وجعل الرؤية ممكنة. يجعل أفلاطون هذا التأكيد في حواره تيماوس ، كما يفعل أرسطو ، في كتابه دي سينسو.

ليوناردو دافنشي: للعين خط مركزي ويمكن رؤية كل شيء يصل إلى العين من خلال هذا الخط المركزي بشكل واضح.
أجرى Alhazen (965 – c. 1040) العديد من التحقيقات والتجارب على الإدراك البصري ، ومدد عمل Ptolemy على رؤية ثنائي العينين ، وعلق على الأعمال التشريحية من Galen. كان أول شخص يشرح هذه الرؤية يحدث عندما يرتد الضوء على كائن ثم يتم توجيهه إلى عينيه.

ويعتقد أن ليوناردو دا فينشي (1452-1519) هو أول من يعترف بالصفات البصرية الخاصة للعين. وكتب “وظيفة العين البشرية … وصفها عدد كبير من المؤلفين بطريقة معينة. لكنني وجدت أنها مختلفة تماما.” كان اكتشافه التجريبي الرئيسي هو أنه لا يوجد سوى رؤية واضحة وواضحة على خط البصر – الخط البصري الذي ينتهي عند النقرة. على الرغم من أنه لم يستخدم هذه الكلمات بشكل حرفي فهو في الواقع هو الأب للتمييز الحديث بين الرؤية النقطية والمحيطية.

كان اسحق نيوتن (1642-1726 / 27) أول من اكتشف من خلال التجريب ، عن طريق عزل الألوان الفردية من طيف الضوء الذي يمر من خلال المنشور ، بحيث ظهر اللون المتصوَّر للأشياء نظرًا لطبيعة الضوء التي تعكسها الكائنات ، أن هذه الألوان المقسمة لا يمكن تغييرها إلى أي لون آخر ، وهو ما يتناقض مع التوقعات العلمية لهذا اليوم.

الاستدلال اللاشعوري
غالبًا ما يُنسب إلى هيرمان فون هيلمهولتز أول دراسة للإدراك البصري في العصر الحديث. قام هيلمهولتز بفحص العين البشرية وخلص إلى أنها كانت فقيرة نوعًا ما. وبدا أن المعلومات الرديئة التي تم جمعها عن طريق العين تجعله مستحيلاً. ولذلك استنتج أن الرؤية يمكن أن تكون فقط نتيجة لشكل من أشكال الاستدلال اللاشعوري: مسألة وضع افتراضات واستنتاجات من بيانات غير مكتملة ، استناداً إلى التجارب السابقة.

الاستدلال يتطلب خبرة سابقة في العالم.

من أمثلة الافتراضات المعروفة ، القائمة على التجربة البصرية ، ما يلي:

النور يأتي من فوق
لا ينظر عادة إلى الأشياء من الأسفل
ينظر وجوه (ومعترف بها) تستقيم.
يمكن للكائنات الأقرب أن تمنع عرض المزيد من الأشياء البعيدة ، ولكن ليس العكس
الأرقام (أي الأشياء الأمامية) تميل إلى حدود محدبة

لقد أسفرت دراسة الأوهام البصرية (الحالات التي تسير فيها عملية الاستنتاج الخاطئة) عن الكثير من التبصّر في نوع الافتراضات التي يضعها النظام البصري.

تم مؤخرا إحياء نوع آخر من فرضية الاستدلال اللاشعوري (استنادا إلى الاحتمالات) في ما يسمى دراسات بايزي للإدراك البصري. يعتبر أنصار هذا النهج أن النظام البصري يؤدي بعض أشكال الاستدلال البايزي لاستخلاص إدراك من البيانات الحسية. ومع ذلك ، فليس من الواضح كيف يستمد أنصار هذا الرأي ، من حيث المبدأ ، الاحتمالات ذات الصلة التي تتطلبها معادلة بايز. تم استخدام النماذج المبنية على هذه الفكرة لوصف مختلف وظائف الإدراك البصري ، مثل إدراك الحركة وتصور العمق وتصور الأرض. “النظرية التجريبية الكلية للإدراك” هي مقاربة ذات صلة وأحدث ترشيد للإدراك البصري دون استحضار الشكليات البايزية صراحة.

نظرية الجشطالت
أثار علماء النفس الجشطالت في المقام الأول في 1930s و 1940s العديد من الأسئلة البحثية التي يتم دراستها من قبل علماء الرؤية اليوم.

لقد أرشدت قوانين قوانين الجشطالت إلى دراسة كيفية إدراك الناس للمكونات البصرية على أنها أنماط منظمة أو كثر ، بدلاً من العديد من الأجزاء المختلفة. “Gestalt” هي كلمة ألمانية تترجم جزئيًا إلى “تكوين أو نمط” إلى جانب “بنية كاملة أو ناشئة”. وفقًا لهذه النظرية ، هناك ثمانية عوامل رئيسية تحدد كيفية قيام النظام البصري تلقائيًا بتجميع العناصر في أنماط: القرب ، التشابه ، الإغلاق ، التماثل ، المصير المشترك (أي حركة مشتركة) ، الاستمرارية وكذلك الجشطالت الجيدة (نمط منتظم ، بسيطة ، ومنظمة) والخبرة السابقة.

تحليل حركة العين
خلال الستينات ، سمح التطور التقني بالتسجيل المستمر لحركة العين أثناء القراءة في مشاهدة الصورة وفي وقت لاحق في حل المشكلات البصرية وعندما أصبحت كاميرات الرأس متاحة أثناء القيادة أيضًا.

توضح الصورة إلى اليمين ما قد يحدث خلال أول ثانيتين من الفحص البصري. في حين أن الخلفية هي خارج التركيز ، وتمثل الرؤية المحيطية ، فإن حركة العين الأولى تذهب إلى حذاء الرجل (فقط لأنها قريبة جداً من تثبيت البداية ولديها تباين معقول).

التثبيتات التالية تقفز من وجه لوجه. قد تسمح حتى المقارنات بين الوجوه.

يمكن الاستنتاج أن وجه الرمز هو رمز بحث جذاب للغاية داخل مجال الرؤية المحيط. تضيف رؤية النقرة معلومات مفصلة إلى الانطباع الأول المحيطي.

ويمكن أيضا ملاحظة أن هناك أربعة أنواع مختلفة من حركات العين: التثبيتات ، حركات الانشطارية ، الحركات الترقوية وحركات المتابعة. التثبيتات هي نقاط ثابتة مقارنة حيث تستقر العين. ومع ذلك ، فإن العين لا تزال أبدا تماما ، ولكن موقف التحديق سوف ينجرف. يتم تصحيح هذه الانجرافات بدورها بواسطة microsaccades ، حركات عين تثبيتية صغيرة جدا. تنطوي حركات Vergence على تعاون كلتا العينين للسماح لسقوط صورة على نفس المنطقة من شبكي العين. هذه النتائج في صورة واحدة تركز. الحركات المتقطعة هي نوع حركة العين التي تجعل القفزات من موضع إلى آخر ، ويتم استخدامها لمسح مشهد / صورة معينة بسرعة. أخيرا ، حركة السعي هي حركة العين على نحو سلس ، ويستخدم لمتابعة الأشياء في الحركة.

التعرف على الوجوه والكائنات
هناك أدلة كثيرة على أن التعرف على الوجه والجسم يتم إنجازه بواسطة أنظمة متميزة. على سبيل المثال ، يظهر مرضى البروجوبنوزنوس عجزا في الوجه ، ولكن ليس معالجة للجسم ، في حين أن مرضى الأجسام الغريبة (أبرزهم ، CK المريض) يظهرون عجز في معالجة الكائن مع معالجة الوجه غير المحصنة. بشكل سلوكي ، فقد تبين أن الوجوه ، ولكن ليس الكائنات ، تخضع لتأثيرات الانقلاب ، مما يؤدي إلى الادعاء بأن الوجوه “خاصة”. علاوة على ذلك ، تعالج معالجة الوجه والجسم أنظمة عصبية متميزة. وجدير بالذكر أن البعض قد جادل بأن التخصص الظاهر للدماغ البشري في معالجة الوجه لا يعكس خصوصية المجال الحقيقية ، وإنما هو عملية أكثر عمومية للتمييز على مستوى الخبراء ضمن فئة معينة من التحفيز ، على الرغم من أن هذا الادعاء الأخير موضوع جوهري. النقاش. استخدام الرنين المغناطيسي الوظيفي والكهربية وصفت دوريس تساو وزملاؤها مناطق الدماغ وآلية للتعرف على الوجه في القردة المكاكية.

النهج المعرفية والحسابية
في السبعينيات ، طور ديفيد مار نظرية الرؤية متعددة المستويات ، والتي حللت عملية الرؤية عند مستويات مختلفة من التجريد. من أجل التركيز على فهم مشاكل محددة في الرؤية ، حدد ثلاثة مستويات للتحليل: المستويات الحسابية ، الخوارزمية والتنفيذية. لقد تبنى العديد من علماء الرؤية ، بما في ذلك Tomaso Poggio ، هذه المستويات من التحليل واستخدموها لتمييز الرؤية أكثر من منظور حاسوبي.

يعالج المستوى الحسابي ، على مستوى عال من التجريد ، المشاكل التي يجب على النظام البصري التغلب عليها. يحاول المستوى الحسابي تحديد الإستراتيجية التي يمكن استخدامها لحل هذه المشاكل. وأخيراً ، يحاول المستوى التنفيذي شرح كيفية تحقيق حلول لهذه المشاكل في الدوائر العصبية.

اقترح مار أنه من الممكن التحقيق في الرؤية على أي من هذه المستويات بشكل مستقل. وصف مار الرؤية بأنها بداية من مصفوفة بصرية ثنائية الأبعاد (على شبكية العين) إلى وصف ثلاثي الأبعاد للعالم كمخرج. تشمل مراحل رؤيته ما يلي:

رسم ثنائي أو أولي للمشهد ، بناءً على استخراج العناصر الأساسية للمشهد ، بما في ذلك الحواف ، والمناطق ، وما إلى ذلك. لاحظ التشابه في المفهوم إلى رسم بالقلم الرصاص رسمه الفنان بسرعة كإنطباع.
رسم تخطيطي 2½ D للمشهد ، حيث يتم التعرف على القوام ، وما إلى ذلك. لاحظ التشابه في المفهوم إلى المرحلة في الرسم حيث يبرز فنان أو يظلال مناطق مشهد ، لتوفير العمق.
نموذج ثلاثي الأبعاد ، حيث يتم تصوير المشهد في خريطة ثلاثية الأبعاد مستمرة.
يفترض رسم 2.5D من Marr أن خريطة العمق مبنية ، وأن هذه الخريطة هي أساس تصور الشكل الثلاثي الأبعاد. ومع ذلك ، فإن كل من التصور المجسمي والتصويري ، وكذلك المشاهدة الأحادية ، توضح أن إدراك الشكل الثلاثي الأبعاد يسبق ، ولا يعتمد على ، إدراك عمق النقاط. وليس من الواضح كيف يمكن ، من حيث المبدأ ، بناء خارطة عمق أولية ، ولا كيف يمكن أن يعالج ذلك مسألة التنظيم أو التنظيم على الأرض. إن دور قيود التنظيم الإدراكي ، التي تجاهلها Marr ، في إنتاج مفاهيم الشكل الثلاثي الأبعاد من الكائنات ثلاثية الأبعاد المشاهدة بشكل ثنائي العينين ، قد تم إثباته تجريبيًا بالنسبة لحالة كائنات الأسلاك ثلاثية الأبعاد ، على سبيل المثال للحصول على مناقشة أكثر تفصيلاً ، انظر Pizlo (2008).

التوضيح
Transduction هي العملية التي يتم من خلالها تحويل الطاقة من المحفزات البيئية إلى نشاط عصبي لكي يفهمه الدماغ ويتعامل معه. يحتوي الجزء الخلفي من العين على ثلاث طبقات خلية مختلفة: طبقة مستقبلة للضوء ، وطبقة خلية ثنائية القطب وطبقة الخلايا العقدية. طبقة المستقبلات الضوئية هي في الخلف جدا وتحتوي على مستقبلات ضوئية للقضيب ومستقبلات ضوئية مخروطية. المخاريط هي المسؤولة عن إدراك اللون. هناك ثلاثة مخاريط مختلفة: الأحمر والأخضر والأزرق. القضبان ، هي المسؤولة عن تصور الكائنات في الإضاءة الخافتة. تحتوي المستقبلات الضوئية بداخلها مادة كيميائية خاصة تسمى التصاوير الضوئية (photopigment) ، والتي هي جزء لا يتجزأ من غشاء الرقائق. قضيب بشري واحد يحتوي على ما يقرب من 10 مليون منهم. تتكون الجزيئات الضوئية من جزئين: opsin (بروتين) وشبكية العين (دهن). هناك 3 ضوئيات محددة (لكل منها ألوانها الخاصة) تستجيب لأطوال موجية محددة من الضوء. عندما يصل طول موجة الضوء المناسب إلى المستقبل الضوئي ، تنقسم ضوئيه إلى قسمين ، مما يرسل رسالة إلى طبقة الخلايا ثنائية القطب ، والتي بدورها ترسل رسالة إلى الخلايا العقدية ، والتي ترسل بعد ذلك المعلومات عبر العصب البصري إلى الدماغ. إذا لم يكن photopigment المناسب في المستقبلات الضوئية المناسبة (على سبيل المثال ، photopigment أخضر داخل مخروط أحمر) ، سوف تحدث حالة تسمى نقص رؤية اللون.

عملية الخصم
ينطوي التحويل على الرسائل الكيميائية المرسلة من المستقبلات الضوئية إلى الخلايا ثنائية القطب إلى الخلايا العقدية. قد ترسل عدة مستقبلات ضوئية معلوماتها إلى خلية واحدة من العقدة. هناك نوعان من الخلايا العقدية: أحمر / أخضر وأصفر / أزرق. هذه الخلايا العصبية تطلق النار باستمرار – حتى عندما لا يتم تحفيزها. يفسر الدماغ ألوانًا مختلفة (ومع الكثير من المعلومات ، صورة) عندما يتغير معدل إطلاق النار لهذه العصبونات. الضوء الأحمر يحفز المخروط الأحمر ، والذي بدوره يحفز الخلية العقدية الحمراء / الخضراء. وبالمثل ، الضوء الأخضر يحفز المخروط الأخضر ، الذي يحفز الخلية العقدية الحمراء والخضراء والضوء الأزرق يحفز المخروط الأزرق الذي يحفز الخلية العقدية الصفراء / الزرقاء. يتم زيادة معدل إطلاق النار من الخلايا العقدية عندما يتم الإشارة إليها بواسطة مخروط واحد وتقل (تثبيط) عندما يتم الإشارة إليها من قبل المخروط الآخر. اللون الأول في اسم الخلية العقدية هو اللون الذي يثيره والثاني هو اللون الذي يمنعه. أي: مخروط أحمر سيثير الخلية العقدية الحمراء / الخضراء وسيقوم المخروط الأخضر بمنع الخلية العقدية الحمراء / الخضراء. هذه هي عملية الخصم. إذا زاد معدل إطلاق النار لخلية عقدية حمراء / خضراء ، فإن الدماغ سيعلم أن الضوء كان أحمرًا ، فإذا انخفض المعدل ، فإن الدماغ سيعلم أن لون الضوء أخضر.

الإدراك البصري الصناعي
كانت النظريات والملاحظات من الإدراك البصري المصدر الرئيسي للإلهام لرؤية الكمبيوتر (وتسمى أيضا رؤية الجهاز ، أو الرؤية الحسابية). توفر الهياكل الخاصة للأجهزة وخوارزميات البرامج للآلات القدرة على تفسير الصور القادمة من كاميرا أو مستشعر. منذ فترة طويلة يستخدم الإدراك البصري الصناعي في الصناعة ويدخل الآن مجالات السيارات والروبوتات.