رؤية الكمبيوتر – HiSoUR والفن تاريخ معلومات السفر

رؤية الكمبيوتر هو مجال متعدد التخصصات يتعامل مع كيفية جعل أجهزة الكمبيوتر لاكتساب فهم عالي المستوى من الصور أو الفيديو الرقمي. من منظور الهندسة ، فإنه يسعى إلى أتمتة المهام التي يمكن للنظام البصري البشري القيام بها.

وتشمل مهام رؤية الكمبيوتر طرقًا للحصول على الصور الرقمية ومعالجتها وتحليلها وفهمها ، واستخراج بيانات عالية الأبعاد من العالم الحقيقي من أجل إنتاج معلومات رقمية أو رمزية ، على سبيل المثال ، في أشكال القرارات. إن الفهم في هذا السياق يعني تحويل الصور المرئية (مدخلات شبكية العين) إلى أوصاف للعالم يمكن أن تتفاعل مع عمليات التفكير الأخرى وتتخذ الإجراءات المناسبة. يمكن أن ينظر إلى فهم الصورة هذا على أنه تفكيك المعلومات الرمزية من بيانات الصور باستخدام نماذج تم إنشاؤها بمساعدة الهندسة ، والفيزياء ، والإحصاءات ، ونظرية التعلم.

باعتبارها نظامًا علميًا ، تهتم رؤية الكمبيوتر بالنظرية وراء الأنظمة الاصطناعية التي تستخرج المعلومات من الصور. يمكن أن تأخذ بيانات الصورة أشكالًا متعددة ، مثل تسلسلات الفيديو ، أو المشاهدات من كاميرات متعددة ، أو بيانات متعددة الأبعاد من ماسح ضوئي طبي. وباعتبارها انضباطًا تكنولوجيًا ، تسعى رؤية الكمبيوتر إلى تطبيق نظرياتها ونماذجها لبناء أنظمة رؤية الكمبيوتر.

وتشمل المجالات الفرعية للرؤية الحاسوبية إعادة بناء المشهد ، وكشف الأحداث ، وتتبع الفيديو ، والتعرف على الأشياء ، وتقدير الوضع الثلاثي الأبعاد ، والتعلم ، والفهرسة ، وتقدير الحركة ، واستعادة الصور.

فريف
رؤية الكمبيوتر هو مجال متعدد التخصصات يتعامل مع كيفية جعل أجهزة الكمبيوتر لاكتساب فهم عالي المستوى من الصور أو الفيديو الرقمي. من منظور الهندسة ، فإنه يسعى إلى أتمتة المهام التي يمكن للنظام البصري البشري القيام بها. “رؤية الكمبيوتر تهتم بالاختصار التلقائي ، وتحليل وفهم المعلومات المفيدة من صورة واحدة أو سلسلة من الصور. إنها تنطوي على تطوير أساس نظري وخوارزمي لتحقيق فهم بصري تلقائي.” باعتبارها نظامًا علميًا ، تهتم رؤية الكمبيوتر بالنظرية وراء الأنظمة الاصطناعية التي تستخرج المعلومات من الصور. يمكن أن تأخذ بيانات الصورة أشكالًا متعددة ، مثل تسلسلات الفيديو ، أو المشاهدات من كاميرات متعددة ، أو بيانات متعددة الأبعاد من ماسح ضوئي طبي. وباعتبارها انضباطًا تكنولوجيًا ، تسعى رؤية الكمبيوتر إلى تطبيق نظرياتها ونماذجها لبناء أنظمة رؤية الكمبيوتر.

التاريخ
في أواخر الستينات ، بدأت رؤية الكمبيوتر في الجامعات التي كانت رائدة في الذكاء الاصطناعي. كان من المفترض أن تحاكي النظام البصري البشري ، كنقطة انطلاق لإنقاذ الروبوتات بسلوك ذكي. في عام 1966 ، كان يُعتقد أن هذا يمكن تحقيقه من خلال مشروع صيفي ، من خلال إرفاق كاميرا بجهاز كمبيوتر و “وصف ما رأته”.

كانت رؤية الكمبيوتر المتميزة من المجال السائد لمعالجة الصور الرقمية في ذلك الوقت رغبة في استخراج بنية ثلاثية الأبعاد من الصور بهدف تحقيق فهم كامل للمشهد. شكلت الدراسات التي أجريت في السبعينيات الأسس المبكرة للعديد من خوارزميات رؤية الكمبيوتر الموجودة حاليًا ، بما في ذلك استخراج الحواف من الصور ووضع العلامات للخطوط والنمذجة غير المتعددة السطوح والنماذج متعددة السطوح ، وتمثيل الأشياء كتركيبات ذات هياكل أصغر ، وتدفق بصري ، و تقدير الحركة.

شهد العقد التالي دراسات تستند إلى تحليل رياضي أكثر صرامة والجوانب الكمية لرؤية الكمبيوتر. ويشمل ذلك مفهوم مساحة النطاق ، واستنتاج الشكل من مختلف الإشارات مثل التظليل ، والملمس ، والتركيز ، ونماذج الكنتور المعروفة باسم الثعابين. أدرك الباحثون أيضًا أن العديد من هذه المفاهيم الرياضية يمكن معالجتها في إطار التحسين نفسه مثل تنظيم الحقول العشوائية وماركوف. بحلول التسعينيات ، أصبحت بعض الموضوعات البحثية السابقة أكثر نشاطًا من الموضوعات الأخرى. أدت الأبحاث في عمليات إعادة التخطيط الإسقاطية ثلاثية الأبعاد إلى فهم أفضل لمعايرة الكاميرا. مع ظهور أساليب التحسين لمعايرة الكاميرا ، أدركت أن الكثير من الأفكار قد تم استكشافها بالفعل في نظرية ضبط الحزمة من مجال التصوير الفوتوغرافي. هذا أدى إلى أساليب لإعادة تشكيل 3-D مشاهد للمشاهد من صور متعددة. تم إحراز تقدم في مشكلة المراسلات الصوتية المكثفة وتقنيات الاستريو المتعددة. في نفس الوقت ، تم استخدام اختلافات في الرسم البياني لحل تجزئة الصورة. كما شهد هذا العقد لأول مرة استخدام تقنيات تعلم إحصائية في الممارسة للتعرّف على الوجوه في الصور (انظر Eigenface). نحو نهاية التسعينيات ، حدث تغيير كبير في التفاعل المتزايد بين مجالات الرسومات الحاسوبية ورؤية الكمبيوتر. وشمل ذلك تقديم الصورة ، وتحويل الصور ، وعرض الاستقراء ، وخياطة الصور البانورامية ، وعرض الحقول الخفيفة في وقت مبكر.

وقد شهد العمل الأخير عودة ظهور الأساليب القائمة على الميزات ، والتي تستخدم بالتزامن مع تقنيات التعلم الآلي وأطر التحسين المعقدة.

حقول ذات صله

الذكاء الاصطناعي
تتعامل مجالات الذكاء الاصطناعي مع التخطيط أو المداولات المستقلة للأنظمة الروبوتية للتنقل عبر بيئة. مطلوب فهم مفصل لهذه البيئات للتنقل خلالها. يمكن توفير معلومات حول البيئة بواسطة نظام رؤية الكمبيوتر ، يعمل كمستشعر رؤية ويوفر معلومات عالية المستوى حول البيئة والروبوت.

تشترك الذكاء الاصطناعي والرؤية الحاسوبية في مواضيع أخرى مثل التعرف على الأنماط وتقنيات التعلم. وبالتالي ، ينظر في بعض الأحيان إلى رؤية الكمبيوتر كجزء من مجال الذكاء الاصطناعي أو مجال علوم الكمبيوتر بشكل عام.

هندسة المعلومات
غالبًا ما تُعتبر رؤية الكمبيوتر جزءًا من هندسة المعلومات.

فيزياء الحالة الصلبة
فيزياء الحالة الصلبة حقل آخر يرتبط ارتباطًا وثيقًا برؤية الكمبيوتر. تعتمد معظم أنظمة رؤية الكمبيوتر على أجهزة استشعار الصورة ، والتي تكشف عن الإشعاع الكهرومغناطيسي ، الذي يكون عادة في شكل ضوء مرئي أو الأشعة تحت الحمراء. تم تصميم أجهزة الاستشعار باستخدام فيزياء الكم. يتم شرح العملية التي يتفاعل بها الضوء مع الأسطح باستخدام الفيزياء. تشرح الفيزياء سلوك البصريات التي تشكل جزءًا أساسيًا من معظم أنظمة التصوير. تتطلب أجهزة استشعار الصورة المتطورة حتى ميكانيكا الكم لتوفير فهم كامل لعملية تكوين الصورة. أيضا ، يمكن معالجة مشاكل القياس المختلفة في الفيزياء باستخدام رؤية الكمبيوتر ، على سبيل المثال الحركة في السوائل.

علم الأعصاب
الحقل الثالث الذي يلعب دورا هاما هو علم الأعصاب ، وتحديدا دراسة نظام الرؤية البيولوجية. خلال القرن الماضي ، كانت هناك دراسة واسعة النطاق للعيون ، والخلايا العصبية ، وهياكل الدماغ المكرسة لمعالجة المحفزات البصرية في كل من البشر والحيوانات المختلفة. وقد أدى هذا إلى وصف خشن ومعقد لكيفية عمل أنظمة الرؤية “الحقيقية” من أجل حل بعض المهام المتعلقة بالرؤية. وقد أدت هذه النتائج إلى حقل فرعي ضمن رؤية الكمبيوتر حيث تم تصميم الأنظمة الاصطناعية لتقليد معالجة وسلوك الأنظمة البيولوجية ، عند مستويات مختلفة من التعقيد. أيضا ، بعض من الأساليب القائمة على التعلم المتقدمة في إطار رؤية الكمبيوتر (على سبيل المثال ، الشبكات العصبية والتحليل العميق للصورة وتحليل الخصائص والتصنيف) لها خلفية في علم الأحياء.

ترتبط بعض فروع أبحاث رؤية الكمبيوتر ارتباطًا وثيقًا بدراسة الرؤية البيولوجية – في الواقع ، مثلما ترتبط العديد من فروع أبحاث الذكاء الاصطناعى ارتباطًا وثيقًا بأبحاث حول الوعي البشرى ، واستخدام المعرفة المخزنة لتفسير ودمج واستخدام المعلومات البصرية. مجال دراسات الرؤية البيولوجية ونماذج العمليات الفيزيولوجية وراء الإدراك البصري في البشر والحيوانات الأخرى. من ناحية أخرى ، تقوم رؤية الكمبيوتر ، بدراسة ووصف العمليات المنفذة في البرامج والأجهزة وراء أنظمة الرؤية الاصطناعية. أثبت التبادل متعدد التخصصات بين الرؤية البيولوجية ورؤية الكمبيوتر أنه مثمر لكل من المجالين.

معالجة الإشارات
بعد حقل آخر متعلق برؤية الكمبيوتر هو معالجة الإشارات. يمكن تمديد العديد من الطرق لمعالجة الإشارات أحادية المتغير ، وهي إشارات زمنية عادة ، بطريقة طبيعية لمعالجة الإشارات ذات المتغيرين أو الإشارات متعددة المتغيرات في رؤية الكمبيوتر. ومع ذلك ، وبسبب الطبيعة المحددة للصور ، هناك العديد من الطرق التي تم تطويرها ضمن رؤية الكمبيوتر والتي لا يوجد لديها نظير في معالجة الإشارات أحادية المتغير. إلى جانب الأبعاد المتعددة للإشارة ، يحدد هذا الحقل حقلًا فرعيًا في معالجة الإشارات كجزء من رؤية الكمبيوتر.

مجالات أخرى
بالإضافة إلى وجهات النظر المذكورة أعلاه حول رؤية الكمبيوتر ، يمكن أيضًا دراسة العديد من الموضوعات البحثية ذات الصلة من وجهة نظر رياضية بحتة. على سبيل المثال ، تعتمد العديد من الطرق في رؤية الكمبيوتر على الإحصائيات أو التحسين أو الهندسة. وأخيرًا ، يخصص جزء كبير من هذا المجال لجانب تنفيذ رؤية الكمبيوتر ؛ كيف يمكن تحقيق الطرق الحالية في مجموعات مختلفة من البرامج والأجهزة ، أو كيف يمكن تعديل هذه الطرق من أجل الحصول على سرعة المعالجة دون فقد الكثير من الأداء.

التمييز
المجالات الأكثر ارتباطا برؤية الكمبيوتر هي معالجة الصور ، تحليل الصور ورؤية الآلة. هناك تداخل كبير في نطاق التقنيات والتطبيقات التي تغطيها هذه. وهذا يعني أن التقنيات الأساسية المستخدمة والمتطورة في هذه المجالات متشابهة ، وهو أمر يمكن تفسيره على أنه يوجد حقل واحد بأسماء مختلفة. من ناحية أخرى ، يبدو أنه من الضروري للمجموعات البحثية والمجلات العلمية والمؤتمرات والشركات تقديم أو تسويق نفسها على أنها تخص بشكل محدد واحد من هذه المجالات ، وبالتالي ، فإن العديد من التوصيفات التي تميز كل حقل من الحقول الأخرى قدم.

تنتج رسومات الكمبيوتر بيانات صور من نماذج ثلاثية الأبعاد ، وغالبًا ما ينتج عن رؤية الكمبيوتر نماذج ثلاثية الأبعاد من بيانات الصورة. هناك أيضا اتجاه نحو مزيج من اثنين من التخصصات ، على سبيل المثال ، كما تم استكشافها في الواقع المعزز.

تظهر التوصيفات التالية ذات صلة ولكن لا يجب اعتبارها مقبولة عالميًا:

تميل معالجة الصور وتحليل الصور إلى التركيز على الصور ثنائية الأبعاد ، وكيفية تحويل صورة إلى أخرى ، على سبيل المثال ، من خلال عمليات البكسل-الحكمة مثل تحسين التباين ، والعمليات المحلية مثل إزالة الحافة أو إزالة الضجيج ، أو التحولات الهندسية مثل تدوير الصورة . يشير هذا التوصيف إلى أن معالجة / تحليل الصور لا يتطلب فرضيات أو إنتاج تفسيرات حول محتوى الصورة.
تتضمن رؤية الكمبيوتر التحليل ثلاثي الأبعاد من الصور ثنائية الأبعاد. يحلل هذا المشهد ثلاثي الأبعاد المسقط على صورة واحدة أو عدة صور ، على سبيل المثال ، كيفية إعادة بناء البنية أو معلومات أخرى حول المشهد ثلاثي الأبعاد من صورة واحدة أو عدة صور. تعتمد رؤية الكمبيوتر غالبًا على افتراضات أكثر أو أقل تعقيدًا حول المشهد المرسوم في صورة ما.
رؤية الجهاز هي عملية تطبيق مجموعة من التقنيات والأساليب لتوفير الفحص التلقائي المستند إلى التصوير والتحكم في العمليات وإرشادات الروبوت في التطبيقات الصناعية. تميل رؤية الماكينة إلى التركيز على التطبيقات ، بشكل رئيسي في التصنيع ، على سبيل المثال ، الروبوتات المستندة إلى الرؤية وأنظمة الفحص والقياس ، أو الانتقاء القائم على الرؤية (مثل التقاط الصناديق). ويعني هذا ضمناً أن تقنيات استشعار الصورة ونظرية التحكم غالباً ما يتم دمجها مع معالجة بيانات الصورة للتحكم في الروبوت ، ويتم التأكيد على المعالجة في الوقت الفعلي من خلال تطبيقات فعالة في الأجهزة والبرامج. كما يشير أيضًا إلى أن الظروف الخارجية مثل الإضاءة يمكن أن تكون أكثر تحكمًا في الرؤية الآلية أكثر مما هي في الرؤية العامة للكمبيوتر ، والتي يمكن أن تمكّن من استخدام خوارزميات مختلفة.
هناك أيضًا حقل يسمى التصوير والذي يركز بشكل أساسي على عملية إنتاج الصور ، ولكن في بعض الأحيان يتعامل أيضًا مع معالجة الصور وتحليلها. على سبيل المثال ، يتضمن التصوير الطبي عملًا كبيرًا على تحليل بيانات الصورة في التطبيقات الطبية.
وأخيرًا ، يعتبر التعرف على الأنماط مجالًا يستخدم طرقًا مختلفة لاستخراج المعلومات من الإشارات بشكل عام ، والتي تستند أساسًا إلى الأساليب الإحصائية والشبكات العصبية الاصطناعية. جزء كبير من هذا الحقل مخصص لتطبيق هذه الطرق على بيانات الصورة.

تطبيقات
تتراوح التطبيقات من مهام مثل أنظمة الرؤية الآلية الصناعية التي ، على سبيل المثال ، تفحص الزجاجات بسرعة على خط الإنتاج ، للبحث في الذكاء الاصطناعي وأجهزة الكمبيوتر أو الروبوتات التي يمكنها فهم العالم من حولهم. تحتوي مجالات رؤية الكمبيوتر ورؤية الماكينة على تداخل كبير. تغطي رؤية الكمبيوتر التقنية الأساسية للتحليل الآلي للصور والتي تستخدم في العديد من المجالات. عادةً ما تشير رؤية الماكينة إلى عملية دمج تحليل الصور التلقائي مع الطرق والتقنيات الأخرى لتوفير الفحص الآلي وإرشادات الروبوت في التطبيقات الصناعية. في العديد من تطبيقات رؤية الكمبيوتر ، يتم برمجة أجهزة الكمبيوتر مسبقًا لحل مهمة معينة ، ولكن أصبحت الطرق المعتمدة على التعلم شائعة بشكل متزايد. تتضمن أمثلة تطبيقات رؤية الكمبيوتر أنظمة لـ:

التفتيش الآلي ، على سبيل المثال ، في تطبيقات التصنيع ؛
مساعدة البشر في مهام تحديد الهوية ، مثل نظام تحديد الأنواع ؛
عمليات التحكم ، على سبيل المثال ، الروبوت الصناعي ؛
اكتشاف الأحداث ، على سبيل المثال ، للمراقبة المرئية أو عد الأشخاص ؛
التفاعل ، على سبيل المثال ، كمدخل إلى جهاز للتفاعل بين الإنسان والحاسوب ؛
نمذجة الكائنات أو البيئات ، مثل تحليل الصور الطبية أو النمذجة الطبوغرافية ؛
الملاحة ، على سبيل المثال ، بواسطة سيارة مستقلة أو روبوت متحرك ؛ و
تنظيم المعلومات ، على سبيل المثال ، لفهرسة قواعد البيانات من الصور وتسلسلات الصور.

واحد من أبرز مجالات التطبيق هو رؤية الكمبيوتر الطبية ، أو معالجة الصور الطبية ، التي تتميز باستخلاص المعلومات من بيانات الصورة لتشخيص المريض. مثال على ذلك هو الكشف عن الأورام وتصلب الشرايين أو غيرها من التغييرات الخبيثة ؛ قياسات أبعاد الجهاز ، وتدفق الدم ، وما إلى ذلك هي مثال آخر. كما يدعم البحث الطبي من خلال توفير معلومات جديدة: على سبيل المثال ، حول بنية الدماغ ، أو عن جودة العلاجات الطبية. تتضمن تطبيقات رؤية الكمبيوتر في المجال الطبي أيضًا تعزيز الصور التي يفسرها البشر – الصور بالموجات فوق الصوتية أو صور الأشعة السينية على سبيل المثال – للحد من تأثير الضوضاء.

منطقة التطبيق الثانية في رؤية الكمبيوتر في الصناعة ، وأحيانا تسمى رؤية الجهاز ، حيث يتم استخراج المعلومات لغرض دعم عملية التصنيع. مثال واحد هو مراقبة الجودة حيث يتم تفتيش التفاصيل أو المنتجات النهائية تلقائيا من أجل العثور على عيوب. مثال آخر هو قياس موضع واتجاه التفاصيل التي سيتم التقاطها بواسطة ذراع الروبوت. كما تستخدم رؤية الماكينة بشكل كبير في العملية الزراعية لإزالة المواد الغذائية غير المرغوبة من المواد السائبة ، وهي عملية تسمى الفرز البصري.

ربما تكون التطبيقات العسكرية واحدة من أكبر المجالات لرؤية الكمبيوتر. الأمثلة الواضحة هي الكشف عن جنود أو مركبات العدو وتوجيه الصواريخ. ترسل أنظمة أكثر تطوراً لتوجيه الصواريخ الصاروخ إلى منطقة بدلاً من هدف محدد ، ويتم اختيار الهدف عندما يصل الصاروخ إلى المنطقة استنادًا إلى بيانات الصورة المكتسبة محليًا. تشير المفاهيم العسكرية الحديثة ، مثل “الوعي بميدان المعركة” ، إلى أن العديد من أجهزة الاستشعار ، بما في ذلك مستشعرات الصور ، توفر مجموعة غنية من المعلومات حول مشهد القتال الذي يمكن استخدامه لدعم القرارات الاستراتيجية. في هذه الحالة ، يتم استخدام المعالجة التلقائية للبيانات لتقليل التعقيد ولدمج المعلومات من أجهزة استشعار متعددة لزيادة الموثوقية.

واحدة من مجالات التطبيق الأحدث هي المركبات ذاتية الخدمة ، والتي تشمل الغواصات ، والمركبات البرية (الروبوتات الصغيرة ذات العجلات ، والسيارات أو الشاحنات) ، والمركبات الجوية ، والمركبات الجوية غير المأهولة (الطائرات بدون طيار). يتراوح مستوى الاستقلالية من السيارات المستقلة بالكامل (غير المأهولة) إلى السيارات حيث تدعم أنظمة الرؤية القائمة على الكمبيوتر سائقًا أو طيارًا في حالات مختلفة. تستخدم المركبات المستقلة بالكامل عادةً رؤية الكمبيوتر للملاحة ، أي لمعرفة مكانها ، أو لإنتاج خريطة لبيئتها (SLAM) وللكشف عن العقبات. ويمكن أيضًا استخدامه للكشف عن أحداث معينة محددة للمهمة ، على سبيل المثال ، طائرة بدون طيار تبحث عن حرائق الغابات. ومن الأمثلة على الأنظمة الداعمة أنظمة التحذير من العقبات في السيارات ، وأنظمة الهبوط الذاتي للطائرات. أظهر العديد من مصنعي السيارات أنظمة القيادة الذاتية للسيارات ، لكن هذه التقنية لم تصل بعد إلى مستوى يمكن طرحه في السوق. هناك أمثلة كثيرة من المركبات العسكرية المستقلة التي تتراوح بين الصواريخ المتقدمة ، إلى الطائرات بدون طيار للقيام بمهمات إعادة التوجيه أو توجيه الصواريخ. ويجري بالفعل استكشاف الفضاء باستخدام مركبات ذاتية تستخدم رؤية الكمبيوتر ، على سبيل المثال ، مستكشف استكشاف المريخ التابع لوكالة ناسا و ExoMars Rover التابعة لوكالة الفضاء الأوروبية.

تشمل مجالات التطبيق الأخرى:

دعم إنشاء المؤثرات المرئية للسينما والبث ، على سبيل المثال ، تتبع الكاميرا (رَأْس).
مراقبة.
تتبع و عد الكائنات الحية في العلوم البيولوجية

مهام نموذجية
يستخدم كل مجال من مجالات التطبيق الموصوفة أعلاه مجموعة من مهام رؤية الكمبيوتر ؛ مشاكل القياس أو مشاكل المعالجة واضحة أو أكثر ، والتي يمكن حلها باستخدام مجموعة متنوعة من الأساليب. بعض الأمثلة على مهام رؤية الكمبيوتر النموذجية معروضة أدناه.

التعرف على
تتمثل المشكلة الكلاسيكية في رؤية الكمبيوتر ومعالجة الصور ورؤية الماكينة في تحديد ما إذا كانت بيانات الصورة تحتوي على كائن معين أو ميزة أو نشاط معين. يتم وصف أنواع مختلفة من مشكلة التعرف في الأدبيات:

تمييز الكائن (يُعرف أيضًا باسم تصنيف الكائنات) – يمكن التعرف على واحد أو عدة فئات أو فئات الكائنات المحددة مسبقًا أو المستفادة ، عادةً مع مواضع ثنائية الأبعاد في الصورة أو في الوضع ثلاثي الأبعاد في المشهد. توفر Blippar و Google Goggles و LikeThat برامج مستقلة توضح هذه الوظيفة.
تحديد الهوية – يتم التعرف على مثيل واحد من كائن. وتشمل الأمثلة تحديد هوية وجه أو بصمة شخص محدد ، أو تحديد أرقام مكتوبة بخط اليد ، أو تحديد هوية مركبة معينة.
الاكتشاف – يتم فحص بيانات الصورة لحالة معينة. وتشمل الأمثلة الكشف عن الخلايا أو الأنسجة غير الطبيعية المحتملة في الصور الطبية أو الكشف عن مركبة في نظام أوتوماتيكي لضريبة الطرق. وكثيرا ما يستخدم الكشف القائم على عمليات حسابية بسيطة وسريعة للعثور على مناطق أصغر من بيانات الصور المثيرة للاهتمام والتي يمكن تحليلها بمزيد من التقنيات الصعبة الحسابية لإنتاج تفسير صحيح.

حاليا ، تستند أفضل الخوارزميات لمثل هذه المهام على الشبكات العصبية التحويلية. يتم إعطاء صورة توضيحية لقدراتهم عن طريق تحدي التعرف البصري على نطاق واسع لـ ImageNet ؛ هذا هو معيار في تصنيف الكائن والكشف ، مع الملايين من الصور والمئات من فئات الكائن. إن أداء الشبكات العصبية التلافيفية ، في اختبارات ImageNet ، أصبح الآن قريبًا من اختبارات البشر. لا تزال أفضل الخوارزميات تصارع مع كائنات صغيرة أو رقيقة ، مثل نملة صغيرة على ساق زهرة أو شخص يحمل ريشة في يده. لديهم أيضا مشكلة مع الصور التي تم تشويهها مع المرشحات (ظاهرة شائعة بشكل متزايد مع الكاميرات الرقمية الحديثة). على النقيض من ذلك ، فإن هذه الأنواع من الصور نادرا ما تزعج البشر. البشر ، ومع ذلك ، تميل إلى مشكلة مع قضايا أخرى. على سبيل المثال ، فهي ليست جيدة في تصنيف الأشياء في فئات دقيقة الحبيبات ، مثل سلالة معينة من الكلاب أو أنواع الطيور ، في حين أن الشبكات العصبية التحويلية تتعامل مع هذا بسهولة.

توجد العديد من المهام المتخصصة القائمة على الاعتراف ، مثل:

استرجاع الصور المستند إلى المحتوى – العثور على جميع الصور في مجموعة أكبر من الصور التي تحتوي على محتوى معين. يمكن تحديد المحتوى بطرق مختلفة ، على سبيل المثال من حيث التشابه النسبي للصورة المستهدفة (أعطني جميع الصور المشابهة للصورة X) ، أو من حيث معايير البحث عالية المستوى المعطاة كمدخل نصي (أعطني جميع الصور التي تحتوي على يتم أخذ العديد من المنازل ، خلال فصل الشتاء ، وليس لديهم سيارات فيها).
تقدير الوضع – تقدير موضع أو اتجاه كائن معين بالنسبة للكاميرا. ومن الأمثلة على تطبيق هذه التقنية مساعدة ذراع الروبوت في استعادة الأشياء من الحزام الناقل في حالة خط التجميع أو التقاط أجزاء من الحاوية.
التعرف الضوئي على الحروف (OCR) – تحديد الأحرف في صور النصوص المطبوعة أو المكتوبة بخط اليد ، عادةً بهدف ترميز النص بتنسيق أكثر قابلية للتحرير أو الفهرسة (مثل ASCII).
2D كود قراءة القراءة من رموز 2D مثل مصفوفة البيانات ورموز QR.
التعرف على الوجه
تقنية التعرف على الوجوه (SRT) في الناس نظم مضادة تميز بين البشر (أنماط الرأس والكتف) من الكائنات

تحليل الحركة
ترتبط العديد من المهام بتقدير الحركة حيث تتم معالجة تسلسل الصور لإنتاج تقدير للسرعة سواء في كل نقطة في الصورة أو في المشهد ثلاثي الأبعاد ، أو حتى من الكاميرا التي تنتج الصور. من أمثلة هذه المهام:

Egomotion – تحديد الحركة الصلبة ثلاثية الأبعاد (الدوران والترجمة) للكاميرا من تسلسل صور أنتجته الكاميرا.
تتبع – تتبع تحركات (عادة) مجموعة أصغر من نقاط الاهتمام أو الأشياء (على سبيل المثال ، المركبات ، البشر أو الكائنات الحية الأخرى) في تسلسل الصور.
التدفق البصري – لتحديد ، لكل نقطة في الصورة ، كيف تتحرك هذه النقطة بالنسبة لمستوى الصورة ، أي حركتها الواضحة. هذه الحركة هي نتيجة لكيفية تحرك النقطة الثلاثية الأبعاد المقابلة في المشهد وكيف تتحرك الكاميرا بالنسبة للمشهد.

إعادة بناء المشهد
بالنظر إلى صورة واحدة أو (نموذجية) أكثر لمشهد أو مقطع فيديو ، تهدف إعادة إنشاء المشهد إلى حساب نموذج ثلاثي الأبعاد للمشهد. في أبسط الحالات ، يمكن أن يكون النموذج عبارة عن مجموعة من النقاط ثلاثية الأبعاد. تنتج الطرق الأكثر تطوراً نموذج سطح ثلاثي الأبعاد كامل. إن ظهور التصوير ثلاثي الأبعاد الذي لا يتطلب الحركة أو المسح الضوئي ، وخوارزميات المعالجة ذات الصلة يمكّن من تحقيق تقدم سريع في هذا المجال. يمكن استخدام الاستشعار ثلاثي الأبعاد القائم على الشبكة للحصول على صور ثلاثية الأبعاد من زوايا متعددة. تتوفر الخوارزميات الآن لربط عدة صور ثلاثية الأبعاد معًا في سحب نقطية ونماذج ثلاثية الأبعاد.

استعادة الصورة
الهدف من استعادة الصورة هو إزالة الضوضاء (ضوضاء المستشعر ، وضوضاء الحركة ، وما إلى ذلك) من الصور. إن أبسط طريقة ممكنة لإزالة الضجيج هي أنواع مختلفة من المرشحات مثل مرشحات تمرير منخفضة أو فلاتر وسيطة. وتفترض طرق أكثر تطوراً نموذجاً لكيفية تشبه هياكل الصور المحلية ، وهو نموذج يميزها عن الضوضاء. من خلال تحليل بيانات الصورة أولاً من حيث تراكيب الصور المحلية ، مثل الخطوط أو الحواف ، ومن ثم التحكم في التصفية استنادًا إلى المعلومات المحلية من خطوة التحليل ، عادةً ما يتم الحصول على مستوى أفضل لإزالة الضجيج مقارنة بالنهج الأبسط.

مثال في هذا المجال هو inpainting.

طرق النظام
تنظيم نظام رؤية الكمبيوتر يعتمد بشكل كبير على التطبيق. بعض الأنظمة عبارة عن تطبيقات قائمة بذاتها تعمل على حل مشكلة محددة في القياس أو الكشف ، في حين أن البعض الآخر يشكل نظامًا فرعيًا لتصميم أكبر ، على سبيل المثال ، يحتوي أيضًا على أنظمة فرعية للتحكم في المحركات الميكانيكية والتخطيط وقواعد بيانات المعلومات و يعتمد التطبيق المحدد لنظام رؤية الكمبيوتر أيضًا على ما إذا كانت وظيفته محددة مسبقًا أو إذا كان جزءًا منها يمكن تعلمه أو تعديله أثناء التشغيل. العديد من الوظائف فريدة للتطبيق. هناك ، ومع ذلك ، وظائف نموذجية والتي توجد في العديد من أنظمة الرؤية الكمبيوتر.

اكتساب الصور – يتم إنتاج الصورة الرقمية بواسطة واحد أو أكثر من مستشعرات الصور ، والتي تشمل ، إلى جانب أنواع مختلفة من الكاميرات الحساسة للضوء ، أجهزة استشعار المدى وأجهزة التصوير المقطعي والرادار وكاميرات صوتية فائقة ، الخ. وفقًا لنوع المستشعر ، بيانات الصورة الناتجة هي صورة ثنائية الأبعاد عادية أو وحدة تخزين ثلاثية الأبعاد أو تسلسل صور. تتطابق قيم البكسل مع شدة الضوء في نطاق طيف واحد أو عدة نطاقات طيفية (صور رمادية أو صور ملونة) ، ولكن يمكن أيضًا أن تكون مرتبطة بمقاييس فيزيائية مختلفة ، مثل العمق أو الامتصاص أو الانعكاس للموجات الصوتية أو الكهرومغناطيسية أو الرنين المغناطيسي النووي.

المعالجة المسبقة – قبل تطبيق طريقة رؤية الكمبيوتر على بيانات الصورة من أجل استخراج جزء معين من المعلومات ، يكون من الضروري عادةً معالجة البيانات لضمان توافقها مع بعض الافتراضات التي تنطوي عليها الطريقة. الأمثلة هي
إعادة أخذ العينات لضمان صحة نظام إحداثيات الصورة.
تقليل الضوضاء من أجل ضمان أن ضجيج الحساس لا يقدم معلومات خاطئة.
تعزيز التباين لضمان إمكانية الكشف عن المعلومات ذات الصلة.
تمثيل حيز واسع النطاق لتعزيز هياكل الصور في المقاييس الملائمة المحلية.

استخراج ميزة – يتم استخراج ميزات الصورة على مستويات مختلفة من التعقيد من بيانات الصورة. الأمثلة النموذجية لهذه الميزات هي
الخطوط والحواف والتلال.
نقاط الاهتمام المحلية مثل الزوايا أو النقاط أو النقاط.
قد تكون هناك ميزات أكثر تعقيدًا مرتبطة بالملمس أو الشكل أو الحركة.

الكشف / التجزئة – في مرحلة ما من مراحل المعالجة يتم اتخاذ قرار بشأن أي نقاط أو مناطق الصورة ذات صلة بالمزيد من المعالجة. الأمثلة هي
اختيار مجموعة محددة من نقاط الاهتمام
تقسيم منطقة أو أكثر من مناطق الصور التي تحتوي على عنصر معين من الاهتمامات.
تتألف عملية تقسيم الصورة إلى بنية مشهد متداخلة من الأمام ، أو مجموعات الكائنات ، أو الأجسام المفردة أو أجزاء الكائن البارزة (ويشار إليها أيضًا بتسلسل هرمية المشهد المكاني) ، في حين أن الجانب البصري غالباً ما يُنَفَّذ كاهتمام مكاني وزمني.
تجزئة أو تقسيم جزء واحد أو عدة مقاطع فيديو إلى سلسلة من الأقنعة الأمامية لكل إطار ، مع الحفاظ على استمراريته الدلالية الزمانية.

معالجة عالية المستوى – في هذه الخطوة ، يكون الإدخال عادة مجموعة صغيرة من البيانات ، على سبيل المثال مجموعة من النقاط أو منطقة صورة يفترض أنها تحتوي على كائن معين. تتعامل المعالجة المتبقية مع ، على سبيل المثال:
التحقق من أن البيانات تفي بالافتراضات القائمة على النموذج والتطبيق.
تقدير المعلمات الخاصة بالتطبيق ، مثل وضع الكائن أو حجم الكائن.
التعرف على الصور – تصنيف كائن مكتشف إلى فئات مختلفة.
تسجيل الصور – مقارنة وجمع بين اثنين من وجهات نظر مختلفة من نفس الكائن.

اتخاذ القرار اتخاذ القرار النهائي المطلوب للتطبيق ، على سبيل المثال:
تمرير / تفشل في تطبيقات الفحص التلقائي
تطابق / عدم تطابق في تطبيقات التعرف
العلم لمزيد من المراجعة البشرية في التطبيقات الطبية والعسكرية والأمنية والاعتراف بها

أنظمة فهم الصور
تتضمن أنظمة فهم الصورة (IUS) ثلاثة مستويات من التجريد كما يلي: المستوى المنخفض يتضمن صورًا أولية مثل الحواف ، أو عناصر النسيج ، أو المناطق ؛ المستوى المتوسط يشمل الحدود والسطوح والأحجام. والمستوى العالي يتضمن كائنات أو مشاهد أو أحداث. العديد من هذه المتطلبات هي بالفعل مواضيع لمزيد من البحث.

تتمثل المتطلبات التمثيلية في تصميم IUS لهذه المستويات في: تمثيل المفاهيم النموذجية ، وتنظيم المفاهيم ، والمعرفة المكانية ، والمعرفة الزمنية ، والتوسع ، والوصف عن طريق المقارنة والتمييز.

بينما يشير الاستدلال إلى عملية استنباط حقائق جديدة ، غير ممثلة بشكل صريح من الحقائق المعروفة حاليًا ، فإن التحكم يشير إلى العملية التي تختار أيًا من أساليب الاستدلال والبحث والمطابقة العديدة التي يجب تطبيقها في مرحلة معينة من المعالجة. متطلبات الاستدلال والتحكم لـ IUS هي: تفعيل البحث والفرض ، واختبار المطابقة واختبار الافتراض ، وتوليد واستخدام التوقعات ، وتغيير وتركيز الاهتمام واليقين وقوة الاعتقاد والاستدلال ورضا الهدف.

المعدات
هناك العديد من أنواع أنظمة رؤية الكمبيوتر ، مع ذلك تحتوي جميعها على هذه العناصر الأساسية: مصدر طاقة ، جهاز التقاط صورة واحد على الأقل (أي كاميرا ، ccd ، إلخ) ، معالج بالإضافة إلى كابلات التحكم والاتصالات أو أي نوع آلية الربط البيني اللاسلكي. بالإضافة إلى ذلك ، يحتوي نظام الرؤية العملي على برنامج ، بالإضافة إلى شاشة لمراقبة النظام. تحتوي أنظمة الرؤية للأماكن الداخلية ، مثل معظم الأنظمة الصناعية ، على نظام إضاءة ويمكن وضعها في بيئة مضبوطة. علاوة على ذلك ، يشتمل النظام المكتمل على العديد من الملحقات مثل دعم الكاميرا والكابلات والموصلات.

تستخدم معظم أنظمة رؤية الكمبيوتر كاميرات الرؤية المرئية بشكل سلبي في عرض مشهد بمعدل إطارات 60 إطارًا في الثانية على الأكثر (عادةً ما يكون أبطأ بكثير).

تستخدم بعض أنظمة رؤية الكمبيوتر أجهزة التقاط الصور مع إضاءة نشطة أو شيء آخر غير الضوء المرئي أو كليهما. على سبيل المثال ، ماسح ضوئي ثلاثي الأبعاد ، وكاميرا حرارية ، وتصوير ضوئي ، وتصوير راداري ، وماسح ضوئي ، وصورة رنين مغناطيسي ، وسونار جانبي مسح ضوئي ، وسينار ذي فتحة اصطناعية ، أو ما إلى ذلك. هذه الأجهزة تلتقط “صور” ثم يتم معالجتها غالبًا باستخدام نفس خوارزميات رؤية الكمبيوتر المستخدمة لمعالجة صور الضوء المرئي.

في الوقت الذي تعمل فيه أنظمة البث والفيديو الاستهلاكية التقليدية بمعدل 30 إطارًا في الثانية ، فإن التقدم في معالجة الإشارات الرقمية وأجهزة الرسومات الاستهلاكية قد جعل الحصول على صورة عالية السرعة ومعالجتها وعرضها ممكنًا للأنظمة في الوقت الفعلي بترتيب المئات الآلاف من الإطارات في الثانية الواحدة. بالنسبة للتطبيقات في مجال الروبوتات ، تعد أنظمة الفيديو السريعة في الوقت الفعلي ذات أهمية حاسمة ، وغالبًا ما يمكنها تبسيط المعالجة المطلوبة لبعض الخوارزميات. عند دمجها مع جهاز عرض فائق السرعة ، يتيح لك الحصول على الصور بسرعة إجراء قياس ثلاثي الأبعاد وتتبع الميزات.

تتكون أنظمة الرؤية Egocentric من كاميرا يمكن ارتداؤها تلتقط الصور تلقائيًا من منظور الشخص الأول.

بدءًا من عام 2016 ، بدأت وحدات معالجة الرؤية في الظهور كفئة جديدة من المعالج ، لتكمل وحدات المعالجة ووحدات معالجة الرسومات (GPU) في هذا الدور.