कंप्यूटर दृष्टी – HiSoUR कला संस्कृति का इतिहास

कंप्यूटर दृष्टि एक अंतःविषय क्षेत्र है जो डिजिटल छवियों या वीडियो से उच्च स्तरीय समझ हासिल करने के लिए कंप्यूटरों को कैसे बनाया जा सकता है। इंजीनियरिंग के परिप्रेक्ष्य से, यह उन कार्यों को स्वचालित करना चाहता है जो मानव दृश्य प्रणाली कर सकती हैं।

कंप्यूटर दृष्टि कार्यों में डिजिटल छवियों को प्राप्त करने, प्रसंस्करण, विश्लेषण और समझने के लिए विधियां शामिल हैं, और संख्यात्मक या प्रतीकात्मक जानकारी, उदाहरण के लिए, निर्णयों के रूप में, वास्तविक दुनिया से उच्च-आयामी डेटा निष्कर्षण निकालना शामिल है। इस संदर्भ में समझने का मतलब है कि दृश्य छवियों (रेटिना का इनपुट) दुनिया के विवरणों में परिवर्तन जो अन्य विचार प्रक्रियाओं के साथ इंटरफेस कर सकते हैं और उचित कार्रवाई को पूरा कर सकते हैं। इस छवि समझ को ज्यामिति, भौतिकी, सांख्यिकी, और सीखने के सिद्धांत की सहायता से निर्मित मॉडल का उपयोग करके छवि डेटा से प्रतीकात्मक जानकारी के विघटन के रूप में देखा जा सकता है।

एक वैज्ञानिक अनुशासन के रूप में, कंप्यूटर दृष्टि कृत्रिम प्रणालियों के पीछे सिद्धांत से संबंधित है जो छवियों से जानकारी निकालती है। छवि डेटा कई प्रकार ले सकता है, जैसे कि वीडियो अनुक्रम, एकाधिक कैमरों के विचार, या मेडिकल स्कैनर से बहु-आयामी डेटा। एक तकनीकी अनुशासन के रूप में, कंप्यूटर दृष्टि कंप्यूटर दृष्टि प्रणाली के निर्माण के लिए अपने सिद्धांतों और मॉडलों को लागू करना चाहता है।

कंप्यूटर दृष्टि के उप-डोमेन में दृश्य पुनर्निर्माण, घटना का पता लगाने, वीडियो ट्रैकिंग, ऑब्जेक्ट मान्यता, 3 डी पॉज़ अनुमान, सीखना, अनुक्रमण, गति अनुमान, और छवि बहाली शामिल है।

परिभाषा
कंप्यूटर दृष्टि एक अंतःविषय क्षेत्र है जो डिजिटल छवियों या वीडियो से उच्च स्तरीय समझ हासिल करने के लिए कंप्यूटरों को कैसे बनाया जा सकता है। इंजीनियरिंग के परिप्रेक्ष्य से, यह उन कार्यों को स्वचालित करना चाहता है जो मानव दृश्य प्रणाली कर सकती हैं। “कंप्यूटर दृष्टि स्वचालित निष्कर्षण, विश्लेषण और एक छवि या उपयोगी छवियों के अनुक्रम से उपयोगी जानकारी की समझ से संबंधित है। इसमें स्वचालित दृश्य समझ प्राप्त करने के लिए सैद्धांतिक और एल्गोरिदमिक आधार के विकास शामिल हैं।” एक वैज्ञानिक अनुशासन के रूप में, कंप्यूटर दृष्टि कृत्रिम प्रणालियों के पीछे सिद्धांत से संबंधित है जो छवियों से जानकारी निकालती है। छवि डेटा कई प्रकार ले सकता है, जैसे कि वीडियो अनुक्रम, एकाधिक कैमरों के विचार, या मेडिकल स्कैनर से बहु-आयामी डेटा। एक तकनीकी अनुशासन के रूप में, कंप्यूटर दृष्टि कंप्यूटर दृष्टि प्रणाली के निर्माण के लिए अपने सिद्धांतों और मॉडलों को लागू करना चाहता है।

इतिहास
1 9 60 के दशक के अंत में, कंप्यूटर दृष्टि उन विश्वविद्यालयों में शुरू हुई जो कृत्रिम बुद्धिमान थे। बुद्धिमान व्यवहार के साथ रोबोटों को समाप्त करने के लिए एक कदम पत्थर के रूप में, मानव दृश्य प्रणाली की नकल करना था। 1 9 66 में, ऐसा माना जाता था कि यह एक गर्मी प्रोजेक्ट के माध्यम से एक कंप्यूटर से कैमरे को जोड़कर और “इसे जो भी देखा गया है उसका वर्णन करके” हासिल किया जा सकता था।

उस समय डिजिटल छवि प्रसंस्करण के प्रचलित क्षेत्र से किस विशिष्ट कंप्यूटर दृष्टि से पूर्ण दृश्य समझ प्राप्त करने के लक्ष्य के साथ छवियों से त्रि-आयामी संरचना निकालने की इच्छा थी। 1 9 70 के दशक के अध्ययनों में आज के कई कंप्यूटर दृष्टि एल्गोरिदम के लिए शुरुआती नींव बन गईं, जिनमें छवियों से किनारों का निष्कर्षण, लाइनों के लेबलिंग, गैर-पॉलीहेड्रल और पॉलीहेड्रल मॉडलिंग, छोटे संरचनाओं, ऑप्टिकल प्रवाह, और इंटरकनेक्शन के रूप में वस्तुओं का प्रतिनिधित्व शामिल है। गति अनुमान।

अगले दशक में कंप्यूटर दृष्टि के अधिक कठोर गणितीय विश्लेषण और मात्रात्मक पहलुओं के आधार पर अध्ययन देखा गया। इनमें स्केल-स्पेस की अवधारणा, छायांकन, बनावट और फोकस, और सांप के रूप में जाने वाले समोच्च मॉडल जैसे विभिन्न संकेतों से आकार की अनुमान शामिल है। शोधकर्ताओं ने यह भी महसूस किया कि इनमें से कई गणितीय अवधारणाओं को नियमितकरण और मार्कोव यादृच्छिक क्षेत्रों के समान अनुकूलन ढांचे के भीतर इलाज किया जा सकता है। 1 99 0 के दशक तक, पिछले कुछ शोध विषय दूसरों की तुलना में अधिक सक्रिय हो गए। प्रोजेक्टिव 3-डी पुनर्निर्माण में अनुसंधान ने कैमरा अंशांकन की बेहतर समझ को जन्म दिया। कैमरा अंशांकन के लिए अनुकूलन विधियों के आगमन के साथ, यह महसूस किया गया कि फोटोग्रामेट्री के क्षेत्र से बंडल समायोजन सिद्धांत में बहुत सारे विचार पहले से ही खोजे गए थे। इसने एकाधिक छवियों के दृश्यों के स्पैस 3-डी पुनर्निर्माण के तरीकों का नेतृत्व किया। घने स्टीरियो पत्राचार समस्या और आगे बहु-दृश्य स्टीरियो तकनीकों पर प्रगति की गई थी। उसी समय, छवि विभाजन को हल करने के लिए ग्राफ कट के बदलावों का उपयोग किया गया था। इस दशक में छवियों में चेहरों को पहचानने के लिए अभ्यास में पहली बार सांख्यिकीय शिक्षण तकनीकों का उपयोग किया गया था (Eigenface देखें)। 1 99 0 के दशक के अंत में, कंप्यूटर ग्राफिक्स और कंप्यूटर दृष्टि के क्षेत्रों के बीच बढ़ती बातचीत के साथ एक महत्वपूर्ण परिवर्तन आया। इसमें छवि-आधारित प्रतिपादन, छवि मॉर्फिंग, इंटरपोलेशन, पैनोरामिक छवि सिलाई और प्रारंभिक प्रकाश-क्षेत्र प्रतिपादन शामिल था।

हाल के काम में फीचर-आधारित विधियों का पुनरुत्थान देखा गया है, जो मशीन सीखने की तकनीक और जटिल अनुकूलन ढांचे के संयोजन के साथ प्रयोग किया जाता है।

संबंधित क्षेत्रों

कृत्रिम होशियारी
कृत्रिम बुद्धि के क्षेत्र स्वायत्त योजना या पर्यावरण के माध्यम से नेविगेट करने के लिए रोबोटिकल सिस्टम के लिए विचार-विमर्श के साथ सौदा करते हैं। इन परिवेशों की विस्तृत समझ उनके माध्यम से नेविगेट करने की आवश्यकता है। पर्यावरण के बारे में जानकारी एक कंप्यूटर दृष्टि प्रणाली द्वारा प्रदान की जा सकती है, एक दृष्टि सेंसर के रूप में कार्य कर रही है और पर्यावरण और रोबोट के बारे में उच्च स्तरीय जानकारी प्रदान कर सकती है।

कृत्रिम बुद्धि और कंप्यूटर दृष्टि पैटर्न पहचान और सीखने की तकनीक जैसे अन्य विषयों को साझा करती है। नतीजतन, कंप्यूटर दृष्टि कभी-कभी कृत्रिम बुद्धि क्षेत्र या कंप्यूटर विज्ञान क्षेत्र के हिस्से के रूप में देखी जाती है।

सूचना अभियांत्रिकी
कंप्यूटर दृष्टि को अक्सर सूचना इंजीनियरिंग का हिस्सा माना जाता है।

भौतिक विज्ञान की ठोस अवस्था
सॉलिड-स्टेट फिजिक्स एक और क्षेत्र है जो कंप्यूटर दृष्टि से निकटता से संबंधित है। अधिकांश कंप्यूटर दृष्टि प्रणालियां छवि सेंसर पर भरोसा करती हैं, जो विद्युत चुम्बकीय विकिरण का पता लगाती हैं, जो आम तौर पर दृश्यमान या इन्फ्रा-लाल रोशनी के रूप में होती है। सेंसर क्वांटम भौतिकी का उपयोग कर डिजाइन किए गए हैं। जिस प्रक्रिया से प्रकाश सतहों के साथ बातचीत करता है उसे भौतिकी का उपयोग करके समझाया जाता है। भौतिकी प्रकाशिकी के व्यवहार को बताती है जो अधिकांश इमेजिंग सिस्टम का मुख्य हिस्सा हैं। परिष्कृत छवि सेंसर को छवि निर्माण प्रक्रिया की पूर्ण समझ प्रदान करने के लिए क्वांटम यांत्रिकी की भी आवश्यकता होती है। इसके अलावा, भौतिकी में विभिन्न माप समस्याओं को कंप्यूटर दृष्टि का उपयोग करके संबोधित किया जा सकता है, उदाहरण के लिए तरल पदार्थ में गति।

तंत्रिका जीव विज्ञान
एक तीसरा क्षेत्र जो महत्वपूर्ण भूमिका निभाता है वह न्यूरोबायोलॉजी है, विशेष रूप से जैविक दृष्टि प्रणाली का अध्ययन। पिछली शताब्दी में, आंखों, न्यूरॉन्स और मस्तिष्क संरचनाओं का एक व्यापक अध्ययन रहा है जो मानव और विभिन्न जानवरों दोनों में दृश्य उत्तेजना की प्रसंस्करण के लिए समर्पित हैं। इसने कुछ मोटे संबंधित कार्यों को हल करने के लिए “असली” दृष्टि प्रणाली कैसे संचालित की है, इसका एक मोटे, अभी तक जटिल, वर्णन किया है। इन परिणामों ने कंप्यूटर दृष्टि के भीतर एक उप-क्षेत्र का नेतृत्व किया है जहां कृत्रिम प्रणालियों को जटिलता के विभिन्न स्तरों पर जैविक प्रणालियों के प्रसंस्करण और व्यवहार की नकल करने के लिए डिज़ाइन किया गया है। इसके अलावा, कुछ सीखने-आधारित तरीकों को कंप्यूटर दृष्टि (जैसे तंत्रिका नेट और गहरी सीखने वाली छवि और फीचर विश्लेषण और वर्गीकरण) के भीतर विकसित किया गया है, उनकी जीवविज्ञान में पृष्ठभूमि है।

कंप्यूटर दृष्टि अनुसंधान के कुछ पहल जैविक दृष्टि के अध्ययन से निकटता से संबंधित हैं – वास्तव में, जैसे ही एआई अनुसंधान के कई पहलुओं को मानव चेतना में अनुसंधान के साथ निकटता से जोड़ा जाता है, और संग्रहीत जानकारी की व्याख्या, एकीकृत और उपयोग करने के लिए संग्रहीत ज्ञान का उपयोग किया जाता है। जैविक दृष्टि अध्ययन और मानव और अन्य जानवरों में दृश्य धारणा के पीछे शारीरिक प्रक्रियाओं का क्षेत्र। दूसरी तरफ कंप्यूटर दृष्टि कृत्रिम दृष्टि प्रणालियों के पीछे सॉफ्टवेयर और हार्डवेयर में लागू प्रक्रियाओं का अध्ययन और वर्णन करती है। जैविक और कंप्यूटर दृष्टि के बीच अंतःविषय विनिमय दोनों क्षेत्रों के लिए उपयोगी साबित हुआ है।

संकेत प्रसंस्करण
फिर भी कंप्यूटर दृष्टि से संबंधित एक और क्षेत्र संकेत प्रसंस्करण है। एक-परिवर्तनीय सिग्नल की प्रसंस्करण के लिए कई विधियां, आम तौर पर अस्थायी सिग्नल, को दो-चरणीय सिग्नल या कंप्यूटर दृष्टि में बहु-चरणीय संकेतों को संसाधित करने के प्राकृतिक तरीके से बढ़ाया जा सकता है। हालांकि, छवियों की विशिष्ट प्रकृति के कारण कंप्यूटर दृष्टि के भीतर कई विधियां विकसित की गई हैं जिनमें एक-चरणीय सिग्नल की प्रसंस्करण में कोई समकक्ष नहीं है। सिग्नल की बहु-आयामीता के साथ, यह कंप्यूटर दृष्टि के एक हिस्से के रूप में सिग्नल प्रोसेसिंग में एक उप-क्षेत्र परिभाषित करता है।

अन्य फ़ील्ड
कंप्यूटर दृष्टि पर उपर्युक्त विचारों के अलावा, संबंधित अनुसंधान विषयों में से कई का अध्ययन पूरी तरह से गणितीय दृष्टिकोण से भी किया जा सकता है। उदाहरण के लिए, कंप्यूटर दृष्टि में कई विधियां आंकड़े, अनुकूलन या ज्यामिति पर आधारित होती हैं। अंत में, क्षेत्र का एक महत्वपूर्ण हिस्सा कंप्यूटर दृष्टि के कार्यान्वयन पहलू को समर्पित है; सॉफ़्टवेयर और हार्डवेयर के विभिन्न संयोजनों में, या बहुत अधिक प्रदर्शन खोए बिना प्रोसेसिंग गति प्राप्त करने के लिए इन विधियों को कैसे संशोधित किया जा सकता है, में मौजूदा विधियों को कैसे समझा जा सकता है।

भेद
कंप्यूटर दृष्टि से सबसे करीबी से संबंधित क्षेत्र छवि प्रसंस्करण, छवि विश्लेषण और मशीन दृष्टि हैं। इन कवरों की तकनीकों और अनुप्रयोगों की श्रृंखला में एक महत्वपूर्ण ओवरलैप है। इसका तात्पर्य है कि इन क्षेत्रों में उपयोग और विकसित की जाने वाली मूल तकनीक समान हैं, कुछ ऐसा अर्थात् समझा जा सकता है क्योंकि अलग-अलग नामों के साथ केवल एक फ़ील्ड है। दूसरी तरफ, अनुसंधान समूहों, वैज्ञानिक पत्रिकाओं, सम्मेलनों और कंपनियों के लिए यह विशेष रूप से इन क्षेत्रों में से किसी एक के रूप में पेश या पेश करने के लिए जरूरी प्रतीत होता है, इसलिए, विभिन्न लक्षण जो दूसरों के प्रत्येक क्षेत्र को अलग करते हैं, प्रस्तुत किया।

कंप्यूटर ग्राफिक्स 3 डी मॉडल से छवि डेटा उत्पन्न करता है, कंप्यूटर दृष्टि अक्सर छवि डेटा से 3 डी मॉडल उत्पन्न करती है। दो विषयों के संयोजन की दिशा में एक प्रवृत्ति भी है, उदाहरण के लिए, बढ़ी हुई वास्तविकता में खोज के रूप में।

निम्नलिखित विशेषताएं प्रासंगिक दिखाई देती हैं लेकिन सार्वभौमिक रूप से स्वीकृत नहीं की जानी चाहिए:

छवि प्रसंस्करण और छवि विश्लेषण 2 डी छवियों पर ध्यान केंद्रित करते हैं, एक छवि को दूसरे में कैसे परिवर्तित करें, उदाहरण के लिए, पिक्सेल-वार ऑपरेशंस जैसे कंट्रास्ट एन्हांसमेंट, एज ऑपरेशंस जैसे एज ऑपरेशन या शोर हटाने, या ज्यामितीय ट्रांसफॉर्मेशन जैसे छवि को घूर्णन करना । इस विशेषता का तात्पर्य है कि छवि प्रसंस्करण / विश्लेषण न तो धारणाओं की आवश्यकता होती है और न ही छवि सामग्री के बारे में व्याख्याएं उत्पन्न करती है।
कंप्यूटर दृष्टि में 2 डी छवियों से 3 डी विश्लेषण शामिल है। यह एक या कई छवियों पर प्रक्षेपित 3 डी दृश्य का विश्लेषण करता है, उदाहरण के लिए, एक या कई छवियों से 3 डी दृश्य के बारे में संरचना या अन्य जानकारी का पुनर्निर्माण कैसे करें। कंप्यूटर दृष्टि अक्सर छवि में चित्रित दृश्य के बारे में कम या कम जटिल धारणाओं पर निर्भर करती है।
मशीन दृष्टि औद्योगिक अनुप्रयोगों में इमेजिंग-आधारित स्वचालित निरीक्षण, प्रक्रिया नियंत्रण और रोबोट मार्गदर्शन प्रदान करने के लिए प्रौद्योगिकियों और विधियों की एक श्रृंखला को लागू करने की प्रक्रिया है। मशीन दृष्टि अनुप्रयोगों पर ध्यान केंद्रित करती है, मुख्य रूप से विनिर्माण में, उदाहरण के लिए, दृष्टि आधारित रोबोट और दृष्टि आधारित निरीक्षण, माप, या पिकिंग (जैसे कि बिन पिकिंग) के लिए सिस्टम। इसका तात्पर्य है कि छवि सेंसर प्रौद्योगिकियों और नियंत्रण सिद्धांत को अक्सर रोबोट को नियंत्रित करने के लिए छवि डेटा के प्रसंस्करण के साथ एकीकृत किया जाता है और वास्तविक समय प्रसंस्करण हार्डवेयर और सॉफ्टवेयर में कुशल कार्यान्वयन के माध्यम से जोर दिया जाता है। यह भी तात्पर्य है कि प्रकाश की बाहरी स्थितियां सामान्य कंप्यूटर दृष्टि में मशीन दृष्टि में अधिक नियंत्रित होती हैं और अक्सर अलग-अलग एल्गोरिदम के उपयोग को सक्षम कर सकती हैं।
इमेजिंग नामक एक क्षेत्र भी है जो मुख्य रूप से छवियों को बनाने की प्रक्रिया पर ध्यान केंद्रित करता है, लेकिन कभी-कभी छवियों के प्रसंस्करण और विश्लेषण से संबंधित है। उदाहरण के लिए, चिकित्सा इमेजिंग में चिकित्सा अनुप्रयोगों में छवि डेटा के विश्लेषण पर पर्याप्त काम शामिल है।
अंत में, पैटर्न मान्यता एक ऐसा क्षेत्र है जो सामान्य रूप से सांख्यिकीय दृष्टिकोण और कृत्रिम तंत्रिका नेटवर्क पर आधारित संकेतों से जानकारी निकालने के लिए विभिन्न विधियों का उपयोग करता है। इस क्षेत्र का एक महत्वपूर्ण हिस्सा इन विधियों को छवि डेटा पर लागू करने के लिए समर्पित है।

अनुप्रयोगों
अनुप्रयोग औद्योगिक मशीन दृष्टि प्रणालियों जैसे कार्यों से लेकर हैं, जो कहें, कृत्रिम बुद्धि और कंप्यूटर या रोबोट में शोध करने के लिए, उत्पादन लाइन पर तेजी से बोतलों का निरीक्षण करते हैं जो उनके आसपास की दुनिया को समझ सकते हैं। कंप्यूटर दृष्टि और मशीन दृष्टि क्षेत्रों में महत्वपूर्ण ओवरलैप है। कंप्यूटर दृष्टि स्वचालित छवि विश्लेषण की मूल तकनीक को शामिल करती है जिसका उपयोग कई क्षेत्रों में किया जाता है। मशीन दृष्टि आमतौर पर औद्योगिक अनुप्रयोगों में स्वचालित निरीक्षण और रोबोट मार्गदर्शन प्रदान करने के लिए अन्य विधियों और प्रौद्योगिकियों के साथ स्वचालित छवि विश्लेषण के संयोजन की प्रक्रिया को संदर्भित करती है। कई कंप्यूटर दृष्टि अनुप्रयोगों में, कंप्यूटर एक विशेष कार्य को हल करने के लिए पूर्व-प्रोग्राम किए जाते हैं, लेकिन सीखने के आधार पर विधियां अब तेजी से आम हो रही हैं। कंप्यूटर दृष्टि के अनुप्रयोगों के उदाहरणों में निम्न शामिल हैं:

स्वचालित निरीक्षण, उदाहरण के लिए, विनिर्माण अनुप्रयोगों में;
पहचान कार्यों में मनुष्यों की सहायता करना, उदाहरण के लिए, एक प्रजाति पहचान प्रणाली;
नियंत्रण प्रक्रिया, उदाहरण के लिए, एक औद्योगिक रोबोट;
घटनाओं का पता लगाना, उदाहरण के लिए, दृश्य निगरानी या लोगों की गिनती के लिए;
बातचीत, उदाहरण के लिए, कंप्यूटर-मानव बातचीत के लिए एक डिवाइस के इनपुट के रूप में;
मॉडलिंग वस्तुओं या वातावरण, उदाहरण के लिए, चिकित्सा छवि विश्लेषण या भौगोलिक मॉडलिंग;
नेविगेशन, उदाहरण के लिए, एक स्वायत्त वाहन या मोबाइल रोबोट द्वारा; तथा
जानकारी व्यवस्थित करना, उदाहरण के लिए, छवियों और छवि अनुक्रमों के अनुक्रमण डेटाबेस के लिए।

सबसे प्रमुख अनुप्रयोग क्षेत्रों में से एक चिकित्सा कंप्यूटर दृष्टि, या चिकित्सा छवि प्रसंस्करण, एक रोगी का निदान करने के लिए छवि डेटा से जानकारी के निष्कर्षण द्वारा विशेषता है। इसका एक उदाहरण ट्यूमर, आर्टिरिओस्क्लेरोसिस या अन्य घातक परिवर्तनों का पता लगाना है; अंग आयामों, रक्त प्रवाह, आदि के माप एक और उदाहरण हैं। यह नई जानकारी प्रदान करके चिकित्सा अनुसंधान का भी समर्थन करता है: उदाहरण के लिए, मस्तिष्क की संरचना के बारे में, या चिकित्सा उपचार की गुणवत्ता के बारे में। चिकित्सा क्षेत्र में कंप्यूटर दृष्टि के अनुप्रयोगों में शोर के प्रभाव को कम करने के लिए मनुष्यों-अल्ट्रासोनिक छवियों या एक्स-रे छवियों द्वारा व्याख्या की गई छवियों में वृद्धि शामिल है।

कंप्यूटर दृष्टि में दूसरा आवेदन क्षेत्र उद्योग में है, कभी-कभी मशीन दृष्टि कहा जाता है, जहां विनिर्माण प्रक्रिया का समर्थन करने के उद्देश्य से जानकारी निकाली जाती है। एक उदाहरण गुणवत्ता नियंत्रण है जहां दोषों को खोजने के लिए विवरण या अंतिम उत्पादों का स्वचालित रूप से निरीक्षण किया जा रहा है। एक और उदाहरण रोबोट बांह द्वारा उठाए जाने वाले विवरणों की स्थिति और अभिविन्यास का माप है। थोक सामग्री से अवांछनीय खाद्य सामग्री को हटाने के लिए मशीन प्रक्रिया का भी भारी उपयोग किया जाता है, ऑप्टिकल सॉर्टिंग नामक एक प्रक्रिया।

सैन्य अनुप्रयोग शायद कंप्यूटर दृष्टि के लिए सबसे बड़े क्षेत्रों में से एक हैं। स्पष्ट उदाहरण दुश्मन सैनिकों या वाहनों और मिसाइल मार्गदर्शन का पता लगा रहे हैं। मिसाइल मार्गदर्शन के लिए अधिक उन्नत सिस्टम एक विशिष्ट लक्ष्य के बजाय किसी क्षेत्र में मिसाइल भेजते हैं, और लक्ष्य चयन तब किया जाता है जब मिसाइल स्थानीय रूप से अधिग्रहित छवि डेटा के आधार पर क्षेत्र तक पहुंच जाती है। “सैन्य क्षेत्र जागरूकता” जैसी आधुनिक सैन्य अवधारणाओं का अर्थ है कि छवि सेंसर समेत विभिन्न सेंसर, एक लड़ाकू दृश्य के बारे में जानकारी का एक समृद्ध सेट प्रदान करते हैं जिसका उपयोग सामरिक निर्णयों का समर्थन करने के लिए किया जा सकता है। इस मामले में, विश्वसनीयता को बढ़ाने के लिए जटिलता को कम करने और एकाधिक सेंसर से जानकारी को फ्यूज करने के लिए डेटा की स्वचालित प्रसंस्करण का उपयोग किया जाता है।

नए अनुप्रयोग क्षेत्रों में से एक स्वायत्त वाहन है, जिसमें पनडुब्बी, भूमि आधारित वाहन (पहियों, कारों या ट्रकों के साथ छोटे रोबोट), हवाई वाहन, और मानव रहित हवाई वाहन (यूएवी) शामिल हैं। स्वायत्तता का स्तर पूरी तरह से स्वायत्त (मानव रहित) वाहनों से वाहनों तक है जहां कंप्यूटर दृष्टि आधारित प्रणाली विभिन्न परिस्थितियों में ड्राइवर या पायलट का समर्थन करती है। पूरी तरह से स्वायत्त वाहन आमतौर पर नेविगेशन के लिए कंप्यूटर दृष्टि का उपयोग करते हैं, यानी यह जानने के लिए कि यह कहां है, या इसके पर्यावरण के मानचित्र (एसएलएएम) के उत्पादन और बाधाओं का पता लगाने के लिए। इसका उपयोग कुछ कार्य विशिष्ट घटनाओं का पता लगाने के लिए भी किया जा सकता है, उदाहरण के लिए, जंगल की आग की तलाश में एक यूएवी। सहायक प्रणालियों के उदाहरण कारों में बाधा चेतावनी प्रणाली हैं, और विमान के स्वायत्त लैंडिंग के लिए सिस्टम हैं। कई कार निर्माताओं ने कारों के स्वायत्त ड्राइविंग के लिए सिस्टम का प्रदर्शन किया है, लेकिन यह तकनीक अभी भी उस स्तर तक नहीं पहुंच पाई है जहां इसे बाजार में रखा जा सकता है। उन्नत मिसाइलों, सैन्य मिशन या मिसाइल मार्गदर्शन के लिए यूएवी के सैन्य सैन्य स्वायत्त वाहनों के पर्याप्त उदाहरण हैं। कंप्यूटर दृष्टि का उपयोग कर स्वायत्त वाहनों के साथ अंतरिक्ष अन्वेषण पहले से ही किया जा रहा है, उदाहरण के लिए, नासा के मंगल एक्सप्लोरेशन रोवर और ईएसए के एक्सोमार रोवर।

अन्य आवेदन क्षेत्रों में शामिल हैं:

सिनेमा और प्रसारण के लिए दृश्य प्रभाव निर्माण का समर्थन, उदाहरण के लिए, कैमरा ट्रैकिंग (matchmoving)।
निगरानी।
जैविक विज्ञान में जीवों को ट्रैक करना और गिनना

विशिष्ट कार्य
ऊपर वर्णित प्रत्येक आवेदन क्षेत्र कंप्यूटर दृष्टि कार्यों की एक श्रृंखला को रोजगार; कम या ज्यादा अच्छी तरह से परिभाषित माप की समस्याएं या प्रसंस्करण की समस्याएं, जिन्हें विभिन्न विधियों का उपयोग करके हल किया जा सकता है। ठेठ कंप्यूटर दृष्टि कार्यों के कुछ उदाहरण नीचे प्रस्तुत किए गए हैं।

मान्यता
कंप्यूटर दृष्टि, छवि प्रसंस्करण, और मशीन दृष्टि में शास्त्रीय समस्या यह निर्धारित करने के लिए है कि छवि डेटा में कुछ विशिष्ट वस्तु, सुविधा या गतिविधि शामिल है या नहीं। साहित्य में पहचान की समस्या की विभिन्न किस्मों का वर्णन किया गया है:

ऑब्जेक्ट मान्यता (ऑब्जेक्ट वर्गीकरण भी कहा जाता है) – एक या कई पूर्व-निर्दिष्ट या सीखे ऑब्जेक्ट्स या ऑब्जेक्ट क्लास को आम तौर पर छवि में 3 डी पदों या दृश्य में 3 डी पॉज़ के साथ पहचाना जा सकता है। ब्लिपपर, Google गोगल्स और लाइकटैट स्टैंड-अलोन प्रोग्राम प्रदान करते हैं जो इस कार्यक्षमता को दर्शाते हैं।
पहचान – किसी ऑब्जेक्ट का एक व्यक्तिगत उदाहरण पहचाना जाता है। उदाहरणों में किसी विशिष्ट व्यक्ति के चेहरे या फिंगरप्रिंट की पहचान, हस्तलिखित अंकों की पहचान, या किसी विशिष्ट वाहन की पहचान शामिल है।
पहचान – छवि डेटा को एक विशिष्ट स्थिति के लिए स्कैन किया जाता है। उदाहरणों में चिकित्सा छवियों में संभावित असामान्य कोशिकाओं या ऊतकों का पता लगाना या स्वचालित सड़क टोल सिस्टम में वाहन का पता लगाना शामिल है। तुलनात्मक रूप से सरल और तेज़ गणनाओं के आधार पर पता लगाना कभी-कभी दिलचस्प छवि डेटा के छोटे क्षेत्रों को खोजने के लिए उपयोग किया जाता है जिसे आगे की व्याख्या करने के लिए और अधिक कम्प्यूटेशनल रूप से मांग तकनीक का विश्लेषण किया जा सकता है।

वर्तमान में, ऐसे कार्यों के लिए सर्वोत्तम एल्गोरिदम संक्रामक तंत्रिका नेटवर्क पर आधारित हैं। इमेजनेट बड़े स्केल विजुअल रिकग्निशन चैलेंज द्वारा उनकी क्षमताओं का एक उदाहरण दिया गया है; यह वस्तुओं वर्गीकरण और पहचान में लाखों छवियों और सैकड़ों ऑब्जेक्ट कक्षाओं के साथ एक बेंचमार्क है। ImageNet परीक्षणों पर, संक्रामक तंत्रिका नेटवर्क का प्रदर्शन, अब मनुष्यों के करीब है। सबसे अच्छा एल्गोरिदम अभी भी उन वस्तुओं के साथ संघर्ष करता है जो छोटे या पतले होते हैं, जैसे कि फूल के तने पर एक छोटी चींटी या उनके हाथ में एक रील रखने वाला व्यक्ति। उन्हें उन छवियों में भी परेशानी होती है जो फिल्टर के साथ विकृत हो गए हैं (आधुनिक डिजिटल कैमरों के साथ एक आम आम घटना)। इसके विपरीत, उन छवियों के चित्र शायद ही कभी मनुष्यों को परेशान करते हैं। हालांकि, मनुष्यों को अन्य मुद्दों के साथ परेशानी होती है। उदाहरण के लिए, वे वस्तुओं को वर्गीकृत करने में अच्छे नहीं होते हैं, जैसे कि कुत्ते की विशेष नस्ल या पक्षी की प्रजातियां, जबकि संक्रामक तंत्रिका नेटवर्क आसानी से इसे संभालते हैं।

मान्यता के आधार पर कई विशेष कार्य मौजूद हैं, जैसे कि:

सामग्री-आधारित छवि पुनर्प्राप्ति – छवियों के एक बड़े सेट में सभी छवियां ढूंढना जिनमें विशिष्ट सामग्री हो। सामग्री को विभिन्न तरीकों से निर्दिष्ट किया जा सकता है, उदाहरण के लिए समानता के संदर्भ में एक लक्षित छवि (मुझे छवि एक्स के समान सभी छवियां दें), या पाठ इनपुट के रूप में दिए गए उच्च स्तरीय खोज मानदंडों के संदर्भ में (मुझे सभी छवियां दें कई घर, सर्दियों के दौरान लिया जाता है, और उनमें कोई कार नहीं है)।
अनुमान लगाएं – कैमरे के सापेक्ष एक विशिष्ट वस्तु की स्थिति या अभिविन्यास का अनुमान लगाएं। इस तकनीक के लिए एक उदाहरण आवेदन एक असेंबली लाइन स्थिति में कन्वेयर बेल्ट से ऑब्जेक्ट्स को पुनर्प्राप्त करने या बिन से भागों को चुनने में रोबोट बांह की सहायता करेगा।
ऑप्टिकल कैरेक्टर रिकॉग्नाइजेशन (ओसीआर) – मुद्रित या हस्तलिखित पाठ की छवियों में वर्णों की पहचान करना, आमतौर पर प्रारूप में पाठ को एन्कोड करने के दृश्य के साथ संपादन या अनुक्रमण (उदाहरण के लिए ASCII) के लिए अधिक उपयुक्त।
2 डी कोड रीडिंग 2 डी कोड जैसे डेटा मैट्रिक्स और क्यूआर कोड पढ़ना।
चेहरे की पहचान
ऑब्जेक्ट्स से मनुष्यों (सिर और कंधे के पैटर्न) को अलग करने वाले लोगों के काउंटर सिस्टम में आकार पहचान प्रौद्योगिकी (एसआरटी)

मोशन विश्लेषण
कई कार्य गति अनुमान से संबंधित हैं जहां छवि के प्रत्येक बिंदु पर या 3 डी दृश्य में या छवियों का उत्पादन करने वाले कैमरे के वेग के अनुमान का अनुमान लगाने के लिए एक छवि अनुक्रम संसाधित किया जाता है। ऐसे कार्यों के उदाहरण हैं:

एगोमोशन – कैमरे द्वारा उत्पादित छवि अनुक्रम से कैमरे की 3 डी कठोर गति (रोटेशन और अनुवाद) का निर्धारण करना।
ट्रैकिंग – छवि अनुक्रम में ब्याज बिंदुओं या वस्तुओं (उदाहरण के लिए, वाहन, मानव या अन्य जीव) के (आमतौर पर) छोटे सेट की गतिविधियों के बाद।
ऑप्टिकल प्रवाह – छवि में प्रत्येक बिंदु के लिए निर्धारित करने के लिए, यह बिंदु छवि विमान के सापेक्ष कैसे चल रहा है, यानी, इसकी स्पष्ट गति। यह गति एक परिणाम है कि दृश्य में संबंधित 3 डी बिंदु कैसे चल रहा है और कैमरे दृश्य के सापेक्ष कैसे चल रहा है।

दृश्य पुनर्निर्माण
किसी दृश्य या एक वीडियो की एक या (आमतौर पर) अधिक छवियों को देखते हुए, दृश्य पुनर्निर्माण का उद्देश्य दृश्य के 3 डी मॉडल की गणना करना है। सबसे सरल मामले में मॉडल 3 डी अंक का एक सेट हो सकता है। अधिक परिष्कृत तरीके एक पूर्ण 3 डी सतह मॉडल का उत्पादन करते हैं। 3 डी इमेजिंग के आगमन की गति या स्कैनिंग की आवश्यकता नहीं है, और संबंधित प्रसंस्करण एल्गोरिदम इस क्षेत्र में तेजी से प्रगति को सक्षम कर रहा है। ग्रिड-आधारित 3 डी सेंसिंग का उपयोग एकाधिक कोणों से 3 डी छवियों को प्राप्त करने के लिए किया जा सकता है। एल्गोरिदम अब कई 3 डी छवियों को बिंदु बादलों और 3 डी मॉडल में सिलाई करने के लिए उपलब्ध हैं।

छवि बहाली
छवि बहाली का उद्देश्य छवियों से शोर (सेंसर शोर, गति धुंध, आदि) को हटाने का है। शोर हटाने के लिए सबसे आसान संभव दृष्टिकोण विभिन्न प्रकार के फ़िल्टर हैं जैसे कम-पास फ़िल्टर या औसत फ़िल्टर। अधिक परिष्कृत तरीकों का एक मॉडल मानता है कि कैसे स्थानीय छवि संरचनाएं दिखती हैं, एक मॉडल जो उन्हें शोर से अलग करता है। पहली बार स्थानीय छवि संरचनाओं, जैसे लाइनों या किनारों के संदर्भ में छवि डेटा का विश्लेषण करके, और विश्लेषण चरण से स्थानीय जानकारी के आधार पर फ़िल्टरिंग को नियंत्रित करके, सरल दृष्टिकोण की तुलना में शोर हटाने का एक बेहतर स्तर आमतौर पर प्राप्त किया जाता है।

इस क्षेत्र में एक उदाहरण अंतर्निहित है।

सिस्टम विधियां
एक कंप्यूटर दृष्टि प्रणाली का संगठन अत्यधिक आवेदन निर्भर है। कुछ सिस्टम स्टैंड-अलोन अनुप्रयोग हैं जो एक विशिष्ट माप या पहचान समस्या को हल करते हैं, जबकि अन्य एक बड़े डिजाइन की एक उप-प्रणाली का गठन करते हैं, उदाहरण के लिए, यांत्रिक एक्ट्यूएटर, नियोजन, सूचना डेटाबेस, मानव-नियंत्रण के नियंत्रण के लिए उप-सिस्टम भी शामिल हैं। मशीन इंटरफेस इत्यादि। कंप्यूटर दृष्टि प्रणाली का विशिष्ट कार्यान्वयन यह भी निर्भर करता है कि इसकी कार्यक्षमता पूर्व-निर्दिष्ट है या यदि इसका कुछ हिस्सा ऑपरेशन के दौरान सीखा या संशोधित किया जा सकता है। आवेदन के लिए कई कार्य अनूठे हैं। हालांकि, सामान्य कार्य कई कंप्यूटर दृष्टि प्रणालियों में पाए जाते हैं।

छवि अधिग्रहण – एक डिजिटल छवि एक या कई छवि सेंसर द्वारा उत्पादित की जाती है, जिसमें विभिन्न प्रकार के प्रकाश-संवेदनशील कैमरों के अलावा, रेंज सेंसर, टोमोग्राफी डिवाइस, रडार, अल्ट्रा-सोनिक कैमरे इत्यादि शामिल हैं। सेंसर के प्रकार के आधार पर, परिणामस्वरूप छवि डेटा एक सामान्य 2 डी छवि, एक 3 डी वॉल्यूम, या एक छवि अनुक्रम है। पिक्सेल मान आम तौर पर एक या कई वर्णक्रमीय बैंड (ग्रे छवियों या रंगीन छवियों) में हल्की तीव्रता के अनुरूप होते हैं, लेकिन विभिन्न शारीरिक उपायों से भी संबंधित हो सकते हैं, जैसे गहन, अवशोषण या ध्वनि या विद्युत चुम्बकीय तरंगों, या परमाणु चुंबकीय अनुनाद के प्रतिबिंब।

प्री-प्रोसेसिंग – जानकारी के कुछ विशिष्ट टुकड़े निकालने के लिए छवि डेटा पर कंप्यूटर दृष्टि विधि लागू करने से पहले, यह सुनिश्चित करने के लिए डेटा को संसाधित करना आवश्यक है कि यह विधि द्वारा निहित कुछ मान्यताओं को पूरा करता है। उदाहरण हैं
छवि समन्वय प्रणाली सही है यह सुनिश्चित करने के लिए पुन: नमूनाकरण।
सेंसर शोर झूठी जानकारी पेश नहीं करने के लिए शोर में कमी।
समेकित वृद्धि यह सुनिश्चित करने के लिए कि प्रासंगिक जानकारी का पता लगाया जा सकता है।
स्थानीय रूप से उपयुक्त तराजू पर छवि संरचनाओं को बढ़ाने के लिए स्केल स्पेस प्रस्तुति।

फ़ीचर निष्कर्षण – जटिलता के विभिन्न स्तरों पर छवि सुविधाओं को छवि डेटा से निकाला जाता है। ऐसी सुविधाओं के विशिष्ट उदाहरण हैं
रेखाएं, किनारों और छत।
स्थानीय ब्याज अंक जैसे कोनों, ब्लॉब्स या अंक।
अधिक जटिल विशेषताएं बनावट, आकार या गति से संबंधित हो सकती हैं।

प्रक्षेपण / विभाजन – प्रसंस्करण में किसी बिंदु पर एक निर्णय किया जाता है कि छवि के कौन से छवि बिंदु या क्षेत्र आगे प्रसंस्करण के लिए प्रासंगिक हैं। उदाहरण हैं
ब्याज बिंदुओं के एक विशिष्ट सेट का चयन
एक या एकाधिक छवि क्षेत्रों का सेगमेंटेशन जिसमें ब्याज की एक विशिष्ट वस्तु होती है।
नेस्टेड दृश्य आर्किटेक्चर में छवि के विभाजन को अग्रभूमि, ऑब्जेक्ट समूह, एकल ऑब्जेक्ट्स या मुख्य ऑब्जेक्ट पार्ट्स (जिसे स्थानिक-टैक्सन दृश्य पदानुक्रम के रूप में भी जाना जाता है) शामिल है, जबकि दृश्य लचीलापन अक्सर स्थानिक और लौकिक ध्यान के रूप में लागू किया जाता है।
प्रति-फ्रेम अग्रभूमि मास्क की एक श्रृंखला में एक या एकाधिक वीडियो की सेगमेंटेशन या सह-विभाजन, जबकि इसकी अस्थायी अर्थात् निरंतरता को बनाए रखना।

उच्च स्तरीय प्रसंस्करण – इस चरण में इनपुट आम तौर पर डेटा का एक छोटा सा सेट होता है, उदाहरण के लिए अंक या एक छवि क्षेत्र का एक सेट जिसे एक विशिष्ट वस्तु माना जाता है। शेष प्रसंस्करण सौदों के साथ, उदाहरण के लिए:
सत्यापन कि डेटा मॉडल-आधारित और एप्लिकेशन विशिष्ट धारणाओं को पूरा करता है।
ऑब्जेक्ट पॉज़ या ऑब्जेक्ट साइज जैसे एप्लिकेशन विशिष्ट पैरामीटर का आकलन।
छवि पहचान – विभिन्न श्रेणियों में एक ज्ञात वस्तु वर्गीकृत करना।
छवि पंजीकरण – एक ही वस्तु के दो अलग-अलग विचारों की तुलना और संयोजन।

निर्णय लेने के लिए आवेदन के लिए अंतिम निर्णय लेना, उदाहरण के लिए:
स्वत: निरीक्षण अनुप्रयोगों पर पास / असफल
मान्यता अनुप्रयोगों में मैच / नो-मैच
चिकित्सा, सैन्य, सुरक्षा और मान्यता अनुप्रयोगों में और मानव समीक्षा के लिए ध्वज

छवि समझने प्रणाली
छवि-समझ प्रणाली (आईयूएस) में निम्नानुसार अमूर्तता के तीन स्तर शामिल हैं: निम्न स्तर में छवि प्राइमेटिव्स जैसे किनारों, बनावट तत्वों या क्षेत्रों शामिल हैं; मध्यवर्ती स्तर में सीमाएं, सतह और मात्रा शामिल हैं; और उच्च स्तर में वस्तुएं, दृश्य या घटनाएं शामिल हैं। इन आवश्यकताओं में से कई वास्तव में आगे के शोध के लिए विषय हैं।

इन स्तरों के लिए आईयूएस के डिजाइन में प्रतिनिधित्व संबंधी आवश्यकताएं हैं: तुलनात्मक और अवधारणाओं द्वारा प्रोटोटाइपिकल अवधारणाओं, अवधारणा संगठन, स्थानिक ज्ञान, अस्थायी ज्ञान, स्केलिंग और विवरण का प्रतिनिधित्व।

जबकि अनुमान नए संदर्भ प्राप्त करने की प्रक्रिया को संदर्भित करता है, वर्तमान में ज्ञात तथ्यों से तथ्यों का स्पष्ट रूप से प्रतिनिधित्व नहीं करता है, नियंत्रण उस प्रक्रिया को संदर्भित करता है जो प्रसंस्करण के एक विशेष चरण में कई अनुमान, खोज, और मिलान तकनीकों का चयन किया जाना चाहिए। आईयूएस के लिए अनुमान और नियंत्रण आवश्यकताओं हैं: खोज और परिकल्पना सक्रियण, मिलान और परिकल्पना परीक्षण, पीढ़ी और अपेक्षाओं का उपयोग, परिवर्तन और ध्यान, निश्चितता और विश्वास की शक्ति, अनुमान और लक्ष्य संतुष्टि का ध्यान।

हार्डवेयर
कई प्रकार के कंप्यूटर दृष्टि प्रणालियां हैं, फिर भी उनमें से सभी बुनियादी तत्व हैं: एक पावर स्रोत, कम से कम एक छवि अधिग्रहण डिवाइस (यानी कैमरा, सीसीडी, इत्यादि), एक प्रोसेसर के साथ-साथ नियंत्रण और संचार केबल्स या किसी तरह का वायरलेस इंटरकनेक्शन तंत्र का। इसके अलावा, एक व्यावहारिक दृष्टि प्रणाली में सिस्टम की निगरानी करने के लिए सॉफ़्टवेयर, साथ ही प्रदर्शन भी शामिल है। आंतरिक स्थानों के लिए विजन सिस्टम, अधिकांश औद्योगिक लोगों में, एक रोशनी प्रणाली होती है और इसे नियंत्रित वातावरण में रखा जा सकता है। इसके अलावा, एक पूर्ण प्रणाली में कैमरा सहायक उपकरण, केबल्स और कनेक्टर जैसे कई सामान शामिल हैं।

अधिकांश कंप्यूटर दृष्टि प्रणालियों दृश्यमान प्रकाश कैमरों का उपयोग प्रति सेकंड अधिकतम 60 फ्रेम (आमतौर पर बहुत धीमी) की फ्रेम दर पर एक दृश्य को निष्क्रिय रूप से देखने के लिए करते हैं।

कुछ कंप्यूटर दृष्टि प्रणाली सक्रिय रोशनी या दृश्य प्रकाश या दोनों के अलावा कुछ अन्य के साथ छवि अधिग्रहण हार्डवेयर का उपयोग करें। उदाहरण के लिए, एक संरचित-प्रकाश 3 डी स्कैनर, एक थर्मोग्राफिक कैमरा, एक हाइपर स्पेक्ट्रल इमेजर, रडार इमेजिंग, एक लिडर स्कैनर, एक चुंबकीय अनुनाद छवि, एक साइड-स्कैन सोनार, सिंथेटिक एपर्चर सोनार, या आदि। ऐसे हार्डवेयर “छवियों” को कैप्चर करते हैं जिसे तब दृश्यमान प्रकाश छवियों को संसाधित करने के लिए उपयोग किए जाने वाले कंप्यूटर विजन एल्गोरिदम का उपयोग करके अक्सर संसाधित किया जाता है।

जबकि पारंपरिक प्रसारण और उपभोक्ता वीडियो सिस्टम प्रति सेकंड 30 फ्रेम की दर से संचालित होते हैं, डिजिटल सिग्नल प्रोसेसिंग और उपभोक्ता ग्राफिक्स हार्डवेयर में प्रगति ने सैकड़ों के क्रम में रीयल-टाइम सिस्टम के लिए उच्च गति वाली छवि अधिग्रहण, प्रसंस्करण और प्रदर्शन संभव बनाया है प्रति सेकंड हजारों फ्रेम। रोबोटिक्स, फास्ट, रीयल-टाइम वीडियो सिस्टम में अनुप्रयोगों के लिए गंभीर रूप से महत्वपूर्ण हैं और अक्सर कुछ एल्गोरिदम के लिए आवश्यक प्रसंस्करण को सरल बना सकते हैं। एक उच्च स्पीड प्रोजेक्टर के साथ संयुक्त होने पर, तेज़ छवि अधिग्रहण 3 डी माप और फीचर ट्रैकिंग को महसूस करने की अनुमति देता है।

एन्सेन्ट्रिक दृष्टि प्रणाली एक पहनने योग्य कैमरे से बना है जो स्वचालित रूप से पहले व्यक्ति परिप्रेक्ष्य से चित्र लेती है।

2016 तक, इस भूमिका में सीपीयू और ग्राफिक्स प्रसंस्करण इकाइयों (जीपीयू) के पूरक के लिए, दृष्टि प्रसंस्करण इकाइयां प्रोसेसर की एक नई श्रेणी के रूप में उभर रही हैं।