Computer Vision

Computer Vision ist ein interdisziplinäres Feld, in dem es darum geht, wie Computer hergestellt werden können, um aus digitalen Bildern oder Videos ein hohes Verständnis zu erlangen. Aus der Perspektive des Engineerings versucht es, Aufgaben zu automatisieren, die das menschliche visuelle System ausführen kann.

Computer Vision-Aufgaben umfassen Verfahren zum Erfassen, Verarbeiten, Analysieren und Verstehen digitaler Bilder und zum Extrahieren hochdimensionaler Daten aus der realen Welt, um numerische oder symbolische Informationen zu erzeugen, z. B. in Form von Entscheidungen. Verstehen bedeutet in diesem Zusammenhang die Umwandlung visueller Bilder (der Eingabe der Netzhaut) in Beschreibungen der Welt, die sich mit anderen Denkprozessen verbinden und entsprechende Maßnahmen auslösen können. Dieses Bildverständnis kann als Entflechtung symbolischer Informationen aus Bilddaten unter Verwendung von Modellen verstanden werden, die mit Hilfe von Geometrie, Physik, Statistik und Lerntheorie erstellt wurden.

Als wissenschaftliche Disziplin beschäftigt sich Computer Vision mit der Theorie hinter künstlichen Systemen, die Informationen aus Bildern extrahieren. Die Bilddaten können viele Formen annehmen, z. B. Videosequenzen, Ansichten von mehreren Kameras oder mehrdimensionale Daten von einem medizinischen Scanner. Als technologische Disziplin versucht Computer Vision, seine Theorien und Modelle für den Aufbau von Computer Vision Systemen anzuwenden.

Zu den Unterbereichen des Computersehens gehören Szenenrekonstruktion, Ereigniserkennung, Videotracking, Objekterkennung, 3D-Posenschätzung, Lernen, Indexieren, Bewegungsschätzung und Bildwiederherstellung.

Definition
Computer Vision ist ein interdisziplinäres Feld, in dem es darum geht, wie Computer hergestellt werden können, um aus digitalen Bildern oder Videos ein hohes Verständnis zu erlangen. Aus der Perspektive des Engineerings versucht es, Aufgaben zu automatisieren, die das menschliche visuelle System ausführen kann. „Computer Vision beschäftigt sich mit dem automatischen Extrahieren, Analysieren und Verstehen nützlicher Informationen aus einem einzelnen Bild oder einer Bildsequenz. Dazu gehört die Entwicklung einer theoretischen und algorithmischen Grundlage, um ein automatisches visuelles Verständnis zu erreichen.“ Als wissenschaftliche Disziplin beschäftigt sich Computer Vision mit der Theorie hinter künstlichen Systemen, die Informationen aus Bildern extrahieren. Die Bilddaten können viele Formen annehmen, z. B. Videosequenzen, Ansichten von mehreren Kameras oder mehrdimensionale Daten von einem medizinischen Scanner. Als technologische Disziplin versucht Computer Vision, seine Theorien und Modelle für den Aufbau von Computer Vision Systemen anzuwenden.

Geschichte
In den späten 1960er Jahren begann die Computer Vision an Universitäten, die der künstlichen Intelligenz Pionierarbeit leisteten. Es sollte das menschliche Sehsystem nachahmen, als Sprungbrett, um Roboter mit intelligentem Verhalten auszustatten. Im Jahr 1966 glaubte man, dass dies durch ein Sommerprojekt erreicht werden könnte, indem eine Kamera an einen Computer angeschlossen wird und „beschrieben wird, was sie gesehen hat“.

Was Computervision von dem damals vorherrschenden Gebiet der digitalen Bildverarbeitung unterschied, war der Wunsch, dreidimensionale Strukturen aus Bildern zu extrahieren, um ein umfassendes Szenenverständnis zu erreichen. Studien in den 70er Jahren bildeten die ersten Grundlagen für viele der heute existierenden Algorithmen für Computervision, darunter das Extrahieren von Kanten aus Bildern, das Beschriften von Linien, nicht-polyedrische und polyedrische Modellierung, die Darstellung von Objekten als Verbindungen kleinerer Strukturen, den optischen Fluss und Bewegungsschätzung.

Im nächsten Jahrzehnt wurden Studien durchgeführt, die auf strengeren mathematischen Analysen und quantitativen Aspekten der Bildverarbeitung basieren. Dazu gehören das Konzept des Skalenraums, die Inferenz der Form aus verschiedenen Markierungen wie Schattierung, Textur und Fokus sowie Konturmodelle, die als Schlangen bezeichnet werden. Die Forscher stellten auch fest, dass viele dieser mathematischen Konzepte innerhalb desselben Optimierungsrahmens behandelt werden können wie Regularisierungs- und Markov-Zufallsfelder. In den 1990er Jahren wurden einige der bisherigen Forschungsthemen aktiver als andere. Untersuchungen in projizierten 3D-Rekonstruktionen führten zu einem besseren Verständnis der Kamerakalibrierung. Mit dem Aufkommen von Optimierungsmethoden für die Kamerakalibrierung wurde erkannt, dass viele Ideen bereits in der Bündelanpassungstheorie aus dem Bereich der Photogrammetrie untersucht wurden. Dies führte zu Methoden für die spärliche 3D-Rekonstruktion von Szenen aus mehreren Bildern. Das dichte Stereokorrespondenzproblem und weitere Multi-View-Stereo-Techniken wurden vorangebracht. Zur gleichen Zeit wurden Variationen des Diagrammschnitts zum Lösen der Bildsegmentierung verwendet. Dieses Jahrzehnt war auch das erste Mal, dass statistische Lerntechniken in der Praxis eingesetzt wurden, um Gesichter in Bildern zu erkennen (siehe Eigengesicht). Gegen Ende der 1990er Jahre kam es durch die verstärkte Interaktion zwischen den Bereichen Computergrafik und Computer Vision zu einer signifikanten Veränderung. Dazu gehörten bildbasiertes Rendering, Bildmorphing, Ansichtsinterpolation, Panoramabildern und frühes Lichtfeld-Rendering.

Jüngste Arbeiten haben zu einem Wiederaufleben von Feature-basierten Methoden geführt, die in Verbindung mit Machine-Learning-Techniken und komplexen Optimierungsframeworks eingesetzt werden.

Verwandte Felder

Künstliche Intelligenz
Bereiche der künstlichen Intelligenz befassen sich mit der autonomen Planung oder Überlegung für robotische Systeme, um durch eine Umgebung zu navigieren. Für das Navigieren in diesen Umgebungen ist ein detailliertes Verständnis dieser Umgebungen erforderlich. Informationen über die Umgebung könnten von einem Computer-Vision-System bereitgestellt werden, das als Vision-Sensor fungiert und auf hoher Ebene Informationen über die Umgebung und den Roboter liefert.

Künstliche Intelligenz und Computervision teilen andere Themen wie Mustererkennung und Lerntechniken. Infolgedessen wird Computervision manchmal als Teil des künstlichen Intelligenzfelds oder des Informatikfeldes allgemein betrachtet.

Informationsingenieurswesen
Computer Vision wird oft als Teil der Informationstechnik betrachtet.

Festkörperphysik
Die Festkörperphysik ist ein weiteres Gebiet, das eng mit dem Computer Vision zusammenhängt. Die meisten Computer-Bildverarbeitungssysteme basieren auf Bildsensoren, die elektromagnetische Strahlung erfassen, die typischerweise entweder sichtbares oder infrarotes Licht ist. Die Sensoren sind in Quantenphysik ausgeführt. Der Vorgang, bei dem Licht mit Oberflächen interagiert, wird physikalisch erklärt. Die Physik erklärt das Verhalten von Optiken, die ein Kernbestandteil der meisten Abbildungssysteme sind. Anspruchsvolle Bildsensoren erfordern sogar eine Quantenmechanik, um ein vollständiges Verständnis des Bilderzeugungsprozesses zu ermöglichen. Auch können verschiedene Messprobleme in der Physik durch Computervision angegangen werden, beispielsweise Bewegung in Flüssigkeiten.

Neurobiologie
Ein drittes Feld, das eine wichtige Rolle spielt, ist die Neurobiologie, insbesondere das Studium des biologischen Sehsystems. Im letzten Jahrhundert wurden umfangreiche Untersuchungen von Augen, Neuronen und Gehirnstrukturen durchgeführt, die der Verarbeitung visueller Stimuli sowohl beim Menschen als auch bei verschiedenen Tieren gewidmet sind. Dies hat zu einer groben, aber komplizierten Beschreibung geführt, wie „echte“ Visionssysteme funktionieren, um bestimmte visionsbezogene Aufgaben zu lösen. Diese Ergebnisse haben zu einem Unterfeld innerhalb der Computervision geführt, in dem künstliche Systeme die Verarbeitung und das Verhalten biologischer Systeme auf verschiedenen Komplexitätsstufen nachahmen. Einige der lernbasierten Methoden, die innerhalb der Computervision entwickelt wurden (z. B. neuronales Netz und tiefes Lernen basierend auf Bild- und Merkmalsanalyse und Klassifizierung), haben auch ihren Hintergrund in der Biologie.

Einige Bereiche der Computer Vision-Forschung sind eng mit der Erforschung des biologischen Sehens verbunden. In der Tat sind viele Bereiche der KI-Forschung eng mit der Erforschung des menschlichen Bewusstseins und der Verwendung von gespeichertem Wissen zur Interpretation, Integration und Nutzung visueller Informationen verbunden. Das Gebiet des biologischen Sehens untersucht und modelliert die physiologischen Prozesse, die der visuellen Wahrnehmung beim Menschen und anderen Tieren zugrunde liegen. Computer Vision dagegen untersucht und beschreibt die Prozesse, die in Software und Hardware hinter künstlichen Sichtsystemen implementiert werden. Der interdisziplinäre Austausch zwischen Biologie und Computer Vision hat sich in beiden Bereichen als fruchtbar erwiesen.

Signalverarbeitung
Ein weiteres Gebiet, das sich mit Computer Vision befasst, ist die Signalverarbeitung. Viele Verfahren zur Verarbeitung von Signalen mit einer Variablen, typischerweise zeitlichen Signalen, können auf natürliche Weise auf die Verarbeitung von Signalen mit zwei Variablen oder von Signalen mit mehreren Variablen in der Computervision erweitert werden. Aufgrund der spezifischen Beschaffenheit von Bildern gibt es jedoch viele im Bereich der Bildverarbeitung entwickelte Verfahren, die bei der Verarbeitung von Signalen mit einer Variablen kein Gegenstück haben. Zusammen mit der Multidimensionalität des Signals definiert dies ein Teilfeld der Signalverarbeitung als Teil der Computer Vision.

Andere Felder
Neben den oben genannten Ansichten zum Thema Computer Vision können viele verwandte Forschungsthemen auch aus rein mathematischer Sicht untersucht werden. Zum Beispiel basieren viele Methoden im Computer Vision auf Statistiken, Optimierung oder Geometrie. Schließlich widmet sich ein erheblicher Teil des Feldes dem Implementierungsaspekt von Computer Vision. wie vorhandene Methoden in verschiedenen Kombinationen von Software und Hardware realisiert werden können oder wie diese Methoden geändert werden können, um die Verarbeitungsgeschwindigkeit zu erhöhen, ohne zu viel Leistung zu verlieren.

Unterscheidungen
Die Bereiche, die mit der Bildverarbeitung am engsten verbunden sind, sind Bildverarbeitung, Bildanalyse und Bildverarbeitung. Es gibt eine erhebliche Überschneidung in der Palette der Techniken und Anwendungen, die diese abdecken. Dies impliziert, dass die grundlegenden Techniken, die in diesen Bereichen verwendet und entwickelt werden, ähnlich sind, was interpretiert werden kann, da es nur ein Feld mit unterschiedlichen Namen gibt. Andererseits erscheint es für Forschungsgruppen, wissenschaftliche Zeitschriften, Konferenzen und Unternehmen notwendig, sich als spezifisch zu einem dieser Bereiche gehörig zu präsentieren oder zu vermarkten. Daher wurden verschiedene Charakterisierungen vorgenommen, die die einzelnen Bereiche von den anderen unterscheiden vorgeführt.

Computergrafik erzeugt Bilddaten aus 3D-Modellen, Computer Vision erstellt häufig 3D-Modelle aus Bilddaten. Es gibt auch einen Trend in Richtung einer Kombination der beiden Disziplinen, wie sie beispielsweise in Augmented Reality erforscht werden.

Die folgenden Charakterisierungen erscheinen relevant, sollten jedoch nicht als allgemein akzeptiert betrachtet werden:

Bildverarbeitung und Bildanalyse neigen dazu, sich auf 2D-Bilder zu konzentrieren, wie ein Bild in ein anderes umgewandelt werden kann, z. B. durch pixelweise Operationen wie Kontrastverbesserung, lokale Operationen wie Kantenextraktion oder Rauschentfernung oder geometrische Transformationen wie Drehen des Bildes . Diese Charakterisierung impliziert, dass die Bildverarbeitung / -analyse weder Annahmen noch Interpretationen des Bildinhalts erfordert.
Computer Vision enthält 3D-Analyse von 2D-Bildern. Dadurch wird die auf ein oder mehrere Bilder projizierte 3D-Szene analysiert, z. B. wie eine Struktur oder andere Informationen zur 3D-Szene aus einem oder mehreren Bildern rekonstruiert werden. Das Computersehen stützt sich oft auf mehr oder weniger komplexe Annahmen über die in einem Bild dargestellte Szene.
Machine Vision ist der Prozess der Anwendung einer Reihe von Technologien und Methoden zur Bereitstellung einer bildbasierten automatischen Inspektion, Prozesskontrolle und Roboterführung in industriellen Anwendungen. Die Bildverarbeitung neigt dazu, sich auf Anwendungen zu konzentrieren, hauptsächlich in der Fertigung, z. B. auf Vision basierende Roboter und Systeme für die visionsbasierte Inspektion, Messung oder Kommissionierung (z. B. Kommissionieren). Dies impliziert, dass Bildsensortechnologien und Steuerungstheorie oft in die Verarbeitung von Bilddaten zur Steuerung eines Roboters integriert sind und die Echtzeitverarbeitung durch effiziente Implementierungen in Hardware und Software hervorgehoben wird. Dies impliziert auch, dass die äußeren Bedingungen, wie zum Beispiel Beleuchtung, in der Bildverarbeitung besser kontrolliert werden können als in der allgemeinen Bildverarbeitung, was die Verwendung verschiedener Algorithmen ermöglicht.
Es gibt auch ein Feld namens Imaging, das sich hauptsächlich auf den Prozess der Bilderzeugung konzentriert, manchmal aber auch die Verarbeitung und Analyse von Bildern. Zum Beispiel umfasst die medizinische Bildgebung umfangreiche Arbeiten zur Analyse von Bilddaten in medizinischen Anwendungen.
Schließlich ist die Mustererkennung ein Bereich, in dem Informationen aus verschiedenen Signalen im Allgemeinen mit verschiedenen Methoden extrahiert werden, die hauptsächlich auf statistischen Ansätzen und künstlichen neuronalen Netzwerken basieren. Ein wesentlicher Teil dieses Feldes ist der Anwendung dieser Methoden auf Bilddaten gewidmet.

Anwendungen
Die Anwendungen reichen von Aufgaben wie industriellen Bildverarbeitungssystemen, die beispielsweise Flaschen an einer Fertigungsstraße vorbeiziehen, über künstliche Intelligenz bis hin zu Computern oder Robotern, die die Welt um sie herum verstehen. Die Bereiche Computer Vision und Machine Vision überschneiden sich erheblich. Computer Vision umfasst die Kerntechnologie der automatisierten Bildanalyse, die in vielen Bereichen eingesetzt wird. Machine Vision bezieht sich in der Regel auf einen Prozess, bei dem die automatisierte Bildanalyse mit anderen Methoden und Technologien kombiniert wird, um eine automatisierte Inspektion und Roboterführung in industriellen Anwendungen zu ermöglichen. In vielen Computersichtanwendungen sind die Computer vorprogrammiert, um eine bestimmte Aufgabe zu lösen, aber lernbasierte Methoden werden zunehmend allgemeiner. Beispiele für Anwendungen von Computer Vision sind Systeme für:

Automatische Prüfung, z. B. in Fertigungsanwendungen;
Unterstützung des Menschen bei Identifikationsaufgaben, z. B. einem Artenidentifikationssystem;
Steuern von Prozessen, zB eines Industrieroboters;
Erkennen von Ereignissen, z. B. zur visuellen Überwachung oder zum Zählen von Personen;
Interaktion, z. B. als Eingabe eines Geräts für die Computer-Mensch-Interaktion;
Modellieren von Objekten oder Umgebungen, z. B. medizinische Bildanalyse oder topographische Modellierung;
Navigation z. B. durch ein autonomes Fahrzeug oder einen mobilen Roboter; und
Organisation von Informationen, z. B. zur Indexierung von Bilddatenbanken und Bildsequenzen.

Eines der bekanntesten Anwendungsgebiete ist die medizinische Computer Vision oder medizinische Bildverarbeitung, gekennzeichnet durch die Extraktion von Informationen aus Bilddaten zur Diagnose eines Patienten. Ein Beispiel dafür ist der Nachweis von Tumoren, Arteriosklerose oder anderen malignen Veränderungen; Messungen der Organdimensionen, des Blutflusses usw. sind ein weiteres Beispiel. Es unterstützt auch die medizinische Forschung durch die Bereitstellung neuer Informationen, z. B. über die Struktur des Gehirns oder über die Qualität medizinischer Behandlungen. Zu den Anwendungen des Computersehens im medizinischen Bereich gehört auch die Verbesserung von Bildern, die vom Menschen interpretiert werden – beispielsweise Ultraschallbilder oder Röntgenbilder -, um den Einfluss von Rauschen zu reduzieren.

Ein zweiter Anwendungsbereich in der Computervision liegt in der Industrie, manchmal auch als Machine Vision bezeichnet, in dem Informationen zur Unterstützung eines Fertigungsprozesses extrahiert werden. Ein Beispiel ist die Qualitätskontrolle, bei der Details oder Endprodukte automatisch auf Fehler untersucht werden. Ein anderes Beispiel ist die Messung der Position und Orientierung von Details, die von einem Roboterarm aufgenommen werden sollen. Die Bildverarbeitung wird auch in landwirtschaftlichen Prozessen häufig eingesetzt, um unerwünschte Lebensmittel aus Schüttgut zu entfernen, ein Vorgang, der als optische Sortierung bezeichnet wird.

Militärische Anwendungen sind wahrscheinlich einer der größten Bereiche für die Bildverarbeitung. Die offensichtlichen Beispiele sind die Erkennung von feindlichen Soldaten oder Fahrzeugen und die Lenkung von Raketen. Fortschrittlichere Systeme für die Lenkflugkörperlenkung senden den Flugkörper in ein Gebiet und nicht in ein bestimmtes Ziel. Die Zielauswahl erfolgt, wenn das Fluggerät das Gebiet auf der Grundlage der lokal erfassten Bilddaten erreicht. Moderne militärische Konzepte, wie „Battlefield Awareness“, implizieren, dass verschiedene Sensoren, einschließlich Bildsensoren, umfassende Informationen über eine Kampfszene liefern, die zur Unterstützung strategischer Entscheidungen verwendet werden können. In diesem Fall wird die automatische Verarbeitung der Daten verwendet, um die Komplexität zu reduzieren und Informationen von mehreren Sensoren zu verschmelzen, um die Zuverlässigkeit zu erhöhen.

Zu den neueren Anwendungsgebieten gehören autonome Fahrzeuge, darunter Tauchfahrzeuge, Landfahrzeuge (kleine Roboter mit Rädern, Autos oder Lastwagen), Luftfahrzeuge und unbemannte Luftfahrzeuge (UAV). Die Autonomie reicht von völlig autonomen (unbemannten) Fahrzeugen bis zu Fahrzeugen, bei denen computergestützte Systeme einen Fahrer oder einen Piloten in verschiedenen Situationen unterstützen. Vollautonome Fahrzeuge verwenden typischerweise Computer Vision zur Navigation, dh um zu wissen, wo sie sich befinden, oder um eine Umgebungskarte (SLAM) zu erstellen und um Hindernisse zu erkennen. Es kann auch zum Erkennen bestimmter aufgabenspezifischer Ereignisse verwendet werden, z. B. eines UAV, das nach Waldbränden sucht. Beispiele für Unterstützungssysteme sind Hinderniswarnsysteme in Autos und Systeme zum autonomen Landen von Flugzeugen. Mehrere Automobilhersteller haben Systeme für das autonome Fahren von Autos demonstriert, doch diese Technologie hat noch kein Niveau erreicht, auf dem sie auf den Markt gebracht werden kann. Es gibt zahlreiche Beispiele für militärisch autonome Fahrzeuge, die von fortgeschrittenen Raketen bis zu UAVs für Aufklärungsmissionen oder zur Lenkung von Raketen reichen. Die Erforschung des Weltraums findet bereits mit autonomen Fahrzeugen unter Verwendung von Computer Vision statt, beispielsweise mit dem Mars Exploration Rover der NASA und dem ExoMars Rover der ESA.

Weitere Anwendungsbereiche sind:

Unterstützung bei der Erstellung von visuellen Effekten für Kino und Broadcast, z. B. Kameratracking (Matchmoving).
Überwachung.
Verfolgung und Zählung von Organismen in den Biowissenschaften

Typische Aufgaben
In jedem der oben beschriebenen Anwendungsbereiche werden eine Reihe von Aufgaben zur Bildverarbeitung verwendet. mehr oder weniger gut definierte Messprobleme oder Verarbeitungsprobleme, die mit verschiedenen Methoden gelöst werden können. Nachfolgend werden einige Beispiele für typische Aufgaben des Computer Vision vorgestellt.

Computer Vision-Aufgaben umfassen Verfahren zum Erfassen, Verarbeiten, Analysieren und Verstehen digitaler Bilder und zum Extrahieren hochdimensionaler Daten aus der realen Welt, um numerische oder symbolische Informationen zu erzeugen, z. B. in Form von Entscheidungen. Verstehen bedeutet in diesem Zusammenhang die Umwandlung visueller Bilder (der Eingabe der Netzhaut) in Beschreibungen der Welt, die sich mit anderen Denkprozessen verbinden und entsprechende Maßnahmen auslösen können. Dieses Bildverständnis kann als Entflechtung symbolischer Informationen aus Bilddaten unter Verwendung von Modellen verstanden werden, die mit Hilfe von Geometrie, Physik, Statistik und Lerntheorie erstellt wurden.

Anerkennung
Das klassische Problem bei der Bildverarbeitung, Bildverarbeitung und Bildverarbeitung besteht darin, zu bestimmen, ob die Bilddaten bestimmte Objekte, Merkmale oder Aktivitäten enthalten. Unterschiedliche Varianten des Erkennungsproblems werden in der Literatur beschrieben:

Objekterkennung (auch als Objektklassifizierung bezeichnet) – Ein oder mehrere zuvor festgelegte oder erlernte Objekte oder Objektklassen können normalerweise zusammen mit ihrer 2D-Position im Bild oder 3D-Posen in der Szene erkannt werden. Blippar, Google Goggles und LikeThat Stand-Alone-Programme, die diese Funktionalität veranschaulichen.
Identifikation – eine einzelne Instanz eines Objekts wird erkannt. Beispiele umfassen die Identifizierung eines Gesichts oder Fingerabdrucks einer bestimmten Person, die Identifizierung von handschriftlichen Ziffern oder die Identifizierung eines bestimmten Fahrzeugs.
Erkennung – Die Bilddaten werden nach einer bestimmten Bedingung durchsucht. Beispiele umfassen die Erkennung möglicher abnormaler Zellen oder Gewebe in medizinischen Bildern oder die Erkennung eines Fahrzeugs in einem automatischen Mautsystem. Eine Erkennung, die auf relativ einfachen und schnellen Berechnungen basiert, wird manchmal verwendet, um kleinere Bereiche von interessanten Bilddaten zu finden, die durch rechnerisch anspruchsvollere Techniken weiter analysiert werden können, um eine korrekte Interpretation zu erzeugen.

Derzeit basieren die besten Algorithmen für solche Aufgaben auf neuronalen Faltungsnetzen. Ein Beispiel für ihre Fähigkeiten bietet die ImageNet Large Scale Visual Recognition Challenge. Dies ist ein Maßstab in der Objektklassifizierung und -erkennung mit Millionen von Bildern und Hunderten von Objektklassen. Die Leistung konvolutioneller neuronaler Netze in den ImageNet-Tests liegt nun nahe an der des Menschen. Die besten Algorithmen haben immer noch Schwierigkeiten mit kleinen oder dünnen Objekten, z. B. einer kleinen Ameise auf einem Blütenstiel oder einer Person, die eine Feder in der Hand hält. Sie haben auch Probleme mit Bildern, die durch Filter verzerrt wurden (ein bei modernen Digitalkameras immer häufiger auftretendes Phänomen). Im Gegensatz dazu stören solche Bilder den Menschen selten. Menschen haben jedoch Probleme mit anderen Problemen. Zum Beispiel sind sie nicht gut darin, Objekte in feinkörnige Klassen einzuordnen, wie etwa eine bestimmte Hunderasse oder Vogelart, während neuronale Faltungsnetzwerke dies leicht handhaben.

Es gibt verschiedene spezialisierte Aufgaben, die auf Anerkennung basieren, wie zum Beispiel:

Inhaltsbasierte Bildwiederherstellung – Auffinden aller Bilder in einer größeren Anzahl von Bildern, die einen bestimmten Inhalt haben. Der Inhalt kann auf verschiedene Arten angegeben werden, z. B. hinsichtlich der Ähnlichkeit in Bezug auf ein Zielbild (geben Sie mir alle Bilder, die dem Bild X ähnlich sind) oder in Form von Suchkriterien auf hoher Ebene, die als Texteingabe angegeben sind (geben Sie mir alle Bilder an, die enthalten.) viele Häuser sind im Winter besetzt und haben keine Autos darin)
Posenschätzung – Schätzen der Position oder Ausrichtung eines bestimmten Objekts relativ zur Kamera. Eine beispielhafte Anwendung für diese Technik wäre die Unterstützung eines Roboterarms beim Abrufen von Objekten von einem Förderband in einer Fließbandsituation oder das Sammeln von Teilen aus einem Behälter.
Optical Character Recognition (OCR) – Identifizierende Zeichen in Bildern aus gedrucktem oder handgeschriebenem Text, in der Regel zur Kodierung des Textes in einem Format, das für die Bearbeitung oder Indizierung besser geeignet ist (z. B. ASCII).
2D-Codelesen Lesen von 2D-Codes wie Datenmatrix und QR-Codes.
Gesichtserkennung
Shape Recognition Technology (SRT) in Menschen kontern Systeme, die Menschen (Kopf- und Schultermuster) von Objekten unterscheiden

Bewegungsanalyse
Mehrere Aufgaben betreffen die Bewegungsschätzung, bei der eine Bildsequenz verarbeitet wird, um entweder an jedem Punkt des Bildes oder in der 3D-Szene oder sogar der Kamera, die die Bilder erzeugt, eine Schätzung der Geschwindigkeit zu erzeugen. Beispiele für solche Aufgaben sind:

Egomotion – Bestimmen der starren 3D-Bewegung (Rotation und Translation) der Kamera aus einer von der Kamera erzeugten Bildsequenz.
Tracking – Verfolgen der Bewegungen einer (normalerweise) kleineren Gruppe von interessanten Punkten oder Objekten (z. B. Fahrzeugen, Menschen oder anderen Organismen) in der Bildsequenz.
Optischer Fluss – um für jeden Punkt im Bild zu bestimmen, wie sich dieser Punkt relativ zur Bildebene bewegt, dh seine scheinbare Bewegung. Diese Bewegung ist eine Folge davon, wie sich der entsprechende 3D-Punkt in der Szene bewegt und wie sich die Kamera relativ zur Szene bewegt.

Rekonstruktion der Szene
Bei einem oder (typischerweise) mehreren Bildern einer Szene oder einem Video zielt die Szenenrekonstruktion darauf ab, ein 3D-Modell der Szene zu berechnen. Im einfachsten Fall kann das Modell eine Menge von 3D-Punkten sein. Anspruchsvollere Methoden erzeugen ein vollständiges 3D-Oberflächenmodell. Die Einführung der 3D-Bildgebung, für die keine Bewegung oder kein Scannen erforderlich ist, und zugehörige Verarbeitungsalgorithmen ermöglicht schnelle Fortschritte auf diesem Gebiet. Mit der netzbasierten 3D-Erfassung können 3D-Bilder aus mehreren Blickwinkeln aufgenommen werden. Algorithmen sind jetzt verfügbar, um mehrere 3D-Bilder zu Punktwolken und 3D-Modellen zusammenzufügen.

Bildwiederherstellung
Das Ziel der Bildwiederherstellung ist die Entfernung von Rauschen (Sensorrauschen, Bewegungsunschärfe usw.) aus Bildern. Der einfachste Ansatz zur Rauschunterdrückung sind verschiedene Arten von Filtern wie Tiefpassfilter oder Medianfilter. Anspruchsvollere Methoden setzen ein Modell dafür voraus, wie die lokalen Bildstrukturen aussehen, ein Modell, das sie vom Rauschen unterscheidet. Indem die Bilddaten zunächst anhand der lokalen Bildstrukturen wie Linien oder Kanten analysiert werden und dann die Filterung basierend auf lokalen Informationen aus dem Analyseschritt gesteuert wird, wird im Vergleich zu den einfacheren Ansätzen üblicherweise ein besseres Maß an Rauschentfernung erzielt.

Ein Beispiel in diesem Bereich ist Inpainting.

Systemmethoden
Die Organisation eines Bildverarbeitungssystems ist stark von der Anwendung abhängig. Einige Systeme sind eigenständige Anwendungen, die ein spezifisches Mess- oder Erkennungsproblem lösen, während andere ein Subsystem eines größeren Designs bilden, das beispielsweise auch Subsysteme für die Steuerung mechanischer Aktuatoren, Planung, Informationsdatenbanken, Maschinenschnittstellen usw. Die spezifische Implementierung eines Computer-Vision-Systems hängt auch davon ab, ob seine Funktionalität vorgegeben ist oder ob ein Teil davon während des Betriebs erlernt oder geändert werden kann. Viele Funktionen sind für die Anwendung einzigartig. Es gibt jedoch typische Funktionen, die in vielen Bildverarbeitungssystemen zu finden sind.

Bilderfassung – Ein digitales Bild wird von einem oder mehreren Bildsensoren erzeugt, zu denen neben verschiedenen Arten von lichtempfindlichen Kameras Entfernungssensoren, Tomographen, Radar, Ultraschallkameras usw. gehören. Je nach Sensortyp ist dies der Fall Die resultierenden Bilddaten sind ein gewöhnliches 2D-Bild, ein 3D-Volumen oder eine Bildsequenz. Die Pixelwerte entsprechen typischerweise der Lichtintensität in einem oder mehreren Spektralbereichen (graue Bilder oder Farbbilder), können aber auch auf verschiedene physikalische Maße bezogen werden, wie Tiefe, Absorption oder Reflexion von Schall- oder elektromagnetischen Wellen oder Kernspinresonanz.

Vorverarbeitung – Bevor eine Computer-Vision-Methode auf Bilddaten angewendet werden kann, um bestimmte Informationen zu extrahieren, müssen die Daten normalerweise verarbeitet werden, um sicherzustellen, dass bestimmte Annahmen der Methode erfüllt werden. Beispiele sind
Erneute Abtastung, um sicherzustellen, dass das Bildkoordinatensystem korrekt ist.
Rauschunterdrückung, um sicherzustellen, dass das Sensorrauschen keine falschen Informationen enthält.
Kontrastverbesserung, um sicherzustellen, dass relevante Informationen erkannt werden können.
Skalieren Sie die Raumdarstellung, um die Bildstrukturen auf lokal geeigneten Maßstäben zu verbessern.

Merkmalsextraktion – Bildmerkmale mit verschiedenen Komplexitätsgraden werden aus den Bilddaten extrahiert. Typische Beispiele für solche Merkmale sind
Linien, Kanten und Grate.
Lokalisierte Interessenpunkte wie Ecken, Flecken oder Punkte.
Komplexere Merkmale können sich auf Textur, Form oder Bewegung beziehen.

Erkennung / Segmentierung – Zu einem bestimmten Zeitpunkt der Verarbeitung wird entschieden, welche Bildpunkte oder -bereiche des Bildes für die weitere Verarbeitung relevant sind. Beispiele sind
Auswahl eines bestimmten Satzes von Interessenspunkten
Segmentierung eines oder mehrerer Bildbereiche, die ein bestimmtes Objekt von Interesse enthalten.
Die Segmentierung des Bildes in eine verschachtelte Szenenarchitektur umfasste Vordergrund, Objektgruppen, Einzelobjekte oder hervorstehende Objektteile (auch als Raum-Taxon-Szenenhierarchie bezeichnet), während die visuelle Präsenz häufig als räumliche und zeitliche Aufmerksamkeit implementiert wird.
Segmentierung oder Co-Segmentierung eines oder mehrerer Videos in eine Serie von Vordergrundmasken pro Bild, wobei die zeitliche semantische Kontinuität erhalten bleibt.

Verarbeitung auf hoher Ebene – Bei diesem Schritt handelt es sich bei der Eingabe normalerweise um einen kleinen Datensatz, beispielsweise einen Satz von Punkten oder einen Bildbereich, von dem angenommen wird, dass er ein bestimmtes Objekt enthält. Die verbleibende Verarbeitung behandelt zum Beispiel:
Überprüfung, ob die Daten modellbasierte und anwendungsspezifische Annahmen erfüllen.
Schätzung anwendungsspezifischer Parameter wie Objektposition oder Objektgröße.
Bilderkennung – Klassifizierung eines erkannten Objekts in verschiedene Kategorien.
Bildregistrierung – Vergleichen und Kombinieren von zwei verschiedenen Ansichten desselben Objekts.

Entscheidungsfindung Treffen Sie die endgültige Entscheidung, die für den Antrag erforderlich ist, zum Beispiel:
Pass / Fail für automatische Inspektionsanwendungen
Übereinstimmung / Nichtübereinstimmung in Erkennungsanwendungen
Zur weiteren Überprüfung durch Menschen in medizinischen, militärischen, Sicherheits- und Anerkennungsverfahren

Systeme zum Verstehen von Bildern
Bildverstehenssysteme (IUS) umfassen die folgenden drei Abstraktionsebenen: Unter niedrigem Niveau befinden sich Bildgrundelemente wie Kanten, Texturelemente oder Bereiche; Zwischenebene umfasst Grenzen, Flächen und Volumen; und auf hoher Ebene gehören Objekte, Szenen oder Ereignisse. Viele dieser Anforderungen sind wirklich ein Thema für die weitere Forschung.

Die repräsentativen Anforderungen bei der Gestaltung von IUS für diese Ebenen sind: Repräsentation prototypischer Konzepte, Konzeptorganisation, räumliches Wissen, zeitliches Wissen, Skalierung und Beschreibung durch Vergleich und Differenzierung.

Während Inferenz sich auf den Prozess des Ableitens neuer, nicht explizit dargestellter Fakten aus derzeit bekannten Fakten bezieht, bezieht sich die Steuerung auf den Prozess, der auswählt, welche der vielen Inferenz-, Such- und Matching-Techniken in einer bestimmten Verarbeitungsstufe angewendet werden soll. Inferenz- und Kontrollanforderungen für IUS sind: Suche und Aktivierung von Hypothesen, Matching- und Hypothesenprüfung, Generierung und Verwendung von Erwartungen, Änderung und Fokus der Aufmerksamkeit, Sicherheit und Glaubensstärke, Inferenz und Zielerfüllung.

Hardware
Es gibt viele Arten von Bildverarbeitungssystemen, die jedoch alle diese grundlegenden Elemente enthalten: eine Stromquelle, mindestens ein Bildaufnahmegerät (z. B. Kamera, CD-Player usw.), einen Prozessor sowie Steuerungs- und Kommunikationskabel oder dergleichen des drahtlosen Verbindungsmechanismus. Zusätzlich enthält ein praktisches Vision-System eine Software sowie eine Anzeige zur Überwachung des Systems. Sichtsysteme für Innenräume, wie die meisten industriellen, enthalten ein Beleuchtungssystem und können in einer kontrollierten Umgebung angeordnet werden. Darüber hinaus enthält ein komplettes System viele Zubehörteile wie Kamerahalterungen, Kabel und Anschlüsse.

Die meisten Computer-Bildverarbeitungssysteme verwenden Kameras mit sichtbarem Licht, die eine Szene passiv betrachten, mit einer Bildrate von höchstens 60 Bildern pro Sekunde (normalerweise weitaus langsamer).

Einige Computer-Bildverarbeitungssysteme verwenden Bilderfassungshardware mit aktiver Beleuchtung oder etwas anderem als sichtbarem Licht oder beidem. Zum Beispiel ein 3D-Scanner mit strukturiertem Licht, eine thermografische Kamera, ein hyperspektraler Bildgeber, eine Radarbildgebung, ein Lidar-Scanner, ein Magnetresonanzbild, ein Side-Scan-Sonar, ein Sonar mit synthetischer Apertur oder dergleichen. Solche Hardware erfasst „Bilder“. Diese werden dann häufig mit den gleichen Algorithmen verarbeitet, die für die Verarbeitung von Bildern mit sichtbarem Licht verwendet werden.

Während herkömmliche Broadcast- und Consumer-Videosysteme mit einer Rate von 30 Bildern pro Sekunde arbeiten, haben Fortschritte bei der digitalen Signalverarbeitung und Consumer-Grafikhardware Hochgeschwindigkeitsbilderfassung, -verarbeitung und -anzeige für Echtzeitsysteme in der Größenordnung von Hunderten von bis zu 100 möglich gemacht Tausende von Bildern pro Sekunde. Für Anwendungen in der Robotik sind schnelle Echtzeit-Videosysteme von entscheidender Bedeutung und können oft die für bestimmte Algorithmen erforderliche Verarbeitung vereinfachen. In Kombination mit einem Hochgeschwindigkeitsprojektor ermöglicht die schnelle Bildaufnahme die Realisierung von 3D-Messungen und Feature-Tracking.

Egozentrische Sichtsysteme bestehen aus einer tragbaren Kamera, die automatisch Bilder aus der Ich-Perspektive macht.

Ab 2016 entwickeln sich Vision Processing Units zu einer neuen Klasse von Prozessoren, die CPUs und Grafikprozessoren (GPUs) in dieser Funktion ergänzen.