Gestenerkennung

Die Gestenerkennung ist ein Thema in der Informatik und Sprachtechnologie mit dem Ziel, menschliche Gesten mit mathematischen Algorithmen zu interpretieren. Gesten können von jeder körperlichen Bewegung oder jedem Zustand ausgehen, werden aber häufig vom Gesicht oder der Hand ausgehen. Aktuelle Schwerpunkte in diesem Bereich sind die Emotionserkennung durch Gesichts- und Handgestenerkennung. Benutzer können mit einfachen Gesten steuern oder mit Geräten interagieren, ohne sie physisch zu berühren. Es wurden viele Ansätze unter Verwendung von Kameras und Computer-Vision-Algorithmen zum Interpretieren der Zeichensprache gemacht. Das Erkennen und Erkennen von Haltung, Gang, Proxemien und menschlichem Verhalten ist jedoch auch Gegenstand von Gestenerkennungsverfahren. Die Gestenerkennung kann als eine Möglichkeit für Computer verstanden werden, die Sprache des menschlichen Körpers zu verstehen, und schafft so eine umfassendere Brücke zwischen Maschinen und Menschen als primitive Textbenutzeroberflächen oder sogar GUIs (grafische Benutzeroberflächen), die immer noch die Mehrheit der Eingaben auf die Tastatur beschränken und maus.

Durch die Gestenerkennung kann der Mensch mit der Maschine (HMI) kommunizieren und auf natürliche Weise ohne mechanische Geräte interagieren. Mit dem Konzept der Gestenerkennung ist es möglich, einen Finger auf den Computerbildschirm zu richten, so dass sich der Cursor entsprechend bewegt. Dadurch könnten herkömmliche Eingabegeräte wie Maus, Tastaturen und sogar Touchscreens überflüssig werden.

Definition
In Bezug auf die Mensch-Computer-Interaktion definieren Kurtenbach und Hulteen eine Geste wie folgt: „Eine Geste ist eine Bewegung des Körpers, die Informationen enthält. Das Winken zum Abschied ist eine Geste. Das Drücken einer Taste auf einer Tastatur ist keine Geste, weil die Bewegung eingeschaltet ist Ein Finger wird nicht beachtet oder von Bedeutung. Es kommt nur darauf an, welche Taste gedrückt wurde. Im Gegensatz dazu verzichten Harling und Edwards auf Bewegungserfordernisse und verstehen durch eine Geste und statische Handhaltungen. Es kann zwischen Systemen unterschieden werden, bei denen die Sensoren dafür erforderlich sind Die Erkennung befindet sich direkt am Körper des Benutzers und die, bei denen der Benutzer von externen Sensoren beobachtet wird.

Gestenerkennungsfunktionen:

Genauer
Hohe Stabilität
Zeitersparnis beim Entsperren eines Geräts

Die Hauptanwendungsbereiche der Gestenerkennung im aktuellen Szenario sind:

Automobilsektor
Sektor der Unterhaltungselektronik
Transitsektor
Gaming-Sektor
Smartphones freischalten
Verteidigung
Heimautomatisierung
Gebärdensprache Interpretation

Die Gestenerkennungstechnologie wurde als äußerst erfolgreiche Technologie angesehen, da sie beim Entsperren von Geräten Zeit spart.

Die Gestenerkennung kann mit Techniken der Bildverarbeitung und Bildverarbeitung durchgeführt werden.

Die Literatur umfasst laufende Arbeiten im Bereich Computer Vision zur Erfassung von Gesten oder allgemeiner menschlicher Haltung und Bewegungen durch an einen Computer angeschlossene Kameras.

Gestenerkennung und Stift-Computing: Das Pen-Computing reduziert die Auswirkungen eines Systems auf die Hardware und erhöht zudem die Reichweite der physischen Objekte der Welt, die zur Steuerung über herkömmliche digitale Objekte wie Tastaturen und Mäuse hinaus genutzt werden können. Solche Implementierungen könnten einen neuen Bereich von Hardware ermöglichen, für den keine Bildschirme erforderlich sind. Diese Idee kann zur Erstellung einer holographischen Anzeige führen. Der Begriff Gestenerkennung wurde verwendet, um enger auf Handschriftsymbole ohne Texteingabe zu verweisen, wie z. B. das Einfärben auf einem Grafiktablett, Multi-Touch-Gesten und die Erkennung von Mausgesten. Dies ist eine Computerinteraktion durch das Zeichnen von Symbolen mit einem Zeigegerät-Cursor.

Gestenarten
Bei Computerschnittstellen werden zwei Arten von Gesten unterschieden: Wir betrachten Online-Gesten, die auch als direkte Manipulationen wie Skalieren und Drehen betrachtet werden können. Im Gegensatz dazu werden Offline-Gesten normalerweise verarbeitet, nachdem die Interaktion abgeschlossen ist. Zum Beispiel wird ein Kreis gezeichnet, um ein Kontextmenü zu aktivieren.

Offline-Gesten: Die Gesten, die nach der Benutzerinteraktion mit dem Objekt verarbeitet werden. Ein Beispiel ist die Geste zum Aktivieren eines Menüs.
Online-Gesten: Direkte Manipulationsgesten. Sie werden verwendet, um ein Objekt zu skalieren oder zu drehen.
Berührungslose Schnittstelle
Die berührungslose Benutzeroberfläche ist eine aufstrebende Technologie in Bezug auf die Gestensteuerung. Berührungslose Benutzerschnittstelle (TUI) bezeichnet den Befehl, den Computer über Körperbewegungen und Gesten zu befehlen, ohne eine Tastatur, Maus oder einen Bildschirm zu berühren. Zum Beispiel ist Microsofts Kinect eine berührungslose Spieloberfläche. Produkte wie die Wii werden jedoch nicht als völlig berührungslos betrachtet, da sie an Controller angeschlossen sind. Die berührungslose Benutzeroberfläche sowie die Gestensteuerung werden immer beliebter, da sie die Möglichkeit bieten, mit Geräten zu interagieren, ohne sie physisch zu berühren.

Gerätebasierte Gestenerkennung
Die meisten Systeme, die am Körper getragen werden oder von Hand geführt werden, verwenden in Datenhandschuhen integrierte Beschleunigungs- oder Positionssensoren. Der Nachteil von datenhandschuhbasierten Systemen besteht darin, dass der Benutzer den Handschuh tragen muss, um das System verwenden zu können.

Handgeführte Systeme wie der Nintendo Wii-Controller und BlueWand, die von BeeCon hergestellt werden, können auch für die Gesteneingabe verwendet werden. Beide Systeme können vom Benutzer gehandhabt werden und verfügen über Beschleunigungssensoren, um die Bewegung jedes Geräts zu erfassen.

Für neuere Geräte wie Smartphones und Tablet-Computer werden insbesondere Touchscreens verwendet, die durch „Swipe-Gesten“ genutzt werden können. Insbesondere bieten Multi-Touch-Bildschirme die gleichzeitige Erkennung mehrerer unabhängiger Fingerabdrücke, so dass beispielsweise mit zwei diagonal angebrachten Fingerspitzen Fenster vergrößert oder verkleinert werden können.

Kamerabasierte Gestenerkennung
Systeme mit externen Sensoren sind meist kamerabasierte Systeme. Die Kameras werden zum Fotografieren des Benutzers verwendet. Es gibt sowohl Systeme mit einer Kamera als auch mit mehreren Kameras. Die neueren Systeme arbeiten häufig mit 3D-Daten, die entweder mit Flugzeitkameras oder mit sogenannten strukturierten Lichtkameras arbeiten. Kamerabasierte Techniken basieren auf 2D- und 3D-Bildanalyseverfahren, um die Haltung des Benutzers zu erkennen. Die kamerabasierte Gestenerkennung wird beispielsweise in Spielen für EyeToy-Spiele verwendet, die an Spielekonsolen angeschlossen werden können. Ein völlig neuer Ansatz ist die Gestensteuerung über die Stereoskopie. Der Vorteil ist, dass sie ohne Infrarotlicht arbeitet und somit im Freien funktioniert.

Bei der technischen Bildanalyse sind grundsätzlich mehrere Ansätze zu unterscheiden: Entweder wird eine Datenbank mit relevanten Gesten erstellt, die auf der Grundlage eines Meridians von mehr als 1.000 Videoanalysen pro Geste erstellt werden. Aufgezeichnete Kontrollgesten werden dann mit der Datenbank verglichen und entsprechend bestimmt. Diese Lösung wird beispielsweise von Microsoft mit der Xbox in Verbindung mit der Kinect 3D-Kamera verwendet. Die Analyse kann im zweidimensionalen Raum unter Verwendung von Bild- und Videoinformationen durchgeführt werden. Im dreidimensionalen Raum spricht man von volumetrischer Berechnung, beispielsweise werden Körper durch NURBS oder Polygone dargestellt. Eine Berechnung von Echtzeit-3D-Daten befindet sich derzeit in der Entwicklung. Der Nachteil dieser datenbankbasierten Analyse besteht darin, dass für die Datenbank viel Rechenleistung erforderlich ist. Alternativ arbeitet die Software mit einem echten Skelettidentifikator, d. H. H. Aus dem Kameradatenkörper werden Hand und / oder Finger erkannt und durch ein vereinfachtes Skelettmodell den vordefinierten Gesten zugeordnet. Diese Lösung verspricht eine viel größere Vielfalt an Gesten und Präzision, ist jedoch technisch viel anspruchsvoller.

Ziel der Forschung und Entwicklung in den nächsten Jahren ist die Implementierung der Gestenerkennung im Kontext von Embedded Software, die plattform- und kameraunabhängig ist und wenig Energie benötigt und daher beispielsweise auch in Mobiltelefonen, Tablets oder der Navigation eingesetzt werden kann Systeme.

Im Jahr 2012 gaben mehrere kommerzielle Anbieter bekannt, dass sie mit Gestenerkennungsgeräten auf den Markt kommen wollten, die deutlich besser sein sollten als derzeit verfügbare Geräte (insbesondere das Kinect für die Xbox). Zum Beispiel hat Samsung den Smart TV auf der CES 2012 in Las Vegas präsentiert. Ein anderes Unternehmen ist LeapMotion, wo das Werbevideo für The Leap in der Community kritisiert wurde, da einige offensichtliche Szenen aufgenommen wurden. In Deutschland ist die Gestensteuerung ein besonderes Thema in der Automobilindustrie, wo besonders stabile und mobile Systeme erforderlich sind, wie etwa die von gestigon hergestellten, die ebenfalls an einer Embedded-Lösung arbeiten. Die 3D-Gestenerkennung ist auch in den Bereichen Digital Signage, Medientechnologie, Medienkunst und Performance beliebt. Eine einfache Möglichkeit, die Gestenerkennung in diesen Bereichen einzusetzen und z. Die Steuerung anderer Software ist beispielsweise Kinetic Space. Andere Hersteller sind Omek, Softkinetic und Myestro Interactive.

Arten von berührungsloser Technologie
Es gibt eine Reihe von Geräten, die diese Art von Schnittstelle verwenden, z. B. Smartphones, Laptops, Spiele und Fernseher. Obwohl berührungslose Technologie hauptsächlich in Spielsoftware zu finden ist, verbreitet sich das Interesse inzwischen auch in anderen Bereichen, einschließlich der Automobil- und Gesundheitsbranche. Demnächst wird berührungslose Technologie und Gestensteuerung in Fahrzeugen außerhalb der Spracherkennung implementiert. Siehe BMW Serie 7.

Zukunft der berührungslosen Technologie
Es gibt bereits eine große Anzahl von Unternehmen auf der ganzen Welt, die Gestenerkennungstechnologie herstellen, wie zum Beispiel:

Intel Corp.
White Paper: Entdecken Sie die Benutzererfahrungen von Intel, die zeigen, wie die berührungslose Multifaktor-Authentifizierung (MFA) dazu beitragen kann, dass Gesundheitsorganisationen Sicherheitsrisiken minimieren und gleichzeitig die Effizienz, die Bequemlichkeit und die Patientenversorgung des Klinikers verbessern. Diese berührungslose MFA-Lösung kombiniert Gesichtserkennung und Geräteerkennung für die Zwei-Faktor-Benutzerauthentifizierung.

Microsoft Corp. in den USA
Das Ziel des Projekts ist es, die Verwendung der berührungslosen Interaktion innerhalb von chirurgischen Einstellungen zu untersuchen, sodass Bilder berührungslos durch die Verwendung einer kamerabasierten Gestenerkennungstechnologie betrachtet, gesteuert und bearbeitet werden können. Das Projekt zielt insbesondere darauf ab, die Herausforderungen dieser Umgebungen für den Entwurf und Einsatz solcher Systeme zu verstehen und die Art und Weise zu beschreiben, auf welche Weise diese Technologien die chirurgische Praxis verändern können. Während es uns in erster Linie darum geht, die Bedingungen der Asepsis aufrechtzuerhalten, bietet der Einsatz dieser berührungslosen Gesten-basierten Technologien andere Einsatzmöglichkeiten.

Elliptic Labs
Die Elliptic Labs Software Suite bietet Gesten- und Proximity-Funktionen, indem der vorhandene Hörer und das Mikrofon, die bisher nur für Audio verwendet wurden, wiederverwendet werden. Ultraschallsignale, die von in Smartphones und Tablets integrierten Lautsprechern gesendet werden, prallen gegen eine Hand / ein Objekt / einen Kopf und werden von Mikrofonen aufgezeichnet, die ebenfalls in diese Geräte integriert sind. Auf diese Weise erkennt die Elliptic Labs-Technologie Ihre Handgesten und verwendet sie, um Objekte auf einem Bildschirm zu verschieben, ähnlich wie Fledermäuse die Echoortung zum Navigieren verwenden.

Während diese Unternehmen in dieser Zeit an der Spitze der berührungslosen Technologie für die Zukunft stehen, gibt es viele andere Unternehmen und Produkte, die derzeit ebenfalls im Trend sind und möglicherweise auch einen Mehrwert für dieses neue Feld darstellen. Hier einige Beispiele:

Tobii Rex: Eye-Tracking-Gerät aus Schweden

Airwriting: Technologie, mit der Nachrichten und Texte in die Luft geschrieben werden können

eyeSight: Ermöglicht die Navigation eines Bildschirms, ohne das Gerät physisch zu berühren

Sprungbewegung: Bewegungssensorvorrichtung

Myoelectric Armband: ermöglicht die Kommunikation von Bluetooth-Geräten

Eingabegeräte
Die Fähigkeit, die Bewegungen einer Person zu verfolgen und zu bestimmen, welche Gesten sie ausführen kann, kann durch verschiedene Werkzeuge erreicht werden. Die kinetischen Benutzeroberflächen (KUIs) sind eine aufkommende Art von Benutzeroberflächen, über die Benutzer mit Computergeräten durch die Bewegung von Objekten und Körpern interagieren können. Beispiele für KUIs umfassen konkrete Benutzeroberflächen und bewegungsbewusste Spiele wie Wii und Microsoft Kinect und andere interaktive Projekte.

Obwohl bei der bild- / videobasierten Gestenerkennung viel Nachforschungen angestellt werden, gibt es einige Unterschiede zwischen den Werkzeugen und Umgebungen, die zwischen den Implementierungen verwendet werden.

Drahtgebundene Handschuhe. Diese können dem Computer mit Hilfe von magnetischen oder Trägheitsverfolgungsgeräten Informationen über die Position und Drehung der Hände liefern. Darüber hinaus können manche Handschuhe Fingerbiegungen mit einem hohen Maß an Genauigkeit (5 bis 10 Grad) erkennen oder dem Benutzer sogar eine haptische Rückmeldung geben, was eine Simulation des Berührungsempfindens darstellt. Das erste im Handel erhältliche Hand-Tracking-Handgerät war DataGlove, ein Handschuh-Gerät, das Handposition, Bewegung und Fingerbiegung erkennen konnte. Dabei werden Glasfaserkabel verwendet, die über den Handrücken laufen. Lichtimpulse werden erzeugt, und wenn die Finger gebogen werden, tritt Licht durch kleine Risse aus und der Verlust wird registriert, was eine Annäherung an die Handhaltung ergibt.
Tiefenempfindliche Kameras. Mit speziellen Kameras wie strukturiertem Licht oder Time-of-Flight-Kameras kann man eine Tiefenkarte dessen erstellen, was in kurzer Entfernung durch die Kamera gesehen wird, und diese Daten verwenden, um eine 3D-Darstellung des Gesehenen zu approximieren. Diese können aufgrund ihrer kurzen Reichweite für die Erkennung von Handgesten effektiv sein.
Stereokameras. Mit zwei Kameras, deren Beziehungen zueinander bekannt sind, kann eine 3D-Darstellung durch die Ausgabe der Kameras angenähert werden. Um die Beziehungen der Kameras zu ermitteln, können Sie eine Positionsreferenz wie einen Lexian-Streifen oder Infrarotstrahler verwenden. In Verbindung mit der direkten Bewegungsmessung (6D-Vision) können Gesten direkt erkannt werden.
Gesten-basierte Controller. Diese Steuerungen dienen als Erweiterung des Körpers, sodass bei Bewegungen die Bewegungsabläufe leicht von der Software erfasst werden können. Ein Beispiel für aufkommende gestenbasierte Bewegungserfassung ist das Skelett-Hand-Tracking, das für Virtual-Reality- und Augmented-Reality-Anwendungen entwickelt wird. Ein Beispiel für diese Technologie zeigen Tracking-Unternehmen uSens und Gestigon, mit denen Benutzer ohne Controller mit ihrer Umgebung interagieren können.

Ein anderes Beispiel hierfür sind die Bewegungen der Mausgesten, bei denen die Bewegung der Maus mit einem von der Hand einer Person gezeichneten Symbol korreliert ist. Dies gilt auch für die Wii-Fernbedienung oder das Myo-Armband oder das mForce Wizard-Armband, mit dem Änderungen der Beschleunigung über die Zeit untersucht werden können Gesten darstellen. Geräte wie der LG Electronics Magic Wand, der Loop und der Scoop verwenden die Freespace-Technologie von Hillcrest Labs, die MEMS-Beschleunigungssensoren, Gyroskope und andere Sensoren verwendet, um Gesten in Cursorbewegungen zu übersetzen. Die Software kompensiert auch menschliches Zittern und unbeabsichtigte Bewegungen. AudioCubes sind ein weiteres Beispiel. Die Sensoren dieser intelligenten Leuchtwürfel können verwendet werden, um Hände und Finger sowie andere Objekte in der Nähe zu erfassen, und sie können zur Verarbeitung von Daten verwendet werden. Die meisten Anwendungen liegen in der Musik- und Klangsynthese, können aber auch auf andere Bereiche angewendet werden.

Einzelne Kamera Eine Standard-2D-Kamera kann zur Gestenerkennung verwendet werden, wenn die Ressourcen / Umgebung für andere Formen der bildbasierten Erkennung nicht geeignet wäre. Früher wurde davon ausgegangen, dass eine einzelne Kamera möglicherweise nicht so effektiv ist wie eine Stereo- oder Tiefenerkennungskamera, aber einige Unternehmen stellen diese Theorie in Frage. Software-basierte Gestenerkennungstechnologie mit einer Standard-2D-Kamera, die robuste Handgesten erkennen kann.
Radar. Siehe Projekt Soli bei Google I / O 2015. Ab 13:30 Uhr, Google I / O 2015 – Ein kleiner Schwachkopf. Wunderschönen. Tech und Mensch. Arbeit und Liebe. EIN WASSERHAHN. – YouTube und ein kurzes Einführungsvideo: Willkommen bei Project Soli – YouTube

Algorithmen
Abhängig von der Art der Eingabedaten kann der Ansatz zum Interpretieren einer Geste auf unterschiedliche Weise erfolgen. Die meisten Techniken basieren jedoch auf Schlüsselzeigern, die in einem 3D-Koordinatensystem dargestellt werden. Basierend auf der relativen Bewegung dieser Elemente kann die Geste abhängig von der Qualität der Eingabe und der Annäherung des Algorithmus mit hoher Genauigkeit erfasst werden.
Um Bewegungen des Körpers zu interpretieren, muss man sie nach den gemeinsamen Eigenschaften und der Botschaft klassifizieren, die die Bewegungen ausdrücken können. In Gebärdensprache steht zum Beispiel jede Geste für ein Wort oder eine Phrase. Die Taxonomie, die für die Mensch-Computer-Interaktion sehr geeignet erscheint, wurde von Quek in „Auf dem Weg zu einer Vision-basierten Handgesten-Schnittstelle“ vorgeschlagen. Er stellt mehrere interaktive Gesten-Systeme vor, um den gesamten Raum der Gesten einzufangen:

Manipulativ
Semaphorisch
Konversation

In der Literatur werden zwei unterschiedliche Ansätze bei der Gestenerkennung unterschieden: Ein 3D-Modell und ein Erscheinungsbild. Die wichtigste Methode verwendet 3D-Informationen von Schlüsselelementen der Körperteile, um mehrere wichtige Parameter zu erhalten, z. B. die Handflächenposition oder die Gelenkwinkel. Andererseits verwenden Appearance-basierte Systeme Bilder oder Videos zur direkten Interpretation.

3D-modellbasierte Algorithmen
Der 3D-Modellansatz kann volumetrische oder Skelettmodelle oder sogar eine Kombination aus beiden verwenden. Volumetrische Ansätze wurden in der Computeranimationsindustrie und für Zwecke des Computer Vision stark eingesetzt. Die Modelle werden im Allgemeinen aus komplizierten 3D-Oberflächen wie NURBS- oder Polygon-Netzen erstellt.

Der Nachteil dieser Methode ist, dass sie sehr rechenintensiv ist und Systeme für die Echtzeitanalyse noch entwickelt werden müssen. Für den Moment wäre ein interessanter Ansatz, einfache primitive Objekte auf die wichtigsten Körperteile der Person abzubilden (z. B. Zylinder für Arme und Hals, Kugel für den Kopf) und zu analysieren, wie diese miteinander interagieren. Darüber hinaus sind einige abstrakte Strukturen wie Super-Quadriken und verallgemeinerte Zylinder für die Approximation der Körperteile möglicherweise noch geeigneter. Das Spannende an diesem Ansatz ist, dass die Parameter für diese Objekte recht einfach sind. Um die Beziehung zwischen ihnen besser zu modellieren, verwenden wir Einschränkungen und Hierarchien zwischen unseren Objekten.

Skelett-basierte Algorithmen
Anstatt die 3D-Modelle intensiv zu bearbeiten und mit vielen Parametern umzugehen, kann man einfach eine vereinfachte Version der Gelenkwinkelparameter zusammen mit den Segmentlängen verwenden. Dies ist als Skelettdarstellung des Körpers bekannt, bei der ein virtuelles Skelett der Person berechnet wird und Teile des Körpers bestimmten Segmenten zugeordnet werden. Die Analyse erfolgt hier anhand der Position und Orientierung dieser Segmente und der Beziehung zwischen ihnen (z. B. dem Winkel zwischen den Gelenken und der relativen Position oder Orientierung).

Vorteile der Verwendung von Skelettmodellen:

Algorithmen sind schneller, da nur Schlüsselparameter analysiert werden.
Musterabgleich mit einer Vorlagendatenbank ist möglich
Durch die Verwendung wichtiger Punkte kann sich das Erkennungsprogramm auf die wesentlichen Körperteile konzentrieren

Darstellungsbasierte Modelle
Diese Modelle verwenden keine räumliche Darstellung des Körpers mehr, da sie die Parameter mithilfe einer Vorlagendatenbank direkt aus den Bildern oder Videos ableiten. Einige basieren auf den verformbaren 2D-Vorlagen der menschlichen Körperteile, insbesondere der Hände. Verformbare Vorlagen sind Sätze von Punkten auf der Kontur eines Objekts, die als Interpolationsknoten für die Konturannäherung des Objekts verwendet werden. Eine der einfachsten Interpolationsfunktionen ist die lineare Funktion, die eine Durchschnittsform aus Punktmengen, Parametern der Punktvariabilität und externen Deformatoren ausführt. Diese vorlagenbasierten Modelle werden hauptsächlich für das Hand-Tracking verwendet, könnten aber auch für die einfache Gestenklassifizierung von Nutzen sein.

Ein zweiter Ansatz bei der Gestenerkennung mithilfe von auf Aussehen basierenden Modellen verwendet Bildsequenzen als Gestenvorlagen. Parameter für diese Methode sind entweder die Bilder selbst oder bestimmte davon abgeleitete Merkmale. Meist werden nur eine (monoskopische) oder zwei (stereoskopische) Ansichten verwendet.

Herausforderungen
Mit der Genauigkeit und Nützlichkeit von Gestenerkennungssoftware sind viele Herausforderungen verbunden. Für die bildbasierte Gestenerkennung gibt es Einschränkungen bei der verwendeten Ausrüstung und beim Bildrauschen. Bilder oder Videos sind möglicherweise nicht konstant beleuchtet oder am selben Ort. Elemente im Hintergrund oder bestimmte Merkmale der Benutzer können die Erkennung erschweren.

Die Vielzahl von Implementierungen für die bildbasierte Gestenerkennung kann auch Probleme für die Durchführbarkeit der Technologie für die allgemeine Verwendung verursachen. Beispielsweise funktioniert ein für eine Kamera kalibrierter Algorithmus möglicherweise nicht für eine andere Kamera. Die Menge an Hintergrundgeräuschen verursacht auch Nachverfolgungs- und Erkennungsschwierigkeiten, insbesondere wenn Verschlüsse (teilweise und vollständig) auftreten. Darüber hinaus verursachen die Entfernung von der Kamera sowie die Auflösung und Qualität der Kamera auch Unterschiede in der Erkennungsgenauigkeit.

Um menschliche Gesten durch visuelle Sensoren erfassen zu können, sind auch robuste Computer-Vision-Methoden erforderlich, beispielsweise für das Hand-Tracking und die Handhaltung, oder für die Erfassung von Kopfbewegungen, Gesichtsausdrücken oder Blickrichtung.

„Gorilla-Arm“
„Gorilla-Arm“ war ein Nebeneffekt des vertikal ausgerichteten Touchscreens oder des Lichtstiftes. Bei längerem Gebrauch begannen die Arme der Benutzer sich müde und / oder unwohl zu fühlen. Dieser Effekt trug trotz anfänglicher Beliebtheit in den achtziger Jahren zum Rückgang der Touchscreen-Eingabe bei.

Um die Ermüdung der Arme und die Nebenwirkung des Gorilla-Arms zu messen, entwickelten die Forscher eine Technik namens Consumed Endurance.