Reconnaissance gestuelle

La reconnaissance des gestes est un sujet en informatique et en technologie du langage ayant pour objectif d’interpréter les gestes humains au moyen d’algorithmes mathématiques. Les gestes peuvent provenir de tout mouvement ou état corporel, mais ils proviennent généralement du visage ou de la main. Les domaines d’action actuels dans le domaine incluent la reconnaissance des émotions à partir de la reconnaissance des gestes du visage et des mains. Les utilisateurs peuvent utiliser des gestes simples pour contrôler ou interagir avec des appareils sans les toucher physiquement. De nombreuses approches ont été utilisées à l’aide de caméras et d’algorithmes de vision par ordinateur pour interpréter le langage des signes. Cependant, l’identification et la reconnaissance de la posture, de la démarche, de la proxémie et des comportements humains font également l’objet de techniques de reconnaissance des gestes. La reconnaissance des gestes peut être vue comme un moyen pour les ordinateurs de commencer à comprendre le langage du corps humain, créant ainsi un pont plus riche entre les machines et les humains que les interfaces utilisateur textuelles primitives ou même les interfaces utilisateur graphiques, qui limitent encore la majorité des entrées au clavier. et la souris.

La reconnaissance des gestes permet aux humains de communiquer avec la machine (IHM) et d’interagir naturellement sans aucun dispositif mécanique. En utilisant le concept de reconnaissance des gestes, il est possible de pointer un doigt sur l’écran de l’ordinateur pour que le curseur se déplace en conséquence. Cela pourrait rendre redondants les périphériques d’entrée classiques tels que souris, claviers et même écrans tactiles.

Définition
En ce qui concerne l’interaction homme-machine, Kurtenbach et Hulteen définissent un geste comme suit: “Un geste est un mouvement du corps qui contient des informations. Dire au revoir est un geste. Appuyer sur une touche du clavier n’est pas un geste car le mouvement un doigt n’est ni observé ni significatif, il importe uniquement de savoir quelle touche a été enfoncée. En revanche, Harling et Edwards renoncent à l’obligation de mouvement et se comprennent par un geste et des postures statiques. Il est possible de distinguer les systèmes dans lesquels les capteurs nécessaires les détecteurs sont situés directement sur le corps de l’utilisateur, et ceux dans lesquels l’utilisateur est observé par des capteurs externes.

Caractéristiques de reconnaissance de geste:

Plus précise
Haute stabilité
Gain de temps pour déverrouiller un appareil

Les principaux domaines d’application de la reconnaissance des gestes dans le scénario actuel sont les suivants:

Secteur automobile
Secteur de l’électronique grand public
Secteur du transit
Secteur des jeux
Pour déverrouiller les smartphones
La défense
Automatisation de la maison
Interprétation en langue des signes

La technologie de reconnaissance des gestes a été considérée comme la technologie la plus utilisée, car elle permet de gagner du temps pour déverrouiller n’importe quel appareil.

La reconnaissance des gestes peut être réalisée à l’aide de techniques de vision par ordinateur et de traitement d’images.

La littérature comprend des travaux en cours dans le domaine de la vision par ordinateur sur la capture de gestes ou des poses humaines plus générales et des mouvements au moyen de caméras connectées à un ordinateur.

Reconnaissance des gestes et stylo informatique: le pen computing réduit l’impact matériel d’un système et augmente également la gamme d’objets du monde physique utilisables pour le contrôle au-delà des objets numériques traditionnels tels que les claviers et les souris. De telles implémentations pourraient permettre une nouvelle gamme de matériel ne nécessitant pas de moniteur. Cette idée peut conduire à la création d’un affichage holographique. Le terme «reconnaissance de geste» a été utilisé pour désigner de manière plus étroite les symboles d’écriture manuscrite sans saisie de texte, tels que l’encrage sur une tablette graphique, les gestes tactiles tactiles et la reconnaissance des gestes de souris. Il s’agit d’une interaction informatique par le biais du dessin de symboles avec un curseur de pointeur.

Types de geste
Dans les interfaces informatiques, deux types de gestes sont distingués: Nous considérons les gestes en ligne, qui peuvent également être considérés comme des manipulations directes comme la mise à l’échelle et la rotation. En revanche, les gestes hors ligne sont généralement traités une fois l’interaction terminée. Par exemple, un cercle est dessiné pour activer un menu contextuel.

Gestes hors ligne: Gestes traités après l’interaction de l’utilisateur avec l’objet. Un exemple est le geste pour activer un menu.
Gestes en ligne: gestes de manipulation directe. Ils sont utilisés pour redimensionner ou faire pivoter un objet tangible.
Interface sans contact
L’interface utilisateur sans contact est un type de technologie émergent en matière de contrôle gestuel. L’interface utilisateur sans contact (TUI) est le processus de commande de l’ordinateur via les mouvements du corps et les gestes sans toucher un clavier, une souris ou un écran. Par exemple, le Kinect de Microsoft est une interface de jeu sans contact. Toutefois, des produits tels que la Wii ne sont pas considérés comme entièrement sans contact, car ils sont reliés à des contrôleurs. En plus des commandes gestuelles, l’interface sans contact gagne en popularité, car elle offre la possibilité d’interagir avec les appareils sans les toucher physiquement.

Reconnaissance des gestes par appareil
La plupart des systèmes basés sur le corps ou guidés par un capteur à main utilisent des capteurs de données intégrés pour l’accélération ou la position. L’inconvénient des systèmes basés sur des gants de données est que l’utilisateur doit porter le gant pour utiliser le système.

Les systèmes à guidage manuel, tels que le contrôleur Nintendo Wii et BlueWand, fabriqués par BeeCon, peuvent également être utilisés pour la saisie gestuelle. Les deux systèmes peuvent être gérés par l’utilisateur et disposent de capteurs d’accélération pour détecter le mouvement de chaque appareil.

Pour les appareils plus récents tels que les smartphones et les tablettes, on utilise en particulier les écrans tactiles, qui peuvent être utilisés par “balayer des gestes”. En particulier, les écrans multipoints permettent la détection simultanée de plusieurs empreintes digitales indépendantes, de sorte que, par exemple, avec deux doigts fixés en diagonale, les fenêtres peuvent être agrandies ou réduites.

Reconnaissance gestuelle par caméra
Les systèmes dotés de capteurs externes sont principalement des systèmes basés sur une caméra. Les caméras sont utilisées pour prendre des photos de l’utilisateur. Il existe deux systèmes avec une caméra et plusieurs caméras. Les systèmes les plus récents fonctionnent souvent avec des données 3D qui fonctionnent soit avec des caméras à temps de vol, soit avec des caméras dites à lumière structurée. Les techniques basées sur une caméra reposent sur des techniques d’analyse d’images 2D et 3D pour détecter la posture de l’utilisateur. La reconnaissance des gestes par caméra est utilisée, par exemple, dans les jeux pour le EyeToy connectable aux consoles de jeux. Le contrôle gestuel via la stéréoscopie est une toute nouvelle approche. Son avantage est qu’il fonctionne sans lumière infrarouge et fonctionne donc à l’extérieur.

En technique d’analyse d’images, il existe plusieurs approches à distinguer: soit une base de données est créée avec des gestes pertinents créés à partir d’un méridien de plus de 1 000 analyses vidéo par geste. Les gestes de contrôle enregistrés sont ensuite comparés à la base de données et déterminés en conséquence. Par exemple, cette solution est utilisée par Microsoft avec la Xbox en conjonction avec la caméra 3D Kinect. L’analyse peut être effectuée dans un espace à deux dimensions en utilisant des informations d’image et vidéo. Dans l’espace tridimensionnel, on parle de calcul volumétrique, par exemple, les corps sont représentés par des NURBS ou des polygones. Un calcul de données 3D en temps réel est en cours de développement. L’inconvénient de cette analyse basée sur une base de données est qu’elle requiert beaucoup de puissance de calcul de la base de données. Sinon, le logiciel fonctionne avec un véritable identifiant de squelette, i. H. À partir du corps de données de la caméra, la main et / ou les doigts sont reconnus et attribués aux gestes prédéfinis par un modèle de squelette simplifié. Cette solution promet une plus grande variété de gestes et de précision, mais elle est techniquement beaucoup plus exigeante.

L’objectif de la recherche et du développement dans les années à venir est de mettre en œuvre la reconnaissance des gestes dans le contexte de logiciels embarqués, indépendants de la plateforme et de la caméra et demandant peu d’énergie, pouvant donc également être utilisés par exemple dans les téléphones mobiles, les tablettes ou la navigation. systèmes.

En 2012, un certain nombre de fournisseurs commerciaux ont annoncé vouloir commercialiser des dispositifs de reconnaissance des gestes qui devraient être nettement supérieurs aux dispositifs actuellement disponibles (notamment le Kinect pour la Xbox). Par exemple, Samsung a présenté la Smart TV au CES 2012 à Las Vegas. LeapMotion est une autre société, où la vidéo promotionnelle de The Leap a été critiquée dans la communauté, car certaines scènes évidentes ont été enregistrées. En Allemagne, le contrôle des gestes est un sujet particulier dans l’industrie automobile, où des systèmes particulièrement stables et mobiles sont nécessaires, tels que ceux fabriqués par Gestigon, qui fonctionnent également sur une solution intégrée. La reconnaissance gestuelle 3D est également populaire dans les domaines de la signalisation numérique, de la technologie des médias, de l’art médiatique et de la performance. Un moyen facile d’utiliser la reconnaissance des gestes dans ces domaines et z. Par exemple, le contrôle d’un autre logiciel est Kinetic Space. Les autres fabricants comprennent Omek, Softkinetic et Myestro Interactive.

Types de technologie sans contact
Un certain nombre de périphériques utilisant ce type d’interface, tels que les smartphones, les ordinateurs portables, les jeux et la télévision. Bien que la technologie sans contact concerne principalement les logiciels de jeu, l’intérêt se répand maintenant dans d’autres domaines, notamment ceux de l’automobile et de la santé. Bientôt, la technologie sans contact et le contrôle des gestes seront intégrés aux voitures au-delà de la reconnaissance vocale. Voir BMW Série 7.

L’avenir de la technologie sans contact
Il existe déjà dans le monde entier un grand nombre d’entreprises qui produisent des technologies de reconnaissance des gestes, telles que:

Intel Corp.
Livre blanc: Explorez la recherche sur l’expérience utilisateur d’Intel, qui montre comment l’authentification sans contact multifactorielle (MFA) peut aider les organisations de soins de santé à réduire les risques de sécurité tout en améliorant l’efficacité, la commodité et les soins des patients. Cette solution MFA sans contact combine les fonctionnalités de reconnaissance faciale et de reconnaissance d’appareil pour une authentification utilisateur à deux facteurs.

Microsoft Corp. aux États-Unis
L’objectif du projet est ensuite d’explorer l’utilisation de l’interaction sans contact dans les paramètres chirurgicaux, ce qui permet de visualiser, de contrôler et de manipuler les images sans contact grâce à l’utilisation d’une technologie de reconnaissance des gestes basée sur une caméra. En particulier, le projet cherche à comprendre les défis de ces environnements pour la conception et le déploiement de tels systèmes, et à articuler les moyens par lesquels ces technologies peuvent modifier la pratique chirurgicale. Bien que nos principales préoccupations concernent le maintien des conditions d’asepsie, l’utilisation de ces technologies sans contact basées sur les gestes offre d’autres utilisations potentielles.

Laboratoires Elliptiques
La suite logicielle Elliptic Labs fournit des fonctions de geste et de proximité en réutilisant l’écouteur et le microphone existants, utilisés auparavant uniquement pour l’audio. Les signaux ultrasoniques envoyés dans les airs par les haut-parleurs intégrés dans les smartphones et les tablettes rebondissent sur une main / un objet / une tête et sont enregistrés par des microphones, également intégrés à ces appareils. De cette manière, la technologie d’Elliptic Labs reconnaît les gestes de votre main et les utilise pour déplacer des objets sur un écran, de la même manière que les chauves-souris utilisent l’écholocation pour naviguer.

Alors que ces sociétés sont à l’avant-garde de la technologie sans contact pour l’avenir à l’heure actuelle, de nombreuses autres entreprises et produits sont également à la mode et pourraient également ajouter de la valeur à ce nouveau domaine. Voici quelques exemples:

Tobii Rex: dispositif de suivi de l’oeil de Suède

Airwriting: technologie permettant l’écriture de messages et de textes en l’air

EyeSight: permet de naviguer sur un écran sans toucher physiquement l’appareil

Leap Motion: capteur de mouvement

Brassard myoélectrique: permet la communication de périphériques Bluetooth

Des dispositifs d’entrée
La capacité de suivre les mouvements d’une personne et de déterminer les gestes qu’elle peut effectuer peut être obtenue à l’aide de divers outils. Les interfaces utilisateur cinétiques (KUI) sont un type émergent d’interfaces utilisateur permettant aux utilisateurs d’interagir avec des périphériques informatiques par le mouvement d’objets et de corps. Les exemples d’interfaces utilisateur clés incluent les interfaces utilisateur concrètes et les jeux sensibles au mouvement tels que la Wii et le Kinect de Microsoft, ainsi que d’autres projets interactifs.

Bien que de nombreuses recherches soient effectuées dans le domaine de la reconnaissance gestuelle basée sur les images et la vidéo, les outils et les environnements utilisés entre les mises en œuvre varient quelque peu.

Gants filaires. Ceux-ci peuvent fournir à l’ordinateur des informations sur la position et la rotation des mains à l’aide de dispositifs de suivi magnétiques ou inertiels. En outre, certains gants peuvent détecter la flexion des doigts avec un degré élevé de précision (5 à 10 degrés), voire même fournir un retour haptique à l’utilisateur, ce qui est une simulation du sens du toucher. Le premier dispositif de type gant de suivi des mains disponible dans le commerce était le DataGlove, un dispositif de type gant capable de détecter la position de la main, le mouvement et la courbure des doigts. Cela utilise des câbles à fibres optiques qui descendent sur le dos de la main. Des impulsions lumineuses sont créées et lorsque les doigts sont pliés, la lumière s’échappe par de petites fissures et la perte est enregistrée, donnant une approximation de la pose de la main.
Caméras sensibles à la profondeur. À l’aide de caméras spécialisées telles que des caméras à lumière structurée ou à temps de vol, il est possible de générer une carte de profondeur de ce que la caméra voit à courte distance et d’utiliser ces données pour obtenir une représentation approximative en 3D de ce que l’on voit. Celles-ci peuvent être efficaces pour détecter les gestes de la main en raison de leurs capacités à courte portée.
Caméras stéréo. En utilisant deux caméras dont les relations sont connues, une représentation 3D peut être approximée par la sortie des caméras. Pour obtenir les relations entre les caméras, on peut utiliser une référence de positionnement telle qu’une émetteur lexien ou des émetteurs infrarouges. En combinaison avec la mesure de mouvement directe (6D-Vision), les gestes peuvent être directement détectés.
Contrôleurs gestuels. Ces contrôleurs agissent comme une extension du corps. Ainsi, lorsque des gestes sont exécutés, certains de leurs mouvements peuvent être facilement capturés par un logiciel. Un exemple de capture de mouvement basée sur les gestes émergents est le suivi manuel squelettique, qui est en cours de développement pour les applications de réalité virtuelle et de réalité augmentée. Un exemple de cette technologie est illustré par les sociétés de suivi uSens et Gestigon, qui permettent aux utilisateurs d’interagir avec leur entourage sans contrôleurs.

Un autre exemple est le suivi des gestes de la souris, où le mouvement de la souris est corrélé à un symbole dessiné par la main d’une personne, tout comme la télécommande Wii, le brassard Myo ou le bracelet mForce Wizard, qui peuvent étudier les changements d’accélération dans le temps. représenter des gestes. Des appareils tels que la baguette magique de LG Electronics, le Loop et le Scoop utilisent la technologie Freespace de Hillcrest Labs, qui utilise des accéléromètres, des gyroscopes et d’autres capteurs MEMS pour traduire les gestes en mouvements du curseur. Le logiciel compense également les tremblements humains et les mouvements intempestifs. AudioCubes sont un autre exemple. Les capteurs de ces cubes émetteurs de lumière intelligents peuvent être utilisés pour détecter les mains et les doigts ainsi que d’autres objets à proximité, ainsi que pour traiter des données. La plupart des applications sont dans la musique et la synthèse sonore, mais peuvent être appliquées à d’autres domaines.

Une seule caméra. Une caméra 2D standard peut être utilisée pour la reconnaissance des gestes lorsque les ressources / l’environnement ne seraient pas pratiques pour d’autres formes de reconnaissance basée sur des images. Auparavant, on pensait qu’une seule caméra n’était peut-être pas aussi efficace que les caméras stéréo ou sensibles à la profondeur, mais certaines entreprises contestent cette théorie. Technologie de reconnaissance des gestes basée sur un logiciel utilisant une caméra 2D standard capable de détecter des gestes robustes des mains.
Radar. Voir le projet Soli révélé sur Google I / O 2015. À partir de 13h30, Google I / O 2015 – Un peu dur à cuire. Belle. Tech et humain. Travailler et aimer UN ROBINET. – YouTube et une courte vidéo d’introduction, Bienvenue dans Project Soli – YouTube

Algorithmes
Selon le type de données d’entrée, l’approche utilisée pour interpréter un geste peut être réalisée de différentes manières. Cependant, la plupart des techniques reposent sur des pointeurs clés représentés dans un système de coordonnées 3D. Sur la base du mouvement relatif de ceux-ci, le geste peut être détecté avec une grande précision, en fonction de la qualité de l’entrée et de l’approche de l’algorithme.
Pour interpréter les mouvements du corps, il faut les classer en fonction de propriétés communes et du message que ces mouvements peuvent exprimer. Par exemple, dans la langue des signes, chaque geste représente un mot ou une phrase. La taxonomie qui semble très appropriée pour l’interaction homme-machine a été proposée par Quek dans “Vers une interface gestuelle des mains basée sur la vision”. Il présente plusieurs systèmes de gestes interactifs afin de capturer tout l’espace des gestes:

Manipulateur
Sémaphorique
De la conversation

Certains auteurs distinguent deux approches différentes de la reconnaissance des gestes: un modèle 3D et une apparence. La méthode la plus avancée utilise les informations 3D des éléments clés des parties du corps afin d’obtenir plusieurs paramètres importants, tels que la position de la paume ou les angles des articulations. D’autre part, les systèmes basés sur l’apparence utilisent des images ou des vidéos pour une interprétation directe.

Algorithmes basés sur des modèles 3D
L’approche de modèle 3D peut utiliser des modèles volumétriques ou squelettiques, ou même une combinaison des deux. Les approches volumétriques ont été largement utilisées dans l’industrie de l’animation par ordinateur et à des fins de vision par ordinateur. Les modèles sont généralement créés à partir de surfaces 3D complexes, telles que des NURBS ou des maillages polygonaux.

L’inconvénient de cette méthode est qu’elle nécessite beaucoup de calculs et que des systèmes d’analyse en temps réel doivent encore être développés. Pour le moment, une approche plus intéressante consisterait à mapper des objets primitifs simples sur les parties du corps les plus importantes de la personne (par exemple des cylindres pour les bras et le cou, une sphère pour la tête) et d’analyser la manière dont ils interagissent. En outre, certaines structures abstraites telles que les super-quadriques et les cylindres généralisés peuvent être encore plus appropriées pour se rapprocher des parties du corps. La chose intéressante à propos de cette approche est que les paramètres pour ces objets sont assez simples. Afin de mieux modéliser la relation entre celles-ci, nous utilisons des contraintes et des hiérarchies entre nos objets.

Algorithmes basés sur le squelette
Au lieu d’utiliser un traitement intensif des modèles 3D et de traiter un grand nombre de paramètres, vous pouvez simplement utiliser une version simplifiée des paramètres d’angle de liaison ainsi que des longueurs de segment. Ceci est connu comme une représentation squelettique du corps, où un squelette virtuel de la personne est calculé et des parties du corps sont mappées à certains segments. L’analyse est effectuée ici en utilisant la position et l’orientation de ces segments et la relation entre chacun d’eux (par exemple l’angle entre les joints et la position ou l’orientation relative).

Avantages de l’utilisation de modèles squelettiques:

Les algorithmes sont plus rapides car seuls les paramètres clés sont analysés.
La correspondance de modèle avec une base de données de modèle est possible
L’utilisation de points clés permet au programme de détection de se concentrer sur les parties importantes du corps

Modèles basés sur l’apparence
Ces modèles n’utilisent plus une représentation spatiale du corps, car ils dérivent les paramètres directement à partir des images ou des vidéos à l’aide d’une base de données de modèles. Certains sont basés sur les modèles 2D déformables des parties humaines du corps, en particulier des mains. Les modèles déformables sont des ensembles de points sur le contour d’un objet, utilisés en tant que nœuds d’interpolation pour l’approximation du contour de l’objet. L’une des fonctions d’interpolation la plus simple est linéaire, qui effectue une forme moyenne à partir d’ensembles de points, de paramètres de variabilité de points et de déformateurs externes. Ces modèles basés sur des modèles sont principalement utilisés pour le suivi manuel, mais pourraient également être utiles pour la classification de gestes simples.

Une deuxième approche de détection de gestes utilisant des modèles basés sur l’apparence utilise des séquences d’images en tant que modèles de gestes. Les paramètres de cette méthode sont soit les images elles-mêmes, soit certaines fonctionnalités dérivées de celles-ci. La plupart du temps, une seule vue (monoscopique) ou deux (stéréoscopique) sont utilisées.

Défis
La précision et l’utilité des logiciels de reconnaissance des gestes posent de nombreux problèmes. Pour la reconnaissance des gestes basée sur l’image, il existe des limitations concernant l’équipement utilisé et le bruit de l’image. Les images ou les vidéos peuvent ne pas être sous un éclairage constant ou au même endroit. Des éléments en arrière-plan ou des caractéristiques distinctes des utilisateurs peuvent rendre la reconnaissance plus difficile.

La variété des implémentations pour la reconnaissance gestuelle basée sur l’image peut également poser un problème pour la viabilité de la technologie à un usage général. Par exemple, un algorithme calibré pour une caméra peut ne pas fonctionner pour une autre caméra. La quantité de bruit de fond pose également des problèmes de suivi et de reconnaissance, en particulier lorsque des occlusions (partielles et complètes) se produisent. De plus, la distance qui le sépare de l’appareil photo, ainsi que la résolution et la qualité de celui-ci, entraînent également des variations dans la précision de la reconnaissance.

Afin de capturer les gestes humains au moyen de capteurs visuels, des méthodes de vision par ordinateur robustes sont également nécessaires, par exemple pour le suivi des mains et la reconnaissance de la posture des mains ou pour la capture des mouvements de la tête, des expressions faciales ou de la direction du regard.

“Bras de gorille”
“Bras Gorilla” était un effet secondaire de l’utilisation d’un écran tactile orienté verticalement ou d’un stylo optique. En cas d’utilisation prolongée, les bras des utilisateurs commençaient à être fatigués et / ou inconfortables. Cet effet a contribué au déclin de la saisie sur écran tactile malgré la popularité initiale des années 1980.

Afin de mesurer la fatigue du bras et l’effet secondaire du bras du gorille, les chercheurs ont mis au point une technique appelée Consumed Endurance.