Riconoscimento dei gesti

Il riconoscimento del gesto è un argomento in informatica e tecnologia del linguaggio con l’obiettivo di interpretare i gesti umani tramite algoritmi matematici. I gesti possono derivare da qualsiasi movimento o stato corporeo, ma comunemente provengono dal volto o dalla mano. L’attuale focus sul campo include il riconoscimento delle emozioni dal riconoscimento di gesti del viso e delle mani. Gli utenti possono utilizzare semplici gesti per controllare o interagire con i dispositivi senza toccarli fisicamente. Molti approcci sono stati realizzati utilizzando fotocamere e algoritmi di visione artificiale per interpretare il linguaggio dei segni. Tuttavia, l’identificazione e il riconoscimento della postura, dell’andatura, della prossemica e dei comportamenti umani sono anche oggetto delle tecniche di riconoscimento dei gesti. Il riconoscimento del gesto può essere visto come un modo in cui i computer iniziano a comprendere il linguaggio del corpo umano, creando così un ponte più ricco tra macchine e umani rispetto alle primitive interfacce utente di testo o persino GUI (interfacce utente grafiche), che limitano ancora la maggior parte degli input alla tastiera e il mouse.

Il riconoscimento del gesto consente all’uomo di comunicare con la macchina (HMI) e interagire in modo naturale senza alcun dispositivo meccanico. Utilizzando il concetto di riconoscimento dei gesti, è possibile puntare un dito sullo schermo del computer in modo che il cursore si sposti di conseguenza. Ciò potrebbe rendere ridondanti dispositivi di input convenzionali come mouse, tastiere e persino schermi tattili.

Definizione
Riguardo all’interazione uomo-computer, Kurtenbach e Hulteen definiscono un gesto come segue: “Un gesto è un movimento del corpo che contiene informazioni.” L’addio è un gesto. Premere un tasto su una tastiera non è un gesto perché il movimento un dito non è osservato né significativo, tutto ciò che conta è quale tasto è stato premuto, al contrario, Harling e Edwards rinunciano alla necessità di movimento e capire da un gesto e posture statiche della mano.Può essere distinto tra i sistemi in cui i sensori necessari per il rilevamento si trova direttamente sul corpo dell’utente e in cui l’utente viene osservato da sensori esterni.

Funzioni di riconoscimento gestuale:

Più accurato
Alta stabilità
Risparmio di tempo per sbloccare un dispositivo

Le principali aree di applicazione del riconoscimento gestuale nello scenario attuale sono:

Settore automobilistico
Settore dell’elettronica di consumo
Settore di transito
Settore del gioco
Per sbloccare gli smartphone
Difesa
Domotica
Interpretazione della lingua dei segni

La tecnologia di riconoscimento dei gesti è stata considerata la tecnologia di grande successo in quanto consente di risparmiare tempo per sbloccare qualsiasi dispositivo.

Il riconoscimento del gesto può essere condotto con tecniche dalla visione artificiale e dall’elaborazione delle immagini.

La letteratura include lavori in corso nel campo della visione artificiale per catturare gesti o pose e movimenti umani più generali da telecamere collegate a un computer.

Riconoscimento dei gesti e calcolo delle penne: il pen computing riduce l’impatto hardware di un sistema e aumenta anche la gamma di oggetti del mondo fisico utilizzabili per il controllo oltre gli oggetti digitali tradizionali come tastiere e mouse. Tali implementazioni potrebbero consentire una nuova gamma di hardware che non richiede monitor. Questa idea può portare alla creazione di display olografico. Il termine riconoscimento gesto è stato usato per riferirsi più strettamente ai simboli di scrittura a mano non di testo, come l’inchiostrazione su una tavoletta grafica, i gesti multi-touch e il riconoscimento dei gesti del mouse. Questa è l’interazione del computer attraverso il disegno di simboli con un cursore del dispositivo di puntamento.

Tipi di gesti
Nelle interfacce informatiche si distinguono due tipi di gesti: consideriamo i gesti online, che possono essere considerati anche manipolazioni dirette come il ridimensionamento e la rotazione. Al contrario, i gesti offline vengono generalmente elaborati al termine dell’interazione; ad esempio viene disegnato un cerchio per attivare un menu di scelta rapida.

Gesti offline: quei gesti che vengono elaborati dopo l’interazione dell’utente con l’oggetto. Un esempio è il gesto per attivare un menu.
Gesti online: gesti di manipolazione diretta. Sono usati per ridimensionare o ruotare un oggetto tangibile.
Interfaccia touchless
L’interfaccia utente touchless è un tipo di tecnologia emergente in relazione al controllo dei gesti. L’interfaccia utente Touchless (TUI) è il processo di comando del computer tramite movimento del corpo e gesti senza toccare tastiera, mouse o schermo. Ad esempio, Kinect di Microsoft è un’interfaccia di gioco senza contatto; tuttavia, prodotti come Wii non sono considerati completamente touchless perché sono collegati ai controller. Interfaccia touchless in aggiunta ai controlli gestuali stanno diventando molto popolari in quanto forniscono le capacità di interagire con i dispositivi senza toccarli fisicamente.

Riconoscimento gestuale basato su dispositivo
La maggior parte dei sistemi basati sul corpo o guidati da sensori manuali utilizzano sensori di accelerazione o di posizione integrati per i guanti di dati. Lo svantaggio dei sistemi basati su guanti dati è che l’utente deve indossare il guanto per utilizzare il sistema.

I sistemi guidati a mano, come il controller Nintendo Wii e BlueWand, prodotto da BeeCon, possono essere utilizzati anche per l’input gestuale. Entrambi i sistemi possono essere gestiti dall’utente e dispongono di sensori di accelerazione per rilevare il movimento di ciascun dispositivo.

Per i dispositivi più recenti, come smartphone e tablet, vengono utilizzati in particolare i touchscreen, che possono essere utilizzati dai “gesti di scorrimento”. In particolare, gli schermi multi-touch offrono la rilevazione simultanea di più impronte digitali indipendenti, in modo che, ad esempio, con due polpastrelli diagonalmente attaccati, le finestre possano essere ingrandite o ridotte.

Riconoscimento gestuale basato su fotocamera
I sistemi con sensori esterni sono per lo più sistemi basati su telecamera. Le telecamere sono utilizzate per fotografare l’utente. Esistono entrambi i sistemi con una telecamera e con più telecamere, i sistemi più recenti spesso funzionano con dati 3D che funzionano sia con telecamere a tempo di volo che con le cosiddette fotocamere a luce strutturata. Le tecniche basate su telecamere si basano su tecniche di analisi di immagini 2D e 3D per rilevare la postura dell’utente. Il riconoscimento gestuale basato su fotocamera viene utilizzato, ad esempio, nei giochi per EyeToy collegabili alle console di gioco. Un approccio completamente nuovo è il controllo dei gesti tramite stereoscopia. Il vantaggio di questo è che funziona senza luce infrarossa e quindi funziona all’aperto.

Nell’analisi tecnica delle immagini, ci sono fondamentalmente diversi approcci da distinguere: o viene creato un database con gesti pertinenti creati sulla base di un meridiano di oltre 1.000 analisi video per gesto. I gesti di controllo registrati vengono quindi confrontati con il database e determinati di conseguenza. Ad esempio, questa soluzione è utilizzata da Microsoft con Xbox in combinazione con la telecamera Kinect 3D. L’analisi può essere eseguita nello spazio bidimensionale utilizzando le informazioni su immagini e video. Nello spazio tridimensionale si parla di calcolo volumetrico, ad esempio i corpi sono rappresentati da NURBS o poligoni. Un calcolo di dati 3D in tempo reale è attualmente in fase di sviluppo. Lo svantaggio di questa analisi basata su database è che richiede molta potenza di calcolo dal database. In alternativa, il software funziona con un vero identificatore di scheletro, i. H. Dal corpo dei dati della fotocamera, la mano e / o le dita vengono riconosciute e assegnate ai gesti predefiniti da un modello di scheletro semplificato. Questa soluzione promette una varietà molto più ampia di gesti e precisione, ma è tecnicamente molto più impegnativa.

L’obiettivo della ricerca e dello sviluppo nei prossimi anni è quello di implementare il riconoscimento dei gesti nel contesto del software incorporato, indipendente dalla piattaforma e dalla telecamera, che richiede poca energia e può quindi essere utilizzato anche per telefoni cellulari, tablet o dispositivi di navigazione sistemi.

Nel 2012, diversi venditori commerciali hanno annunciato di voler entrare sul mercato con dispositivi di riconoscimento dei gesti che dovrebbero essere significativamente migliori rispetto ai dispositivi attualmente disponibili (in particolare il Kinect per Xbox). Ad esempio, Samsung ha presentato la Smart TV al CES 2012 di Las Vegas. Un’altra azienda è LeapMotion, dove il video promozionale di The Leap è stato criticato nella comunità, poiché sono state registrate alcune scene ovvie. In Germania, il controllo gestuale è un argomento particolare nell’industria automobilistica, dove sono richiesti sistemi particolarmente stabili e mobili, come quelli fabbricati da gestigon, che funzionano anche su una soluzione embedded. Il riconoscimento dei gesti 3D è anche popolare nei settori della segnaletica digitale, della tecnologia dei media, della media art e della performance. Un modo semplice per utilizzare il riconoscimento dei gesti in queste aree e z. Ad esempio, il controllo di altri software è Kinetic Space. Altri produttori includono Omek, Softkinetic e Myestro Interactive.

Tipi di tecnologia touchless
Ci sono un certo numero di dispositivi che utilizzano questo tipo di interfaccia come, smartphone, laptop, giochi e televisione. Sebbene la tecnologia touchless si veda soprattutto nei software di gioco, l’interesse si sta ora diffondendo ad altri settori, tra cui quello automobilistico e quello sanitario. Presto a venire, la tecnologia touchless e il controllo dei gesti saranno implementati nelle auto a livelli che vanno oltre il riconoscimento vocale. Vedi BMW Series 7.

Il futuro della tecnologia touchless
Ci sono già un gran numero di aziende in tutto il mondo che stanno producendo tecnologie di riconoscimento gestuale, come ad esempio:

Intel Corp.
White paper: esplora la ricerca sull’esperienza utente di Intel, che mostra come l’autenticazione multifattoriale (MFA) può aiutare le organizzazioni sanitarie a mitigare i rischi per la sicurezza migliorando al tempo stesso l’efficienza, la praticità e la cura del paziente. Questa soluzione MFA touchless combina funzionalità di riconoscimento facciale e riconoscimento dispositivo per l’autenticazione utente a due fattori.

Microsoft Corp. negli Stati Uniti
L’obiettivo del progetto è quindi quello di esplorare l’utilizzo dell’interazione touchless all’interno delle impostazioni chirurgiche, consentendo di visualizzare, controllare e manipolare le immagini senza contatto attraverso l’uso della tecnologia di riconoscimento gestuale basata sulla telecamera. In particolare, il progetto cerca di comprendere le sfide di questi ambienti per la progettazione e l’implementazione di tali sistemi, nonché di articolare i modi in cui queste tecnologie possono alterare la pratica chirurgica. Mentre le nostre preoccupazioni primarie qui sono nel mantenere condizioni di asepsi, l’uso di queste tecnologie touchless basate sui gesti offre altri potenziali usi.

Elliptic Labs
La suite software Elliptic Labs offre funzioni di gesture e di prossimità riutilizzando l’auricolare e il microfono esistenti, precedentemente utilizzati solo per l’audio. I segnali ad ultrasuoni inviati attraverso l’aria dagli altoparlanti integrati in smartphone e tablet rimbalzano contro una mano / oggetto / testa e sono registrati dai microfoni, anch’essi integrati in questi dispositivi. In questo modo, la tecnologia di Elliptic Labs riconosce i gesti delle mani e li utilizza per spostare oggetti su uno schermo, in modo simile al modo in cui i pipistrelli utilizzano l’ecolocalizzazione per navigare.

Mentre queste aziende sono all’avanguardia della tecnologia touchless per il futuro in questo momento, ci sono molte altre aziende e prodotti che sono attualmente di tendenza e possono anche aggiungere valore a questo nuovo campo. Ecco alcuni dei molti esempi:

Tobii Rex: dispositivo per localizzare gli occhi dalla Svezia

Airwriting: tecnologia che consente di scrivere messaggi e testi nell’aria

eyeSight: consente la navigazione di uno schermo senza toccare fisicamente il dispositivo

Leap Motion: dispositivo sensore di movimento

Myoelectric Armband: consente la comunicazione di dispositivi bluetooth

Dispositivi di input
La capacità di tracciare i movimenti di una persona e determinare quali gesti potrebbero essere eseguiti può essere raggiunta attraverso vari strumenti. Le interfacce utente cinetiche (KUI) sono un tipo emergente di interfacce utente che consentono agli utenti di interagire con i dispositivi informatici attraverso il movimento di oggetti e corpi. Esempi di KUI includono interfacce utente tangibili e giochi sensibili al movimento come Wii e Kinect di Microsoft e altri progetti interattivi.

Sebbene ci sia una grande quantità di ricerche fatte nel riconoscimento di gesti basati su immagini / video, vi è una certa variazione all’interno degli strumenti e degli ambienti utilizzati tra le implementazioni.

Guanti metallici Questi possono fornire input al computer circa la posizione e la rotazione delle mani mediante dispositivi di localizzazione magnetici o inerziali. Inoltre, alcuni guanti sono in grado di rilevare la flessione delle dita con un alto grado di precisione (5-10 gradi), o anche di fornire un feedback tattile all’utente, che è una simulazione del senso del tatto. Il primo dispositivo per guanti a tracciamento manuale disponibile in commercio era il DataGlove, un dispositivo a guanti in grado di rilevare la posizione delle mani, il movimento e la piegatura delle dita. Questo utilizza cavi in ​​fibra ottica che scorrono sul retro della mano. Gli impulsi luminosi vengono creati e quando le dita sono piegate, la luce perde attraverso piccole crepe e la perdita viene registrata, dando un’approssimazione della posa della mano.
Telecamere sensibili alla profondità. Usando telecamere specializzate come fotocamere di luce strutturata o di tempo di volo, è possibile generare una mappa di profondità di ciò che viene visto attraverso la fotocamera a breve distanza e utilizzare questi dati per approssimare una rappresentazione 3d di ciò che viene visto. Questi possono essere efficaci per il rilevamento dei gesti delle mani a causa delle loro capacità a corto raggio.
Telecamere stereo Utilizzando due fotocamere le cui relazioni tra loro sono note, una rappresentazione 3d può essere approssimata dall’output delle telecamere. Per ottenere le relazioni delle telecamere, si può usare un riferimento di posizionamento come una lexian stripe o emettitori a infrarossi. In combinazione con la misurazione del movimento diretto (6D-Vision) è possibile rilevare direttamente i gesti.
Controller basati sul gesto. Questi controller agiscono come un’estensione del corpo in modo che quando vengono eseguiti i gesti, alcuni dei loro movimenti possono essere catturati in modo conveniente dal software. Un esempio dell’emergente motion capture basato sui gesti è il tracciamento della mano scheletrica, che viene sviluppato per applicazioni di realtà virtuale e realtà aumentata. Un esempio di questa tecnologia è mostrato dalle società di monitoraggio uSens e Gestigon, che consentono agli utenti di interagire con l’ambiente circostante senza controller.

Un altro esempio è il tracciamento dei gesti del mouse, in cui il movimento del mouse è correlato a un simbolo disegnato dalla mano di una persona, come il telecomando Wii o il bracciale Myo o il braccialetto mForce Wizard, che può studiare i cambiamenti in accelerazione nel tempo per rappresentare i gesti. Dispositivi come LG Electronics Magic Wand, Loop e Scoop utilizzano la tecnologia Freespace di Hillcrest Labs, che utilizza accelerometri, giroscopi e altri sensori MEMS per tradurre i movimenti in movimenti del cursore. Il software compensa anche il tremore umano e il movimento involontario. Gli AudioCube sono un altro esempio. I sensori di questi cubi emettitori di luce intelligenti possono essere utilizzati per rilevare mani e dita e altri oggetti nelle vicinanze e possono essere utilizzati per elaborare i dati. La maggior parte delle applicazioni sono in musica e sintesi audio, ma possono essere applicate ad altri campi.

Fotocamera singola. Una fotocamera 2D standard può essere utilizzata per il riconoscimento di gesti in cui le risorse / l’ambiente non sarebbero convenienti per altre forme di riconoscimento basato su immagini. In precedenza si pensava che una singola telecamera potesse non essere altrettanto efficace delle telecamere stereo o con profondità di rilevamento, ma alcune aziende stanno sfidando questa teoria. Tecnologia di riconoscimento gestuale basata su software che utilizza una fotocamera 2D standard in grado di rilevare gesti della mano robusti.
Radar. Vedi Project Soli rivelato a Google I / O 2015. a partire dalle 13:30, Google I / O 2015 – Un po ‘cazzuto. Bellissimo. Tecnologia e umano. Lavoro e amore UN RUBINETTO. – YouTube e un breve video introduttivo, benvenuto in Project Soli – YouTube

algoritmi
A seconda del tipo di dati di input, l’approccio per interpretare un gesto potrebbe essere fatto in modi diversi. Tuttavia, la maggior parte delle tecniche si basa su indicatori chiave rappresentati in un sistema di coordinate 3D. Sulla base del movimento relativo di questi, il gesto può essere rilevato con una precisione elevata, a seconda della qualità dell’input e dell’approccio dell’algoritmo.
Per interpretare i movimenti del corpo, bisogna classificarli secondo le proprietà comuni e il messaggio che i movimenti possono esprimere. Ad esempio, nel linguaggio dei segni ogni gesto rappresenta una parola o una frase. La tassonomia che sembra molto appropriata per l’interazione uomo-computer è stata proposta da Quek in “Verso un’interfaccia gestuale basata sulla visione”. Presenta diversi sistemi di gesti interattivi per catturare l’intero spazio dei gesti:

Manipolativo
semaforico
discorsivo

Alcune pubblicazioni differenziano 2 diversi approcci nel riconoscimento dei gesti: un modello 3D basato e un aspetto basato. Il metodo più avanzato utilizza l’informazione 3D degli elementi chiave delle parti del corpo per ottenere diversi parametri importanti, come la posizione delle palme o gli angoli articolari. D’altra parte, i sistemi basati su Appearance utilizzano immagini o video per l’interpretazione diretta.

Algoritmi basati su modelli 3D
L’approccio del modello 3D può utilizzare modelli volumetrici o scheletrici, o anche una combinazione dei due. Gli approcci volumetrici sono stati ampiamente utilizzati nell’industria dell’informatica e per scopi di visione artificiale. I modelli sono generalmente creati da superfici 3D complicate, come NURBS o mesh poligonali.

Lo svantaggio di questo metodo è che è molto intensivo di calcolo e che i sistemi per l’analisi in tempo reale devono ancora essere sviluppati. Per il momento, un approccio più interessante sarebbe quello di mappare semplici oggetti primitivi alle parti del corpo più importanti della persona (ad esempio cilindri per braccia e collo, sfera per la testa) e analizzare il modo in cui questi interagiscono tra loro. Inoltre, alcune strutture astratte come i super-quadrici e i cilindri generalizzati possono essere ancora più adatti per approssimare le parti del corpo. La cosa interessante di questo approccio è che i parametri per questi oggetti sono piuttosto semplici. Per modellare meglio la relazione tra questi, ci avvaliamo di vincoli e gerarchie tra i nostri oggetti.

Algoritmi basati su scheletro
Invece di utilizzare un’elaborazione intensiva dei modelli 3D e di gestire molti parametri, si può semplicemente utilizzare una versione semplificata dei parametri dell’angolo di giuntura insieme alle lunghezze dei segmenti. Questo è noto come rappresentazione scheletrica del corpo, dove viene calcolato uno scheletro virtuale della persona e parti del corpo sono mappate su determinati segmenti. L’analisi qui viene eseguita utilizzando la posizione e l’orientamento di questi segmenti e la relazione tra ciascuno di essi (ad esempio l’angolo tra le articolazioni e la relativa posizione o orientamento)

Vantaggi dell’utilizzo di modelli scheletrici:

Gli algoritmi sono più veloci perché vengono analizzati solo i parametri chiave.
La corrispondenza del modello con un database modello è possibile
L’utilizzo dei punti chiave consente al programma di rilevamento di concentrarsi sulle parti significative del corpo

Modelli basati sull’aspetto
Questi modelli non usano più una rappresentazione spaziale del corpo, perché derivano i parametri direttamente dalle immagini o dai video usando un database di template. Alcuni si basano sui modelli 2D deformabili delle parti umane del corpo, in particolare le mani. I modelli deformabili sono insiemi di punti sul contorno di un oggetto, usati come nodi di interpolazione per l’approssimazione del contorno dell’oggetto. Una delle più semplici funzioni di interpolazione è lineare, che esegue una forma media da insiemi di punti, parametri di variabilità del punto e deformatori esterni. Questi modelli basati su modelli sono utilizzati principalmente per il tracciamento manuale, ma potrebbero anche essere utili per la classificazione dei gesti semplice.

Un secondo approccio nel rilevare i gesti usando i modelli basati sull’aspetto utilizza sequenze di immagini come modelli di gesti. I parametri per questo metodo sono le immagini stesse o alcune caratteristiche derivate da questi. Nella maggior parte dei casi vengono utilizzate solo una vista (monoscopica) o due (stereoscopica).

Le sfide
Ci sono molte sfide associate all’accuratezza e all’utilità del software di riconoscimento dei gesti. Per il riconoscimento dei gesti basato su immagini ci sono limitazioni sull’equipaggiamento utilizzato e il rumore dell’immagine. Le immagini o il video potrebbero non essere in condizioni di illuminazione costante o nella stessa posizione. Gli elementi in background o le caratteristiche distinte degli utenti possono rendere più difficile il riconoscimento.

La varietà di implementazioni per il riconoscimento dei gesti basato su immagini può anche causare problemi di validità della tecnologia all’utilizzo generale. Ad esempio, un algoritmo calibrato per una videocamera potrebbe non funzionare per una fotocamera diversa. La quantità di rumore di fondo causa anche difficoltà di localizzazione e riconoscimento, specialmente quando si verificano occlusioni (parziali e piene). Inoltre, la distanza dalla fotocamera e la risoluzione e la qualità della fotocamera causano variazioni nella precisione del riconoscimento.

Al fine di catturare i gesti umani mediante sensori visivi, sono necessari anche robusti metodi di visione del computer, ad esempio per il tracciamento manuale e il riconoscimento della postura della mano o per i movimenti captanti della testa, le espressioni facciali o la direzione dello sguardo.

“Gorilla arm”
“Gorilla arm” era un effetto collaterale di utilizzo touch-screen o light-pen orientato verticalmente. In periodi di uso prolungato, le braccia degli utenti hanno iniziato a provare affaticamento e / o disagio. Questo effetto ha contribuito al declino dell’input del touch screen nonostante la popolarità iniziale degli anni ’80.

Per misurare l’affaticamento del braccio e l’effetto collaterale del gorilla, i ricercatori hanno sviluppato una tecnica chiamata Consumed Endurance.