Reconocimiento de gestos

El reconocimiento de gestos es un tema en informática y tecnología del lenguaje con el objetivo de interpretar gestos humanos mediante algoritmos matemáticos. Los gestos pueden originarse en cualquier movimiento corporal o estado, pero comúnmente se originan en la cara o la mano. Los enfoques actuales en el campo incluyen el reconocimiento de emociones del reconocimiento de gestos faciales y manuales. Los usuarios pueden usar gestos simples para controlar o interactuar con dispositivos sin tocarlos físicamente. Se han realizado muchos enfoques utilizando cámaras y algoritmos de visión de computadora para interpretar el lenguaje de señas. Sin embargo, la identificación y el reconocimiento de la postura, la marcha, las proxemias y los comportamientos humanos también son objeto de técnicas de reconocimiento de gestos. El reconocimiento de gestos se puede ver como una forma en que las computadoras comienzan a entender el lenguaje del cuerpo humano, creando así un puente más rico entre máquinas y humanos que las interfaces de usuario de texto primitivo o incluso las GUI (interfaces de usuario gráficas), que aún limitan la mayoría de las entradas al teclado y el ratón.

El reconocimiento de gestos permite a los humanos comunicarse con la máquina (HMI) e interactuar de forma natural sin ningún dispositivo mecánico. Usando el concepto de reconocimiento de gestos, es posible apuntar con un dedo a la pantalla de la computadora para que el cursor se mueva en consecuencia. Esto podría hacer que los dispositivos de entrada convencionales, como el mouse, los teclados e incluso las pantallas táctiles, sean redundantes.

Definición
Con respecto a la interacción hombre-computadora, Kurtenbach y Hulteen definen un gesto de la siguiente manera: “Un gesto es un movimiento del cuerpo que contiene información. El adiós es un gesto. Presionar una tecla en un teclado no es un gesto porque el movimiento en un dedo no se observa ni es significativo. Lo único que importa es qué tecla se presionó. Por el contrario, Harling y Edwards renuncian al requisito de movimiento y comprensión mediante un gesto y posturas de mano estáticas. Puede distinguirse entre sistemas en los que los sensores necesarios para la detección se encuentra directamente en el cuerpo del usuario, y aquellos en los que el usuario es observado por sensores externos.

Características de reconocimiento de gestos:

Más preciso
Alta estabilidad
Ahorro de tiempo para desbloquear un dispositivo

Las principales áreas de aplicación del reconocimiento de gestos en el escenario actual son:

Sector automotriz
Sector de la electrónica de consumo
Sector de transito
Sector del juego
Para desbloquear smartphones
Defensa
Automatización del hogar
Interpretación en lenguaje de señas

La tecnología de reconocimiento de gestos ha sido considerada como una tecnología de gran éxito ya que ahorra tiempo para desbloquear cualquier dispositivo.

El reconocimiento de gestos se puede realizar con técnicas de visión por computadora y procesamiento de imágenes.

La literatura incluye trabajos en curso en el campo de la visión por computador para capturar gestos o posturas y movimientos humanos más generales mediante cámaras conectadas a una computadora.

Reconocimiento de gestos y computación con lápiz: la computación con lápiz reduce el impacto de hardware de un sistema y también aumenta la gama de objetos del mundo físico que se pueden usar para controlar más allá de los objetos digitales tradicionales, como los teclados y ratones. Dichas implementaciones podrían habilitar una nueva gama de hardware que no requiere monitores. Esta idea puede llevar a la creación de la exhibición holográfica. El término reconocimiento de gestos se ha utilizado para referirse más estrechamente a los símbolos de escritura a mano sin entrada de texto, como entintar en una tableta gráfica, gestos multitáctiles y reconocimiento de gestos con el ratón. Esta es la interacción de la computadora a través del dibujo de símbolos con un cursor del dispositivo señalador.

Tipos de gestos
En las interfaces de computadora, se distinguen dos tipos de gestos: consideramos los gestos en línea, que también se pueden considerar como manipulaciones directas como escalar y rotar. Por el contrario, los gestos fuera de línea generalmente se procesan después de que se termina la interacción; Por ejemplo, se dibuja un círculo para activar un menú contextual.

Gestos sin conexión: aquellos gestos que se procesan después de la interacción del usuario con el objeto. Un ejemplo es el gesto para activar un menú.
Gestos en línea: gestos de manipulación directa. Se utilizan para escalar o rotar un objeto tangible.
Interfaz sin contacto
La interfaz de usuario sin contacto es un tipo de tecnología emergente en relación con el control de gestos. La interfaz de usuario sin contacto (TUI, por sus siglas en inglés) es el proceso de comando de la computadora a través del movimiento del cuerpo y los gestos sin tocar el teclado, el mouse o la pantalla. Por ejemplo, Kinect de Microsoft es una interfaz de juego sin contacto; sin embargo, los productos como la Wii no se consideran totalmente táctiles porque están atados a los controladores. La interfaz sin contacto, además de los controles por gestos, se están volviendo muy populares ya que brindan la capacidad de interactuar con dispositivos sin tocarlos físicamente.

Reconocimiento de gestos basado en dispositivo
La mayoría de los sistemas se usan en el cuerpo o guiados por el uso del sensor manual en los guantes de datos con sensores de posición o aceleración integrados. La desventaja de los sistemas basados ​​en guantes de datos es que el usuario debe usar el guante para usar el sistema.

Los sistemas guiados a mano, como el controlador Nintendo Wii y BlueWand, fabricados por BeeCon, también pueden usarse para la entrada de gestos. Ambos sistemas pueden ser manejados por el usuario y tienen sensores de aceleración para detectar el movimiento de cada dispositivo.

Para dispositivos más nuevos, como teléfonos inteligentes y tabletas, se utilizan especialmente pantallas táctiles, que se pueden usar con “gestos de deslizar”. En particular, las pantallas multitáctiles ofrecen la detección de varias huellas dactilares independientes simultáneamente, de modo que, por ejemplo, con dos yemas de los dedos unidas diagonalmente, las ventanas pueden hacerse más grandes o más pequeñas.

Reconocimiento de gestos basado en cámara
Los sistemas con sensores externos son en su mayoría sistemas basados ​​en cámaras. Las cámaras se utilizan para tomar fotografías del usuario. Hay dos sistemas con una cámara y con varias cámaras, los sistemas más nuevos a menudo funcionan con datos 3D que funcionan en cámaras de tiempo de vuelo o en las llamadas cámaras de luz estructurada. Las técnicas basadas en cámaras se basan en técnicas de análisis de imágenes 2D y 3D para detectar la postura del usuario. El reconocimiento de gestos basado en cámara se utiliza, por ejemplo, en juegos para EyeToy que se pueden conectar a consolas de juegos. Un enfoque completamente nuevo es el control de gestos a través de la estereoscopia. La ventaja de esto es que funciona sin luz infrarroja y, por lo tanto, funciona en exteriores.

En el análisis técnico de imágenes, hay básicamente varios enfoques que deben distinguirse: o bien se crea una base de datos con gestos relevantes creados sobre la base de un meridiano de más de 1,000 análisis de video por gesto. Los gestos de control registrados se comparan con la base de datos y se determinan en consecuencia. Por ejemplo, esta solución es utilizada por Microsoft con la Xbox junto con la cámara Kinect 3D. El análisis se puede realizar en un espacio bidimensional utilizando información de imagen y video. En el espacio tridimensional se habla de cálculo volumétrico, por ejemplo, los cuerpos están representados por NURBS o polígonos. Actualmente se está desarrollando un cálculo de datos 3D en tiempo real. La desventaja de este análisis basado en la base de datos es que requiere mucha potencia de cálculo de la base de datos. Alternativamente, el software funciona con un verdadero identificador de esqueleto, i. H. Desde el cuerpo de datos de la cámara, la mano y / o los dedos son reconocidos y asignados a los gestos predefinidos por un modelo de esqueleto simplificado. Esta solución promete una variedad mucho mayor de gestos y precisión, pero técnicamente es mucho más exigente.

El objetivo de la investigación y el desarrollo en los próximos años es implementar el reconocimiento de gestos en el contexto del software integrado, que es independiente de la plataforma y la cámara, requiere poca energía y, por lo tanto, también se puede utilizar, por ejemplo, en teléfonos móviles, tabletas o navegación. sistemas

En 2012, varios proveedores comerciales anunciaron que querían llegar al mercado con dispositivos de reconocimiento de gestos que deberían ser significativamente mejores que los dispositivos actualmente disponibles (especialmente Kinect para Xbox). Por ejemplo, Samsung ha presentado Smart TV en CES 2012 en Las Vegas. Otra compañía es LeapMotion, donde el video promocional de The Leap fue criticado en la comunidad, ya que se grabaron algunas escenas obvias. En Alemania, el control de gestos es un tema particular en la industria automotriz, donde se requieren sistemas particularmente estables y móviles, como los fabricados por gestigon, que también funcionan en una solución integrada. El reconocimiento de gestos en 3D también es popular en los campos de la señalización digital, la tecnología de medios, el arte de medios y el rendimiento. Una forma fácil de usar el reconocimiento de gestos en estas áreas y z. Por ejemplo, controlar otro software es Kinetic Space. Otros fabricantes incluyen Omek, Softkinetic y Myestro Interactive.

Tipos de tecnología sin contacto
Hay varios dispositivos que utilizan este tipo de interfaz, como teléfonos inteligentes, computadoras portátiles, juegos y televisión. Aunque la tecnología sin contacto se ve principalmente en el software de juegos, el interés ahora se está extendiendo a otros campos, incluidos los sectores de automoción y salud. Próximamente, la tecnología sin contacto y el control por gestos se implementarán en automóviles en niveles más allá del reconocimiento de voz. Ver la serie 7 de BMW.

Futuro de la tecnología sin contacto.
Ya hay una gran cantidad de empresas en todo el mundo que están produciendo tecnología de reconocimiento de gestos, como:

Intel Corp.
Documento técnico: Explore la investigación de la experiencia del usuario de Intel, que muestra cómo la autenticación multifactor sin contacto (MFA) puede ayudar a las organizaciones de atención de la salud a mitigar los riesgos de seguridad al tiempo que mejora la eficiencia, la comodidad y la atención médica de los médicos. Esta solución MFA sin contacto combina el reconocimiento facial y las capacidades de reconocimiento de dispositivos para la autenticación de dos factores del usuario.

Microsoft Corp. en los Estados Unidos
El objetivo del proyecto es explorar el uso de la interacción sin contacto en entornos quirúrgicos, lo que permite ver, controlar y manipular las imágenes sin contacto mediante el uso de la tecnología de reconocimiento de gestos basada en cámaras. En particular, el proyecto busca comprender los desafíos de estos entornos para el diseño y despliegue de tales sistemas, así como articular las formas en que estas tecnologías pueden alterar la práctica quirúrgica. Si bien nuestras principales preocupaciones aquí son mantener las condiciones de asepsia, el uso de estas tecnologías basadas en gestos sin contacto ofrece otros usos potenciales.

Laboratorios elípticos
El paquete de software Elliptic Labs ofrece funciones de gesto y proximidad al reutilizar el auricular y el micrófono existentes, que anteriormente solo se usaban para audio. Las señales de ultrasonido enviadas por el aire desde parlantes integrados en teléfonos inteligentes y tabletas rebotan contra una mano / objeto / cabeza y son grabadas por micrófonos, también integrados en estos dispositivos. De esta manera, la tecnología de Elliptic Labs reconoce sus gestos con las manos y los utiliza para mover objetos en una pantalla, de manera similar a la forma en que los murciélagos usan la ecolocalización para navegar.

Si bien estas compañías se ubican a la vanguardia de la tecnología sin contacto para el futuro en este momento, hay muchas otras compañías y productos que actualmente también tienen tendencia y pueden agregar valor a este nuevo campo. Estos son algunos de los muchos ejemplos:

Tobii Rex: dispositivo de seguimiento ocular de Suecia

Escritura aérea: tecnología que permite escribir mensajes y textos en el aire.

eyeSight: permite la navegación de una pantalla sin tocar físicamente el dispositivo

Leap Motion: dispositivo sensor de movimiento

Brazalete mioeléctrico: permite la comunicación de dispositivos bluetooth

Los dispositivos de entrada
La capacidad de rastrear los movimientos de una persona y determinar qué gestos pueden estar realizando se puede lograr a través de varias herramientas. Las interfaces de usuario cinéticas (KUI) son un tipo emergente de interfaces de usuario que permiten a los usuarios interactuar con dispositivos informáticos a través del movimiento de objetos y cuerpos. Entre los ejemplos de KUI se incluyen interfaces de usuario tangibles y juegos sensibles al movimiento, como Wii y Kinect de Microsoft, y otros proyectos interactivos.

Si bien existe una gran cantidad de investigaciones realizadas en el reconocimiento de gestos basados ​​en imágenes / video, existe cierta variación dentro de las herramientas y los entornos utilizados entre las implementaciones.

Guantes con cable. Estos pueden proporcionar información a la computadora sobre la posición y rotación de las manos con dispositivos de seguimiento inerciales o magnéticos. Además, algunos guantes pueden detectar el doblado de los dedos con un alto grado de precisión (5-10 grados), o incluso proporcionar retroalimentación háptica al usuario, que es una simulación del sentido del tacto. El primer dispositivo de tipo guante de seguimiento manual disponible comercialmente fue el DataGlove, un dispositivo de tipo guante que podía detectar la posición, el movimiento y la flexión de los dedos. Esto utiliza cables de fibra óptica que se ejecutan en la parte posterior de la mano. Se crean pulsos de luz y cuando se doblan los dedos, la luz se filtra a través de pequeñas grietas y se registra la pérdida, dando una aproximación de la postura de la mano.
Cámaras conscientes de la profundidad. Al usar cámaras especializadas, como cámaras de luz estructurada o de tiempo de vuelo, se puede generar un mapa de profundidad de lo que se ve a través de la cámara a corta distancia, y usar estos datos para aproximarse a una representación 3D de lo que se está viendo. Estos pueden ser efectivos para la detección de gestos con las manos debido a sus capacidades de corto alcance.
Cámaras estéreo. Usando dos cámaras cuyas relaciones entre sí son conocidas, se puede aproximar una representación 3D por la salida de las cámaras. Para obtener las relaciones de las cámaras, se puede usar una referencia de posicionamiento, como una banda lexiana o emisores de infrarrojos. En combinación con la medición de movimiento directo (6D-Vision) se pueden detectar gestos directamente.
Controladores basados ​​en gestos. Estos controladores actúan como una extensión del cuerpo, de modo que cuando se realizan gestos, algunos de sus movimientos pueden ser capturados convenientemente por el software. Un ejemplo de captura de movimiento emergente basada en gestos es a través del rastreo de manos esqueléticas, que se está desarrollando para aplicaciones de realidad virtual y realidad aumentada. Un ejemplo de esta tecnología se muestra en las compañías de seguimiento de uSens y Gestigon, que permiten a los usuarios interactuar con su entorno sin controladores.

Otro ejemplo de esto es el rastreo de gestos del mouse, donde el movimiento del mouse está correlacionado con un símbolo dibujado por la mano de una persona, al igual que el Wii Remote o el brazalete Myo o la pulsera mForce Wizard, que puede estudiar los cambios en la aceleración a lo largo del tiempo para representar gestos. Dispositivos como el LG Electronics Magic Wand, el Loop y el Scoop utilizan la tecnología Freespace de Hillcrest Labs, que utiliza acelerómetros MEMS, giroscopios y otros sensores para traducir los gestos al movimiento del cursor. El software también compensa el temblor humano y el movimiento involuntario. AudioCubes son otro ejemplo. Los sensores de estos cubos inteligentes que emiten luz se pueden usar para detectar manos y dedos, así como otros objetos cercanos, y se pueden usar para procesar datos. La mayoría de las aplicaciones están en la música y la síntesis de sonido, pero se pueden aplicar a otros campos.

Sola camara Se puede usar una cámara 2D estándar para el reconocimiento de gestos donde los recursos / entorno no serían convenientes para otras formas de reconocimiento basado en imágenes. Anteriormente se pensaba que una sola cámara podría no ser tan efectiva como una cámara estéreo o profunda, pero algunas compañías están desafiando esta teoría. Tecnología de reconocimiento de gestos basada en software que utiliza una cámara 2D estándar que puede detectar gestos de mano robustos.
Radar. Vea el Proyecto Soli revelado en Google I / O 2015. a partir de las 13:30, Google I / O 2015 – Un poco rudo. Hermoso. Tecnico y humano. Trabajo y amor. UN GRIFO. – YouTube, y un breve video de introducción, Bienvenido a Project Soli – YouTube

Algoritmos
Dependiendo del tipo de datos de entrada, el enfoque para interpretar un gesto se puede hacer de diferentes maneras. Sin embargo, la mayoría de las técnicas se basan en punteros clave representados en un sistema de coordenadas 3D. En función del movimiento relativo de estos, el gesto se puede detectar con una alta precisión, dependiendo de la calidad de la entrada y el enfoque del algoritmo.
Para interpretar los movimientos del cuerpo, uno tiene que clasificarlos de acuerdo con las propiedades comunes y el mensaje que los movimientos pueden expresar. Por ejemplo, en lenguaje de signos, cada gesto representa una palabra o frase. La taxonomía que parece muy apropiada para la interacción hombre-computadora ha sido propuesta por Quek en “Hacia una interfaz de gestos con la mano basada en la visión”. Presenta varios sistemas de gestos interactivos para capturar todo el espacio de los gestos:

Manipulativo
Semifórico
Conversacional

Algunas publicaciones diferencian 2 enfoques diferentes en el reconocimiento de gestos: un modelo 3D basado en un modelo y basado en la apariencia. El método más importante hace uso de la información 3D de elementos clave de las partes del cuerpo para obtener varios parámetros importantes, como la posición de la palma o los ángulos de la articulación. Por otro lado, los sistemas basados ​​en apariencia utilizan imágenes o videos para la interpretación directa.

Algoritmos basados ​​en modelos 3D
El enfoque del modelo 3D puede utilizar modelos volumétricos o esqueléticos, o incluso una combinación de los dos. Los enfoques volumétricos han sido muy utilizados en la industria de la animación por computadora y para propósitos de visión por computadora. Los modelos generalmente se crean a partir de complicadas superficies 3D, como NURBS o mallas poligonales.

El inconveniente de este método es que es muy computacional y los sistemas para el análisis en tiempo real aún están por desarrollarse. Por el momento, un enfoque más interesante sería mapear objetos primitivos simples a las partes del cuerpo más importantes de la persona (por ejemplo, cilindros para los brazos y el cuello, esfera para la cabeza) y analizar la forma en que interactúan entre sí. Además, algunas estructuras abstractas, como las super-cuadráticas y los cilindros generalizados, pueden ser incluso más adecuadas para aproximar las partes del cuerpo. Lo emocionante de este enfoque es que los parámetros para estos objetos son bastante simples. Para modelar mejor la relación entre estos, utilizamos restricciones y jerarquías entre nuestros objetos.

Algoritmos basados ​​en el esqueleto
En lugar de usar el procesamiento intensivo de los modelos 3D y tratar con muchos parámetros, uno solo puede usar una versión simplificada de los parámetros de ángulo de unión junto con las longitudes de segmento. Esto se conoce como una representación esquelética del cuerpo, donde se calcula un esqueleto virtual de la persona y se asignan partes del cuerpo a ciertos segmentos. El análisis aquí se realiza utilizando la posición y la orientación de estos segmentos y la relación entre cada uno de ellos (por ejemplo, el ángulo entre las articulaciones y la posición u orientación relativa)

Ventajas de utilizar modelos esqueléticos:

Los algoritmos son más rápidos porque solo se analizan los parámetros clave.
La comparación de patrones con una base de datos de plantillas es posible
El uso de puntos clave permite que el programa de detección se enfoque en las partes significativas del cuerpo

Modelos basados ​​en la apariencia
Estos modelos ya no usan una representación espacial del cuerpo, porque derivan los parámetros directamente de las imágenes o videos usando una base de datos de plantillas. Algunos se basan en las plantillas 2D deformables de las partes humanas del cuerpo, particularmente las manos. Las plantillas deformables son conjuntos de puntos en el contorno de un objeto, utilizados como nodos de interpolación para la aproximación del contorno del objeto. Una de las funciones de interpolación más simple es lineal, que realiza una forma promedio a partir de conjuntos de puntos, parámetros de variabilidad de puntos y deformadores externos. Estos modelos basados ​​en plantillas se utilizan principalmente para el seguimiento manual, pero también podrían ser útiles para la clasificación de gestos simples.

Un segundo enfoque en la detección de gestos utilizando modelos basados ​​en la apariencia utiliza secuencias de imágenes como plantillas de gestos. Los parámetros para este método son las imágenes en sí, o ciertas características derivadas de estos. La mayoría de las veces, solo se utilizan una vista (monoscópica) o dos (estereoscópica).

Desafíos
Hay muchos desafíos asociados con la precisión y la utilidad del software de reconocimiento de gestos. Para el reconocimiento de gestos basado en imágenes, existen limitaciones en el equipo utilizado y el ruido de la imagen. Es posible que las imágenes o el video no estén bajo una iluminación constante o en el mismo lugar. Los elementos en segundo plano o las distintas características de los usuarios pueden dificultar el reconocimiento.

La variedad de implementaciones para el reconocimiento de gestos basado en imágenes también puede causar problemas para la viabilidad de la tecnología al uso general. Por ejemplo, un algoritmo calibrado para una cámara puede no funcionar para una cámara diferente. La cantidad de ruido de fondo también causa dificultades de seguimiento y reconocimiento, especialmente cuando se producen oclusiones (parcial y total). Además, la distancia de la cámara y la resolución y calidad de la cámara también causan variaciones en la precisión de reconocimiento.

Para capturar los gestos humanos mediante sensores visuales, también se requieren métodos robustos de visión por computadora, por ejemplo, para el seguimiento de la mano y el reconocimiento de la postura de la mano o para capturar movimientos de la cabeza, expresiones faciales o dirección de la mirada.

“Brazo de gorila”
El “brazo de gorila” fue un efecto secundario de la pantalla táctil orientada verticalmente o el uso del lápiz óptico. En períodos de uso prolongado, los brazos de los usuarios comenzaron a sentir fatiga y / o incomodidad. Este efecto contribuyó a la disminución de la entrada de la pantalla táctil a pesar de la popularidad inicial en los años ochenta.

Para medir la fatiga del brazo y el efecto secundario del brazo de gorila, los investigadores desarrollaron una técnica llamada Consumed Endurance.