Reconocimiento de emociones

El reconocimiento de emociones es el proceso de identificación de las emociones humanas, generalmente de las expresiones faciales y verbales. Esto es algo que los humanos hacen automáticamente, pero también se han desarrollado metodologías computacionales.

Definición científica de la emoción.
Una emoción debe diferenciarse del concepto de sentimiento, estado de ánimo y personalidad. Un sentimiento es, por ejemplo, cuando sientes a una persona enmascarada detrás de una pared. Entonces sientes miedo. Un sentimiento solo se convierte en una emoción cuando este cambio físico se evalúa cognitivamente.

Si alguien, por ejemplo, su latido del corazón se remonta al hombre enmascarado, se hablaría de miedo. Sin embargo, si regresa a su ser querido en secreto, se hablaría de alegría. Las emociones suelen durar solo unos segundos y tienen un conjunto definido y compensado claramente definido. Los estados de ánimo, por otro lado, pueden durar horas, días o incluso semanas. Si alguien dice que está de mal humor hoy, está de mal humor. Sin embargo, esto no necesariamente tiene que ver con las emociones.

A menudo, un estado de ánimo particular puede aumentar o disminuir la probabilidad de que ocurra una emoción particular, pero estas dos cosas deben estar separadas analíticamente. Finalmente, la personalidad de una persona necesita ser diferenciada del estado de ánimo. Una persona colérica, por ejemplo, está permanentemente sobreexcitada negativamente. De esta manera, uno puede imaginar los términos sentimiento, emoción, estado de ánimo y personalidad dispuestos en una línea de tiempo: sentimiento por un lado, corto plazo y personalidad por el otro lado, a largo plazo.

Humano
Los seres humanos muestran una consistencia universal en el reconocimiento de las emociones, pero también muestran una gran variabilidad entre los individuos en sus habilidades. Este ha sido un tema importante de estudio en psicología.

Efecto de carrera cruzada
El reconocimiento emocional entre dos personas está sujeto a fuertes fluctuaciones. En psicología, se ha descubierto un fenómeno, que se llama efecto cruzado. Este fenómeno implica que la tasa de reconocimiento de emociones es menor cuando la emoción a reconocer pertenece a una cara que no pertenece a la misma cultura o etnia que la del observador. Sin embargo, este efecto puede ser superado por una forma de entrenamiento.

Reconocimiento visual mímico
Esta parte se conoce comúnmente como expresiones faciales. Como interfaz hombre-máquina, se utiliza una cámara de video digital o un dispositivo de entrada óptica equivalente. Aquí, los métodos de reconocimiento facial se utilizan para analizar las características de la superficie facial. Mediante la clasificación automática es posible asociar las expresiones faciales de los marcos de serie con un grupo que posiblemente podría asociarse con una emoción. Sin embargo, las investigaciones han demostrado que solo el 30% de las emociones mímicas corresponden a las emociones que realmente se sienten. Por lo tanto, uno no debe equiparar las expresiones faciales visuales con el reconocimiento visual de emociones. El fondo biológico del reconocimiento visual de emociones es la simulación de un nervio óptico humano en un robot.

Inducción de emociones
Para entornos experimentales en los campos de la psicología emocional, la etología del comportamiento, la neuropsicología y muchas otras ciencias, a menudo es importante “generar” emociones específicas en condiciones de laboratorio. La inducción emocional es una de las áreas más difíciles de la investigación emocional. Varios metanálisis sobre este tema han extraído varios métodos que pueden inducir emociones de manera más efectiva.

Lo primero y más importante es la captura de la emoción en la realidad (investigación de campo de palabras clave). Debido a la baja validez interna, a menudo se refrena. El segundo método, que combina una alta validez interna con una alta validez externa, es el método de recuperación emocional en el que se intenta evocar recuerdos de la memoria emocional. Se desaconseja la realización de experimentos fuera de EEG. La investigación emocional se realiza mediante métodos de inducción, como IAPS o método de inducción, que presuntamente utilizan secuencias de películas o piezas musicales que provocan emociones. Todos estos métodos permanecen sin prueba de efectividad específica. La robótica a menudo utiliza procedimientos experimentales idealizados, por ejemplo:

Se supone que un método de inducción induce una emoción en los humanos.
El hombre expresa su emoción con una cara cambiada.
Una cámara web en la computadora captura la nueva expresión facial.
La computadora puede clasificar automáticamente la emoción clasificándola como la emoción que se indujo previamente.

Después de completar la fase de aprendizaje, la IA debe poder reconocer de manera independiente las emociones sin haber sido previamente enseñada por un ser humano. Sin embargo, dado que ni el método de inducción se prueba a menudo para determinar su eficacia, ni las emociones inducidas se evalúan durante el experimento, estos procedimientos experimentales idealizados en robótica a menudo siguen siendo erróneos e incompletos.

Automático
Este proceso aprovecha las técnicas de múltiples áreas, como el procesamiento de señales, el aprendizaje automático y la visión por computadora. Se pueden emplear diferentes metodologías y técnicas para interpretar emociones como las redes bayesianas, los modelos de mezclas gaussianas y los modelos ocultos de Markov.

Enfoques
La tarea de reconocimiento de emociones a menudo implica el análisis de expresiones humanas en formas multimodales como textos, audio o video. Se detectan diferentes tipos de emociones a través de la integración de la información de las expresiones faciales, los movimientos y gestos corporales y el habla. Los enfoques existentes en el reconocimiento de emociones para clasificar ciertos tipos de emociones pueden clasificarse generalmente en tres categorías principales: técnicas basadas en el conocimiento, métodos estadísticos y enfoques híbridos.

Técnicas basadas en el conocimiento
Las técnicas basadas en el conocimiento (a veces denominadas técnicas basadas en el léxico), utilizan el conocimiento del dominio y las características semánticas y sintácticas del lenguaje para detectar ciertos tipos de emociones. En este enfoque, es común utilizar recursos basados ​​en el conocimiento durante el proceso de clasificación de las emociones, como WordNet, SenticNet, ConceptNet y EmotiNet, por nombrar algunos. Una de las ventajas de este enfoque es la accesibilidad y la economía generadas por la gran disponibilidad de dichos recursos basados ​​en el conocimiento. Una limitación de esta técnica, por otro lado, es su incapacidad para manejar los matices de los conceptos y las complejas reglas lingüísticas.

Las técnicas basadas en el conocimiento se pueden clasificar principalmente en dos categorías: enfoques basados ​​en diccionarios y en corpus. Los enfoques basados ​​en un diccionario encuentran palabras emisores de opinión o emoción en un diccionario y buscan sus sinónimos y antónimos para ampliar la lista inicial de opiniones o emociones. Los enfoques basados ​​en corpus, por otro lado, comienzan con una lista de semillas de opinión o palabras de emoción, y expanden la base de datos encontrando otras palabras con características específicas del contexto en un corpus grande. Si bien los enfoques basados ​​en corpus tienen en cuenta el contexto, su rendimiento aún varía en diferentes dominios, ya que una palabra en un dominio puede tener una orientación diferente en otro dominio.

Métodos de estadística
Los métodos estadísticos comúnmente implican el uso de diferentes algoritmos supervisados ​​de aprendizaje automático en los cuales un gran conjunto de datos anotados se introducen en los algoritmos para que el sistema aprenda y prediga los tipos de emoción apropiados. Este enfoque normalmente involucra dos conjuntos de datos: el conjunto de entrenamiento y el conjunto de pruebas, donde el primero se usa para aprender los atributos de los datos, mientras que el último se usa para validar el rendimiento del algoritmo de aprendizaje automático. Los algoritmos de aprendizaje automático generalmente proporcionan una precisión de clasificación más razonable en comparación con otros enfoques, pero uno de los desafíos para lograr buenos resultados en el proceso de clasificación, es la necesidad de tener un conjunto de capacitación suficientemente grande.

Algunos de los algoritmos de aprendizaje automático más comúnmente utilizados son: Support Vector Machines (SVM), Naive Bayes y Maximum Entropy. El aprendizaje profundo, que está bajo la familia no supervisada de aprendizaje automático, también se emplea ampliamente en el reconocimiento de emociones. Los algoritmos de aprendizaje profundo conocidos incluyen diferentes arquitecturas de la red neuronal artificial (ANN), como la red neuronal convolucional (CNN), la memoria a corto plazo a largo plazo (LSTM) y la máquina de aprendizaje extremo (ELM). La popularidad de los enfoques de aprendizaje profundo en el dominio del reconocimiento de emociones puede atribuirse principalmente a su éxito en aplicaciones relacionadas como la visión por ordenador, el reconocimiento de voz y el procesamiento de lenguaje natural (PNL).

Enfoques híbridos
Los enfoques híbridos en el reconocimiento de emociones son esencialmente una combinación de técnicas basadas en el conocimiento y métodos estadísticos, que explotan características complementarias de ambas técnicas. Algunos de los trabajos que han aplicado un conjunto de elementos lingüísticos impulsados ​​por el conocimiento y métodos estadísticos incluyen la computación sentic y iFeel, los cuales han adoptado el recurso basado en el conocimiento a nivel de concepto SenticNet. El papel de dichos recursos basados ​​en el conocimiento en la implementación de enfoques híbridos es muy importante en el proceso de clasificación de las emociones. Dado que las técnicas híbridas se benefician de los beneficios que ofrecen los enfoques tanto basados ​​en el conocimiento como estadísticos, tienden a tener un mejor rendimiento de clasificación en lugar de emplear métodos basados ​​en el conocimiento o estadísticos de forma independiente. Una desventaja de usar técnicas híbridas, sin embargo, es la complejidad computacional durante el proceso de clasificación.

Conjuntos de datos
Los datos son una parte integral de los enfoques existentes en el reconocimiento de emociones y, en la mayoría de los casos, es un desafío obtener datos anotados que son necesarios para entrenar los algoritmos de aprendizaje automático. Si bien la mayoría de los datos disponibles públicamente no están anotados, existen conjuntos de datos anotados disponibles para realizar investigaciones de reconocimiento de emociones. Para la tarea de clasificar diferentes tipos de emociones de fuentes multimodales en forma de textos, audio, videos o señales fisiológicas, están disponibles los siguientes conjuntos de datos:

HUMAINE: proporciona clips naturales con palabras de emoción y etiquetas de contexto en múltiples modalidades
Base de datos de Belfast: proporciona clips con una amplia gama de emociones de programas de TV y grabaciones de entrevistas
SEMAINE: proporciona grabaciones audiovisuales entre una persona y un agente virtual y contiene anotaciones emocionales como enojo, felicidad, miedo, disgusto, tristeza, desprecio y diversión.
IEMOCAP: proporciona grabaciones de sesiones diádicas entre actores y contiene anotaciones de emociones como felicidad, enojo, tristeza, frustración y estado neutral.
eNTERFACE: proporciona grabaciones audiovisuales de sujetos de siete nacionalidades y contiene anotaciones emocionales como la felicidad, la ira, la tristeza, la sorpresa, el disgusto y el miedo.
DEAP: proporciona electroencefalografía (EEG), electrocardiografía (ECG) y grabaciones de video de cara, así como anotaciones de emoción en términos de valencia, excitación y dominio de personas que ven clips de películas
DREAMER: proporciona grabaciones de electroencefalografía (EEG) y electrocardiografía (ECG), así como anotaciones de emociones en términos de valencia, activación y dominio de personas que ven clips de películas.

Aplicaciones
Los programadores de computadoras a menudo usan el Sistema de codificación de acción facial de Paul Ekman como guía.

El reconocimiento de emociones se utiliza por una variedad de razones. Affectiva lo utiliza para ayudar a los anunciantes y creadores de contenido a vender sus productos de manera más efectiva. Affectiva también hace un sensor Q que mide las emociones de los niños autistas. Emotient fue una empresa de nueva creación que utilizó inteligencia artificial para predecir “actitudes y acciones basadas en expresiones faciales”. Apple manifestó su intención de comprar Emotient en enero de 2016. nViso ofrece reconocimiento de emociones en tiempo real para aplicaciones web y móviles a través de una API en tiempo real. Visage Technologies AB ofrece la estimación de emociones como parte de su Visage SDK para mercadeo e investigación científica y propósitos similares. Eyeris es una empresa de reconocimiento de emociones que trabaja con fabricantes de sistemas integrados, incluidos fabricantes de automóviles y compañías de robótica social, para integrar su software de análisis facial y de reconocimiento de emociones. así como con los creadores de contenido de video para ayudarlos a medir la efectividad percibida de su video creativo de forma corta y larga. El reconocimiento de emociones y el análisis de emociones están siendo estudiados por empresas y universidades de todo el mundo.

Detección de mentiras
La percepción de la emoción multisensorial es útil para evaluar la veracidad de las expresiones, más específicamente para detectar mentiras, donde las mentiras deben entenderse como declaraciones engañosas deliberadamente falsas. Si bien no es un indicador universalmente válido para la certeza de las mentiras, la mímica, los gestos, el lenguaje y la postura pueden proporcionar pistas. Relativamente confiables son señales inconscientes o no controlables, como el ancho de la pupila, la línea de visión o el rubor. Además, la atención debe centrarse cada vez más en las discrepancias entre las diversas expresiones verbales y no verbales de una persona.