Reconnaissance des émotions

La reconnaissance des émotions est le processus d’identification des émotions humaines, le plus souvent à partir d’expressions faciales ainsi que d’expressions verbales. C’est à la fois quelque chose que les humains font automatiquement mais des méthodologies de calcul ont également été développées.

Définition scientifique émotion
Une émotion doit être différenciée du concept de sentiment, d’humeur et de personnalité. Un sentiment est, par exemple, lorsque vous sentez une personne masquée derrière un mur. Alors tu as peur. Un sentiment ne devient une émotion que lorsque ce changement physique est évalué cognitivement.

Si quelqu’un, par exemple, a retrouvé le battement de son cœur jusqu’à l’homme masqué, on pourrait parler de peur. Cependant, s’il retourne chez son proche, on parle de joie. Les émotions ne durent généralement que quelques secondes et ont un début et une fin clairement définis. Les humeurs, par contre, peuvent durer des heures, des jours voire des semaines. Si quelqu’un dit qu’il est de mauvaise humeur aujourd’hui, il est de mauvaise humeur. Cependant, cela n’a rien à voir avec les émotions.

Souvent, une humeur particulière peut augmenter ou diminuer la probabilité d’apparition d’une émotion particulière, mais ces deux choses doivent être séparées sur le plan analytique. Enfin, la personnalité d’une personne doit être différenciée de son humeur. Une personne colérique, par exemple, est définitivement surexcitée de manière négative. De cette façon, on peut imaginer les termes sentiment, émotion, humeur et personnalité disposés sur une ligne de temps – sentiment, d’une part, à court terme et personnalité, de l’autre, à long terme.

Humain
Les humains font preuve d’une cohérence universelle dans la reconnaissance des émotions, mais montrent également une grande variabilité dans leurs capacités. Cela a été un sujet d’étude majeur en psychologie.

Effet cross race
La reconnaissance émotionnelle entre deux personnes est soumise à de fortes fluctuations. En psychologie, un phénomène a été découvert, appelé effet de race croisée. Ce phénomène implique que le taux de reconnaissance des émotions est inférieur lorsque l’émotion à reconnaître appartient à un visage qui n’appartient pas à la même culture ou à la même ethnie que celle de l’observateur. Cependant, cet effet peut être surmonté par une forme de formation.

Reconnaissance visuelle mimique
Cette partie est communément appelée expressions faciales. En tant qu’interface homme-machine, une caméra vidéo numérique ou un périphérique d’entrée optique équivalent est utilisé. Ici, les méthodes de reconnaissance faciale sont utilisées pour analyser les caractéristiques de la surface du visage. Par classification automatique, il est possible d’associer les expressions faciales des images en série à un cluster pouvant éventuellement être associé à une émotion. Des recherches ont toutefois montré que seulement 30% des émotions mimiques correspondent aux émotions réellement ressenties. Par conséquent, il ne faut pas assimiler les expressions faciales visuelles à la reconnaissance des émotions visuelles. Le fond biologique de la reconnaissance des émotions visuelles est la simulation d’un nerf optique humain dans un robot.

Induction d’émotion
Pour les contextes expérimentaux dans les domaines de la psychologie des émotions, de l’éthologie comportementale, de la neuropsychologie et de nombreuses autres sciences, il est souvent important de “générer” des émotions spécifiques dans des conditions de laboratoire. L’induction émotionnelle est l’un des domaines les plus difficiles de la recherche émotionnelle. Plusieurs méta-analyses sur ce sujet ont extrait plusieurs méthodes qui peuvent induire les émotions de la manière la plus efficace.

Tout d’abord, c’est la capture de l’émotion dans la réalité (recherche sur le terrain par mot-clé). En raison de la faible validité interne, cela est souvent évité. La deuxième méthode, qui combine une haute validité interne et une grande validité externe, est la méthode de rappel émotionnel dans laquelle on tente d’évoquer des souvenirs à partir de la mémoire des émotions. Il est déconseillé de faire des expériences en dehors de la recherche sur les émotions EEG par des méthodes d’induction telles que l’IAPS ou la méthode d’induction, qui utilisent des séquences de film ou des morceaux de musique induisant des émotions. Toutes ces méthodes restent sans preuve d’efficacité spécifique. La robotique utilise souvent des procédures expérimentales idéalisées, par exemple:

Une méthode d’induction est supposée induire une émotion chez l’homme.
L’homme exprime son émotion avec une surface de visage modifiée.
Une webcam sur l’ordinateur capture la nouvelle expression faciale.
L’ordinateur peut classifier automatiquement l’émotion en la classant comme l’émotion précédemment induite.

Une fois la phase d’apprentissage terminée, l’intelligence artificielle devrait être capable de reconnaître de manière autonome les émotions sans avoir été enseignée auparavant par un être humain. Cependant, l’efficacité de la méthode d’induction n’étant pas souvent testée et les émotions induites non plus évaluées au cours de l’expérience, ces procédures expérimentales idéalisées en robotique restent souvent erronées et incomplètes.

Automatique
Ce processus exploite des techniques provenant de multiples domaines, tels que le traitement du signal, l’apprentissage automatique et la vision par ordinateur. Différentes méthodologies et techniques peuvent être utilisées pour interpréter les émotions, telles que les réseaux bayésiens, les modèles de mélange gaussien et les modèles de Markov cachés.

Approches
La tâche de reconnaissance des émotions implique souvent l’analyse d’expressions humaines sous des formes multimodales telles que les textes, l’audio ou la vidéo. Différents types d’émotions sont détectés grâce à l’intégration d’informations provenant d’expressions faciales, de mouvements du corps, de gestes et de la parole. Les approches existantes en matière de reconnaissance des émotions pour classer certains types d’émotions peuvent généralement être classées en trois catégories principales: les techniques basées sur la connaissance, les méthodes statistiques et les approches hybrides.

Techniques basées sur la connaissance
Les techniques basées sur la connaissance (parfois appelées techniques basées sur le lexique) utilisent la connaissance du domaine et les caractéristiques sémantiques et syntaxiques du langage afin de détecter certains types d’émotions. Dans cette approche, il est courant d’utiliser des ressources basées sur la connaissance lors du processus de classification des émotions, telles que WordNet, SenticNet, ConceptNet et EmotiNet, pour n’en nommer que quelques-unes. L’un des avantages de cette approche est l’accessibilité et l’économie engendrées par la grande disponibilité de telles ressources basées sur la connaissance. Une autre limite de cette technique est son incapacité à gérer les nuances de concept et les règles linguistiques complexes.

Les techniques basées sur les connaissances peuvent être classées principalement en deux catégories: les approches basées sur les dictionnaires et les approches basées sur des corpus. Les approches basées sur un dictionnaire permettent de rechercher des mots clés d’opinion ou d’émotion dans un dictionnaire et de rechercher leurs synonymes et antonymes afin d’élargir la liste initiale d’opinions ou d’émotions. Les approches basées sur un corpus, d’autre part, commencent par une liste de semences de mots d’opinion ou d’émotion, puis développent la base de données en recherchant d’autres mots possédant des caractéristiques propres au contexte dans un grand corpus. Bien que les approches basées sur des corpus prennent en compte le contexte, leurs performances varient toujours dans différents domaines puisqu’un mot dans un domaine peut avoir une orientation différente dans un autre domaine.

Méthodes statistiques
Les méthodes statistiques impliquent généralement l’utilisation de différents algorithmes d’apprentissage automatique supervisés, dans lesquels un grand ensemble de données annotées est introduit dans les algorithmes afin que le système puisse apprendre et prédire les types d’émotion appropriés. Cette approche implique normalement deux jeux de données: le jeu d’apprentissage et le jeu de tests, le premier étant utilisé pour apprendre les attributs des données, le second étant utilisé pour valider les performances de l’algorithme d’apprentissage automatique. Les algorithmes d’apprentissage automatique offrent généralement une précision de classification plus raisonnable que d’autres méthodes, mais l’un des défis à relever pour obtenir de bons résultats dans le processus de classification est la nécessité de disposer d’un ensemble de formation suffisamment volumineux.

Parmi les algorithmes d’apprentissage automatique les plus couramment utilisés, citons les machines à vecteurs de support (SVM), Naive Bayes et Maximum Entropy. L’apprentissage en profondeur, qui fait partie de la famille non supervisée d’apprentissage automatique, est également largement utilisé pour la reconnaissance des émotions. Les algorithmes d’apprentissage profond bien connus incluent différentes architectures de réseau de neurones artificiels (RNA), telles que le réseau de neurones convolutionnels (CNN), la mémoire à long terme (LSTM) et la machine d’apprentissage extrême (ELM). La popularité des approches d’apprentissage en profondeur dans le domaine de la reconnaissance des émotions peut être principalement attribuée à son succès dans des applications connexes telles que la vision par ordinateur, la reconnaissance de la parole et le traitement automatique du langage naturel.

Approches hybrides
Les approches hybrides de la reconnaissance des émotions sont essentiellement une combinaison de techniques basées sur la connaissance et de méthodes statistiques, qui exploitent des caractéristiques complémentaires des deux techniques. Parmi les travaux qui ont appliqué un ensemble d’éléments linguistiques et de méthodes statistiques axés sur le savoir, citons l’informatique sentique et iFeel, qui ont tous deux adopté la ressource basée sur le savoir SenticNet au niveau du concept. Le rôle de telles ressources basées sur la connaissance dans la mise en œuvre d’approches hybrides est extrêmement important dans le processus de classification des émotions. Étant donné que les techniques hybrides tirent parti des avantages offerts par les approches fondées sur la connaissance et les approches statistiques, elles ont tendance à avoir de meilleures performances de classification que les méthodes basées sur la connaissance ou statistiques. L’inconvénient de l’utilisation de techniques hybrides réside toutefois dans la complexité des calculs lors du processus de classification.

Ensembles de données
Les données font partie intégrante des approches existantes en matière de reconnaissance des émotions et, dans la plupart des cas, il est difficile d’obtenir des données annotées nécessaires à la formation d’algorithmes d’apprentissage automatique. Bien que la plupart des données accessibles au public ne soient pas annotées, il existe des ensembles de données annotés disponibles pour effectuer des recherches sur la reconnaissance des émotions. Pour classer différents types d’émotions provenant de sources multimodales sous forme de texte, audio, vidéo ou de signaux physiologiques, les ensembles de données suivants sont disponibles:

HUMAINE: fournit des clips naturels avec des mots d’émotion et des étiquettes de contexte selon de multiples modalités
Base de données de Belfast: fournit des clips avec une large gamme d’émotions issues de programmes télévisés et d’enregistrements d’interviews
SEMAINE: fournit des enregistrements audiovisuels entre une personne et un agent virtuel et contient des annotations d’émotion telles que colère, joie, peur, dégoût, tristesse, mépris et amusement.
IEMOCAP: fournit des enregistrements de sessions dyadiques entre acteurs et contient des annotations d’émotion telles que le bonheur, la colère, la tristesse, la frustration et l’état neutre.
eNTERFACE: fournit des enregistrements audiovisuels de sujets de sept nationalités et contient des annotations d’émotion telles que le bonheur, la colère, la tristesse, la surprise, le dégoût et la peur.
DEAP: fournit des enregistrements vidéo d’électroencéphalographie (EEG), d’électrocardiographie (ECG) et de visage, ainsi que des annotations d’émotion en termes de valence, d’excitation et de domination des personnes visionnant des extraits de film
DREAMER: fournit des enregistrements d’électroencéphalographie (EEG) et d’électrocardiographie (ECG), ainsi que des annotations d’émotion en termes de valence, d’excitation et de domination des personnes regardant des extraits de film.

Applications
Les programmeurs utilisent souvent le système de codage à action faciale de Paul Ekman comme guide.

La reconnaissance des émotions est utilisée pour diverses raisons. Affectiva l’utilise pour aider les annonceurs et les créateurs de contenu à vendre leurs produits plus efficacement. Affectiva fabrique également un capteur Q qui mesure les émotions des enfants autistes. Emotient était une jeune entreprise qui utilisait l’intelligence artificielle pour prédire “des attitudes et des actions fondées sur des expressions faciales”. Apple a annoncé son intention d’acheter Emotient en janvier 2016. nViso fournit une reconnaissance des émotions en temps réel pour les applications Web et mobiles via une API en temps réel. Visage Technologies AB propose une estimation des émotions dans son SDK Visage à des fins de marketing et de recherche scientifique et à des fins similaires. Eyeris est une société de reconnaissance des émotions qui collabore avec les fabricants de systèmes intégrés, y compris les constructeurs automobiles et les sociétés de robotique sociale, à l’intégration de ses logiciels d’analyse de visage et de reconnaissance des émotions. ainsi qu’avec les créateurs de contenu vidéo pour les aider à mesurer l’efficacité perçue de leur création vidéo courte et longue forme. La reconnaissance et l’analyse des émotions sont étudiées par des entreprises et des universités du monde entier.

Détection couchée
La perception des émotions multisensorielles est utile pour évaluer la véracité des énoncés, plus particulièrement pour détecter les mensonges, qui doivent être compris comme des déclarations trompeuses délibérément fausses. Bien que ce ne soit pas un indicateur universellement valable pour la certitude du mensonge, de la mimique, des gestes, du langage et de la posture, il peut fournir des indices. Relativement fiable, il s’agit de signaux inconscients ou non contrôlables, tels que la largeur de la pupille, la ligne de vision ou le rougissement. En outre, il faudrait de plus en plus mettre l’accent sur les divergences entre les différentes expressions verbales et non verbales d’une personne.