Reconnaissance de la parole

La reconnaissance vocale est le sous-domaine interdisciplinaire de la linguistique informatique qui développe des méthodologies et des technologies permettant la reconnaissance et la traduction de la langue parlée en texte par des ordinateurs. Il est également connu sous le nom de reconnaissance automatique de la parole (ASR), de reconnaissance de la parole par ordinateur ou de synthèse vocale (STT). Il intègre des connaissances et des recherches dans les domaines de la linguistique, de l’informatique et du génie électrique.

Certains systèmes de reconnaissance vocale nécessitent une « formation » (également appelée « inscription ») dans laquelle un locuteur individuel lit un texte ou un vocabulaire isolé dans le système. Le système analyse la voix spécifique de la personne et l’utilise pour affiner la reconnaissance de son discours, ce qui accroît la précision. Les systèmes qui n’utilisent pas de formation sont appelés systèmes « indépendants du locuteur ». Les systèmes qui utilisent la formation sont appelés « dépendants du locuteur ».

Les applications de reconnaissance vocale comprennent des interfaces utilisateur vocales telles que la numérotation vocale (par exemple, « Call Home »), le routage des appels (par exemple, « Je souhaite effectuer un appel à frais virés »), le contrôle d’appareils domotiques, la recherche (par exemple, la recherche d’un podcast où des mots particuliers sont prononcés). ), une simple saisie de données (par exemple, un numéro de carte de crédit), la préparation de documents structurés (par exemple un rapport de radiologie), un traitement de la parole au texte (par exemple, un traitement de texte ou des courriels) et un aéronef (généralement appelé saisie vocale directe) .

Le terme reconnaissance vocale ou identification du locuteur fait référence à l’identification du locuteur, plutôt qu’à son contenu. Reconnaître le locuteur peut simplifier la tâche de traduction de la parole dans des systèmes formés à la voix d’une personne spécifique ou peut être utilisé pour authentifier ou vérifier l’identité d’un locuteur dans le cadre d’un processus de sécurité.

Du point de vue de la technologie, la reconnaissance vocale a une longue histoire avec plusieurs vagues d’innovations majeures. Plus récemment, le secteur a bénéficié des progrès de l’apprentissage en profondeur et du Big Data. Les progrès sont illustrés non seulement par la multiplication des publications universitaires publiées sur le terrain, mais surtout par l’adoption par l’industrie mondiale d’une variété de méthodes d’apprentissage en profondeur pour la conception et le déploiement de systèmes de reconnaissance vocale. Parmi les acteurs de l’industrie vocale, on compte Google, Microsoft, Baidu, Apple, Amazon, Nuance, SoundHound et iFLYTEK, dont beaucoup ont annoncé que la technologie de base de leurs systèmes de reconnaissance vocale était basée sur un apprentissage en profondeur.

Modèles, méthodes et algorithmes
La modélisation acoustique et la modélisation linguistique sont des éléments importants des algorithmes de reconnaissance vocale modernes basés sur des statistiques. Les modèles de Markov cachés (HMM) sont largement utilisés dans de nombreux systèmes. La modélisation linguistique est également utilisée dans de nombreuses autres applications de traitement du langage naturel telles que la classification de documents ou la traduction automatique statistique.

Modèles de Markov cachés
Les systèmes modernes de reconnaissance vocale à usage général sont basés sur les modèles de Markov cachés. Ce sont des modèles statistiques qui produisent une séquence de symboles ou de quantités. Les HMM sont utilisés dans la reconnaissance vocale car un signal vocal peut être considéré comme un signal stationnaire par morceaux ou un signal stationnaire à court terme. Sur une courte période (par exemple 10 millisecondes), la parole peut être approximée comme un processus stationnaire. La parole peut être considérée comme un modèle de Markov à de nombreuses fins stochastiques.

Une autre raison de la popularité des HMM réside dans le fait qu’ils peuvent être formés automatiquement et qu’ils sont simples et faciles à utiliser. En reconnaissance vocale, le modèle de Markov caché produirait une séquence de vecteurs à valeurs réelles à n dimensions (n ​​étant un petit nombre entier, tel que 10), générant un de ces vecteurs toutes les 10 millisecondes. Les vecteurs seraient constitués de coefficients cepstraux, obtenus en prenant une transformée de Fourier d’une courte fenêtre temporelle de parole et en décorrélant le spectre à l’aide d’une transformée en cosinus, puis en prenant les premiers coefficients (les plus significatifs). Le modèle de Markov caché aura tendance à avoir dans chaque état une distribution statistique qui est un mélange de gaussiennes à covariance diagonale, ce qui donnera une probabilité pour chaque vecteur observé. Chaque mot, ou (pour les systèmes de reconnaissance vocale plus généraux), chaque phonème, aura une distribution de sortie différente; un modèle de Markov caché pour une séquence de mots ou de phonèmes est créé en concaténant les modèles de Markov cachés formés individuellement pour les mots et les phonèmes séparés.

Les éléments décrits ci-dessus sont les éléments centraux de l’approche la plus courante, basée sur HMM, en matière de reconnaissance vocale. Les systèmes de reconnaissance vocale modernes utilisent diverses combinaisons d’un certain nombre de techniques standard afin d’améliorer les résultats par rapport à l’approche de base décrite ci-dessus. Un système typique de grand vocabulaire nécessiterait une dépendance de contexte pour les phonèmes (les phonèmes ayant des contextes gauche et droit différents ont donc des réalisations différentes en tant qu’états HMM); il utiliserait la normalisation cepstrale pour se normaliser en fonction de différentes conditions d’enceinte et d’enregistrement; pour la normalisation ultérieure du locuteur, il pourrait utiliser la normalisation de la longueur du tractus vocal (VTLN) pour la normalisation homme-femme et la régression linéaire du maximum de vraisemblance (MLLR) pour une adaptation plus générale du locuteur. Les caractéristiques auraient des soi-disant coefficients delta et delta-delta pour capturer la dynamique de la parole et pourraient en outre utiliser une analyse discriminante linéaire hétéroscedastique (HLDA); ou peut ignorer les coefficients delta et delta-delta et utiliser l’épissage et une projection basée sur LDA suivie éventuellement d’une analyse discriminante linéaire hétéroscédastique ou d’une transformation de variance globale liée à la variance (également connue sous le nom de transformée linéaire de vraisemblance maximale ou MLLT). De nombreux systèmes utilisent des techniques de formation dites discriminantes qui suppriment une approche purement statistique de l’estimation de paramètres HMM et optimisent à la place une mesure des données de formation liée à la classification. Des exemples sont l’information mutuelle maximale (MMI), l’erreur de classification minimale (MCE) et l’erreur minimale de téléphone (MPE).

Le décodage de la parole (terme désignant ce qui se produit lorsque le système se voit présenter un nouvel énoncé et doit calculer la phrase source la plus probable) utiliserait probablement l’algorithme de Viterbi pour trouver le meilleur chemin, et vous avez le choix entre créer dynamiquement un combinaison modèle de Markov caché, qui inclut à la fois les informations du modèle acoustique et du modèle de langage, et combinaison préalable statique (approche du transducteur à états finis ou FST).

Une amélioration possible du décodage consiste à conserver un ensemble de bons candidats au lieu de garder le meilleur candidat et à utiliser une fonction de scoring plus performante (re-scoring) pour évaluer ces bons candidats afin que nous puissions choisir le meilleur en fonction de ce score raffiné. . L’ensemble de candidats peut être conservé sous forme de liste (approche de la liste des meilleures) ou de sous-ensemble des modèles (un réseau). La réévaluation se fait généralement en essayant de minimiser le risque Bayes (ou une approximation de celui-ci): au lieu de prendre la phrase source avec la probabilité maximale, nous essayons de prendre la phrase qui minimise l’espérance d’une fonction de perte donnée pour toutes les transcriptions possibles. (c’est-à-dire que nous prenons la phrase qui minimise la distance moyenne par rapport aux autres phrases possibles pondérées par leur probabilité estimée). La fonction de perte est généralement la distance de Levenshtein, bien que les distances puissent être différentes pour des tâches spécifiques; l’ensemble des transcriptions possibles est, bien entendu, taillé de manière à maintenir la facilité de traitement. Des algorithmes efficaces ont été conçus pour re-marquer des réseaux représentés comme des transducteurs à états finis pondérés avec des distances de montage représentées, eux-mêmes comme un transducteur à états finis vérifiant certaines hypothèses.

Reconnaissance vocale basée sur le time warping (DTW) dynamique
Le Time Warping dynamique est une approche historiquement utilisée pour la reconnaissance de la parole, mais elle a maintenant été largement remplacée par l’approche plus performante basée sur HMM.

Le warping temporel dynamique est un algorithme permettant de mesurer la similarité entre deux séquences pouvant varier dans le temps ou la vitesse. Par exemple, des similitudes dans les habitudes de marche seraient détectées, même si, dans une vidéo, la personne marchait lentement et si, dans une autre, elle marchait plus vite, ou même s’il y avait des accélérations et des décélérations au cours d’une observation. DTW a été appliqué à la vidéo, à l’audio et aux graphiques. En effet, toutes les données pouvant être transformées en représentation linéaire peuvent être analysées avec DTW.

Une application bien connue a été la reconnaissance automatique de la parole pour faire face à différentes vitesses de parole. En général, c’est une méthode qui permet à un ordinateur de trouver une correspondance optimale entre deux séquences données (par exemple, une série chronologique) avec certaines restrictions. C’est-à-dire que les séquences sont « déformées » de manière non linéaire pour correspondre les unes aux autres. Cette méthode d’alignement de séquence est souvent utilisée dans le contexte de modèles de Markov cachés.

Les réseaux de neurones
Les réseaux de neurones sont apparus à la fin des années 1980 comme une approche de modélisation acoustique attrayante en RSA. Depuis lors, les réseaux de neurones ont été utilisés dans de nombreux aspects de la reconnaissance de la parole, tels que la classification des phonèmes, la reconnaissance de mots isolés, la reconnaissance de la parole audiovisuelle, la reconnaissance audiovisuelle du locuteur et l’adaptation du locuteur.

Contrairement aux HMM, les réseaux de neurones ne font aucune hypothèse sur les propriétés statistiques des fonctionnalités et possèdent plusieurs qualités qui en font des modèles de reconnaissance attrayants pour la reconnaissance de la parole. Lorsqu’ils sont utilisés pour estimer les probabilités d’un segment de fonction de la parole, les réseaux de neurones permettent un entraînement discriminant de manière naturelle et efficace. Peu de suppositions sur les statistiques des entités en entrée sont faites avec des réseaux de neurones. Cependant, malgré leur efficacité à classer les unités à court terme telles que les phonèmes individuels et les mots isolés, les réseaux de neurones réussissent rarement aux tâches de reconnaissance continues, principalement en raison de leur incapacité à modéliser les dépendances temporelles.

Cependant, des réseaux neuronaux récurrents (RNN) et des réseaux neuronaux à retard (TDNN) ont récemment été utilisés; ils se sont révélés capables d’identifier les dépendances temporelles latentes et d’utiliser ces informations pour effectuer la reconnaissance vocale.

Des réseaux de neurones profonds et des auto-encodeurs dénoisants ont également été expérimentés pour résoudre ce problème de manière efficace.

En raison de l’incapacité des réseaux de neurones à anticipation de modéliser les dépendances temporelles, une autre approche consiste à utiliser les réseaux de neurones comme prétraitement, par exemple transformation d’entités, réduction de la dimensionnalité, pour la reconnaissance basée sur HMM.

Réseaux neuronaux profonds et récurrents
Un réseau de neurones à réaction profonde (DNN) est un réseau de neurones artificiel avec plusieurs couches d’unités cachées entre les couches d’entrée et de sortie. Semblables aux réseaux neuronaux peu profonds, les DNN peuvent modéliser des relations non linéaires complexes. Les architectures DNN génèrent des modèles de composition, dans lesquels des couches supplémentaires permettent de composer des entités à partir de couches inférieures, ce qui confère une capacité d’apprentissage énorme et, par conséquent, le potentiel de modélisation de modèles complexes de données de parole.

Les chercheurs de l’industrie, en collaboration avec des chercheurs universitaires, ont connu un succès grandissant dans la reconnaissance de la parole avec un vocabulaire étendu en 2010 grâce à l’adoption de larges couches de sortie du DNN basées sur des états HMM dépendants du contexte et construits par des arbres de décision. Voir les examens complets de ce développement et de l’état de la technique d’octobre 2014 dans le récent livre Springer de Microsoft Research. Voir également l’historique de la reconnaissance automatique de la parole et l’impact de divers paradigmes d’apprentissage automatique, notamment l’apprentissage en profondeur dans de récents articles de synthèse.

L’un des principes fondamentaux de l’apprentissage en profondeur est de supprimer l’ingénierie manuelle des fonctionnalités et d’utiliser les fonctionnalités brutes. Ce principe a d’abord été exploré avec succès dans l’architecture de l’auto-codeur profond sur les caractéristiques du spectrogramme « brut » ou de la banque de filtres linéaires, démontrant ainsi sa supériorité sur les caractéristiques de Mel-Cepstral qui contiennent quelques étapes de transformation fixe à partir de spectrogrammes. Les véritables caractéristiques « brutes » de la parole, les formes d’onde, ont récemment démontré qu’elles produisaient d’excellents résultats de reconnaissance vocale à grande échelle.

Reconnaissance vocale automatique de bout en bout
Depuis 2014, les recherches sur l’ASR de bout en bout ont suscité un vif intérêt. Les approches traditionnelles basées sur la phonétique (c’est-à-dire tous les modèles basés sur HMM) nécessitaient des composants et une formation séparés pour le modèle de prononciation, acoustique et linguistique. Les modèles de bout en bout apprennent conjointement tous les composants de la reconnaissance vocale. Cela est précieux car cela simplifie les processus de formation et de déploiement. Par exemple, un modèle de langage n-gram est requis pour tous les systèmes basés sur HMM, et un modèle de langage n-gram typique prend souvent plusieurs gigaoctets en mémoire, ce qui les rend difficiles à déployer sur des appareils mobiles. Par conséquent, les systèmes ASR commerciaux modernes de Google et Apple (à partir de 2017) sont déployés sur le cloud et nécessitent une connexion réseau, par opposition au périphérique local.

Alex Graves de Google DeepMind et Navdeep Jaitly de l’Université de Toronto en 2014 ont présenté les systèmes basés sur la Classification connexionniste temporelle (CTC) de 2014. Le modèle consistait en des réseaux de neurones récurrents et une couche CTC. Conjointement, le modèle RNN-CTC apprend la prononciation et le modèle acoustique ensemble, mais il est incapable d’apprendre la langue en raison d’hypothèses d’indépendance conditionnelle similaires à celles d’un modèle HMM. Par conséquent, les modèles CTC peuvent directement apprendre à associer l’acoustique de la parole aux caractères anglais, mais ils font beaucoup d’erreurs d’orthographe courantes et doivent s’appuyer sur un modèle linguistique distinct pour nettoyer les transcriptions. Plus tard, Baidu développa le travail avec des jeux de données extrêmement volumineux et démontra un certain succès commercial en chinois mandarin et en anglais. En 2016, l’Université d’Oxford a présenté LipNet, le premier modèle de lecture labiale de bout en bout au niveau de la phrase, utilisant des convolutions spatio-temporelles couplées à une architecture RNN-CTC, surpassant les performances au niveau humain dans un jeu de données grammaticales restreint.

Une approche alternative aux modèles basés sur la CCT sont des modèles basés sur l’attention. Les modèles d’ASR basés sur l’attention ont été introduits simultanément par Chan et al. de Carnegie Mellon University et Google Brain et Bahdanaua et al. de l’Université de Montréal en 2016. Le modèle nommé « Listen, Attend and Spell » (LAS), « écoute » le signal acoustique, prête « attention » aux différentes parties du signal et « épelle » la transcription, un caractère à la fois. Contrairement aux modèles basés sur la CCT, les modèles basés sur l’attention n’ont pas d’hypothèses d’indépendance conditionnelle et peuvent apprendre directement tous les composants d’un dispositif de reconnaissance vocale, y compris les modèles de prononciation, acoustique et de langage. Cela signifie que, lors du déploiement, il n’est pas nécessaire d’utiliser un modèle de langage, ce qui le rend très pratique pour le déploiement sur des applications avec une mémoire limitée. À la fin de 2016, les modèles axés sur l’attention avaient connu un succès considérable, notamment en surperformant les modèles de la CCT (avec ou sans modèle de langage externe). Diverses extensions ont été proposées depuis le modèle LAS original. Les décompositions en séquences latentes (LSD) ont été proposées par l’Université Carnegie Mellon, le MIT et Google Brain pour émettre directement des unités de sous-mots plus naturels que les caractères anglais; L’Université d’Oxford et Google DeepMind ont étendu le programme LAS à «Regarder, écouter, assister et épeler» (WLAS) afin de prendre en charge la lecture labiale dépassant les performances humaines.

Applications

Systèmes embarqués
Typiquement, une entrée de commande manuelle, par exemple à l’aide d’une commande au doigt sur le volant, active le système de reconnaissance vocale et ceci est signalé au conducteur par une invite audio. À la suite de l’invite audio, le système dispose d’une « fenêtre d’écoute » au cours de laquelle il peut accepter une entrée vocale à des fins de reconnaissance.

Des commandes vocales simples peuvent être utilisées pour lancer des appels téléphoniques, sélectionner des stations de radio ou écouter de la musique depuis un smartphone compatible, un lecteur MP3 ou une clé USB chargée de musique. Les capacités de reconnaissance vocale varient selon la marque et le modèle. Certains des modèles de voiture les plus récents (quand?) Offrent la reconnaissance vocale en langage naturel à la place d’un ensemble fixe de commandes, permettant au conducteur d’utiliser des phrases complètes et des phrases courantes. Avec de tels systèmes, l’utilisateur n’a donc pas besoin de mémoriser un ensemble de mots de commande fixes.

Soins de santé

Documentation médicale
Dans le secteur des soins de santé, la reconnaissance de la parole peut être mise en œuvre en amont ou en aval du processus de documentation médicale. La reconnaissance vocale frontale est l’endroit où le fournisseur dicte dans un moteur de reconnaissance vocale, les mots reconnus sont affichés au fur et à mesure qu’ils sont prononcés, et le dictateur est responsable de l’édition et de la signature du document. La reconnaissance vocale directe ou différée est celle où le fournisseur dicte dans un système de dictée numérique, la voix est acheminée via un appareil de reconnaissance vocale et le brouillon reconnu est acheminé avec le fichier vocal original vers l’éditeur, où le brouillon est édité. et rapport finalisé. La reconnaissance vocale différée est couramment utilisée dans le secteur.

L’un des principaux problèmes liés à l’utilisation de la reconnaissance vocale dans les soins de santé est que l’ARRA (American Recovery and Reinvestment Act) de 2009 offre des avantages financiers substantiels aux médecins qui utilisent un DME conformément aux normes « d’utilisation significative ». Ces normes exigent que le DME maintienne une quantité importante de données (maintenant plus communément appelé dossier de santé électronique ou DSE). L’utilisation de la reconnaissance vocale est plus naturellement adaptée à la génération de texte narratif, dans le cadre d’une interprétation en radiologie / pathologie, d’une note de progrès ou d’un résumé de sortie: les avantages ergonomiques de l’utilisation de la reconnaissance vocale pour la saisie de données discrètes structurées (par exemple, des valeurs numériques ou des codes). d’une liste ou d’un vocabulaire contrôlé) sont relativement minimes pour les personnes malvoyantes pouvant utiliser un clavier et une souris.

Un problème plus important est que la plupart des DSE n’ont pas été expressément conçus pour tirer parti des capacités de reconnaissance vocale. Une grande partie de l’interaction du clinicien avec le DSE implique une navigation dans l’interface utilisateur à l’aide de menus, de clics / boutons, et est fortement dépendante du clavier et de la souris: la navigation vocale n’apporte que de modestes avantages ergonomiques. En revanche, de nombreux systèmes hautement personnalisés pour la dictée de radiologie ou de pathologie implémentent des « macros » vocales, dans lesquelles l’utilisation de certaines phrases – par exemple, « rapport normal », remplit automatiquement un grand nombre de valeurs par défaut et / ou génère du message passe-partout. varient selon le type d’examen – par exemple, une radiographie thoracique par rapport à une série de contrastes gastro-intestinaux pour un système de radiologie.

En guise d’alternative à cette navigation manuelle, l’utilisation en cascade de la reconnaissance vocale et de l’extraction d’informations a été étudiée comme moyen de remplir un formulaire de passation pour la vérification et la validation cliniques. Les résultats sont encourageants et le document ouvre également des données, ainsi que des indicateurs de performance et un logiciel de traitement associés, à la communauté de la recherche et du développement pour l’étude de la documentation clinique et du traitement du langage.

Usage thérapeutique
L’utilisation prolongée d’un logiciel de reconnaissance vocale conjointement avec des traitements de texte a montré des avantages pour le renforcement de la mémoire à court terme chez les patients atteints de MAV cérébrale ayant été traités avec une résection. Des recherches supplémentaires doivent être menées pour déterminer les avantages cognitifs pour les personnes dont les MAV ont été traitées à l’aide de techniques radiologiques.

Militaire

Avion de chasse haute performance
Au cours de la dernière décennie, des efforts considérables ont été consacrés au test et à l’évaluation de la reconnaissance de la parole dans les avions de combat. On notera en particulier le programme américain de reconnaissance vocale des avions AFTI (Advanced Fighter Technology Integration) / F-16 (F-16 VISTA), le programme en France pour les avions Mirage et d’autres programmes britanniques traitant de nombreux des plates-formes d’aéronefs. Dans ces programmes, les systèmes de reconnaissance vocale ont été utilisés avec succès dans des avions de combat, avec des applications telles que la configuration des fréquences radio, la commande d’un système de pilotage automatique, la définition des coordonnées du point de pilotage et des paramètres de libération des armes, ainsi que le contrôle de l’affichage du vol.

En collaboration avec des pilotes suédois volant dans le cockpit du JAS-39 Gripen, Englund (2004) a constaté que la reconnaissance était dégradée par l’augmentation des charges lourdes. Le rapport a également conclu que l’adaptation améliorait grandement les résultats dans tous les cas et qu’il était prouvé que l’introduction de modèles de respiration permettait d’améliorer considérablement les scores de reconnaissance. Contrairement à ce à quoi on aurait pu s’attendre, aucun effet de l’anglais cassé des locuteurs n’a été constaté. Il était évident que la parole spontanée posait des problèmes à l’agent de reconnaissance, comme on pouvait s’y attendre. On pourrait donc s’attendre à ce qu’un vocabulaire restreint, et surtout une syntaxe appropriée, améliore considérablement la précision de la reconnaissance.

L’Eurofighter Typhoon, actuellement en service dans la RAF britannique, utilise un système dépendant du locuteur, obligeant chaque pilote à créer un modèle. Le système n’est pas utilisé pour des tâches critiques pour la sécurité ou des armes, telles que le largage de l’arme ou l’abaissement du châssis, mais pour une vaste gamme d’autres fonctions du poste de pilotage. Les commandes vocales sont confirmées par un retour visuel et / ou auditif. Le système est perçu comme une caractéristique majeure de la réduction de la charge de travail du pilote et permet même au pilote d’attribuer des cibles à son aéronef avec deux commandes vocales simples ou à l’un de ses hommes-ailes ne disposant que de cinq commandes.

Des systèmes indépendants du locuteur sont également en cours de développement et d’essais pour le F35 Lightning II (JSF) et l’entraîneur de chasse principal Alenia Aermacchi M-346. Ces systèmes ont généré des scores d’exactitude des mots supérieurs à 98%.

Hélicoptères
Les problèmes d’atteinte d’une grande précision de reconnaissance dans des conditions de stress et de bruit concernent essentiellement l’environnement de l’hélicoptère ainsi que celui des avions de combat. Le problème du bruit acoustique est en réalité plus grave dans l’environnement de l’hélicoptère, non seulement à cause des niveaux sonores élevés, mais aussi parce que le pilote de l’hélicoptère, en général, ne porte pas de masque facial, ce qui réduirait le bruit acoustique dans le microphone. Des programmes d’essais et d’évaluation substantiels ont été réalisés au cours de la dernière décennie dans les applications de systèmes de reconnaissance de la parole dans les hélicoptères, notamment dans le cadre de l’activité de recherche et développement en avionique de l’armée américaine (AVRADA) et du Royal Aerospace Establishment (RAE) au Royaume-Uni. Les travaux en France ont inclus la reconnaissance vocale dans l’hélicoptère Puma. Il y a également eu beaucoup de travail utile au Canada. Les résultats sont encourageants et les applications vocales incluent: le contrôle des radios de communication, la configuration des systèmes de navigation et le contrôle d’un système automatisé de transfert de cible.

Comme dans les applications de chasse, le problème primordial pour la voix dans les hélicoptères est l’impact sur l’efficacité du pilote. Des résultats encourageants sont rapportés pour les tests AVRADA, bien qu’ils ne représentent qu’une démonstration de faisabilité dans un environnement de test. Il reste encore beaucoup à faire, à la fois en reconnaissance vocale et en technologie vocale, pour améliorer constamment les performances dans les environnements opérationnels.

Formation des contrôleurs aériens
La formation des contrôleurs de la circulation aérienne (ATC) constitue une excellente application pour les systèmes de reconnaissance vocale. À l’heure actuelle, de nombreux systèmes de formation ATC obligent une personne à agir en tant que « pseudo-pilote » et à engager un dialogue vocal avec le contrôleur stagiaire, qui simule le dialogue que le contrôleur devrait mener avec les pilotes dans une situation réelle d’ATC. Les techniques de reconnaissance et de synthèse de la parole offrent la possibilité d’éliminer le besoin de pseudo-pilote, réduisant ainsi le personnel de formation et d’appui. En théorie, les tâches des contrôleurs aériens sont également caractérisées par une parole hautement structurée en tant que sortie principale du contrôleur, ce qui devrait permettre de réduire la difficulté de la tâche de reconnaissance vocale. En pratique, c’est rarement le cas. Le document 7110.65 de la FAA détaille les phrases que les contrôleurs de la circulation aérienne devraient utiliser. Bien que ce document donne moins de 150 exemples de telles phrases, le nombre de phrases prises en charge par l’un des systèmes de reconnaissance vocale des fournisseurs de simulation dépasse 500 000.

L’USAF, l’USMC, l’US Army, la US Navy et la FAA, ainsi que de nombreux organismes internationaux de formation ATC, tels que la Royal Australian Air Force et les autorités de l’aviation civile en Italie, au Brésil et au Canada, utilisent actuellement des simulateurs ATC avec reconnaissance vocale un certain nombre de vendeurs différents.

Téléphonie et autres domaines
L’ASR est désormais monnaie courante dans le domaine de la téléphonie et se généralise dans le domaine des jeux et de la simulation sur ordinateur. Malgré le niveau élevé d’intégration avec le traitement de texte dans l’informatique personnelle en général. Toutefois, l’utilisation du logiciel ASR dans le domaine de la production de documents n’a pas augmenté.

L’amélioration de la vitesse du processeur mobile a rendu la reconnaissance vocale pratique dans les smartphones. La parole est principalement utilisée dans le cadre d’une interface utilisateur pour créer des commandes de parole prédéfinies ou personnalisées. Les principaux fournisseurs de logiciels dans ce domaine sont: Google, Microsoft Corporation (Microsoft Voice Command), Digital Siphon (Sonic Extractor), LumenVox, Nuance Communications (Nuance Voice Control), Voci Technologies, Technologie VoiceBox, Speech Technology Center, Vito Technologies (VITO Voice2Go). ), Logiciel Speereo (Speereo Voice Translator), Verbyx VRX et SVOX.

Utilisation dans l’éducation et la vie quotidienne
Pour l’apprentissage d’une langue, la reconnaissance de la parole peut être utile pour l’apprentissage d’une langue seconde. Il peut enseigner une prononciation correcte, en plus d’aider une personne à développer une aisance d’expression orale.

Les étudiants aveugles (voir la section Cécité et éducation) ou très malvoyants peuvent tirer profit de l’utilisation de la technologie pour transmettre des mots, puis entendre l’ordinateur les réciter, ainsi que pour utiliser un ordinateur en commandant avec leur voix, au lieu de regarder l’écran et le clavier.

Les étudiants handicapés physiques ou souffrant de microtraumatismes répétés / autres traumatismes des membres supérieurs peuvent être soulagés de devoir se préoccuper d’écriture, de dactylographie ou de travailler avec des scribes lors de travaux scolaires en utilisant des programmes de synthèse du texte. Ils peuvent également utiliser la technologie de reconnaissance vocale pour rechercher librement sur Internet ou utiliser un ordinateur à la maison sans avoir à utiliser physiquement une souris et un clavier.

La reconnaissance vocale peut permettre aux étudiants ayant des difficultés d’apprentissage de devenir de meilleurs écrivains. En prononçant ces mots à voix haute, ils peuvent augmenter la fluidité de leur écriture et atténuer les problèmes d’orthographe, de ponctuation et d’autres mécanismes de l’écriture. Voir aussi Trouble d’apprentissage.

L’utilisation d’un logiciel de reconnaissance vocale, associée à un enregistreur audionumérique et à un ordinateur exécutant un logiciel de traitement de texte, s’est révélée efficace pour restaurer la capacité de mémoire à court terme endommagée chez les individus victimes d’accidents vasculaires cérébraux et de craniotomie.

Personnes handicapées
Les personnes handicapées peuvent bénéficier de programmes de reconnaissance vocale. Pour les personnes sourdes ou malentendantes, un logiciel de reconnaissance vocale est utilisé pour générer automatiquement un sous-titrage des conversations, telles que des discussions dans des salles de conférence, des conférences en classe et / ou des services religieux.

La reconnaissance vocale est également très utile pour les personnes qui ont des difficultés à utiliser leurs mains, allant des traumatismes liés au stress répétitif léger aux incapacités qui empêchent d’utiliser des périphériques de saisie informatiques classiques. En fait, les personnes qui utilisaient beaucoup le clavier et développaient RSI étaient devenues un marché urgent pour la reconnaissance vocale. La reconnaissance vocale est utilisée dans la téléphonie sourde, telle que la messagerie vocale vers texte, les services de relais et les téléphones sous-titrés. Les personnes ayant des troubles d’apprentissage qui ont des problèmes de communication papier-pensée (essentiellement, elles pensent à une idée mais celle-ci est mal traitée, ce qui la rend différente sur le papier) peut éventuellement bénéficier du logiciel, mais la technologie n’est pas à l’abri. De plus, l’idée de parler avec un texte peut être difficile pour une personne handicapée intellectuelle en raison du fait qu’il est rare que quelqu’un essaie d’apprendre la technologie pour enseigner à la personne handicapée.

Ce type de technologie peut aider les personnes atteintes de dyslexie, mais d’autres handicaps sont toujours en cause. L’efficacité du produit est le problème qui l’empêche d’être efficace. Même si un enfant peut dire un mot en fonction de la précision avec laquelle il le dit, la technologie peut penser qu’il dit un autre mot et saisir le mauvais. Leur donner plus de travail à réparer, ce qui les oblige à prendre plus de temps pour réparer le mauvais mot.

Autres applications
Aérospatiale (p. Ex. Exploration spatiale, vaisseau spatial, etc.) La Polar Polar Lander de la NASA a utilisé la technologie de reconnaissance vocale de Sensory, Inc. pour le microphone sur le Lander de Mars.
Sous-titrage automatique avec reconnaissance vocale
Reconnaissance automatique des émotions
Traduction automatique
Sténographie (rédaction de discours en temps réel)
Découverte électronique (découverte légale)
Informatique mains libres: interface utilisateur pour ordinateur à reconnaissance vocale
Automatisation de la maison
Réponse vocale interactive
Téléphonie mobile, y compris la messagerie électronique mobile
Interaction multimodale
Évaluation de la prononciation dans les applications d’apprentissage des langues assistées par ordinateur
Sous-titrage en temps réel
Robotique
Discours en texte (transcription du discours en texte, sous-titrage vidéo, comptes rendus d’audience)
Télématique (par exemple, systèmes de navigation de véhicule)
Transcription (discours numérique en texte)
Jeux vidéo, avec Tom Clancy’s EndWar et Lifeline comme exemples de travail
Assistant virtuel (par exemple Siri d’Apple)

Performance
Les performances des systèmes de reconnaissance vocale sont généralement évaluées en termes de précision et de rapidité. La précision est généralement évaluée avec le taux d’erreur sur les mots (WER), alors que la vitesse est mesurée avec le facteur temps réel. Parmi les autres mesures de précision, citons le taux d’erreur SWER (Single Word Error Rate) et le taux de réussite de commande (CSR).

La reconnaissance vocale par machine est cependant un problème très complexe. Les vocalisations varient en termes d’accent, de prononciation, d’articulation, de rugosité, de nasalité, de hauteur, de volume et de vitesse. La parole est déformée par un bruit de fond et des échos, caractéristiques électriques. L’exactitude de la reconnaissance vocale peut varier selon les éléments suivants:

Taille du vocabulaire et confusion
Dépendance du président versus indépendance
Parole isolée, discontinue ou continue
Contraintes de tâche et de langage
Lecture versus discours spontané
Conditions adverses