Распознавание речи

Распознавание речи — это междисциплинарная подполе вычислительной лингвистики, которая разрабатывает методологии и технологии, которые позволяют распознавать и перевод разговорного языка в текст компьютерами. Он также известен как автоматическое распознавание речи (ASR), распознавание речи в компьютере или речь в тексте (STT). Он включает знания и исследования в области лингвистики, информатики и электротехники.

Некоторые системы распознавания речи требуют «обучения» (также называемого «зачислением»), когда отдельный оратор читает текст или изолированный словарь в системе. Система анализирует конкретный голос человека и использует его для точной настройки распознавания речи этого человека, что приводит к повышенной точности. Системы, которые не используют обучение, называются «независимыми от динамиков» системами. Системы, которые используют обучение, называются «зависимыми от громкоговорителей».

Приложения распознавания речи включают голосовые пользовательские интерфейсы, такие как голосовой набор (например, «Домашний звонок»), маршрутизация звонков (например, «Я хотел бы сделать вызов для сбора»), управление домашним устройством, поиск (например, найти подкаст, где были произнесены конкретные слова ), простой ввод данных (например, ввод номера кредитной карты), подготовка структурированных документов (например, радиологический отчет), обработка речи в текст (например, текстовые процессоры или электронные письма) и самолеты (обычно называемые прямым голосовым вводом) ,

Термин распознавание голоса или идентификация громкоговорителя относится к идентификации говорящего, а не к тому, что они говорят. Признание динамика может упростить задачу перевода речи в системах, которые были обучены на голосе конкретного человека или они могут использоваться для аутентификации или проверки личности говорящего как части процесса безопасности.

С точки зрения технологии, распознавание речи имеет долгую историю с несколькими волнами крупных инноваций. Совсем недавно в этой области были достигнуты успехи в области глубокого обучения и больших данных. Достижения подтверждены не только ростом академических публикаций, опубликованных в этой области, но, что более важно, благодаря внедрению в мире различных методов глубокого обучения при проектировании и внедрении систем распознавания речи. Среди них — Google, Microsoft, IBM, Baidu, Apple, Amazon, Nuance, SoundHound, iFLYTEK, многие из которых опубликовали основные технологии в своих системах распознавания речи, основываясь на глубоком обучении.

Модели, методы и алгоритмы
И акустическое моделирование, и языковое моделирование — важные составляющие современных алгоритмов распознавания речи на основе статистики. Скрытые марковские модели (HMM) широко используются во многих системах. Языковое моделирование также используется во многих других приложениях обработки естественного языка, таких как классификация документов или статистический машинный перевод.

Скрытые марковские модели
Современные системы распознавания речи общего назначения основаны на скрытых марковских моделях. Это статистические модели, которые выводят последовательность символов или величин. HMM используются для распознавания речи, поскольку речевой сигнал можно рассматривать как кусочно-стационарный сигнал или кратковременный стационарный сигнал. В коротком масштабе времени (например, 10 миллисекунд) речь может быть аппроксимирована как стационарный процесс. Речь можно рассматривать как марковскую модель для многих стохастических целей.

Другая причина популярности HMM заключается в том, что они могут быть обучены автоматически и просты и доступны для использования в вычислительных целях. При распознавании речи скрытая марковская модель выводит последовательность n-мерных вещественных векторов (причем n является малым целым числом, таким как 10), выводя одно из них каждые 10 миллисекунд. Векторы будут состоять из кепстральных коэффициентов, которые получаются путем преобразования Фурье короткого временного окна речи и декоррелирования спектра с использованием косинусного преобразования, а затем взятия первых (наиболее значимых) коэффициентов. Скрытая марковская модель будет иметь тенденцию иметь в каждом состоянии статистическое распределение, представляющее собой смесь диагональных ковариантных гауссианов, что даст вероятность для каждого наблюдаемого вектора. Каждое слово или (для более общих систем распознавания речи), каждая фонема, будет иметь различное распределение выходных данных; скрытая марковская модель для последовательности слов или фонем производится путем конкатенации отдельных обучаемых скрытых марковских моделей для отдельных слов и фонем.

Описанные выше являются основными элементами наиболее распространенного подхода к распознаванию речи на основе HMM. Современные системы распознавания речи используют различные комбинации ряда стандартных методов, чтобы улучшить результаты по основному подходу, описанному выше. Типичной системе с большими словарями потребуется контекстная зависимость для фонем (поэтому фонемы с различным левым и правым контекстом имеют разные реализации как состояния HMM); он будет использовать нормализацию кепстрала для нормализации для разных условий записи и записи; для дальнейшей нормализации громкоговорителей он может использовать нормализацию длины голосового тракта (VTLN) для нормализации мужской и женской полос и линейной регрессии максимального правдоподобия (MLLR) для более общей адаптации динамиков. Эти функции имели бы так называемые дельта-дельта-дельта-дельта-коэффициенты для захвата речевой динамики и, кроме того, могли бы использовать гетеросексуальный линейный дискриминантный анализ (HLDA); или могут пропускать дельта-дельта-дельта-коэффициенты и использовать сплайсинг и проекцию на основе LDA, за которой следует, возможно, гетероседикальный линейный дискриминантный анализ или глобальное преобразование полуколичественной дисперсии (также известное как линейное преобразование максимального правдоподобия или MLLT). Во многих системах используются так называемые дискриминационные методы обучения, которые обходятся исключительно статистическим подходом к оценке параметров HMM и вместо этого оптимизируют некоторую классификационную оценку данных обучения. Примерами являются максимальная взаимная информация (MMI), минимальная ошибка классификации (MCE) и минимальная ошибка телефона (MPE).

Декодирование речи (термин для того, что происходит, когда система представлена ​​новым высказыванием и должна вычислять наиболее вероятное исходное предложение), вероятно, будет использовать алгоритм Витерби для поиска наилучшего пути, и здесь есть выбор между динамическим созданием комбинированная скрытая марковская модель, которая включает в себя как информацию об акустической, так и языковой моделях, и ее статическое сопоставление заранее (конечный преобразователь или FST).

Возможное улучшение декодирования заключается в том, чтобы сохранить набор хороших кандидатов вместо того, чтобы просто держать лучшего кандидата, и использовать лучшую функцию подсчета очков (забив), чтобы оценить этих хороших кандидатов, чтобы мы могли выбрать лучший в соответствии с этим уточненным счетом , Набор кандидатов можно сохранить либо в виде списка (подход N-наилучшего списка), либо как подмножество моделей (решетка). Повторный подсчет обычно выполняется путем минимизации риска Байеса (или его приближения): вместо того, чтобы брать исходное предложение с максимальной вероятностью, мы пытаемся принять предложение, которое минимизирует ожидаемое значение функции потерь в отношении всех возможных транскрипций (т. е. принимаем предложение, которое минимизирует среднее расстояние до других возможных предложений, взвешенных по их предполагаемой вероятности). Функция потерь обычно является расстоянием Левенштейна, хотя это может быть разное расстояние для конкретных задач; набор возможных транскрипций, конечно же, сокращен, чтобы сохранить приемлемость. Эффективные алгоритмы были разработаны для рекомбинантных решеток, представленных в виде взвешенных преобразователей конечного состояния, причем расстояния редактирования представляли себя как преобразователь конечного состояния, проверяющий определенные предположения.

Распознавание речи на основе динамического времени (DTW)
Динамическое временное деформирование — это подход, который исторически использовался для распознавания речи, но в настоящее время в значительной степени был перемещен благодаря более успешному подходу, основанному на HMM.

Динамическое деформирование времени — это алгоритм для измерения сходства между двумя последовательностями, которые могут меняться во времени или скорости. Например, будут обнаружены сходства в паттернах ходьбы, даже если в одном видео человек медленно идет, а если в другом он или она идет быстрее, или даже если есть ускорения и замедление в течение одного наблюдения. DTW применяется к видео, аудио и графике — действительно, любые данные, которые могут быть преобразованы в линейное представление, могут быть проанализированы с помощью DTW.

Известное приложение было автоматическим распознаванием речи, чтобы справляться с разной скоростью разговора. В общем, это метод, который позволяет компьютеру находить оптимальное совпадение между двумя заданными последовательностями (например, временными рядами) с определенными ограничениями. То есть, последовательности «деформируются» нелинейно, чтобы соответствовать друг другу. Этот метод выравнивания последовательностей часто используется в контексте скрытых марковских моделей.

Нейронные сети
Нейронные сети стали привлекательным методом акустического моделирования в ASR в конце 1980-х годов. С тех пор нейронные сети использовались во многих аспектах распознавания речи, таких как классификация фонем, выделенное распознавание слов, аудиовизуальное распознавание речи, аудиовизуальное распознавание динамиков и адаптация акустических систем.

В отличие от HMM, нейронные сети не делают предположений о статистических свойствах объектов и имеют несколько качеств, что делает их привлекательными моделями распознавания для распознавания речи. При использовании для оценки вероятности сегмента речи речи нейронные сети позволяют проводить дискриминационную тренировку естественным и эффективным образом. Мало предположений о статистике входных функций сделаны с нейронными сетями. Однако, несмотря на их эффективность в классификации кратковременных единиц, таких как отдельные фонемы и изолированные слова, нейронные сети редко бывают успешными для задач непрерывного распознавания, в основном из-за их отсутствия способности моделировать временные зависимости.

Однако недавно были использованы LSTM рекуррентные нейронные сети (RNN) и нейронные сети с временной задержкой (TDNN), которые, как было показано, способны идентифицировать скрытые временные зависимости и использовать эту информацию для выполнения задачи распознавания речи.

Были также экспериментированы глубокие нейронные сети и авторежиссеры для прогнозирования погоды, чтобы эффективно решить эту проблему.

Из-за неспособности исходных нейронных сетей моделировать временные зависимости альтернативный подход заключается в использовании нейронных сетей в качестве предварительной обработки, например, для преобразования признаков, уменьшения размерности для распознавания на основе HMM.

Глубокие прямые и повторяющиеся нейронные сети
Глубокая прямая нейронная сеть (DNN) представляет собой искусственную нейронную сеть с несколькими скрытыми слоями единиц между входным и выходным уровнями. Подобно мелким нейронным сетям, DNN могут моделировать сложные нелинейные отношения. Архитектуры DNN генерируют композиционные модели, где дополнительные слои позволяют составлять элементы из нижних слоев, обеспечивая огромную учебную способность и, следовательно, потенциал моделирования сложных моделей речевых данных.

Успех DNN в широком распознавании речи на основе словаря произошел в 2010 году промышленными исследователями в сотрудничестве с учеными-исследователями, где были приняты большие уровни вывода DNN на основе контекстно-зависимых состояний HMM, построенных деревьями решений. См. Всесторонние обзоры этого развития и современного уровня техники с октября 2014 года в недавней книге Springer от Microsoft Research. См. Также соответствующий фон автоматического распознавания речи и влияние различных парадигм машинного обучения, включая, в частности, глубокое обучение в последних обзорных статьях.

Одним из основополагающих принципов глубокого обучения является устранение ручного проектирования объектов и использование необработанных функций. Этот принцип впервые был успешно изучен в архитектуре глубокого автокодера на «сырых» спектрограммах или линейных фильтрах-банках, демонстрируя его превосходство над функциями Мел-Цепстрала, которые содержат несколько этапов фиксированного преобразования из спектрограмм. Истинно «сырые» особенности речи, формы волны, в последнее время показали, что они дают превосходные результаты распознавания речи большего масштаба.

Автоматическое распознавание речи в конце
С 2014 года в «сквозной» ASR большой интерес представляет интерес. Традиционная фонетическая (т. Е. Вся модель на основе HMM) требует отдельных компонентов и обучения для произношения, акустической и языковой модели. Сквозные модели совместно изучают все компоненты распознавателя речи. Это ценно, поскольку это упрощает процесс обучения и процесс развертывания. Например, для всех систем на основе HMM требуется языковая модель n-gram, а типичная языковая модель n-gram часто занимает несколько гигабайт в памяти, что делает их нецелесообразными для развертывания на мобильных устройствах. Следовательно, современные коммерческие системы ASR от Google и Apple (по состоянию на 2017 год) развертываются в облаке и требуют сетевого подключения в отличие от локального устройства.

Первая попытка сквозного ASR была связана с системами на основе системной классификации соединений (CTC), представленными Алексом Грейвсом из Google DeepMind и Navdeep Jaitly из Университета Торонто в 2014 году. Модель состояла из повторяющихся нейронных сетей и уровня CTC. Совместно, модель RNN-CTC изучает произношение и акустическую модель вместе, однако она неспособна изучать язык из-за предположений об условной независимости, подобных HMM. Следовательно, модели CTC могут непосредственно научиться сопоставлять речевую акустику с английскими персонажами, но модели делают много распространенных орфографических ошибок и должны полагаться на отдельную языковую модель для очистки стенограмм. Позже Baidu расширил работу с чрезвычайно большими наборами данных и продемонстрировал некоторый коммерческий успех на китайском и английском языках. В 2016 году Оксфордский университет представил LipNet, первую сквозную модель считывания губ на уровне предложения, используя пространственно-временные свертки в сочетании с архитектурой RNN-CTC, превосходящую производительность на уровне человека в ограниченном наборе данных грамматики.

Альтернативный подход к модели на основе CTC — это модели, основанные на внимании. Модели ASR, основанные на внимании, были введены одновременно Chan et al. Университета Карнеги-Меллона и Google Brain и Bahdanaua et al. Монреальского университета в 2016 году. Модель под названием «Слушайте, посещайте и заклинание» (LAS) буквально «слушает» акустический сигнал, «обращает внимание» на разные части сигнала и «заклинания» выписывают один символ вовремя. В отличие от моделей на основе CTC модели, основанные на внимании, не имеют предположений об условной независимости и могут непосредственно изучить все компоненты распознавателя речи, включая произношение, акустическую и языковую модели. Это означает, что во время развертывания нет необходимости носить с собой языковую модель, что делает ее очень практичной для развертывания в приложениях с ограниченной памятью. К концу 2016 года модели, ориентированные на внимание, достигли значительных успехов, в том числе и в сравнении с моделью CTC (с моделью внешнего языка или без нее). С оригинальной модели LAS были предложены различные расширения. Децентраторы латентных последовательностей (ЛСД) были предложены Университетом Карнеги-Меллона, Массачусетским технологическим институтом и Google Brain, чтобы напрямую испускать подсловые единицы, которые более естественны, чем английские символы; Университет Оксфорда и Google DeepMind расширили LAS до «Watch, Listen, Attend and Spell» (WLAS), чтобы обрабатывать губы, превосходящие производительность на уровне человека.

Приложения

Автомобильные системы
Обычно вход ручного управления, например, с помощью пальцевого управления на рулевом колесе, позволяет системе распознавания речи, и это сигнализируется драйверу звуковой подсказкой. После звуковой подсказки система имеет «окно прослушивания», в течение которого оно может принимать речевой ввод для распознавания.

Простые голосовые команды могут использоваться для инициирования телефонных звонков, выбора радиостанций или воспроизведения музыки с совместимого смартфона, MP3-плеера или загруженной музыкой флеш-накопителя. Возможности распознавания голоса различаются между маркой автомобиля и моделью. Некоторые из последних моделей автомобилей [when?] Предлагают распознавание речи на естественном языке вместо фиксированного набора команд, позволяя водителю использовать полные предложения и общие фразы. Поэтому для таких систем пользователю не нужно запоминать набор фиксированных командных слов.

Здравоохранение

Медицинская документация
В секторе здравоохранения распознавание речи может быть реализовано в интерфейсе или в конце процесса медицинской документации. Распознавание речи на лицевой стороне — это то место, где поставщик диктует механизм распознавания речи, распознанные слова отображаются, как они говорят, и диктатор отвечает за редактирование и выключение документа. Локальное или отложенное распознавание речи — это то место, где поставщик диктует систему цифровой диктовки, голос направляется через машину распознавания речи, а распознанный проект документа направляется вместе с исходным голосом в редактор, где редактируется черновик и отчет завершен. Отсроченное распознавание речи широко используется в промышленности в настоящее время.

Одной из основных проблем, связанных с использованием распознавания речи в здравоохранении, является то, что Американский закон о восстановлении и реинвестировании 2009 года (ARRA) обеспечивает значительные финансовые выгоды для врачей, которые используют ЭМИ в соответствии со стандартами «Значимого использования». Эти стандарты требуют, чтобы EMR поддерживал значительный объем данных (в настоящее время более часто упоминается как электронная медицинская запись или EHR). Использование распознавания речи более естественно подходит для генерации описательного текста, как части интерпретации радиологии / патологии, примечания о прогрессе или краткого изложения: эргономические преимущества использования распознавания речи для ввода структурированных дискретных данных (например, числовые значения или коды из списка или контролируемого словаря) относительно минимальны для людей, которые видны и которые могут управлять клавиатурой и мышью.

Более значительная проблема заключается в том, что большинство EHR не были специально адаптированы для использования возможностей распознавания голоса. Большая часть взаимодействия клинициста с EHR включает в себя навигацию через пользовательский интерфейс с использованием меню и нажатиями кнопок / кнопок и в значительной степени зависит от клавиатуры и мыши: голосовая навигация обеспечивает лишь скромные эргономические преимущества. Напротив, многие высоко настраиваемые системы для радиологии или диктатуры патологии реализуют голосовые «макросы», где использование определенных фраз — например, «нормальный отчет» — автоматически заполняет большое количество значений по умолчанию и / или генерирует шаблон, который будет варьируются в зависимости от типа экзамена, например, рентгенограммы грудной клетки и желудочно-кишечного контрастного ряда для радиологической системы.

В качестве альтернативы этой навигации вручную изучалось каскадное использование распознавания речи и извлечения информации в качестве способа заполнения формы передачи для клинической проверки и выписки. Результаты обнадеживают, и в документе также раскрываются данные вместе с соответствующими показателями производительности и некоторым программным обеспечением для обработки данных научно-исследовательскому сообществу для изучения клинической документации и обработки языка.

Терапевтическое использование
Длительное использование программного обеспечения для распознавания речи в сочетании с текстовыми процессорами показало преимущества для удержания кратковременной памяти у пациентов с АВМ головного мозга, которым лечили резекцией. Дальнейшие исследования должны проводиться для определения когнитивных преимуществ для лиц, чьи АВМ были обработаны с использованием радиологических методов.

военный

Высокопроизводительные истребители
За последнее десятилетие были посвящены значительные испытания и оценка распознавания речи в истребителях. Особо следует отметить программу США по распознаванию речи для самолетов Advanced Fighter Technology Integration (AFTI) / F-16 (F-16 VISTA), программу во Франции для самолетов Mirage и другие программы в Великобритании, связанные с разнообразием авиационных платформ. В этих программах распознаватели речи успешно работают на истребителях с приложениями, включающими: настройку радиочастот, управление системой автопилота, настройку координатных координат и параметров выпуска оружия и контроль полета.

Работая со шведскими летчиками, летящими в кабине JAS-39 Gripen, Englund (2004) обнаружил, что ухудшение ухудшается с увеличением g-нагрузок. В докладе также сделан вывод о том, что адаптация значительно улучшила результаты во всех случаях и показала, что введение моделей для дыхания значительно улучшает показатели оценки. Вопреки тому, что можно было ожидать, никаких искажений сломанного английского языка ораторов не было найдено. Было очевидно, что спонтанная речь вызывала проблемы для распознавателя, как и следовало ожидать. Таким образом, ограниченный словарь и, прежде всего, правильный синтаксис, могут значительно повысить точность распознавания.

Eurofighter Typhoon, в настоящее время находящийся в эксплуатации с британским RAF, использует систему, зависящую от динамиков, которая требует, чтобы каждый пилот создавал шаблон. Система не используется для выполнения каких-либо критических или важных для безопасности задач, таких как снятие оружия или опускание ходовой части, но используется для широкого спектра других функций кабины экипажа. Голосовые команды подтверждаются визуальной и / или звуковой обратной связью. Система рассматривается как основная конструктивная особенность в сокращении рабочей нагрузки пилота и даже позволяет пилоту назначать цели для своего самолета двумя простыми голосовыми командами или любым из его ведомых только с пятью командами.

Также разрабатываются независимые от громкоговорителей системы и проходят испытания для F35 Lightning II (JSF) и ведущего истребителя-лидера Alenia Aermacchi M-346 Master. Эти системы дали оценки точности слов, превышающие 98%.

Вертолеты
Проблемы достижения высокой точности распознавания при стрессе и шуме тесно связаны с окружающей средой вертолета, а также с окружающей средой реактивного истребителя. Проблема акустического шума на самом деле более серьезная в вертолетной среде не только из-за высокого уровня шума, но и из-за того, что пилот вертолета, в общем, не носит лицевую маску, что уменьшит акустический шум в микрофоне. За последнее десятилетие в области применения систем распознавания речи на вертолетах были проведены значительные программы испытаний и оценки, в частности, в рамках исследовательской и проектной деятельности американской авиационной разведки (AVRADA) и Королевского аэрокосмического учреждения (RAE) в Великобритании. Работа во Франции включала распознавание речи на вертолете Puma. В Канаде также много полезной работы. Результаты были обнадеживающими, а голосовые приложения включали: контроль радиосвязи, настройку навигационных систем и контроль автоматизированной системы передачи целевой цели.

Как и в истребителях, главной проблемой для голоса на вертолетах является влияние на эффективность пилота. Для тестов AVRADA сообщается о поощрении результатов, хотя они представляют собой демонстрацию выполнимости в тестовой среде. Многое еще предстоит сделать как в распознавании речи, так и в общей речевой технологии, чтобы последовательно добиваться повышения производительности в рабочих условиях.

Обучение диспетчеров воздушного движения
Обучение диспетчерам воздушного движения (УВД) представляет собой отличное приложение для систем распознавания речи. Многие учебные системы УВД в настоящее время требуют, чтобы человек выступал в качестве «псевдо-пилота», участвуя в голосовом диалоге с контролером стажера, который имитирует диалог, который диспетчер должен будет проводить с пилотами в реальной ситуации УВД. Методы распознавания речи и синтеза дают возможность устранить необходимость того, чтобы человек выступал в качестве псевдо-пилота, тем самым сокращая персонал по подготовке кадров и поддержке. Теоретически задачи диспетчера также характеризуются высокоструктурированной речью, поскольку основной выход контроллера, следовательно, уменьшает сложность задачи распознавания речи. На практике это редко бывает. В документе FAA 7110.65 содержится подробная информация о фразах, которые должны использоваться диспетчерами воздушного движения. Хотя в этом документе представлено менее 150 примеров таких фраз, количество фраз, поддерживаемых одной из систем распознавания речи поставщиков симуляции, превышает 500 000.

USAF, USMC, US Army, US Navy и FAA, а также ряд международных учебных организаций УВД, таких как Королевские австралийские военно-воздушные силы и органы гражданской авиации в Италии, Бразилии и Канаде, в настоящее время используют тренажеры ATC с распознаванием речи из несколько разных поставщиков.

Телефония и другие домены
ASR теперь является обычным явлением в области телефонии и становится все более распространенным в области компьютерных игр и симуляции. Несмотря на высокий уровень интеграции с текстовой обработкой в ​​общих персональных компьютерах. Тем не менее, ASR в области документооборота не видел ожидаемого [кого?] Увеличения использования.

Улучшение скорости мобильных процессоров делает распознавание речи практичным в смартфонах. Речь используется в основном как часть пользовательского интерфейса, для создания предопределенных или пользовательских речевых команд. Ведущими поставщиками программного обеспечения в этой области являются: Google, Microsoft Corporation (Microsoft Voice Command), Digital Siphon (Sonic Extractor), LumenVox, Nuance Communications (Nuance Voice Control), Voci Technologies, технология VoiceBox, Центр речевых технологий, Vito Technologies (VITO Voice2Go ), Speereo Software (Speereo Voice Translator), Verbyx VRX и SVOX.

Использование в образовании и повседневной жизни
Для изучения языка распознавание речи может быть полезно для изучения второго языка. Он может преподавать правильное произношение, в дополнение к тому, чтобы помочь человеку развиваться свободно с их умениями говорить.

Студенты, которые являются слепыми (см. Слепота и образование) или имеют очень низкое зрение, могут воспользоваться технологией для передачи слов, а затем услышать, как компьютер читает их, а также использовать компьютер, командуя своим голосом, вместо того, чтобы смотреть на экран и клавиатуру.

Студенты, которые физически инвалидны или страдают от повторного повреждения штамма / других травм верхних конечностей, могут быть освобождены от необходимости беспокоиться о рукописном, набрав или работать с книжкой по школьным заданиям, используя программы «речь-текст». Они также могут использовать технологию распознавания речи, чтобы свободно наслаждаться поиском в Интернете или с помощью компьютера дома без необходимости физически управлять мышью и клавиатурой.

Распознавание речи может позволить учащимся с ограниченными возможностями обучения стать лучшими писателями. Говоря словами вслух, они могут увеличить текучесть своего письма и смягчить проблемы, связанные с орфографией, пунктуацией и другой механикой письма. Кроме того, см. Изучение инвалидности.

Использование программного обеспечения для распознавания голоса в сочетании с цифровым аудиорекордером и персональным компьютером, использующим программное обеспечение для обработки текстовых сообщений, оказалось положительным для восстановления поврежденной памяти в краткосрочной памяти, у лиц с инсультом и краниотомией.

Люди с ограниченными возможностями
Люди с ограниченными возможностями могут воспользоваться программами распознавания речи. Для лиц, глухих или слабослышащих, программное обеспечение для распознавания речи используется для автоматического создания закрытых титров разговоров, таких как дискуссии в конференц-залах, лекциях в классе и / или религиозных службах.

Распознавание речи также очень полезно для людей, которые испытывают трудности с использованием своих рук, начиная от мягких повторяющихся стрессовых травм и связанных с инвалидностью, которые препятствуют использованию обычных устройств ввода. Фактически, люди, которые много использовали клавиатуру и разработали RSI, стали срочным ранним рынком распознавания речи. Распознавание речи используется при глухой телефонии, такой как голосовая почта для текста, услуги ретрансляции и телефон с подписью. Лица с ограниченными возможностями обучения, у которых есть проблемы с коммуникацией «мысль-бумага» (по сути, они думают о идее, но ее неправильно обрабатывают, приводя ее по-разному на бумаге) могут извлечь выгоду из программного обеспечения, но технология не является доказательством ошибок. Также вся идея говорить с текстом может быть тяжелой для людей с ограниченными интеллектуальными возможностями из-за того, что редко кто-то пытается научиться технологии, чтобы обучать человека инвалидности.

Этот тип технологий может помочь людям с дислексией, но другие проблемы по-прежнему находятся под вопросом. Эффективность продукта — это проблема, которая мешает ей быть эффективной. Хотя ребенок может сказать слово в зависимости от того, насколько ясно они говорят, что технология может думать, что они говорят другое слово и вводят неправильное. Предоставляя им больше работы для исправления, заставляя их занять больше времени с исправлением неправильного слова.

Дальнейшие приложения
Аэрокосмическая (например, космическая разведка, космические корабли и т. Д.). Марс Полярный Ландер NASA использовал технологию распознавания речи от Sensory, Inc. в микрофоне Mars на Ландере
Автоматическое субтитры с распознаванием речи
Автоматическое распознавание эмоций
Автоматический перевод
Судебная отчетность (в режиме реального времени)
eDiscovery (юридическое открытие)
Hands-free computing: пользовательский интерфейс распознавания речи
Домашняя автоматизация
Интерактивный голосовой отклик
Мобильная телефония, включая мобильную электронную почту
Мультимодальное взаимодействие
Оценка произношения в приложениях для изучения компьютерных языков
Запись в реальном времени
робототехника
Речь на текст (транскрипция речи в текст, надписи на видео, отчетность суда)
Телематика (например, автомобильные навигационные системы)
Транскрипция (цифровая речь в текст)
Видеоигры с EndWar и Lifeline Тома Клэнси в качестве рабочих примеров
Виртуальный помощник (например, Apple Siri)

Спектакль
Производительность систем распознавания речи обычно оценивается с точки зрения точности и скорости. Точность обычно оценивается со скоростью ошибки слова (WER), тогда как скорость измеряется с коэффициентом реального времени. Другие меры точности включают единичную ошибку ошибок (SWER) и коэффициент успеха команды (CSR).

Однако распознавание речи машиной является очень сложной задачей. Вокализации различаются в терминах акцента, произношения, артикуляции, шероховатости, назальности, высоты тона, объема и скорости. Речь искажается фоновым шумом и эхом, электрическими характеристиками. Точность распознавания речи может варьироваться в зависимости от:

Размер словаря и путаница
Зависимость спикера от независимости
Изолированная, прерывистая или непрерывная речь
Задачи и языковые ограничения
Прочитано против спонтанной речи
Неблагоприятные условия