التعرف على الكلام

التعرف على الكلام هو المجال الفرعي متعدد التخصصات من اللغويات الحاسوبية التي تطور منهجيات وتقنيات تمكن من التعرف على اللغة المحكية وترجمتها إلى نص بواسطة أجهزة الكمبيوتر. وهو يعرف أيضًا باسم التعرف التلقائي على الكلام (ASR) أو التعرف على الكلام للكمبيوتر أو الكلام إلى النص (STT). وهو يشتمل على المعرفة والبحث في علم اللغة وعلوم الكمبيوتر ومجالات الهندسة الكهربائية.

تتطلب بعض أنظمة التعرف على الكلام “تدريب” (وتسمى أيضًا “التسجيل”) حيث يقرأ المتكلم الفردي نصًا أو مفردات معزولة في النظام. يقوم النظام بتحليل صوت الشخص المحدد ويستخدمه لضبط الاعتراف بخطاب هذا الشخص ، مما يؤدي إلى زيادة الدقة. تسمى الأنظمة التي لا تستخدم التدريب أنظمة “المتحدث المستقل”. تسمى الأنظمة التي تستخدم التدريب باسم “المتكلمين”.

تتضمن تطبيقات التعرف على الكلام واجهات مستخدم صوتية مثل الاتصال الصوتي (مثل “الاتصال بالمنزل”) وتوجيه المكالمة (على سبيل المثال “أود إجراء مكالمة جماعية”) والتحكم في الأجهزة الرقمية والبحث (على سبيل المثال العثور على بودكاست حيث تم نطق كلمات معينة ) ، إدخال بيانات بسيط (على سبيل المثال ، إدخال رقم بطاقة ائتمان) ، إعداد مستندات منظمة (مثل تقرير الأشعة) ، معالجة الكلام إلى النص (على سبيل المثال ، معالجات الكلمات أو رسائل البريد الإلكتروني) ، والطائرات (عادة ما يطلق عليها اسم الإدخال الصوتي المباشر) .

يشير المصطلح التعرف على الصوت أو تحديد السماعة إلى تحديد المتحدث ، وليس ما يقولونه. يمكن أن يؤدي التعرف على المتحدث إلى تبسيط مهمة ترجمة الكلام في الأنظمة التي تم تدريبها على صوت شخص معين أو يمكن استخدامها لمصادقة هوية أحد المتحدثين أو التحقق من هويته كجزء من عملية الأمان.

من منظور التكنولوجيا ، فإن التعرف على الكلام له تاريخ طويل مع العديد من الموجات من الابتكارات الرئيسية. وفي الآونة الأخيرة ، استفاد الميدان من التقدم في التعلم العميق والبيانات الضخمة. يتضح من التقدم ليس فقط من خلال زيادة الأوراق الأكاديمية المنشورة في هذا المجال ، ولكن الأهم من ذلك اعتماد الصناعة في جميع أنحاء العالم لمجموعة متنوعة من أساليب التعلم العميق في تصميم ونشر أنظمة التعرف على الكلام. وتشمل شركات صناعة الخطابة Google ، و Microsoft ، و IBM ، و Baidu ، و Apple ، و Amazon ، و Nuance ، و SoundHound ، و iFLYTEK التي قام العديد منها بنشر التكنولوجيا الأساسية في أنظمة التعرف على الكلام الخاصة بها على أساس التعلم العميق.

النماذج والطرق والخوارزميات
تعتبر كل من النمذجة الصوتية ونمذجة اللغة أجزاء مهمة من خوارزميات التعرف على الكلام الحديثة القائمة على الإحصاء. تستخدم نماذج ماركوف المخفية (HMMs) على نطاق واسع في العديد من الأنظمة. كما تستخدم نمذجة اللغة في العديد من تطبيقات معالجة اللغات الطبيعية الأخرى مثل تصنيف المستندات أو الترجمة الآلية الإحصائية.

نماذج ماركوف المخفية
تعتمد أنظمة التعرف على الكلام الحديثة للأغراض العامة على نماذج ماركوف المخفية. هذه نماذج إحصائية تنتج سلسلة من الرموز أو الكميات. تستخدم HMMs في التعرف على الكلام لأنه يمكن النظر إلى إشارة الكلام على أنها إشارة ثابتة أو إشارة ثابتة قصيرة. في مقياس زمني قصير (على سبيل المثال ، 10 ميلي ثانية) ، يمكن تقريب الكلام كعملية ثابتة. يمكن اعتبار الكلام كنموذج ماركوف للعديد من الأغراض العشوائية.

هناك سبب آخر وراء شعبية HMMs لأنه يمكن تدريبهم بشكل تلقائي وبسهولة ويمكن استخدامها عمليًا. في التعرف على الكلام ، سيخرج نموذج ماركوف المخفي سلسلة من المتجهات ذات القيمة الحقيقية n (مع كون عدد صحيح صغير ، مثل 10) ، بإخراج واحدة من كل 10 مللي ثانية. تتكون المتجهات من معاملات cepstral ، والتي يتم الحصول عليها عن طريق أخذ تحويل فورييه من نافذة زمنية قصيرة للكلام والديكور تربط بين الطيف باستخدام تحويل جيب التمام ، ثم أخذ المعاملات الأولى (الأكثر أهمية). يميل نموذج ماركوف الخفي إلى أن يكون في كل ولاية توزيع إحصائي ، وهو خليط من التباين المجاور للقطارات ، والذي سيعطي الاحتمالية لكل متجه مرصود. كل كلمة ، أو (لأنظمة التعرف على الكلام بشكل عام) ، كل صوت ، سيكون لها توزيع ناتج مختلف. يتم إنشاء نموذج ماركوف مخفي لسلسلة من الكلمات أو الصوتيات عن طريق تسلسل نماذج ماركوف المخفية المدربة الفردية للكلمات المنفصلة والصوتيات.

الموصوفة أعلاه هي العناصر الأساسية لأكثر الطرق شيوعًا القائمة على HMM في التعرف على الكلام. تستخدم أنظمة التعرف على الكلام الحديثة تركيبات مختلفة من عدد من التقنيات القياسية من أجل تحسين النتائج عبر النهج الأساسي الموضح أعلاه. يحتاج نظام نموذجي كبير للمفردات إلى تبعية للسياق للمقاطع الصوتية (لذلك فإن الصوتيات مع سياق مختلف من اليسار واليمين لها إنجازات مختلفة مثل حالات HMM) ؛ سيستخدم تسريع cepstral للتطبيع لظروف السماعة والتسجيل المختلفة ؛ لمزيد من تطبيع المتحدث فإنه قد يستخدم تطبيع طول القناة الصوتية (VTLN) للتطبيع بين الذكور والإناث والحد الأقصى للانحدار الاحتمالي الخطي (MLLR) لمزيد من التكيف العام المتكلم. يمكن أن تشتمل الميزات على ما يسمى بمعاملات دلتا دلتا ، لالتقاط ديناميكيات الكلام ، وقد تستخدم بالإضافة إلى ذلك التحليل التفاضلي الخطي المتجانس (HLDA) ؛ أو قد يتخطى دلتا ومعاملات دلتا دلتا ويستخدم الربط والإسقاط القائم على LDA ربما متبوعًا بتحليل التمييز الخطي المتغاير أو تحويل تباين مشترك شبه مقيد (يُعرف أيضًا باسم الحد الأقصى للتحول الخطي المحتمل ، أو MLLT). تستخدم العديد من الأنظمة ما يسمى تقنيات التدريب التمييزي التي تستغني عن نهج إحصائي بحت لتقدير معلمة HMM وتعوض بدلاً عن ذلك بعض قياس البيانات المتعلقة بالتصنيف. ومن الأمثلة على ذلك الحد الأقصى من المعلومات المتبادلة (MMI) ، والحد الأدنى من خطأ التصنيف (MCE) والحد الأدنى من خطأ الهاتف (MPE).

إن فك التشفير للكلمة (المصطلح لما يحدث عندما يتم تقديم النظام مع نطق جديد ويجب أن يحسب الجملة الأكثر ترجيحا) قد يستخدم خوارزمية Viterbi للعثور على أفضل مسار ، وهنا يوجد خيار بين إنشاء ديناميكي الجمع بين نموذج ماركوف المخفي ، والذي يتضمن كلا من معلومات نموذج الصوت واللغة ، ودمجها بشكل ثابت مسبقًا (طريقة محول الطاقة المحدودة ، أو FST).

من التحسينات الممكنة في فك الترميز هو الاحتفاظ بمجموعة من المرشحين الجيدين بدلاً من مجرد الاحتفاظ بأفضل مرشح ، واستخدام وظيفة تسجيل أفضل (إعادة التقييم) لتقييم هؤلاء المرشحين الجيدين حتى نختار أفضل المرشحين وفقًا لهذه النتيجة المكررة . يمكن الاحتفاظ بمجموعة من المرشحين إما كقائمة (نهج القائمة أفضل N) أو كمجموعة فرعية من النماذج (شعرية). يتم إجراء إعادة التقييم عادة بمحاولة تقليل مخاطر بايز (أو تقريبًا): بدلاً من أخذ جملة المصدر مع الاحتمالية القصوى ، نحاول أن نأخذ الجملة التي تقلل من توقع دالة خسارة معينة فيما يتعلق بجميع النسخ الممكنة (أي أننا نأخذ الجملة التي تقلل متوسط ​​المسافة إلى الجمل المحتملة الأخرى المرجحة من احتمالية التقديرات). وعادة ما تكون وظيفة الفقدان هي المسافة بين Levenshtein ، على الرغم من أنها يمكن أن تكون مسافات مختلفة لمهام محددة. وبالطبع فإن مجموعة النسخ الممكنة محسوسة للحفاظ على القدرة على الحركة. لقد تم تصميم خوارزميات فعالة لإعادة تسجيل المشابك الممثلة كمحولات طاقة منتهية متوقعة ذات مسافات تعديل تمثل نفسها كمحولات طاقة منتهية تتحقق من بعض الافتراضات.

دينامية الوقت تزييفها (DTW) القائم على الكلام الاعتراف
التمزق الديناميكي للوقت هو أسلوب استخدم تاريخياً للتعرّف على الكلام ولكنه أصبح الآن مهجوراً إلى حد كبير من خلال النهج الأكثر نجاحاً القائم على HMM.

التمزق الديناميكي للوقت هو خوارزمية لقياس التشابه بين تتابعين قد يختلفان من حيث الوقت أو السرعة. على سبيل المثال ، سيتم الكشف عن أوجه التشابه في أنماط المشي ، حتى لو كان الشخص يسير ببطء في أحد مقاطع الفيديو ، وإذا كان في آخر يسير بسرعة أكبر ، أو حتى لو كانت هناك تسارعات وتباطؤ خلال مراقبة واحدة. تم تطبيق DTW على الفيديو والصوت والرسومات – في الواقع ، يمكن تحليل أي بيانات يمكن تحويلها إلى تمثيل خطي باستخدام DTW.

كان التطبيق المعروف معروفًا التعرف التلقائي على الكلام ، للتعامل مع سرعات التحدث المختلفة. بشكل عام ، إنها طريقة تسمح للكمبيوتر بالبحث عن أفضل تطابق بين تسلسلين معينين (على سبيل المثال ، التسلسل الزمني) مع بعض القيود. أي أن التسلسلات “مشوهة” غير خطية لتتطابق مع بعضها البعض. وكثيرا ما تستخدم طريقة محاذاة التسلسل في سياق نماذج ماركوف المخفية.

الشبكات العصبية
ظهرت الشبكات العصبية كنهج نموذجي صوتي جذاب في ASR في أواخر 1980s. ومنذ ذلك الحين ، استخدمت الشبكات العصبية في العديد من جوانب التعرف على الكلام مثل تصنيف الصوتيات ، والتعرف على الكلمات المنعزلة ، والتعرف على الكلام السمعي البصري ، والتعرف السمعي البصري السمعي ، والتكيف مع السماعات.

وعلى النقيض من HMMs ، فإن الشبكات العصبية لا تقدم أي افتراضات حول الخصائص الإحصائية المميزة ولها العديد من الصفات مما يجعلها نماذج تمييز جذابة للتعرف على الكلام. عندما تستخدم لتقدير احتمالات جزء ميزة الكلام ، تسمح الشبكات العصبية بالتدريبات التمييزية بطريقة طبيعية وفعالة. يتم إجراء بعض الافتراضات حول إحصائيات ميزات الإدخال مع الشبكات العصبية. ومع ذلك ، وبالرغم من فعاليتها في تصنيف وحدات زمنية قصيرة مثل الصوتيات الفردية والكلمات المعزولة ، فإن الشبكات العصبية نادراً ما تنجح في مهام الاعتراف المستمر ، ويرجع ذلك إلى حد كبير إلى افتقارها إلى القدرة على وضع نموذج للاعتماديات الزمنية.

ومع ذلك ، فقد تم مؤخراً استخدام الشبكات العصبية المتكررة (LNM) والشبكات العصبية للتأخر الزمني (TDNN’s) التي ثبت أنها قادرة على تحديد التبعيات المؤقتة الكامنة واستخدام هذه المعلومات لأداء مهمة التعرف على الكلام.

كما جربت الشبكات العصبية العميقة وتلفيق الأسماء الديناميكية لمعالجة هذه المشكلة بطريقة فعالة.

نظرًا لعدم قدرة الشبكات العصبية المغذية على وضع نموذج للاعتماد على الزمان ، فإن النهج البديل هو استخدام الشبكات العصبية كتجهيز مسبق ، على سبيل المثال تحويل سمة ، تقليل الأبعاد ، للتمييز القائم على HMM.

الشبكات العصبية المغذية العميقة والمتكررة
الشبكة العصبية المغذية العميقة (DNN) هي شبكة عصبية اصطناعية ذات طبقات مخفية متعددة من الوحدات بين طبقات المدخلات والمخرجات. على غرار الشبكات العصبية الضحلة ، يمكن لـ DNNs تطوير علاقات غير خطية معقدة. تقوم معماريات DNN بتوليد نماذج تركيبية ، حيث تسمح الطبقات الإضافية بتكوين الخصائص من الطبقات السفلى ، مما يعطي قدرة تعلم ضخمة وبالتالي إمكانية وضع نماذج معقدة لبيانات الكلام.

حدث نجاح DNNs في التعرف على الكلمات المفردات الكبيرة في عام 2010 من قبل الباحثين الصناعيين ، بالتعاون مع الباحثين الأكاديميين ، حيث تم اعتماد طبقات الإخراج الكبيرة من DNN استنادًا إلى حالات HMM المعتمدة على السياق التي تم إنشاؤها بواسطة أشجار القرار. شاهد مراجعات شاملة لهذا التطور وأحدث التقنيات اعتبارًا من أكتوبر 2014 في كتاب Springer الأخير من Microsoft Research. راجع أيضًا الخلفية ذات الصلة للتعرف التلقائي على الكلام وتأثير نماذج التعلم الآلي المختلفة ، بما في ذلك التعلم العميق بشكل ملحوظ في مقالات النظرة العامة الأخيرة.

أحد المبادئ الأساسية للتعلم العميق هو التخلص من الهندسة اليدوية اليدوية واستخدام الميزات الأولية. تم استكشاف هذا المبدأ لأول مرة بنجاح في بنية موفر السيارات العميق على الشكل الطيفي “الخام” أو لميزات المصفاة الخطية الخطية ، مما يدل على تفوقها على خصائص ميل-سيبسترال التي تحتوي على بضع مراحل من التحول الثابت من الطيفي. لقد ثبت مؤخراً أن السمات الحقيقية “الأولية” للكلام ، أشكال الموجات ، تنتج نتائج ممتازة للتعرّف على الكلام على نطاق أوسع.

التعرف التلقائي على الكلام من طرف إلى طرف
منذ عام 2014 ، كان هناك الكثير من الاهتمام البحثي في ​​ASR “نهاية إلى نهاية”. تتطلب النهج القائم على الصوتيات التقليدية (أي جميع النماذج القائمة على HMM) مكونات منفصلة والتدريب للنطق ، والنموذج الصوتي واللغوي. تتعرف الطرز المتكاملة على جميع مكونات أداة التعرف على الكلام بشكل مشترك. هذا أمر مهم لأنه يبسط عملية التدريب وعملية النشر. على سبيل المثال ، مطلوب نموذج لغة n-gram لجميع الأنظمة القائمة على HMM ، وغالبًا ما يأخذ نموذج لغة n-gram النموذجي عدة غيغابايت في الذاكرة مما يجعلها غير عملية للنشر على الأجهزة المحمولة. وبالتالي ، يتم نشر أنظمة ASR التجارية الحديثة من Google و Apple (اعتبارًا من 2017) على السحاب وتتطلب اتصالاً بالشبكة بدلاً من الجهاز محليًا.

كانت المحاولة الأولى من ASR نهاية إلى نهاية مع أنظمة تصنيف العاطفة المؤقتة (CTC) التي قدمها اليكس Graves من Google DeepMind و Navdeep Jaitly من جامعة تورنتو في عام 2014. النموذج يتألف من الشبكات العصبية المتكررة وطبقة CTC. بالاشتراك ، يتعلم نموذج RNN-CTC طريقة النطق والنموذج الصوتي معًا ، إلا أنه غير قادر على تعلم اللغة بسبب افتراضات الاستقلال المشروط المشابهة لـ HMM. وبالتالي ، يمكن أن تتعلم نماذج CTC مباشرة لتعيين صوتيات الكلام إلى الأحرف الإنجليزية ، ولكن النماذج تصنع العديد من الأخطاء الإملائية الشائعة ويجب أن تعتمد على نموذج لغة منفصل لتنظيف النصوص. في وقت لاحق ، توسعت بايدو على العمل مع مجموعات البيانات كبيرة للغاية وأظهرت بعض النجاح التجاري في الماندرين الصينية والإنجليزية. في عام 2016 ، قدمت جامعة أكسفورد LipNet ، أول نموذج قراءة شفاه على مستوى الجملة من طرف إلى طرف ، باستخدام التواقي الزمانية المكانية المقترنة مع بنية RNN-CTC ، متجاوزًا مستوى الأداء البشري في مجموعة قواعد بيانات مقيد.

النهج البديل للنماذج القائمة على CTC هي نماذج قائمة على الاهتمام. تم تقديم نماذج ASR المبنية على الانتباه في آن واحد بواسطة Chan et al. من جامعة كارنيجي ميلون وجوجل برين و Bahdanaua et al. من جامعة مونتريال في عام 2016. النموذج المسمى “الاستماع ، والحضور والتهجئة” (LAS) ، حرفيا “يستمع” للإشارة الصوتية ، يدفع “الانتباه” إلى أجزاء مختلفة من الإشارة و “نوبات” خارج النص حرف واحد في الوقت. على عكس النماذج القائمة على CTC ، لا تحتوي النماذج القائمة على الاهتمام على افتراضات استقلالية شرطية ويمكن أن تتعلم جميع مكونات أداة التعرف على الكلام بما في ذلك النطق والنموذج الصوتي واللغوي مباشرة. هذا يعني ، أثناء النشر ، ليست هناك حاجة لحمل نموذج لغوي مما يجعله عملي جدا للنشر على التطبيقات ذات الذاكرة المحدودة. بحلول نهاية عام 2016 ، شهدت النماذج القائمة على الاهتمام نجاحًا كبيرًا بما في ذلك الأداء المتفوق لنماذج CTC (مع أو بدون نموذج لغة خارجي). تم اقتراح العديد من الإضافات منذ نموذج LAS الأصلي. تم اقتراح تحليل متسلسل كامن (LSD) من قبل جامعة كارنيجي ميلون ، ومعهد ماساتشوستس للتكنولوجيا ، وجوجل برين ، لإصدار وحدات الكلمة الفرعية بشكل مباشر والتي هي طبيعية أكثر من الأحرف الإنجليزية. قامت جامعة أكسفورد وجوجل DeepMind بتوسيع LAS إلى “مشاهدة والاستماع والحضور والتهجئة” (WLAS) للتعامل مع قراءة الشفاه تفوق الأداء على المستوى البشري.

تطبيقات

أنظمة داخل السيارة
عادةً ما يؤدي إدخال التحكم اليدوي ، على سبيل المثال عن طريق التحكم في الإصبع على عجلة القيادة ، إلى تمكين نظام التعرف على الكلام ، وهذا يشير إلى برنامج التشغيل من خلال موجه صوت. بعد توجيه الصوت ، لدى النظام “نافذة استماع” يمكن خلالها قبول إدخال الكلام للتعرّف عليه.

يمكن استخدام الأوامر الصوتية البسيطة لبدء المكالمات الهاتفية ، أو اختيار محطات الراديو أو تشغيل الموسيقى من هاتف ذكي متوافق أو مشغل MP3 أو محرك أقراص محمول محمّل بالموسيقى. تختلف إمكانيات التعرف على الصوت بين طراز السيارة والطراز. تقدم بعض من أحدث طرازات السيارات [عند؟] التعرف على الكلام بلغة طبيعية بدلاً من مجموعة ثابتة من الأوامر ، مما يسمح للسائق باستخدام جمل كاملة وعبارات شائعة. مع وجود مثل هذه الأنظمة ، لذلك ، لا حاجة للمستخدم لحفظ مجموعة من كلمات الأوامر الثابتة.

الرعاىة الصحية

الوثائق الطبية
ﻓﻲ ﻗطﺎع اﻟرﻋﺎﯾﺔ اﻟﺻﺣﯾﺔ ، ﯾﻣﮐن ﺗﻧﻔﯾذ اﻟﺗﻌرف ﻋﻟﯽ اﻟﺗﻌرف ﻓﻲ ﻧﮭﺎﯾﺔ اﻟﺧطوات اﻷﻣﺎﻣﯾﺔ أو اﻟﺧﻟﻔﯾﺔ ﻣن ﻋﻣﻟﯾﺔ اﻟﺗوﺛﯾق اﻟطﺑﻲ. التعرف على الكلام الأمامي هو المكان الذي يحدده الموفر في محرك التعرف على الكلام ، يتم عرض الكلمات المتعارف عليها أثناء نطقها ، ويكون الديكتاتور مسؤولاً عن التحرير وتسجيل الخروج من المستند. التعرّف على الخط الخلفي أو المؤجل هو المكان الذي يحدده الموفر في نظام الإملاء الرقمي ، ويتم توجيه الصوت من خلال جهاز التعرف على الكلام ويتم توجيه مسودة الوثيقة المعترف بها مع الملف الصوتي الأصلي إلى المحرر ، حيث يتم تحرير المسودة والتقرير النهائي. يستخدم التعرف على الكلام المؤجل على نطاق واسع في الصناعة حاليا.

واحدة من القضايا الرئيسية المتعلقة باستخدام التعرف على الكلام في مجال الرعاية الصحية هي أن قانون الانتعاش الأمريكي وإعادة الاستثمار لعام 2009 (ARRA) ينص على فوائد مالية كبيرة للأطباء الذين يستخدمون EMR وفقا لمعايير “الاستخدام الفعال”. تتطلب هذه المعايير الحفاظ على كمية كبيرة من البيانات من قبل EMR (يشار إليها الآن أكثر باسم سجل الصحة الإلكتروني أو EHR). يكون استخدام التعرف على الكلام أكثر ملاءمةً بشكل طبيعي لتوليد النص السردي ، كجزء من تفسير الأشعة / علم الأمراض ، أو ملاحظة التقدم أو ملخص التفريغ: المكاسب المريحة لاستخدام التعرف على الكلام للدخول إلى بيانات منفصلة منظمة (مثل القيم الرقمية أو الرموز من قائمة أو المفردات الخاضعة للرقابة) هي ضئيلة نسبيا بالنسبة للأشخاص الذين ينظرون والذين يستطيعون تشغيل لوحة المفاتيح والماوس.

وهناك مسألة أكثر أهمية هي أن معظم EHRs لم يتم تخصيصها بشكل صريح للاستفادة من قدرات التعرف على الصوت. جزء كبير من تفاعل الطبيب مع EHR ينطوي على التنقل من خلال واجهة المستخدم باستخدام القوائم ، ونقرات علامات التبويب / الزر ، ويعتمد بشدة على لوحة المفاتيح والماوس: يوفر التنقل المستند إلى الصوت مزايا متواضعة مريحة فقط. على النقيض من ذلك ، فإن العديد من الأنظمة عالية التخصيص للإشعاع أو الإملاء في علم الأمراض تقوم بتنفيذ “وحدات الماكرو” الصوتية ، حيث سيؤدي استخدام عبارات معينة – مثل “التقرير العادي” – تلقائيًا إلى ملء عدد كبير من القيم الافتراضية و / أو إنشاء نموذج معياري ، تختلف باختلاف نوع الامتحان – على سبيل المثال ، الأشعة السينية للصدر مقابل سلسلة تباين الجهاز الهضمي لنظام الأشعة.

كبديل لهذه الملاحة باليد ، تمت دراسة الاستخدام المتسلسل للتعرف على الكلام واستخراج المعلومات كطريقة لملء نموذج تسليم للتدقيق السريري والتوقيع. والنتائج مشجعة ، كما تفتح الورقة البيانات ، جنبا إلى جنب مع معايير الأداء ذات الصلة وبعض برامج المعالجة ، إلى مجتمع البحث والتطوير لدراسة الوثائق السريرية ومعالجة اللغة.

الاستخدام العلاجي
أظهر الاستخدام المطول لبرامج التعرف على الكلام بالتزامن مع معالجات الكلمات فوائد لتقوية الذاكرة على المدى القصير في المرضى الذين يعانون من اضطراب حركة العين للمرضى الذين تم علاجهم بالقطع. يجب إجراء مزيد من البحوث لتحديد الفوائد الإدراكية للأفراد الذين تم علاجهم من الألغام المضادة للمركبات باستخدام تقنيات الأشعة.

الجيش

طائرات مقاتلة عالية الأداء
تم تكريس جهود كبيرة في العقد الماضي لاختبار وتقييم التعرف على الكلام في الطائرات المقاتلة. وتجدر الإشارة بشكل خاص إلى برنامج الولايات المتحدة في مجال التعرف على الكلام من أجل طائرة Advanced Fighter Technology Integration (AFTI) / F-16 (F-16 VISTA) ، وبرنامج في فرنسا لطائرات Mirage ، وبرامج أخرى في المملكة المتحدة تتعامل مع مجموعة متنوعة منصات الطائرات. في هذه البرامج ، تم تشغيل أجهزة التعرف على الكلام بنجاح في الطائرات المقاتلة ، مع التطبيقات بما في ذلك: تحديد ترددات الراديو ، قيادة نظام الطيار الآلي ، وضع إحداثيات نقطة التوجيه ومعلمات إطلاق الأسلحة ، والتحكم في عرض الطيران.

العمل مع الطيارين السويديين الذين يحلقون في قمرة القيادة JAS-39 جريبن ، وجد Englund (2004) الاعتراف بالتدهور مع زيادة حمولة g. وخلص التقرير أيضا إلى أن التكيف أدى إلى تحسن كبير في النتائج في جميع الحالات وأن ظهور نماذج للتنفس ظهر لتحسين نتائج التقدير بدرجة كبيرة. على عكس ما كان متوقعًا ، لم يتم العثور على أي تأثيرات للغة الإنجليزية المكسورة للمتحدثين. كان من الواضح أن الكلام العفوي تسبب في مشاكل أداة التعرف ، كما كان متوقعًا. ومن ثم ، يمكن أن يتوقع من المفردات المقيدة ، وقبل كل شيء ، تركيب صحيح ، تحسين دقة التعرف بدرجة كبيرة.

يوظف محرك يوروفايتر تايفون ، الذي يعمل حاليًا في سلاح الجو الملكي البريطاني ، نظامًا يعتمد على المتحدث ، ويتطلب من كل طيار إنشاء نموذج. لا يستخدم النظام لأي مهام حرجة للسلامة أو حرجة ، مثل إطلاق السلاح أو خفضه ، ولكنه يُستخدم لمجموعة واسعة من وظائف قمرة القيادة الأخرى. يتم تأكيد الأوامر الصوتية من خلال ردود الفعل البصرية و / أو السمعية. يُنظر إلى النظام على أنه ميزة تصميم رئيسية في تقليل عبء العمل التجريبي ، بل ويسمح للرائد بتخصيص أهداف لطائرته من خلال أمرين صوتيين بسيطين أو أي من أفراد جناحه مع خمسة أوامر فقط.

كما يجري تطوير أنظمة مستقلة عن السماعات وهي خاضعة لاختبار F35 Lightning II (JSF) و Alenia Aermacchi M-346 Master-in-Fighter Trainer. أنتجت هذه الأنظمة درجات دقة للكلمات تزيد على 98٪.

طائرات هليكوبتر
وتتصل مشاكل تحقيق دقة التعرف العالية في ظل الإجهاد والضوضاء بشدة ببيئة الطائرات المروحية وكذلك ببيئة المقاتلات النفاثة. إن مشكلة الضوضاء الصوتية هي في الواقع أشد في بيئة المروحيات ، ليس فقط بسبب مستويات الضوضاء المرتفعة ولكن أيضاً لأن طيار المروحية ، بشكل عام ، لا يرتدي قناع وجه ، مما يقلل من الضوضاء الصوتية في الميكروفون. وقد تم تنفيذ برامج الاختبار والتقييم الهامة في العقد الماضي في تطبيقات نظم التعرف على الكلام في طائرات الهليكوبتر ، ولا سيما من خلال نشاط أبحاث وتطوير الطيران في الجيش الأمريكي (AVRADA) ومن قبل مؤسسة الفضاء الجوي الملكية (RAE) في المملكة المتحدة. شمل العمل في فرنسا التعرف على الكلام في مروحية بوما. كان هناك الكثير من العمل المفيد في كندا. وقد كانت النتائج مشجعة ، وشملت التطبيقات الصوتية: التحكم في أجهزة الاتصال اللاسلكية ، وتحديد أنظمة الملاحة ، والتحكم في نظام تسليم الهدف الآلي.

وكما هو الحال في تطبيقات المقاتلين ، فإن القضية المهيمنة على الصوت في طائرات الهليكوبتر هي التأثير على فعالية الطيار. يتم الإبلاغ عن نتائج مشجعة لاختبارات AVRADA ، على الرغم من أنها لا تمثل سوى مظاهر جدوى في بيئة اختبار. لا يزال هناك الكثير مما ينبغي عمله في مجال التعرف على الكلام وفي تقنية الكلام الشاملة من أجل تحقيق تحسينات في الأداء باستمرار في الإعدادات التشغيلية.

تدريب مراقبي الحركة الجوية
يمثل تدريب مراقبي الحركة الجوية (ATC) تطبيقًا ممتازًا لأنظمة التعرف على الكلام. تتطلب العديد من أنظمة التدريب على ATC حاليًا أن يعمل الشخص ك “طيار زائف” ، حيث يشارك في حوار صوتي مع المتحكم المتدرب ، والذي يحاكي الحوار الذي سيضطر المراقب لإجراءه مع الطيارين في وضع ATC ​​حقيقي. تقنيات التعرف على الكلام والتوليف توفر القدرة على القضاء على الحاجة إلى شخص ليكون بمثابة الطيار الزائف ، مما يقلل من موظفي التدريب والدعم. من الناحية النظرية ، تتميز مهام وحدة التحكم في الهواء أيضًا بالكلام عالي التنظيم كخرج أولي لوحدة التحكم ، وبالتالي يمكن تقليل صعوبة مهمة التعرف على الكلام. في الواقع ، هذا نادرًا ما يحدث. تشرح وثيقة FAA 7110.65 العبارات التي يجب استخدامها من قبل مراقبي الحركة الجوية. على الرغم من أن هذه الوثيقة تقدم أقل من 150 نموذجًا لهذه العبارات ، فإن عدد العبارات التي يدعمها أحد أنظمة التعرف على الكلام لموردي المحاكاة يزيد عن 500000.

تستخدم كل من USAF و USMC والجيش الأمريكي والقوات البحرية الأمريكية وقوات FAA بالإضافة إلى عدد من منظمات التدريب على ATC الدولية مثل القوات الجوية الملكية الأسترالية وسلطات الطيران المدني في إيطاليا والبرازيل وكندا حاليًا أجهزة محاكاة ATC مع التعرف على الكلام من عدد من البائعين المختلفين.

الهتفية والنطاقات الأخرى
ASR هو شائع الآن في مجال الاتصالات الهاتفية ، وأصبح أكثر انتشارا في مجال ألعاب الكمبيوتر والمحاكاة. على الرغم من مستوى عال من التكامل مع معالجة النصوص في الحوسبة الشخصية العامة. ومع ذلك ، فإن ASR في مجال إنتاج الوثائق لم تشهد الزيادة المتوقعة في الاستخدام [من قبل؟].

لقد جعل تحسين سرعة المعالج المحمول من عملية التعرف على الكلام عملية في الهواتف الذكية. يستخدم الكلام في الغالب كجزء من واجهة المستخدم ، لإنشاء أوامر نطق محددة مسبقًا أو مخصصة. أبرز موردي البرامج في هذا المجال هم: Google، Microsoft Corporation (Microsoft Voice Command)، Siphon الرقمية (Sonic Extractor)، LumenVox، Nuance Communications (Nuance Voice Control)، Voci Technologies، VoiceBox Technology، Speech Technology Center، Vito Technologies (VITO Voice2Go) ) ، Speereo Software (Speereo Voice Translator) ، Verbyx VRX و SVOX.

الاستخدام في التعليم والحياة اليومية
بالنسبة لتعلم اللغة ، يمكن أن يكون التعرف على الكلام مفيدًا لتعلم لغة ثانية. يمكنه تعليم النطق الصحيح ، بالإضافة إلى مساعدة الشخص على تطوير مهارات التحدث.

يمكن للطلاب المكفوفين (انظر العمى والتعليم) أو لديهم رؤية منخفضة للغاية الاستفادة من استخدام التكنولوجيا لنقل الكلمات ثم سماع الكمبيوتر يرويها ، وكذلك استخدام جهاز كمبيوتر عن طريق القيادة بصوتهم ، بدلا من النظر إلى الشاشة ولوحة المفاتيح.

يمكن إعفاء الطلاب الذين يعانون من إعاقات جسدية أو يعانون من إصابات الإجهاد المتكرر / الإصابات الأخرى في الأطراف العلوية من القلق بشأن الكتابة اليدوية أو الكتابة أو العمل مع الكاتب في الواجبات المدرسية باستخدام برامج الكلام إلى النصوص. ويمكنهم أيضًا استخدام تقنية التعرف على الكلام للاستمتاع بحرية بالبحث في الإنترنت أو استخدام الكمبيوتر في المنزل دون الحاجة إلى تشغيل الماوس ولوحة المفاتيح فعليًا.

يمكن أن يتيح التعرف على الكلام للطلاب ذوي صعوبات التعلم أن يصبحوا كتابًا أفضل. من خلال قول الكلمات بصوت عالٍ ، يمكنهم زيادة سيولة كتاباتهم ، وتخفف من المخاوف المتعلقة بالتهجئة وعلامات الترقيم وغيرها من آليات الكتابة. أيضا ، انظر صعوبات التعلم.

ثبت أن استخدام برنامج التعرف على الصوت ، بالتزامن مع مسجل صوت رقمي وجهاز كمبيوتر شخصي يشغل برنامج معالجة الكلمات ، كان إيجابياً لاستعادة القدرة على تلف الذاكرة قصيرة المدى ، في أفراد السكتة الدماغية وأبصار القحف.

أشخاص ذوي الإعاقة
يمكن للأشخاص ذوي الإعاقة الاستفادة من برامج التعرف على الكلام. بالنسبة إلى الأشخاص الصم أو ضعاف السمع ، يتم استخدام برنامج التعرف على الكلام لإنشاء تعليقات مغلقة تلقائيًا للمحادثات مثل المناقشات في غرف الاجتماعات ومحاضرات غرفة الصف و / أو الخدمات الدينية.

يعتبر التعرف على الكلام مفيدًا أيضًا للأشخاص الذين يواجهون صعوبة في استخدام أيديهم ، بدءًا من إصابات الإجهاد المتكررة المتكررة إلى الإعاقات التي تنطوي على إعاقة استخدام أجهزة إدخال الكمبيوتر التقليدية. في الواقع ، أصبح الأشخاص الذين استخدموا لوحة المفاتيح كثيرًا وتطوير RSI سوقًا عاجلة مبكرة للتعرف على الكلام. يستخدم التعرف على الكلام في المهاتفة الصم ، مثل البريد الصوتي إلى النص ، وخدمات الترحيل ، والهاتف المصنف. الأفراد الذين يعانون من صعوبات في التعلم ممن لديهم مشاكل في التواصل بين الفكر والورقة (وهم يفكرون في فكرة أساسية ولكن يتم معالجتها بشكل غير صحيح مما يجعلها تنتهي بشكل مختلف على الورق) يمكن أن يستفيدوا من البرنامج ولكن التكنولوجيا ليست دليلاً على الخطأ. كما أن الفكرة الكاملة للتحدث إلى النص قد تكون صعبة على الشخص المعاق ذهنياً بسبب حقيقة أنه من النادر أن يحاول أي شخص تعلم التكنولوجيا لتعليم الشخص المصاب بالإعاقة.

يمكن أن يساعد هذا النوع من التكنولوجيا الأشخاص الذين يعانون من عسر القراءة ولكن لا تزال هناك إعاقات أخرى محل شك. فاعلية المنتج هي المشكلة التي تعوق كونها فعالة. على الرغم من أن الطفل قد يكون قادراً على قول كلمة اعتماداً على مدى وضوح ما يقولونه فإن التكنولوجيا قد تعتقد أنهم يقولون كلمة أخرى وإدخال كلمة خاطئة. منحهم المزيد من العمل لإصلاحه ، مما يجعلهم مضطرين إلى قضاء المزيد من الوقت في إصلاح الخطأ.

مزيد من التطبيقات
الفضاء الجوي (مثل استكشاف الفضاء ، المركبات الفضائية ، إلخ.) استخدمت Mars Polar Lander التابعة لناسا تكنولوجيا التعرف على الكلام من Sensory، Inc. في ميكروفون المريخ على Lander
الترجمة التلقائية مع التعرف على الكلام
التعرف التلقائي على المشاعر
الترجمة الآلية
تقارير المحكمة (كتابة الوقت الحقيقي للخطاب)
eDiscovery (الاكتشاف القانوني)
الحوسبة دون استخدام اليدين: واجهة مستخدم كمبيوتر التعرف على الكلام
أتمتة المنزل
استجابة صوتية تفاعلية
الهواتف المحمولة ، بما في ذلك البريد الإلكتروني المحمول
تفاعل متعدد الوسائط
تقييم النطق في تطبيقات تعلم اللغة بمساعدة الكمبيوتر
في الوقت الحقيقي توضيحية
الروبوتات
الكلام على النص (نسخ الكلام إلى نص ، عرض الفيديو ، تقارير المحكمة)
التليماتية (مثل أنظمة الملاحة في المركبات)
نسخ (الكلام إلى نص رقمي)
ألعاب الفيديو ، مع EndWar توم كلانسي وشريان الحياة كأمثلة العمل
مساعد افتراضي (مثل سيري أبل)

أداء
عادة ما يتم تقييم أداء أنظمة التعرف على الكلام من حيث الدقة والسرعة. عادة ما يتم تصنيف الدقة مع معدل خطأ الكلمة (WER) ، في حين يتم قياس السرعة مع عامل الوقت الحقيقي. تتضمن مقاييس الدقة الأخرى “Single Error Error Rate (SWER) and Command Success Rate (CSR)”.

لكن التعرف على الكلام بواسطة الجهاز مشكلة معقدة للغاية. تختلف أصوات الكلمات من حيث اللهجة ، والنطق ، والتعبير ، والخشونة ، والناحية ، والتروية ، والحجم ، والسرعة. يتم تشويه الكلام من خلال الضوضاء والأصداء الخلفية ، والخصائص الكهربائية. قد تختلف دقة التعرف على الكلام بما يلي:

حجم المفردات والارتباك
اعتماد المتحدث مقابل الاستقلال
الكلام المعزول أو غير المستمر أو المستمر
قيود المهام واللغات
القراءة مقابل الكلام العفوي
ظروف مغايرة