वाक् पहचान

भाषण मान्यता कम्प्यूटेशनल भाषाविज्ञान का अंतर अनुशासनिक उप-क्षेत्र है जो उन पद्धतियों और प्रौद्योगिकियों को विकसित करता है जो कंप्यूटर द्वारा बोली में बोली जाने वाली भाषा की पहचान और अनुवाद को सक्षम बनाता है। इसे स्वचालित भाषण मान्यता (एएसआर), कंप्यूटर भाषण मान्यता या टेक्स्ट टू स्पीच (एसटीटी) के रूप में भी जाना जाता है। इसमें भाषा विज्ञान, कंप्यूटर विज्ञान और इलेक्ट्रिकल इंजीनियरिंग क्षेत्रों में ज्ञान और अनुसंधान शामिल है।

कुछ भाषण मान्यता प्रणालियों को “प्रशिक्षण” (जिसे “नामांकन” भी कहा जाता है) की आवश्यकता होती है जहां एक व्यक्तिगत वक्ता सिस्टम में पाठ या पृथक शब्दावली पढ़ता है। प्रणाली व्यक्ति की विशिष्ट आवाज़ का विश्लेषण करती है और उस व्यक्ति के भाषण की पहचान को सुदृढ़ करने के लिए इसका उपयोग करती है, जिसके परिणामस्वरूप सटीकता बढ़ जाती है। सिस्टम जो प्रशिक्षण का उपयोग नहीं करते हैं उन्हें “स्पीकर स्वतंत्र” सिस्टम कहा जाता है। सिस्टम जो प्रशिक्षण का उपयोग करते हैं उन्हें “स्पीकर आश्रित” कहा जाता है।

भाषण मान्यता अनुप्रयोगों में ध्वनि उपयोगकर्ता इंटरफेस जैसे वॉयस डायलिंग (जैसे “कॉल होम”), कॉल रूटिंग (उदाहरण के लिए “मैं एक संग्रह कॉल करना चाहता हूं”), घरेलू उपकरण नियंत्रण, खोज (उदाहरण के लिए एक पॉडकास्ट ढूंढें जहां विशेष शब्द बोले गए थे ), सरल डेटा प्रविष्टि (उदाहरण के लिए, क्रेडिट कार्ड नंबर दर्ज करना), संरचित दस्तावेजों की तैयारी (जैसे रेडियोलॉजी रिपोर्ट), भाषण-से-पाठ प्रसंस्करण (उदाहरण के लिए, वर्ड प्रोसेसर या ईमेल), और विमान (आमतौर पर प्रत्यक्ष आवाज इनपुट कहा जाता है) ।

आवाज पहचान या स्पीकर पहचान शब्द स्पीकर की पहचान करने के लिए संदर्भित करता है, जो वे कह रहे हैं। स्पीकर को पहचानना सिस्टम में भाषण का अनुवाद करने के कार्य को सरल बना सकता है जिसे किसी विशिष्ट व्यक्ति की आवाज़ पर प्रशिक्षित किया गया है या इसका उपयोग किसी सुरक्षा प्रक्रिया के हिस्से के रूप में स्पीकर की पहचान को प्रमाणित करने या सत्यापित करने के लिए किया जा सकता है।

प्रौद्योगिकी परिप्रेक्ष्य से, भाषण मान्यता के प्रमुख नवाचारों की कई तरंगों के साथ एक लंबा इतिहास है। हाल ही में, क्षेत्र को गहरी शिक्षा और बड़े डेटा में प्रगति से फायदा हुआ है। प्रगति न केवल क्षेत्र में प्रकाशित शैक्षणिक पत्रों के उदय से प्रमाणित है, बल्कि दुनिया भर में उद्योग द्वारा भाषण मान्यता प्रणाली को डिजाइन और तैनात करने में विभिन्न प्रकार की गहरी सीखने के तरीकों को अपनाना है। इन भाषण उद्योग के खिलाड़ियों में Google, माइक्रोसॉफ्ट, आईबीएम, Baidu, ऐप्पल, अमेज़ॅन, Nuance, SoundHound, iFLYTEK शामिल हैं जिनमें से कई ने अपनी भाषण मान्यता प्रणाली में कोर तकनीक को गहरी शिक्षा के आधार पर प्रचारित किया है।

मॉडल, विधियों और एल्गोरिदम
ध्वनिक मॉडलिंग और भाषा मॉडलिंग दोनों आधुनिक सांख्यिकीय रूप से आधारित भाषण मान्यता एल्गोरिदम के महत्वपूर्ण भाग हैं। कई प्रणालियों में छुपे हुए मार्कोव मॉडल (एचएमएम) का व्यापक रूप से उपयोग किया जाता है। भाषा मॉडलिंग का उपयोग कई अन्य प्राकृतिक भाषा प्रसंस्करण अनुप्रयोगों जैसे दस्तावेज़ वर्गीकरण या सांख्यिकीय मशीन अनुवाद में भी किया जाता है।

छुपा मार्कोव मॉडल
आधुनिक सामान्य उद्देश्य भाषण मान्यता प्रणाली छिपे हुए मार्कोव मॉडल पर आधारित हैं। ये सांख्यिकीय मॉडल हैं जो प्रतीकों या मात्राओं का अनुक्रम आउटपुट करते हैं। एचएमएम का प्रयोग भाषण मान्यता में किया जाता है क्योंकि एक भाषण संकेत को टुकड़े के अनुसार स्थिर सिग्नल या शॉर्ट-टाइम स्थिर सिग्नल के रूप में देखा जा सकता है। थोड़े समय के पैमाने पर (उदाहरण के लिए, 10 मिलीसेकंड), भाषण को स्थिर प्रक्रिया के रूप में अनुमानित किया जा सकता है। भाषण को कई स्टोकास्टिक उद्देश्यों के लिए मार्कोव मॉडल के रूप में माना जा सकता है।

एचएमएम लोकप्रिय होने का एक और कारण यह है कि उन्हें स्वचालित रूप से प्रशिक्षित किया जा सकता है और उपयोग करने के लिए सरल और कम्प्यूटेशनल रूप से व्यवहार्य हैं। भाषण मान्यता में, छुपा मार्कोव मॉडल एन-आयामी वास्तविक मूल्य वाले वैक्टरों (एन के साथ एक छोटा पूर्णांक, जैसे 10) का अनुक्रम आउटपुट करेगा, इन 10 मिलीसेकंडों में से एक को आउटपुट करेगा। वेक्टर में सेप्स्ट्रल गुणांक शामिल होंगे, जो भाषण की एक छोटी समय की खिड़की के फूरियर ट्रांसफॉर्म और कोसाइन ट्रांसफॉर्म का उपयोग करके स्पेक्ट्रम को सजाते हुए प्राप्त किए जाते हैं, फिर पहले (सबसे महत्वपूर्ण) गुणांक लेते हैं। छुपा मार्कोव मॉडल प्रत्येक राज्य में एक सांख्यिकीय वितरण होता है जो विकर्ण कॉवर्सियन गॉसियन का मिश्रण होता है, जो प्रत्येक मनाए गए वेक्टर के लिए संभावना प्रदान करेगा। प्रत्येक शब्द, या (अधिक सामान्य भाषण मान्यता प्रणाली के लिए), प्रत्येक फोनमैन के पास एक अलग आउटपुट वितरण होगा; शब्दों या फोनेम के अनुक्रम के लिए एक छिपी मार्कोव मॉडल अलग-अलग शब्दों और ध्वनियों के लिए व्यक्तिगत प्रशिक्षित छुपे हुए मार्कोव मॉडल को जोड़कर बनाया जाता है।

ऊपर वर्णित भाषण मान्यता के लिए सबसे आम, एचएमएम आधारित दृष्टिकोण के मूल तत्व हैं। आधुनिक भाषण मान्यता प्रणाली ऊपर वर्णित मूल दृष्टिकोण पर परिणामों को बेहतर बनाने के लिए कई मानक तकनीकों के विभिन्न संयोजनों का उपयोग करती हैं। एक ठेठ बड़ी शब्दावली प्रणाली को फोनेम के लिए संदर्भ निर्भरता की आवश्यकता होगी (इसलिए विभिन्न बाएं और दाएं संदर्भ वाले फोनमों में एचएमएम राज्यों के रूप में विभिन्न प्राप्तियां होती हैं); यह अलग-अलग स्पीकर और रिकॉर्डिंग स्थितियों के लिए सामान्यीकृत करने के लिए सेप्स्ट्रल सामान्यीकरण का उपयोग करेगा; आगे स्पीकर सामान्यीकरण के लिए यह नर-मादा सामान्यीकरण और अधिक सामान्य स्पीकर अनुकूलन के लिए अधिकतम संभावना रैखिक प्रतिगमन (एमएलएलआर) के लिए मुखर पथ लंबाई सामान्यीकरण (वीटीएलएन) का उपयोग कर सकता है। सुविधाओं में भाषण गतिशीलता को पकड़ने के लिए तथाकथित डेल्टा और डेल्टा-डेल्टा गुणांक होंगे और इसके अतिरिक्त हीटरोसेस्डैक्शनल रैखिक भेदभाव विश्लेषण (एचएलडीए) का उपयोग कर सकते हैं; या डेल्टा और डेल्टा-डेल्टा गुणांक छोड़ सकते हैं और स्प्लिसिंग और एलडीए-आधारित प्रक्षेपण का उपयोग शायद हीटरोससेस्टिक रेखीय भेदभाव विश्लेषण या वैश्विक अर्ध-बंधे सह भिन्नता परिवर्तन (जिसे अधिकतम संभावना रैखिक परिवर्तन या एमएलएलटी के रूप में भी जाना जाता है) द्वारा किया जाता है। कई प्रणालियां तथाकथित भेदभाव प्रशिक्षण तकनीकों का उपयोग करती हैं जो एचएमएम पैरामीटर अनुमान के लिए पूरी तरह से सांख्यिकीय दृष्टिकोण के साथ बांटती हैं और इसके बजाय प्रशिक्षण डेटा के कुछ वर्गीकरण से संबंधित उपाय को अनुकूलित करती हैं। उदाहरण अधिकतम पारस्परिक जानकारी (एमएमआई), न्यूनतम वर्गीकरण त्रुटि (एमसीई) और न्यूनतम फोन त्रुटि (एमपीई) हैं।

भाषण को डीकोड करना (जब सिस्टम को एक नए उच्चारण के साथ प्रस्तुत किया जाता है और सबसे अधिक संभावित स्रोत वाक्य की गणना करनी होती है तो यह शब्द होता है) शायद सबसे अच्छा पथ खोजने के लिए विटरबी एल्गोरिदम का उपयोग करेगा, और यहां गतिशील रूप से एक बनाने के बीच एक विकल्प है संयोजन छुपा मार्कोव मॉडल, जिसमें ध्वनिक और भाषा मॉडल दोनों जानकारी शामिल है, और इसे स्थिर रूप से पहले से जोड़ना (परिमित राज्य ट्रांसड्यूसर, या एफएसटी, दृष्टिकोण)।

डिकोडिंग में एक संभावित सुधार यह है कि सर्वश्रेष्ठ उम्मीदवारों को रखने के बजाय अच्छे उम्मीदवारों का एक सेट बनाए रखें, और इन अच्छे उम्मीदवारों को रेट करने के लिए बेहतर स्कोरिंग फ़ंक्शन (पुनः स्कोरिंग) का उपयोग करें ताकि हम इस परिष्कृत स्कोर के अनुसार सर्वश्रेष्ठ विकल्प चुन सकें । उम्मीदवारों के सेट को या तो सूची (एन-बेस्ट लिस्ट दृष्टिकोण) या मॉडल के एक सबसेट (जाली) के रूप में रखा जा सकता है। री स्कोरिंग आमतौर पर बेयस जोखिम को कम करने की कोशिश करके (या उसके अनुमान) को कम करने की कोशिश करके किया जाता है: स्रोत की सजा को अधिकतम संभावना के साथ लेने के बजाय, हम उस वाक्य को लेने का प्रयास करते हैं जो सभी संभावित प्रतिलेखों के संबंध में दिए गए हानि कार्य की प्रत्याशा को कम करता है (यानी, हम वाक्य लेते हैं जो उनकी अनुमानित संभावना से भारित अन्य संभावित वाक्यों की औसत दूरी को कम करता है)। हानि समारोह आमतौर पर लेवेनशेटिन दूरी होता है, हालांकि यह विशिष्ट कार्यों के लिए अलग दूरी हो सकता है; संभावित प्रतिलेखों का सेट, निश्चित रूप से, ट्रैक्टबिलिटी को बनाए रखने के लिए छिड़काव है। भारित परिमित राज्य ट्रांसड्यूसर के रूप में प्रतिनिधित्व किए गए लैटिस को फिर से चलाने के लिए कुशल एल्गोरिदम तैयार किए गए हैं, जो संपादित दूरी के साथ खुद को एक सीमित राज्य ट्रांसड्यूसर के रूप में दर्शाते हैं जो कुछ मान्यताओं की पुष्टि करते हैं।

गतिशील समय warping (डीटीडब्ल्यू) आधारित भाषण मान्यता
गतिशील समय युद्ध एक दृष्टिकोण है जिसे ऐतिहासिक रूप से भाषण मान्यता के लिए उपयोग किया जाता था लेकिन अब इसे अधिक सफल एचएमएम-आधारित दृष्टिकोण से विस्थापित कर दिया गया है।

गतिशील समय warping समय या गति में भिन्न हो सकता है कि दो अनुक्रमों के बीच समानता को मापने के लिए एक एल्गोरिदम है। उदाहरण के लिए, चलने वाले पैटर्न में समानताएं पता चल जाएंगी, भले ही एक वीडियो में व्यक्ति धीरे-धीरे चल रहा था और यदि दूसरे में वह अधिक तेज़ी से चल रहा था, या यहां तक ​​कि अगर एक अवलोकन के दौरान त्वरण और मंदी थी। डीटीडब्ल्यू वीडियो, ऑडियो और ग्राफिक्स पर लागू किया गया है – वास्तव में, किसी भी डेटा जिसे रैखिक प्रतिनिधित्व में बदला जा सकता है, डीटीडब्ल्यू के साथ विश्लेषण किया जा सकता है।

विभिन्न बोलने वाली गति से निपटने के लिए एक प्रसिद्ध एप्लिकेशन स्वचालित भाषण मान्यता रही है। आम तौर पर, यह एक तरीका है जो कंप्यूटर को कुछ प्रतिबंधों के साथ दो दिए गए अनुक्रमों (उदाहरण के लिए, समय श्रृंखला) के बीच इष्टतम मैच खोजने की अनुमति देता है। यही है, अनुक्रम एक दूसरे से मेल खाने के लिए गैर-रैखिक रूप से “warped” हैं। यह अनुक्रम संरेखण विधि अक्सर छुपा मार्कोव मॉडल के संदर्भ में उपयोग की जाती है।

तंत्रिका जाल
1 9 80 के दशक के अंत में तंत्रिका नेटवर्क एएसआर में एक आकर्षक ध्वनिक मॉडलिंग दृष्टिकोण के रूप में उभरा। तब से, भाषण मान्यता के कई पहलुओं में तंत्रिका नेटवर्क का उपयोग किया गया है जैसे फोनेम वर्गीकरण, पृथक शब्द पहचान, ऑडियोविज़ुअल भाषण मान्यता, ऑडियोविज़ुअल स्पीकर मान्यता और स्पीकर अनुकूलन।

एचएमएम के विपरीत, तंत्रिका नेटवर्क फीचर सांख्यिकीय गुणों के बारे में कोई धारणा नहीं करते हैं और भाषण मान्यता के लिए उन्हें आकर्षक मान्यता मॉडल बनाने में कई गुण हैं। जब भाषण सुविधा खंड की संभावनाओं का अनुमान लगाने के लिए उपयोग किया जाता है, तंत्रिका नेटवर्क एक प्राकृतिक और कुशल तरीके से भेदभावपूर्ण प्रशिक्षण की अनुमति देते हैं। इनपुट सुविधाओं के आंकड़ों पर कुछ मान्यताओं तंत्रिका नेटवर्क के साथ बनाई जाती हैं। हालांकि, व्यक्तिगत फोनेम और पृथक शब्दों जैसे शॉर्ट-टाइम इकाइयों को वर्गीकृत करने में उनकी प्रभावशीलता के बावजूद, तंत्रिका नेटवर्क निरंतर मान्यता कार्यों के लिए शायद ही कभी सफल होते हैं, मुख्य रूप से अस्थायी निर्भरताओं को मॉडल करने की क्षमता की कमी के कारण।

हालांकि, हाल ही में एलएसटीएम आवर्ती तंत्रिका नेटवर्क (आरएनएन) और टाइम विलंब तंत्रिका नेटवर्क (टीडीएनएन) का उपयोग किया गया है जो गुप्त अस्थायी निर्भरताओं की पहचान करने में सक्षम होने के लिए दिखाए गए हैं और भाषण मान्यता के कार्य को करने के लिए इस जानकारी का उपयोग करते हैं।

इस समस्या से निपटने के लिए गहरे तंत्रिका नेटवर्क और डेनोइजिंग ऑटोनकोडर्स का भी प्रयोग किया जा रहा था।

अस्थायी निर्भरताओं के मॉडल के लिए फीडफोर्ड न्यूरल नेटवर्क की अक्षमता के कारण, एचएमएम आधारित मान्यता के लिए एक पूर्व-प्रसंस्करण जैसे फीचर ट्रांसफॉर्मेशन, आयामी कमी, एक तंत्रिका नेटवर्क का उपयोग करना वैकल्पिक विकल्प है।

गहरी feedforward और आवर्ती तंत्रिका नेटवर्क
एक गहरी फीडफोर्ड न्यूरल नेटवर्क (डीएनएन) एक कृत्रिम तंत्रिका नेटवर्क है जिसमें इनपुट और आउटपुट परतों के बीच इकाइयों की कई छिपी परतें होती हैं। उथले तंत्रिका नेटवर्क के समान, डीएनएन जटिल गैर-रैखिक संबंधों का मॉडल कर सकते हैं। डीएनएन आर्किटेक्चर रचनात्मक मॉडल उत्पन्न करते हैं, जहां अतिरिक्त परतें निम्न परतों से सुविधाओं की संरचना को सक्षम करती हैं, जिससे बड़ी सीखने की क्षमता होती है और इस प्रकार भाषण डेटा के जटिल पैटर्न मॉडलिंग की संभावना होती है।

अकादमिक शोधकर्ताओं के सहयोग से, औद्योगिक शोधकर्ताओं द्वारा 2010 में बड़ी शब्दावली भाषण मान्यता में डीएनएन की सफलता हुई, जहां निर्णय पेड़ों द्वारा निर्मित संदर्भ निर्भर एचएमएम राज्यों के आधार पर डीएनएन की बड़ी आउटपुट परतों को अपनाया गया। माइक्रोसॉफ्ट रिसर्च से हाल ही में स्प्रिंगर पुस्तक में अक्टूबर 2014 तक इस विकास और कला की स्थिति की व्यापक समीक्षा देखें। स्वचालित भाषण मान्यता की संबंधित पृष्ठभूमि और हाल ही के अवलोकन लेखों में उल्लेखनीय रूप से गहरी शिक्षा सहित विभिन्न मशीन लर्निंग प्रतिमानों के प्रभाव को भी देखें।

गहरी शिक्षा का एक मौलिक सिद्धांत हाथ से तैयार फीचर इंजीनियरिंग और कच्चे विशेषताओं का उपयोग करना है। इस सिद्धांत को पहली बार “कच्चे” स्पेक्ट्रोग्राम या रैखिक फ़िल्टर-बैंक सुविधाओं पर गहरे ऑटोकोडर के आर्किटेक्चर में सफलतापूर्वक खोजा गया था, जो मेल-सेस्ट्रल सुविधाओं पर इसकी श्रेष्ठता दिखाता है जिसमें स्पेक्ट्रोग्राम से निश्चित परिवर्तन के कुछ चरण होते हैं। भाषण, तरंगों की वास्तविक “कच्ची” विशेषताओं को हाल ही में उत्कृष्ट बड़े पैमाने पर भाषण मान्यता परिणामों का उत्पादन करने के लिए दिखाया गया है।

एंड-टू-एंड स्वचालित भाषण मान्यता
2014 से, “एंड-टू-एंड” एएसआर में बहुत अधिक शोध रुचि रही है। पारंपरिक फोनेटिक-आधारित (यानी, सभी एचएमएम-आधारित मॉडल) दृष्टिकोणों में उच्चारण, ध्वनिक और भाषा मॉडल के लिए अलग-अलग घटक और प्रशिक्षण की आवश्यकता होती है। एंड-टू-एंड मॉडल संयुक्त रूप से भाषण पहचानकर्ता के सभी घटकों को सीखते हैं। यह मूल्यवान है क्योंकि यह प्रशिक्षण प्रक्रिया और तैनाती प्रक्रिया को सरल बनाता है। उदाहरण के लिए, सभी एचएमएम-आधारित सिस्टमों के लिए एक एन-ग्राम भाषा मॉडल की आवश्यकता होती है, और एक सामान्य एन-ग्राम भाषा मॉडल अक्सर स्मृति में कई गीगाबाइट लेता है जिससे उन्हें मोबाइल उपकरणों पर तैनात करने के लिए अव्यवहारिक बना दिया जाता है। नतीजतन, Google और Apple (2017 तक) के आधुनिक वाणिज्यिक एएसआर सिस्टम क्लाउड पर तैनात किए जाते हैं और स्थानीय रूप से डिवाइस के विपरीत नेटवर्क कनेक्शन की आवश्यकता होती है।

एंड-टू-एंड एएसआर का पहला प्रयास 2014 में टोरंटो विश्वविद्यालय के Google डीपमिंद और नवदीप जेटली के एलेक्स ग्रेव्स द्वारा पेश किए गए कनेक्शनिस्ट टेम्पोरल वर्गीकरण (सीटीसी) आधारित सिस्टम के साथ था। मॉडल में आवर्ती तंत्रिका नेटवर्क और सीटीसी परत शामिल थी। संयुक्त रूप से, आरएनएन-सीटीसी मॉडल एक साथ उच्चारण और ध्वनिक मॉडल सीखता है, हालांकि यह एचएमएम के समान सशर्त स्वतंत्रता धारणाओं के कारण भाषा सीखने में असमर्थ है। नतीजतन, सीटीसी मॉडल सीधे अंग्रेजी अक्षरों में भाषण ध्वनिकों को मैप करना सीख सकते हैं, लेकिन मॉडल कई सामान्य वर्तनी गलतियां करते हैं और प्रतिलेखों को साफ करने के लिए एक अलग भाषा मॉडल पर भरोसा करना चाहिए। बाद में, Baidu ने अत्यधिक बड़े डेटासेट के साथ काम पर विस्तार किया और चीनी मंदारिन और अंग्रेजी में कुछ व्यावसायिक सफलता का प्रदर्शन किया। 2016 में, ऑक्सफोर्ड विश्वविद्यालय ने लिपनेट प्रस्तुत किया, जो कि आरएनएन-सीटीसी आर्किटेक्चर के साथ स्पैतिओटेम्पोरल कंसोल्यूशन का उपयोग करते हुए पहला अंत-टू-एंड वाक्य-स्तर होंठ पढ़ने वाला मॉडल प्रस्तुत करता है, जो सीमित व्याकरण डेटासेट में मानव स्तर के प्रदर्शन को पार करता है।

सीटीसी आधारित मॉडल के लिए एक वैकल्पिक दृष्टिकोण ध्यान आधारित मॉडल हैं। ध्यान-आधारित एएसआर मॉडल चैन एट अल द्वारा एक साथ पेश किए गए थे। कार्नेगी मेलॉन विश्वविद्यालय और Google ब्रेन और बहादानाउ एट अल। 2016 में मॉन्ट्रियल विश्वविद्यालय के। “सुनो, अटैन्ड एंड स्पेल” (एलएएस) नामक मॉडल, शाब्दिक रूप से ध्वनिक सिग्नल को “सुनता है”, सिग्नल के विभिन्न हिस्सों में “ध्यान” देता है और प्रतिलेख एक चरित्र को “मंत्र” देता है समय पर। सीटीसी आधारित मॉडल के विपरीत, ध्यान-आधारित मॉडल में सशर्त-स्वतंत्रता धारणाएं नहीं होती हैं और सीधे उच्चारण, ध्वनिक और भाषा मॉडल समेत भाषण पहचानकर्ता के सभी घटकों को सीख सकती हैं। इसका मतलब है, तैनाती के दौरान, सीमित भाषा वाले अनुप्रयोगों पर तैनाती के लिए इसे बहुत व्यावहारिक बनाने के लिए एक भाषा मॉडल को ले जाने की कोई आवश्यकता नहीं है। 2016 के अंत तक, ध्यान-आधारित मॉडल ने सीटीसी मॉडल (बाहरी भाषा मॉडल के साथ या बिना) को बेहतर प्रदर्शन सहित काफी सफलता देखी है। मूल एलएएस मॉडल के बाद से विभिन्न एक्सटेंशन प्रस्तावित किए गए हैं। कार्नेगी मेलॉन विश्वविद्यालय, एमआईटी और Google मस्तिष्क द्वारा लेटेंट अनुक्रम विघटन (एलएसडी) का प्रस्ताव उप-शब्द इकाइयों को सीधे निकालने के लिए किया गया था जो अंग्रेजी वर्णों से अधिक प्राकृतिक हैं; ऑक्सफोर्ड विश्वविद्यालय और Google डीपमाइंड ने एलएएस को मानव स्तर के प्रदर्शन को पार करने के लिए होंठ पढ़ने को संभालने के लिए “वॉच, सुनो, अटैन्ड एंड स्पेल” (डब्लूएलएएस) को बढ़ाया।

अनुप्रयोगों

इन-कार सिस्टम
आम तौर पर एक मैन्युअल नियंत्रण इनपुट, उदाहरण के लिए स्टीयरिंग-व्हील पर एक उंगली नियंत्रण के माध्यम से, भाषण मान्यता प्रणाली को सक्षम बनाता है और यह एक ऑडियो प्रॉम्प्ट द्वारा ड्राइवर को संकेत दिया जाता है। ऑडियो प्रॉम्प्ट के बाद, सिस्टम में “सुनवाई विंडो” होती है जिसके दौरान यह मान्यता के लिए भाषण इनपुट स्वीकार कर सकती है।

सरल वॉइस कमांड का इस्तेमाल फोन कॉल शुरू करने, रेडियो स्टेशनों का चयन करने या एक सुसंगत स्मार्टफोन, एमपी 3 प्लेयर या संगीत-लोड फ्लैश ड्राइव से संगीत चलाने के लिए किया जा सकता है। कार बनाने और मॉडल के बीच ध्वनि पहचान क्षमताओं में भिन्नता है। सबसे हालिया [कब?] कार मॉडल कुछ निश्चित आदेशों के स्थान पर प्राकृतिक भाषा भाषण मान्यता प्रदान करते हैं, जिससे चालक को पूर्ण वाक्य और सामान्य वाक्यांशों का उपयोग करने की अनुमति मिलती है। इसलिए, ऐसे सिस्टमों के साथ, उपयोगकर्ता को निश्चित कमांड शब्दों के सेट को याद रखने की आवश्यकता नहीं है।

स्वास्थ्य देखभाल

चिकित्सा दस्तावेज
स्वास्थ्य देखभाल क्षेत्र में, भाषण मान्यता चिकित्सा दस्तावेज प्रक्रिया के फ्रंट एंड या बैक-एंड में लागू की जा सकती है। फ़्रंट-एंड भाषण मान्यता वह जगह है जहां प्रदाता एक भाषण-मान्यता इंजन में निर्देशित करता है, मान्यता प्राप्त शब्द प्रदर्शित होते हैं जैसे कि वे बोली जाती हैं, और तानाशाह दस्तावेज़ पर संपादन और हस्ताक्षर करने के लिए ज़िम्मेदार है। बैक एंड या स्थगित भाषण मान्यता वह जगह है जहां प्रदाता डिजिटल श्रुतलेख प्रणाली में निर्देशित करता है, आवाज को भाषण-पहचान मशीन के माध्यम से भेजा जाता है और मान्यता प्राप्त ड्राफ्ट दस्तावेज़ को मूल आवाज फ़ाइल के साथ संपादक को भेजा जाता है, जहां ड्राफ्ट संपादित किया जाता है और रिपोर्ट अंतिम रूप दिया गया। वर्तमान में उद्योग में विकृत भाषण मान्यता का व्यापक रूप से उपयोग किया जाता है।

स्वास्थ्य देखभाल में भाषण मान्यता के उपयोग से संबंधित प्रमुख मुद्दों में से एक यह है कि अमेरिकी रिकवरी और पुनर्निवेश अधिनियम 200 9 (एआरआरए) उन चिकित्सकों को पर्याप्त वित्तीय लाभ प्रदान करता है जो “अर्थपूर्ण उपयोग” मानकों के अनुसार ईएमआर का उपयोग करते हैं। इन मानकों की आवश्यकता है कि ईएमआर द्वारा पर्याप्त मात्रा में डेटा बनाए रखा जाए (अब आमतौर पर इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड या ईएचआर के रूप में जाना जाता है)। रेडियोलॉजी / पैथोलॉजी व्याख्या, प्रगति नोट या डिस्चार्ज सारांश के हिस्से के रूप में भाषण मान्यता का उपयोग कथा पाठ की पीढ़ी के लिए अधिक स्वाभाविक रूप से उपयुक्त है: संरचित असतत डेटा में प्रवेश करने के लिए भाषण मान्यता का उपयोग करने के एर्गोनोमिक लाभ (उदाहरण के लिए, संख्यात्मक मान या कोड किसी सूची या नियंत्रित शब्दावली से) उन लोगों के लिए अपेक्षाकृत कम हैं जो देखे जाते हैं और कीबोर्ड और माउस को कौन संचालित कर सकते हैं।

एक और महत्वपूर्ण मुद्दा यह है कि अधिकांश ईएचआर को आवाज-पहचान क्षमताओं का लाभ उठाने के लिए स्पष्ट रूप से तैयार नहीं किया गया है। ईएचआर के साथ चिकित्सक के संपर्क के एक बड़े हिस्से में मेनू, और टैब / बटन क्लिक का उपयोग करके उपयोगकर्ता इंटरफ़ेस के माध्यम से नेविगेशन शामिल है, और कीबोर्ड और माउस पर काफी निर्भर है: वॉयस-आधारित नेविगेशन केवल मामूली एर्गोनोमिक लाभ प्रदान करता है। इसके विपरीत, रेडियोलॉजी या पैथोलॉजी श्रुतलेख के लिए कई अत्यधिक अनुकूलित सिस्टम आवाज “मैक्रोज़” को लागू करते हैं, जहां कुछ वाक्यांशों का उपयोग – उदाहरण के लिए, “सामान्य रिपोर्ट” स्वचालित रूप से बड़ी संख्या में डिफ़ॉल्ट मानों को भरती है और / या बॉयलरप्लेट उत्पन्न करती है, जो परीक्षा के प्रकार के साथ भिन्न होता है – उदाहरण के लिए, एक छाती एक्स-रे बनाम रेडियोलॉजी सिस्टम के लिए गैस्ट्रोइंटेस्टाइनल कंट्रास्ट श्रृंखला।

हाथ से इस नेविगेशन के विकल्प के रूप में, भाषण मान्यता और सूचना निष्कर्षण के कैस्केड उपयोग का अध्ययन नैदानिक ​​प्रमाणन और साइन-ऑफ के लिए एक हैंडओवर फॉर्म भरने के तरीके के रूप में किया गया है। परिणाम उत्साहजनक हैं, और पेपर नैदानिक ​​दस्तावेज़ीकरण और भाषा प्रसंस्करण का अध्ययन करने के लिए अनुसंधान और विकास समुदाय को संबंधित प्रदर्शन बेंचमार्क और कुछ प्रसंस्करण सॉफ्टवेयर के साथ डेटा खोलता है।

उपचारात्मक उपयोग
वर्ड प्रोसेसर के संयोजन के साथ भाषण मान्यता सॉफ्टवेयर के लंबे समय तक उपयोग ने मस्तिष्क एवीएम रोगियों में शॉर्ट-टर्म-मेमोरी को सुदृढ करने के लिए लाभ दिखाए हैं जिनके साथ शोधन किया गया है। उन व्यक्तियों के लिए संज्ञानात्मक लाभ निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है जिनके एवीएम का रेडियोलॉजिकल तकनीकों का उपयोग किया गया है।

सैन्य

उच्च प्रदर्शन लड़ाकू विमान
लड़ाकू विमान में भाषण मान्यता के परीक्षण और मूल्यांकन के लिए पिछले दशक में पर्याप्त प्रयासों को समर्पित किया गया है। विशेष रूप से एडवांस्ड फाइटर टेक्नोलॉजी इंटीग्रेशन (एएफटीआई) / एफ -16 विमान (एफ -16 VISTA), फ्रांस में मिराज एयरक्राफ्ट के लिए कार्यक्रम, और यूके में अन्य कार्यक्रमों से निपटने के लिए भाषण मान्यता में अमेरिकी कार्यक्रम रहा है विमान प्लेटफॉर्म का। इन कार्यक्रमों में, भाषण पहचानकर्ताओं को लड़ाकू विमानों में सफलतापूर्वक संचालित किया गया है, जिनमें अनुप्रयोगों के साथ: रेडियो फ्रीक्वेंसी सेट करना, ऑटोपिलोट सिस्टम को कम करना, स्टीयर-पॉइंट निर्देशांक और हथियार रिलीज पैरामीटर सेट करना और उड़ान प्रदर्शन को नियंत्रित करना शामिल है।

जेएएस -39 ग्रिपेन कॉकपिट में उड़ान भरने वाले स्वीडिश पायलटों के साथ काम करते हुए, इंग्लैंड (2004) ने जी-लोड बढ़ने के साथ मान्यता को खराब कर दिया। रिपोर्ट में यह भी निष्कर्ष निकाला गया कि अनुकूलन ने सभी मामलों में परिणामों में काफी सुधार किया है और सांस लेने के लिए मॉडल की शुरूआत को पहचान स्कोर में उल्लेखनीय रूप से सुधारने के लिए दिखाया गया था। जो अपेक्षा की जा सकती है उसके विपरीत, वक्ताओं के टूटे हुए अंग्रेजी का कोई प्रभाव नहीं मिला। यह स्पष्ट था कि सहज भाषण ने पहचानकर्ता के लिए समस्याएं पैदा की, जैसा कि उम्मीद की जा सकती थी। एक प्रतिबंधित शब्दावली, और सबसे ऊपर, एक उचित वाक्यविन्यास, इस प्रकार पहचान सटीकता को काफी सुधारने की उम्मीद की जा सकती है।

वर्तमान में यूके आरएएफ के साथ सेवा में यूरोफाइटर टाइफून, स्पीकर-निर्भर प्रणाली को नियोजित करता है, जिसमें प्रत्येक पायलट को टेम्पलेट बनाने की आवश्यकता होती है। सिस्टम का उपयोग किसी भी सुरक्षा-महत्वपूर्ण या हथियार-महत्वपूर्ण कार्यों, जैसे कि हथियार रिहाई या अंडर कैरिज को कम करने के लिए नहीं किया जाता है, लेकिन अन्य कॉकपिट कार्यों की विस्तृत श्रृंखला के लिए उपयोग किया जाता है। ध्वनि आदेशों को दृश्य और / या आभासी प्रतिक्रिया द्वारा पुष्टि की जाती है। प्रणाली को पायलट वर्कलोड में कमी में एक प्रमुख डिजाइन फीचर के रूप में देखा जाता है, और यहां तक ​​कि पायलट को अपने विमान को दो सरल आवाज आदेशों या अपने पांच पंखों वाले किसी भी विंगमेन के साथ लक्ष्य सौंपने की अनुमति भी मिलती है।

स्पीकर-स्वतंत्र प्रणाली भी विकसित की जा रही हैं और एफ 35 लाइटनिंग II (जेएसएफ) और एलनिया एर्माची एम -346 मास्टर लीड-इन लड़ाकू ट्रेनर के लिए परीक्षण में हैं। इन प्रणालियों ने 98% से अधिक शब्द सटीकता स्कोर का उत्पादन किया है।

हेलीकाप्टर
तनाव और शोर के तहत उच्च मान्यता सटीकता प्राप्त करने की समस्याएं हेलीकॉप्टर पर्यावरण के साथ-साथ जेट लड़ाकू पर्यावरण से दृढ़ता से संबंधित हैं। ध्वनिक शोर समस्या वास्तव में हेलीकॉप्टर पर्यावरण में अधिक गंभीर है, न केवल उच्च शोर के स्तर के कारण बल्कि हेलीकॉप्टर पायलट, सामान्य रूप से, चेहरे का काम नहीं पहनता है, जो माइक्रोफोन में ध्वनिक शोर को कम करेगा। पिछले दशक में हेलीकॉप्टरों में भाषण मान्यता प्रणाली अनुप्रयोगों में विशेष रूप से अमेरिकी सेना एवियनिक्स रिसर्च एंड डेवलपमेंट एक्टिविटी (एवीआरएडीए) और ब्रिटेन में रॉयल एयरोस्पेस प्रतिष्ठान (आरएई) द्वारा सबस्टेंटियल टेस्ट और मूल्यांकन कार्यक्रम किए गए हैं। फ्रांस में कार्य ने प्यूमा हेलीकॉप्टर में भाषण मान्यता शामिल की है। कनाडा में भी बहुत उपयोगी काम रहा है। परिणाम उत्साहजनक रहे हैं, और आवाज अनुप्रयोगों में शामिल हैं: संचार रेडियो का नियंत्रण, नेविगेशन सिस्टम की स्थापना, और एक स्वचालित लक्ष्य हैंडओवर सिस्टम का नियंत्रण।

लड़ाकू अनुप्रयोगों में, हेलीकॉप्टरों में आवाज के लिए ओवरराइडिंग मुद्दा पायलट प्रभावशीलता पर असर पड़ता है। AVRADA परीक्षणों के लिए परिणामों को प्रोत्साहित करना रिपोर्ट किया जाता है, हालांकि ये परीक्षण वातावरण में केवल व्यवहार्यता प्रदर्शन का प्रतिनिधित्व करते हैं। संचालन सेटिंग्स में प्रदर्शन सुधार को लगातार प्राप्त करने के लिए भाषण मान्यता और समग्र भाषण प्रौद्योगिकी दोनों में बहुत कुछ किया जाना बाकी है।

प्रशिक्षण यातायात नियंत्रक प्रशिक्षण
वायु यातायात नियंत्रकों के लिए प्रशिक्षण (एटीसी) भाषण मान्यता प्रणाली के लिए एक उत्कृष्ट आवेदन का प्रतिनिधित्व करता है। कई एटीसी प्रशिक्षण प्रणालियों में वर्तमान में एक व्यक्ति को “छद्म-पायलट” के रूप में कार्य करने की आवश्यकता होती है, जो प्रशिक्षु नियंत्रक के साथ एक आवाज संवाद में संलग्न होती है, जो उस संवाद को अनुकरण करती है जिसे नियंत्रक को वास्तविक एटीसी स्थिति में पायलटों के साथ संचालन करना होगा। भाषण मान्यता और संश्लेषण तकनीक एक व्यक्ति को छद्म-पायलट के रूप में कार्य करने की आवश्यकता को खत्म करने की क्षमता प्रदान करती है, इस प्रकार प्रशिक्षण और समर्थन कर्मियों को कम करता है। सिद्धांत रूप में, एयर कंट्रोलर कार्यों को नियंत्रक के प्राथमिक आउटपुट के रूप में अत्यधिक संरचित भाषण द्वारा भी चिह्नित किया जाता है, इसलिए भाषण मान्यता कार्य की कठिनाई को कम करना संभव होना चाहिए। अभ्यास में, यह शायद ही कभी मामला है। एफएए दस्तावेज़ 7110.65 उन वाक्यांशों का विवरण देता है जिनका उपयोग हवाई यातायात नियंत्रकों द्वारा किया जाना चाहिए। हालांकि यह दस्तावेज़ ऐसे वाक्यांशों के 150 से कम उदाहरण देता है, सिमुलेशन विक्रेताओं में से एक द्वारा समर्थित वाक्यांशों की संख्या भाषण मान्यता प्रणाली 500,000 से अधिक है।

संयुक्त राज्य अमेरिका, यूएसएमसी, यूएस सेना, यूएस नौसेना, और एफएए के साथ-साथ इटली, ब्राजील और कनाडा में रॉयल ऑस्ट्रेलियाई वायु सेना और नागरिक उड्डयन प्राधिकरणों जैसे कई अंतर्राष्ट्रीय एटीसी प्रशिक्षण संगठन वर्तमान में एटीसी सिमुलेटर का प्रयोग भाषण मान्यता के साथ कर रहे हैं कई अलग-अलग विक्रेताओं।

टेलीफोनी और अन्य डोमेन
एएसआर अब आम है टेलीफ़ोनी के क्षेत्र में, और कंप्यूटर गेमिंग और सिमुलेशन के क्षेत्र में अधिक व्यापक हो रहा है। सामान्य व्यक्तिगत कंप्यूटिंग में वर्ड प्रोसेसिंग के साथ उच्च स्तर के एकीकरण के बावजूद। हालांकि, दस्तावेज़ उत्पादन के क्षेत्र में एएसआर ने उम्मीद में देखा नहीं है [किसके द्वारा?] उपयोग में वृद्धि हुई है।

मोबाइल प्रोसेसर की गति में सुधार ने स्मार्टफ़ोन में भाषण मान्यता व्यावहारिक बना दी है। पूर्वनिर्धारित या कस्टम भाषण आदेश बनाने के लिए भाषण का उपयोग ज्यादातर उपयोगकर्ता इंटरफ़ेस के हिस्से के रूप में किया जाता है। इस क्षेत्र में अग्रणी सॉफ्टवेयर विक्रेता हैं: Google, माइक्रोसॉफ्ट कॉर्पोरेशन (माइक्रोसॉफ्ट वॉयस कमांड), डिजिटल सिफॉन (सोनिक एक्सट्रैक्टर), लुमेनवोक्स, न्यून्स कम्युनिकेशंस (न्युअंस वॉयस कंट्रोल), वोसी टेक्नोलॉजीज, वॉयसबॉक्स टेक्नोलॉजी, स्पीच टेक्नोलॉजी सेंटर, विटो टेक्नोलॉजीज (वीआईटीओ वॉयस 2 जी ), स्पीरियो सॉफ्टवेयर (स्पीरियो वॉयस ट्रांसलेटर), वेरबेक्स वीआरएक्स और एसवीओएक्स।

शिक्षा और दैनिक जीवन में उपयोग
भाषा सीखने के लिए, दूसरी भाषा सीखने के लिए भाषण मान्यता उपयोगी हो सकती है। यह एक व्यक्ति को अपने बोलने के कौशल के साथ प्रवाह विकसित करने में मदद करने के अलावा उचित उच्चारण सिखा सकता है।

जो छात्र अंधे हैं (अंधकार और शिक्षा देखें) या बहुत कम दृष्टि है, वे शब्दों को व्यक्त करने के लिए तकनीक का उपयोग करने से लाभ उठा सकते हैं और फिर कंप्यूटर को सुन सकते हैं, साथ ही साथ कंप्यूटर को अपने आवाज के साथ कमांड करके देख सकते हैं स्क्रीन और कीबोर्ड।

जो छात्र शारीरिक रूप से अक्षम हैं या ऊपरी हिस्सों में दोहराए जाने वाले तनाव की चोट / अन्य चोटों से पीड़ित हैं, उन्हें भाषण-से-पाठ कार्यक्रमों का उपयोग करके हस्तलेखन, टाइपिंग, या स्कूल के असाइनमेंट पर लेखक के साथ काम करने के बारे में चिंता करने से राहत मिल सकती है। वे भाषण मान्यता प्रौद्योगिकी का उपयोग इंटरनेट पर खोज करने या घर पर कंप्यूटर का उपयोग करके माउस और कीबोर्ड को शारीरिक रूप से संचालित किए बिना आसानी से आनंद ले सकते हैं।

भाषण मान्यता सीखने की अक्षमता वाले छात्रों को बेहतर लेखकों बनने की अनुमति दे सकती है। शब्दों को जोर से कहकर, वे अपने लेखन की तरलता बढ़ा सकते हैं, और वर्तनी, विराम चिह्न, और लेखन के अन्य यांत्रिकी के बारे में चिंताओं को कम कर सकते हैं। इसके अलावा, सीखने की अक्षमता देखें।

एक डिजिटल ऑडियो रिकॉर्डर के साथ संयोजन में ध्वनि पहचान सॉफ्टवेयर का उपयोग और एक व्यक्तिगत कंप्यूटर चलने वाले वर्ड प्रोसेसिंग सॉफ़्टवेयर स्ट्रोक और क्रैनोटोमी व्यक्तियों में क्षतिग्रस्त शॉर्ट-टर्म-मेमोरी क्षमता को बहाल करने के लिए सकारात्मक साबित हुआ है।

अक्षमताओं वाले लोग
विकलांग लोगों को भाषण मान्यता कार्यक्रमों से फायदा हो सकता है। बधिर या सुनवाई के कठिन व्यक्तियों के लिए, भाषण मान्यता सॉफ़्टवेयर का उपयोग कॉन्फ़्रेंस रूम, कक्षा व्याख्यान, और / या धार्मिक सेवाओं में चर्चा जैसे बातचीत के बंद-कैप्शनिंग को स्वचालित रूप से उत्पन्न करने के लिए किया जाता है।

भाषण मान्यता उन लोगों के लिए भी बहुत उपयोगी है जिनके हाथों का उपयोग करने में कठिनाई होती है, जो हल्के दोहराव वाले तनाव की चोटों से लेकर पारंपरिक कंप्यूटर इनपुट उपकरणों का उपयोग करने से रोकती हैं। असल में, जो लोग कुंजीपटल का इस्तेमाल करते थे वे बहुत विकसित और विकसित आरएसआई भाषण मान्यता के लिए एक त्वरित प्रारंभिक बाजार बन गए। बहस टेलीफ़ोनी में स्पीच मान्यता का उपयोग किया जाता है, जैसे वॉयस मेल टेक्स्ट, रिले सेवाएं, और कैप्शन किए गए टेलीफोन। सीखने की अक्षमता वाले व्यक्ति जिनके पास विचार-से-पेपर संचार में समस्याएं होती हैं (अनिवार्य रूप से वे एक विचार के बारे में सोचते हैं लेकिन इसे गलत तरीके से कागज़ पर अलग-अलग समाप्त करने के कारण संसाधित किया जाता है) संभवतः सॉफ़्टवेयर से लाभ प्राप्त कर सकते हैं लेकिन तकनीक बग सबूत नहीं है। टेक्स्ट से बात करने का पूरा विचार बौद्धिक रूप से विकलांग व्यक्ति के लिए मुश्किल हो सकता है क्योंकि यह दुर्लभ है कि कोई व्यक्ति अक्षमता वाले व्यक्ति को सिखाने के लिए तकनीक सीखने की कोशिश करता है।

इस प्रकार की तकनीक डिस्लेक्सिया वाले लोगों की मदद कर सकती है लेकिन अन्य विकलांगता अभी भी प्रश्न में हैं। उत्पाद की प्रभावशीलता वह समस्या है जो इसे प्रभावी होने में बाधा डाल रही है। यद्यपि कोई बच्चा यह कहने में सक्षम हो सकता है कि वे कितनी स्पष्ट कहते हैं कि तकनीक सोच सकती है कि वे एक और शब्द कह रहे हैं और गलत इनपुट कर रहे हैं। उन्हें ठीक करने के लिए और अधिक काम देना, जिससे उन्हें गलत शब्द को ठीक करने में अधिक समय लगाना पड़ता है।

आगे के आवेदन
एयरोस्पेस (उदाहरण के लिए अंतरिक्ष अन्वेषण, अंतरिक्ष यान, आदि) नासा के मंगल ध्रुवीय लैंडर ने लैंडर पर मंगल माइक्रोफोन में सेंसररी, इंक से भाषण मान्यता प्रौद्योगिकी का उपयोग किया।
भाषण मान्यता के साथ स्वचालित उपशीर्षक
स्वचालित भावना पहचान
स्वचालित अनुवाद
कोर्ट रिपोर्टिंग (रीयल टाइम स्पीच राइटिंग)
ईडिसवरी (कानूनी खोज)
हाथ मुक्त कंप्यूटिंग: भाषण मान्यता कंप्यूटर उपयोगकर्ता इंटरफ़ेस
घर स्वचालन
इंटरएक्टिव वॉयस रिस्पांस
मोबाइल ईमेल सहित मोबाइल टेलीफोनी
बहुआयामी बातचीत
कंप्यूटर-सहायता प्राप्त भाषा सीखने के अनुप्रयोगों में उच्चारण मूल्यांकन
वास्तविक समय कैप्शनिंग
रोबोटिक
पाठ के लिए भाषण (पाठ में भाषण का प्रतिलेखन, वीडियो कैप्शनिंग, कोर्ट रिपोर्टिंग)
टेलीमैटिक्स (जैसे वाहन नेविगेशन सिस्टम)
ट्रांसक्रिप्शन (डिजिटल भाषण-टू-टेक्स्ट)
टॉम क्लैंसी के एंडवायर और लाइफलाइन के साथ काम करने वाले उदाहरणों के रूप में वीडियो गेम
आभासी सहायक (जैसे ऐप्पल की सिरी)

प्रदर्शन
भाषण मान्यता प्रणाली का प्रदर्शन आमतौर पर सटीकता और गति के संदर्भ में मूल्यांकन किया जाता है। शुद्धता आमतौर पर शब्द त्रुटि दर (WER) के साथ रेट की जाती है, जबकि गति वास्तविक समय कारक के साथ मापा जाता है। सटीकता के अन्य उपायों में सिंगल वर्ड त्रुटि दर (एसडब्ल्यूईआर) और कमांड सफलता दर (सीएसआर) शामिल हैं।

मशीन द्वारा भाषण मान्यता एक जटिल समस्या है, हालांकि। वोकलाइजेशन उच्चारण, उच्चारण, अभिव्यक्ति, खुरदरापन, नाकता, पिच, मात्रा, और गति के मामले में भिन्न होते हैं। भाषण पृष्ठभूमि शोर और इको, विद्युत विशेषताओं से विकृत है। भाषण मान्यता की शुद्धता निम्नलिखित के साथ भिन्न हो सकती है:

शब्दावली आकार और भ्रम
स्वतंत्रता बनाम अध्यक्ष निर्भरता
अलग, निरंतर या निरंतर भाषण
कार्य और भाषा की बाधाएं
बनाम सहज भाषण पढ़ें
प्रतिकूल परिस्थितियां