ScholarGate
सहायक

स्वचालित वाक् पहचान

वाक् संकेत के ध्वनिक मॉडल को शब्द अनुक्रमों के भाषा मॉडल के साथ जोड़कर बोली जाने वाली भाषा को पाठ में बदलना, छिपे हुए मार्कोव मॉडल प्रणालियों से लेकर एंड-टू-एंड न्यूरल रिकॉग्नाइज़र तक।

PaperMind से विषय खोजेंजल्द हीFind papers & topics
Tools & resources
स्लाइड डाउनलोड करें
Learn & explore
वीडियोजल्द ही

Definition

स्वचालित वाक् पहचान एक ध्वनिक वाक् संकेत को शब्दों के अनुक्रम में बदलने का एक कम्प्यूटेशनल कार्य है।

Scope

यह ऑडियो को टेक्स्ट में बदलने को कवर करता है: ध्वनिक विशेषता निष्कर्षण (acoustic feature extraction), ध्वनिक और उच्चारण मॉडलिंग (acoustic and pronunciation modeling), भाषा मॉडल की भूमिका, डिकोडिंग (decoding), और छिपे हुए मार्कोव मॉडल प्रणालियों से एंड-टू-एंड न्यूरल पहचान में बदलाव। यह शब्द त्रुटि दर (word error rate) द्वारा मूल्यांकन और साझा कॉर्पोरा (shared corpora) के महत्व को संबोधित करता है। वाक् संश्लेषण (speech synthesis) और डाउनस्ट्रीम समझ (downstream understanding) को संबंधित विषयों में शामिल किया गया है।

Core questions

  • ध्वनिक संकेत उम्मीदवार शब्दों से कैसे मैप होता है?
  • पहचान में ध्वनिक और भाषा मॉडल कैसे संयोजित होते हैं?
  • न्यूरल और एंड-टू-एंड मॉडल ने एचएमएम-आधारित प्रणालियों को क्यों विस्थापित किया?
  • शब्द त्रुटि दर द्वारा पहचान सटीकता को कैसे मापा जाता है?

Key concepts

  • ध्वनिक मॉडल
  • भाषा मॉडल
  • विशेषता निष्कर्षण
  • छिपा हुआ मार्कोव मॉडल
  • डिकोडिंग
  • एंड-टू-एंड पहचान
  • शब्द त्रुटि दर
  • उच्चारण मॉडल

Key theories

ध्वनिक और भाषा मॉडल संयोजन
पहचान एक ध्वनिक मॉडल की संभावना और एक भाषा मॉडल के पूर्व के उत्पाद को अधिकतम करने वाले शब्द अनुक्रम का चयन करती है, जो वाक् पहचान का शोर-चैनल सूत्रीकरण (noisy-channel formulation) है।
वाक् के लिए न्यूरल अनुक्रम मॉडलिंग
आवर्ती और ध्यान-आधारित नेटवर्क सीधे वाक् की अस्थायी संरचना को मॉडल करते हैं, जिससे एंड-टू-एंड पहचान सक्षम होती है जो ध्वनिक और भाषाई पैटर्न को संयुक्त रूप से सीखती है।

History

वाक् पहचान सांख्यिकीय विधियों का एक प्रमुख चालक था, जिसमें आईबीएम की एचएमएम-आधारित प्रणालियाँ और वॉल स्ट्रीट जर्नल संग्रह (1992) जैसे साझा कॉर्पोरा ने स्थिर, मापने योग्य प्रगति को सक्षम किया। 2010 के आसपास गहरे न्यूरल ध्वनिक मॉडल और बाद की एंड-टू-एंड आर्किटेक्चर ने त्रुटि दरों को तेजी से कम किया और पहचान को रोजमर्रा के उपकरणों में लाया।

Debates

मॉड्यूलर बनाम एंड-टू-एंड पहचान
क्या अलग-अलग ध्वनिक, उच्चारण और भाषा मॉडल रखने चाहिए या एक एकल एंड-टू-एंड नेटवर्क को प्रशिक्षित करना चाहिए; एंड-टू-एंड सिस्टम अब पर्याप्त डेटा के साथ आगे बढ़ते हैं लेकिन अनुकूलित करना कठिन हो सकता है।

Key figures

  • Frederick Jelinek
  • Janet Baker
  • Daniel Jurafsky
  • James H. Martin

Related topics

Seminal works

  • paul1992
  • jurafsky2025

Frequently asked questions

शब्द त्रुटि दर क्या है?
शब्द त्रुटि दर एक संदर्भ प्रतिलेख (reference transcript) के सापेक्ष प्रतिस्थापित, हटाए गए या डाले गए शब्दों के अनुपात के रूप में पहचान की गुणवत्ता को मापती है, इसलिए कम मान अधिक सटीक प्रतिलेखन (transcription) का संकेत देते हैं।

Methods for this concept

Related concepts