التعرف التلقائي على الكلام
تحويل اللغة المنطوقة إلى نص من خلال الجمع بين النماذج الصوتية لإشارة الكلام ونماذج اللغة لتسلسلات الكلمات، بدءًا من أنظمة نموذج ماركوف المخفية وصولًا إلى أنظمة التعرف العصبي الشاملة.
Definition
التعرف التلقائي على الكلام هو المهمة الحسابية لتحويل إشارة الكلام الصوتية إلى تسلسل من الكلمات.
Scope
يغطي تحويل الصوت إلى نص: استخلاص الميزات الصوتية، النمذجة الصوتية ونمذجة النطق، دور نموذج اللغة، فك التشفير، والتحول من أنظمة نموذج ماركوف المخفية إلى التعرف العصبي الشامل. يتناول التقييم بواسطة معدل خطأ الكلمات وأهمية المجموعات النصية المشتركة. يتم تغطية تركيب الكلام والفهم اللاحق في مواضيع ذات صلة.
Core questions
- كيف يتم ربط الإشارة الصوتية بالكلمات المرشحة؟
- كيف تتحد النماذج الصوتية واللغوية في عملية التعرف؟
- لماذا حلت النماذج العصبية والشاملة محل الأنظمة القائمة على نموذج ماركوف المخفي؟
- كيف يتم قياس دقة التعرف بواسطة معدل خطأ الكلمات؟
Key concepts
- النموذج الصوتي
- نموذج اللغة
- استخلاص الميزات
- نموذج ماركوف المخفي
- فك التشفير
- التعرف الشامل
- معدل خطأ الكلمات
- نموذج النطق
Key theories
- الجمع بين النموذج الصوتي ونموذج اللغة
- يختار التعرف تسلسل الكلمات الذي يزيد من حاصل ضرب احتمالية النموذج الصوتي وأولوية نموذج اللغة، وهي صياغة القناة الصاخبة للتعرف على الكلام.
- نمذجة التسلسل العصبي للكلام
- تقوم الشبكات المتكررة والقائمة على الانتباه بنمذجة البنية الزمنية للكلام مباشرة، مما يتيح التعرف الشامل الذي يتعلم الأنماط الصوتية واللغوية بشكل مشترك.
History
كان التعرف على الكلام محركًا رئيسيًا للطرق الإحصائية، حيث أتاحت أنظمة IBM القائمة على نموذج ماركوف المخفي (HMM) والمجموعات النصية المشتركة مثل مجموعة وول ستريت جورنال (1992) تقدمًا ثابتًا وقابلًا للقياس. أدت النماذج الصوتية العصبية العميقة حوالي عام 2010 والبنى الشاملة اللاحقة إلى تقليل معدلات الخطأ بشكل حاد وجلبت التعرف إلى الأجهزة اليومية.
Debates
- التعرف المعياري مقابل التعرف الشامل
- ما إذا كان يجب الاحتفاظ بنماذج صوتية ونطق ولغة منفصلة أو تدريب شبكة شاملة واحدة؛ تتفوق الأنظمة الشاملة الآن مع توفر بيانات كافية ولكن قد يكون تكييفها أكثر صعوبة.
Key figures
- Frederick Jelinek
- Janet Baker
- Daniel Jurafsky
- James H. Martin
Related topics
Seminal works
- paul1992
- jurafsky2025
Frequently asked questions
- ما هو معدل خطأ الكلمات؟
- يقيس معدل خطأ الكلمات جودة التعرف كنسبة الكلمات التي تم استبدالها أو حذفها أو إدراجها مقارنة بالنص المرجعي، وبالتالي تشير القيم الأقل إلى نسخ أكثر دقة.