मशीनी अनुवाद
मशीनी अनुवाद एक प्राकृतिक भाषा से दूसरी प्राकृतिक भाषा में पाठ या भाषण का स्वचालित रूपांतरण है, जो प्राकृतिक भाषा प्रसंस्करण के सबसे पुराने और सबसे प्रमुख अनुप्रयोगों में से एक है।
Definition
मशीनी अनुवाद स्रोत भाषा में एक वाक्य के लिए लक्ष्य भाषा में एक समतुल्य वाक्य का उत्पादन करने का कार्य है, जिसमें ऐसी प्रणालियों का उपयोग किया जाता है जो नियम-आधारित, सांख्यिकीय या तंत्रिका हो सकती हैं, और पर्याप्तता और प्रवाह के लिए मूल्यांकन की जाती हैं।
Scope
यह विषय स्वचालित अनुवाद के दृष्टिकोणों को शामिल करता है: नियम-आधारित और इंटरलिंगुआ प्रणालियाँ, संरेखण मॉडल और भाषा मॉडल के साथ शब्द- और वाक्यांश-आधारित सांख्यिकीय मशीनी अनुवाद, और तंत्रिका अनुक्रम-से-अनुक्रम प्रतिमान; साथ ही शब्द संरेखण, प्रवाह बनाम पर्याप्तता, और BLEU जैसे मेट्रिक्स के साथ स्वचालित मूल्यांकन की केंद्रीय समस्याएँ। यह बताता है कि अनुवाद कठिन क्यों है (अस्पष्टता, भाषाओं के बीच भिन्नता, शब्द क्रम) और गुणवत्ता को कैसे मापा जाता है। सामान्य तंत्रिका-नेटवर्क प्रशिक्षण विधियाँ मशीन-लर्निंग उपक्षेत्र से संबंधित हैं।
Core questions
- शब्दार्थ अस्पष्टता और भाषाओं के बीच संरचनात्मक भिन्नता को देखते हुए, अनुवाद को क्या कठिन बनाता है?
- समानांतर पाठ से शब्द और वाक्यांश पत्राचार (संरेखण) कैसे सीखे जाते हैं?
- सांख्यिकीय और तंत्रिका अनुवाद मॉडल पर्याप्तता और प्रवाह के बीच कैसे संतुलन बनाते हैं?
- अनुवाद की गुणवत्ता को स्वचालित रूप से और विश्वसनीय रूप से कैसे मापा जाता है?
Key concepts
- स्रोत और लक्ष्य भाषा
- समानांतर कॉर्पोरा
- शब्द और वाक्यांश संरेखण
- अनुवाद मॉडल और भाषा मॉडल
- सांख्यिकीय मशीनी अनुवाद
- तंत्रिका अनुक्रम-से-अनुक्रम अनुवाद
- पर्याप्तता और प्रवाह
- BLEU और स्वचालित मूल्यांकन
Key theories
- सांख्यिकीय मशीनी अनुवाद
- सांख्यिकीय MT अनुवाद को लक्ष्य वाक्य खोजने के रूप में मॉडल करता है जो स्रोत को देखते हुए संभावना को अधिकतम करता है, समानांतर कॉर्पोरा में शब्द/वाक्यांश संरेखण से सीखे गए अनुवाद मॉडल और प्रवाह के लिए लक्ष्य-भाषा मॉडल के माध्यम से विघटित होता है।
- शब्द संरेखण
- समानांतर पाठ से कौन से स्रोत शब्द कौन से लक्ष्य शब्दों के अनुरूप हैं, यह सीखना (IBM संरेखण मॉडल) एक मूलभूत घटक है जो दो भाषाओं को जोड़ता है और वाक्यांश निष्कर्षण का समर्थन करता है।
- स्वचालित मूल्यांकन
- BLEU जैसे मेट्रिक्स n-ग्राम ओवरलैप द्वारा मानव संदर्भ अनुवादों के खिलाफ सिस्टम आउटपुट की तुलना करते हैं, जिससे तीव्र, दोहराने योग्य मूल्यांकन संभव होता है जिसने प्रगति को बढ़ावा दिया, जबकि मानव निर्णय के सापेक्ष ज्ञात सीमाओं को स्वीकार किया।
Clinical relevance
मशीनी अनुवाद सबसे व्यापक रूप से उपयोग की जाने वाली AI प्रौद्योगिकियों में से एक है, जो खोज, संचार और सामग्री प्लेटफार्मों में एकीकृत है, सूचना तक क्रॉस-लिंगुअल पहुंच को सक्षम करती है और अनुवादकों के लिए उपकरणों को शक्ति प्रदान करती है; इसकी मूल्यांकन पद्धति ने NLP में मूल्यांकन को भी प्रभावित किया।
History
मशीनी अनुवाद वीवर के 1949 के ज्ञापन और शुरुआती नियम-आधारित प्रणालियों के साथ शुरू हुआ, 1966 की ALPAC रिपोर्ट के बाद की शंकाओं को झेला, फिर IBM के सांख्यिकीय मॉडल (ब्राउन एट अल., 1993) और वाक्यांश-आधारित SMT द्वारा, और फिर 2010 के दशक के मध्य से तंत्रिका अनुक्रम-से-अनुक्रम और ध्यान-आधारित मॉडल द्वारा बदल दिया गया। BLEU (2002) ने पूरे मूल्यांकन को मानकीकृत किया।
Key figures
- Peter F. Brown
- Robert L. Mercer
- Philipp Koehn
- Kishore Papineni
- Warren Weaver
Related topics
Seminal works
- brown1993
- papineni2002
- koehn2010
Frequently asked questions
- BLEU स्कोर क्या मापता है?
- BLEU मापता है कि एक मशीन अनुवाद एक या अधिक मानव संदर्भ अनुवादों के साथ मिलान करने वाले शब्द अनुक्रमों (n-ग्राम) के संदर्भ में कितना ओवरलैप करता है, बहुत छोटा होने पर दंड के साथ। यह मानव निर्णयों के साथ यथोचित रूप से सहसंबद्ध है और तेजी से स्वचालित तुलना की अनुमति देता है, हालांकि यह अर्थ या प्रवाह को पूरी तरह से कैप्चर नहीं करता है।
- मशीनी अनुवाद को कठिन क्यों माना जाता है?
- भाषाएँ शब्दावली, शब्द क्रम, आकृति विज्ञान और उनके लिए आवश्यक भेदों में भिन्न होती हैं, और व्यक्तिगत शब्द और वाक्य अक्सर अस्पष्ट होते हैं। एक ऐसा अनुवाद तैयार करना जो स्रोत अर्थ के प्रति वफादार हो और लक्ष्य भाषा में स्वाभाविक हो, इन मुद्दों को एक साथ हल करने की आवश्यकता होती है, जो कठिन है।