भाषा मॉडलिंग
शब्दों के अनुक्रमों को संभावनाएँ निर्दिष्ट करना, वह मूलभूत कार्य जो प्रणालियों को पाठ की भविष्यवाणी करने, स्कोर करने और उत्पन्न करने में सक्षम बनाता है — शास्त्रीय n-ग्राम काउंटरों से लेकर तंत्रिका भाषा मॉडल तक।
Definition
एक भाषा मॉडल शब्दों या टोकन के अनुक्रमों पर एक संभाव्यता वितरण है, जिसे आमतौर पर उसके पूर्ववर्ती संदर्भ से प्रत्येक टोकन की भविष्यवाणी करके परिभाषित किया जाता है।
Scope
भाषा-मॉडलिंग कार्य को ही शामिल करता है: उसके संदर्भ को देखते हुए एक शब्द की संभावना का अनुमान लगाना, n-ग्राम मॉडल और उनकी स्मूथिंग तकनीकें, परप्लेक्सिटी द्वारा मूल्यांकन, और तंत्रिका तथा वितरित निरूपणों में संक्रमण। यह बड़े भाषा मॉडलों को उसी कार्य के आधुनिक अवतार के रूप में प्रस्तुत करता है। विस्तृत तंत्रिका वास्तुकला को सांख्यिकीय-और-तंत्रिका एनएलपी (NLP) क्षेत्र में वर्णित किया गया है।
Core questions
- एक वाक्य की संभावना को सशर्त शब्द संभावनाओं में कैसे विघटित किया जा सकता है?
- स्मूथिंग प्रशिक्षण में कभी न देखे गए शब्द अनुक्रमों को कैसे संभालती है?
- भाषा मॉडलों का मूल्यांकन और तुलना करने के लिए परप्लेक्सिटी का उपयोग कैसे किया जाता है?
- तंत्रिका भाषा मॉडलों ने n-ग्राम मॉडलों के सापेक्ष क्या बदला?
Key concepts
- n-ग्राम
- मार्कोव धारणा
- स्मूथिंग
- परप्लेक्सिटी
- बैकऑफ और इंटरपोलेशन
- वितरित शब्द निरूपण
- क्रॉस-एंट्रॉपी
- अगले-टोकन की भविष्यवाणी
Key theories
- N-ग्राम मार्कोव मॉडलिंग
- केवल पिछले n−1 शब्दों पर कंडीशनिंग करके एक शब्द की संभावना का अनुमान लगाना, भाषा मॉडलिंग को एक सुलभ गणना-और-स्मूथिंग समस्या में बदलना।
- तंत्रिका संभाव्य भाषा मॉडल
- विरल n-ग्राम गणनाओं को एक तंत्रिका नेटवर्क से बदलना जो वितरित शब्द निरूपण सीखता है, आयामों के अभिशाप को कम करता है और अनदेखे संदर्भों के लिए सामान्यीकरण को सक्षम बनाता है।
History
शैनन के सूचना सिद्धांत ने भाषा को एक अनुमानित स्टोकेस्टिक स्रोत के रूप में प्रस्तुत किया, और आईबीएम (IBM) में वाक्-पहचान समुदाय ने 1980 के दशक में n-ग्राम मॉडलिंग को केंद्रीय बना दिया। बेंगियो और उनके सहयोगियों ने 2003 में तंत्रिका संभाव्य भाषा मॉडल पेश किए, जिससे वितरित-निरूपण दृष्टिकोण का बीजारोपण हुआ, जिसने, बड़े पैमाने पर, आज के बड़े भाषा मॉडल का उत्पादन किया।
Debates
- गणना बनाम सीखे गए निरूपण
- क्या भाषा को असतत अनुक्रमों पर सुचारू गणनाओं द्वारा या निरंतर निरूपण सीखने वाले तंत्रिका नेटवर्क द्वारा सबसे अच्छी तरह से मॉडल किया जाता है; तंत्रिका विधियाँ अब हावी हैं लेकिन समान संभाव्य उद्देश्य को विरासत में मिली हैं।
Key figures
- Claude Shannon
- Frederick Jelinek
- Yoshua Bengio
- Daniel Jurafsky
Related topics
Seminal works
- shannon1948
- bengio2003
- jurafsky2025
Frequently asked questions
- परप्लेक्सिटी क्या है?
- परप्लेक्सिटी यह मापती है कि एक भाषा मॉडल अप्रयुक्त पाठ से कितना आश्चर्यचकित होता है; कम परप्लेक्सिटी का मतलब है कि मॉडल देखे गए शब्दों को उच्च संभावना प्रदान करता है, जो बेहतर फिट का संकेत देता है।
- भाषा मॉडलिंग को स्मूथिंग की आवश्यकता क्यों है?
- कोई भी सीमित कॉर्पस कई वैध शब्द अनुक्रमों को छोड़ देता है, इसलिए एक भोला मॉडल उन्हें शून्य संभावना देगा। स्मूथिंग अनदेखी घटनाओं को थोड़ी संभाव्यता द्रव्यमान पुनर्वितरित करती है ताकि मॉडल नए पाठ को संभाल सके।