प्राकृतिक भाषा संसाधन
प्राकृतिक भाषा संसाधन कृत्रिम बुद्धिमत्ता का वह क्षेत्र है जो कंप्यूटरों को पाठ या भाषण में मानव भाषा का विश्लेषण करने, समझने और उत्पन्न करने में सक्षम बनाने से संबंधित है।
Definition
प्राकृतिक भाषा संसाधन उन विधियों का अध्ययन और इंजीनियरिंग है जो कंप्यूटरों को मानव भाषा और उसके रूप तथा अर्थ के संरचित प्रतिनिधित्व के बीच मानचित्रण करने की अनुमति देती हैं, जो पार्सिंग और अनुवाद से लेकर निष्कर्षण और उत्पादन तक के कार्यों का समर्थन करती हैं।
Scope
यह क्षेत्र मानव भाषा के संरचना के विभिन्न स्तरों पर संगणकीय उपचार को शामिल करता है: आकृति विज्ञान और वाक्यविन्यास (पार्सिंग), अर्थ विज्ञान और अर्थ प्रतिनिधित्व, प्रवचन, और मशीन अनुवाद तथा सूचना निष्कर्षण जैसे अनुप्रयोग। यह भाषा के औपचारिक मॉडल (व्याकरण, तार्किक और वितरण संबंधी अर्थ प्रतिनिधित्व) और भाषा का विश्लेषण तथा उत्पादन करने के कार्यों का उपचार करता है। आधुनिक भाषा मॉडल को प्रशिक्षित करने वाली सामान्य सांख्यिकीय और तंत्रिका शिक्षण विधियाँ मशीन-लर्निंग उपक्षेत्र का हिस्सा हैं; यह क्षेत्र भाषाई संरचना, कार्यों और भाषा के लिए विशिष्ट प्रतिनिधित्व पर जोर देता है।
Sub-topics
Core questions
- शब्दों के अनुक्रम से वाक्य की व्याकरणिक संरचना को कैसे पुनर्प्राप्त किया जाता है?
- शब्दों, वाक्यों और प्रवचन के अर्थ को संगणकीय रूप से कैसे दर्शाया जा सकता है?
- भाषा के हर स्तर पर व्याप्त अस्पष्टता को संदर्भ का उपयोग करके कैसे हल किया जाता है?
- भाषा-समझने की क्षमताओं को अनुवाद और निष्कर्षण जैसे अनुप्रयोगों में कैसे बदला जाता है?
Key concepts
- आकृति विज्ञान और टोकनाइजेशन
- वाक्यविन्यास और पार्सिंग
- अर्थ विज्ञान और अर्थ प्रतिनिधित्व
- अस्पष्टता और अस्पष्टता निवारण
- प्रवचन और व्यावहारिकता
- भाषा मॉडल
- मशीन अनुवाद
- सूचना निष्कर्षण
Key theories
- भाषाई विश्लेषण के स्तर
- भाषा का विश्लेषण विशिष्ट लेकिन परस्पर क्रिया करने वाले स्तरों—ध्वनि विज्ञान, आकृति विज्ञान, वाक्यविन्यास, अर्थ विज्ञान, व्यावहारिकता और प्रवचन—पर किया जाता है, और NLP प्रणालियाँ इन स्तरों पर संरचना और अर्थ को पुनर्प्राप्त करने के इर्द-गिर्द व्यवस्थित होती हैं।
- व्याकरण और पार्सिंग
- औपचारिक व्याकरण, विशेष रूप से संदर्भ-मुक्त और समृद्ध औपचारिकताएँ, भाषा की वाक्यात्मक संरचना का मॉडल बनाती हैं, और पार्सिंग एल्गोरिदम उस संरचना को पुनर्प्राप्त करते हैं, जो अर्थ विश्लेषण के लिए एक रीढ़ प्रदान करते हैं।
- सांख्यिकीय और वितरण संबंधी भाषा मॉडलिंग
- भाषा को संभाव्य रूप से मानना—शब्द अनुक्रमों की संभावना का मॉडलिंग करना और वितरण संबंधी संदर्भ द्वारा शब्द अर्थ का प्रतिनिधित्व करना—ने NLP को अस्पष्टता और भिन्नता के प्रति मजबूती प्रदान की और प्रमुख प्रतिमान बन गया।
Clinical relevance
प्राकृतिक भाषा संसाधन खोज इंजनों, मशीन अनुवाद, प्रश्नोत्तर और चैट प्रणालियों, वाक् पहचान और संवाद, भावना विश्लेषण, और बायोमेडिसिन तथा कानून जैसे डोमेन में पाठ से संरचित जानकारी के निष्कर्षण को शक्ति प्रदान करता है, जिससे यह AI के सबसे अधिक दिखाई देने वाले क्षेत्रों में से एक बन जाता है।
History
NLP की शुरुआत 1950 के दशक के मशीन अनुवाद और 1960-70 के दशक की प्रतीकात्मक प्रणालियों से हुई, जैसे विनोग्राद का SHRDLU। 1980 के दशक के अंत से सांख्यिकीय विधियों का महत्व बढ़ा, जो मैनिंग और शुट्ज़ (1999) जैसे ग्रंथों में समेकित हुआ, और बाद में तंत्रिका और बड़े पैमाने पर भाषा-मॉडल विधियों ने इस क्षेत्र को बदल दिया; इसके कार्य और भाषाई नींव AI का एक मानक हिस्सा बने हुए हैं।
Debates
- प्रतीकात्मक बनाम सांख्यिकीय और तंत्रिका दृष्टिकोण
- NLP लंबे समय से हस्तनिर्मित प्रतीकात्मक व्याकरण और नियमों तथा डेटा-संचालित सांख्यिकीय या तंत्रिका मॉडल के बीच दोलन करता रहा है; सांख्यिकीय मोड़ और बाद में तंत्रिका विधियाँ मजबूती के लिए हावी हो गईं, हालांकि व्याख्यात्मकता और भाषाई संरचना को शामिल करने के प्रश्न बने हुए हैं।
Key figures
- Daniel Jurafsky
- James H. Martin
- Christopher D. Manning
- Terry Winograd
- Karen Spärck Jones
Related topics
Seminal works
- winograd1972
- manning1999
- jurafsky2023
Frequently asked questions
- प्राकृतिक भाषा संसाधन और संगणकीय भाषा विज्ञान में क्या अंतर है?
- ये शब्द बहुत अधिक अतिव्यापी हैं। संगणकीय भाषा विज्ञान एक वैज्ञानिक घटना के रूप में मानव भाषा को समझने और मॉडल करने के लिए संगणना का उपयोग करने पर जोर देता है, जबकि प्राकृतिक भाषा संसाधन उपयोगी भाषा कार्यों को करने वाली इंजीनियरिंग प्रणालियों पर जोर देता है। व्यवहार में, वही मॉडल और विधियाँ दोनों लक्ष्यों की पूर्ति करती हैं।
- अस्पष्टता NLP में इतनी केंद्रीय समस्या क्यों है?
- मानव भाषा हर स्तर पर अस्पष्ट होती है: शब्दों के कई अर्थ होते हैं, वाक्यों के कई पार्स होते हैं, और संदर्भ अस्पष्ट हो सकते हैं। NLP का अधिकांश भाग संदर्भ और संभाव्य या सीखे हुए मॉडल का उपयोग करके उस व्याख्या को चुनने के बारे में है जो एक मानव करेगा, यही इस क्षेत्र को कठिन बनाता है।