अभिकलनात्मक आकृति विज्ञान
मशीन द्वारा शब्दों की आंतरिक संरचना का प्रतिरूपण — विश्लेषण, उत्पादन, स्टेमिंग, लेमेटाइजेशन और उपशब्द विभाजन — परिमित-अवस्था आकृति विज्ञान से लेकर आधुनिक तंत्रिका प्रणालियों द्वारा उपयोग किए जाने वाले बाइट-जोड़ी एन्कोडिंग तक।
Definition
अभिकलनात्मक आकृति विज्ञान उनके घटक मॉर्फेम और रूपात्मक विशेषताओं के संदर्भ में शब्द रूपों का एल्गोरिथम विश्लेषण और उत्पादन है।
Scope
शब्द संरचना के अभिकलनात्मक उपचार को शामिल करता है: परिमित-अवस्था ट्रांसड्यूसर के साथ रूपात्मक विश्लेषण और उत्पादन, द्वि-स्तरीय आकृति विज्ञान, स्टेमिंग और लेमेटाइजेशन, और डेटा-संचालित उपशब्द विभाजन जैसे बाइट-जोड़ी एन्कोडिंग। यह टाइपोलॉजिकल रूप से विविध भाषाओं में विभक्ति, व्युत्पत्ति और यौगिकीकरण को संबोधित करता है। अंतर्निहित परिमित-अवस्था मशीनरी का विवरण नींव क्षेत्र में दिया गया है।
Core questions
- परिमित-अवस्था ट्रांसड्यूसर के साथ रूपात्मक परिवर्तनों को कैसे प्रतिरूपित किया जाता है?
- स्टेमिंग और लेमेटाइजेशन में क्या अंतर है?
- तंत्रिका मॉडलों में उपशब्द विभाजन दुर्लभ और अनदेखे शब्दों को कैसे संभालता है?
- संश्लेषणात्मक और टेम्पलेटिक भाषाओं के लिए आकृति विज्ञान कठिन क्यों है?
Key concepts
- मॉर्फेम
- विभक्ति और व्युत्पत्ति
- द्वि-स्तरीय आकृति विज्ञान
- परिमित-अवस्था ट्रांसड्यूसर
- स्टेमिंग
- लेमेटाइजेशन
- बाइट-जोड़ी एन्कोडिंग
- संश्लेषण
Key theories
- द्वि-स्तरीय आकृति विज्ञान
- कोस्केन्निएमी का मॉडल जो समानांतर परिमित-अवस्था नियमों के माध्यम से सतही और शाब्दिक शब्द रूपों को संबंधित करता है, जिससे एक ही व्याकरण रूपों का विश्लेषण और उत्पादन दोनों करने में सक्षम होता है।
- डेटा-संचालित उपशब्द विभाजन
- बार-बार आने वाले वर्ण अनुक्रमों की शब्दावली सीखना, जैसे बाइट-जोड़ी एन्कोडिंग में, ताकि तंत्रिका मॉडल किसी भी शब्द को उपशब्द इकाइयों के अनुक्रम के रूप में प्रस्तुत कर सकें।
History
कोस्केन्निएमी के 1983 के द्वि-स्तरीय आकृति विज्ञान ने रूपात्मक प्रसंस्करण के लिए परिमित-अवस्था विधियों को मानक के रूप में स्थापित किया, जिसे बीस्ली और कार्ट्टुनेन की हैंडबुक में समेकित किया गया। जैसे-जैसे तंत्रिका मॉडल बढ़े, हाथ से निर्मित रूपात्मक विश्लेषकों को सीखे हुए उपशब्द विभाजन जैसे बाइट-जोड़ी एन्कोडिंग द्वारा पूरक किया गया, जो दुर्लभ शब्दों को संभालते हुए स्पष्ट आकृति विज्ञान को दरकिनार करता है।
Debates
- स्पष्ट आकृति विज्ञान बनाम उपशब्द इकाइयाँ
- क्या तंत्रिका प्रणालियों को भाषाई रूप से सूचित रूपात्मक विश्लेषण की आवश्यकता है या क्या सांख्यिकीय उपशब्द विभाजन पर्याप्त है; उत्तर भाषा के प्रकार और डेटा के पैमाने पर निर्भर करता प्रतीत होता है।
Key figures
- Kimmo Koskenniemi
- Lauri Karttunen
- Kenneth Beesley
- Rico Sennrich
Related topics
Seminal works
- koskenniemi1983
- beesley2003
- sennrich2016
Frequently asked questions
- स्टेमिंग और लेमेटाइजेशन में क्या अंतर है?
- स्टेमिंग सामान्यतः प्रत्ययों को एक सामान्य स्टेम में काटता है (उदाहरण के लिए, 'studies' को 'studi' में), जबकि लेमेटाइजेशन रूपात्मक ज्ञान का उपयोग करके एक शब्द को उसके शब्दकोश रूप में मैप करता है (उदाहरण के लिए, 'studies' को 'study' में)।