ScholarGate
सहायक

अभिकलनात्मक आकृति विज्ञान

मशीन द्वारा शब्दों की आंतरिक संरचना का प्रतिरूपण — विश्लेषण, उत्पादन, स्टेमिंग, लेमेटाइजेशन और उपशब्द विभाजन — परिमित-अवस्था आकृति विज्ञान से लेकर आधुनिक तंत्रिका प्रणालियों द्वारा उपयोग किए जाने वाले बाइट-जोड़ी एन्कोडिंग तक।

PaperMind से विषय खोजेंजल्द हीFind papers & topics
Tools & resources
स्लाइड डाउनलोड करें
Learn & explore
वीडियोजल्द ही

Definition

अभिकलनात्मक आकृति विज्ञान उनके घटक मॉर्फेम और रूपात्मक विशेषताओं के संदर्भ में शब्द रूपों का एल्गोरिथम विश्लेषण और उत्पादन है।

Scope

शब्द संरचना के अभिकलनात्मक उपचार को शामिल करता है: परिमित-अवस्था ट्रांसड्यूसर के साथ रूपात्मक विश्लेषण और उत्पादन, द्वि-स्तरीय आकृति विज्ञान, स्टेमिंग और लेमेटाइजेशन, और डेटा-संचालित उपशब्द विभाजन जैसे बाइट-जोड़ी एन्कोडिंग। यह टाइपोलॉजिकल रूप से विविध भाषाओं में विभक्ति, व्युत्पत्ति और यौगिकीकरण को संबोधित करता है। अंतर्निहित परिमित-अवस्था मशीनरी का विवरण नींव क्षेत्र में दिया गया है।

Core questions

  • परिमित-अवस्था ट्रांसड्यूसर के साथ रूपात्मक परिवर्तनों को कैसे प्रतिरूपित किया जाता है?
  • स्टेमिंग और लेमेटाइजेशन में क्या अंतर है?
  • तंत्रिका मॉडलों में उपशब्द विभाजन दुर्लभ और अनदेखे शब्दों को कैसे संभालता है?
  • संश्लेषणात्मक और टेम्पलेटिक भाषाओं के लिए आकृति विज्ञान कठिन क्यों है?

Key concepts

  • मॉर्फेम
  • विभक्ति और व्युत्पत्ति
  • द्वि-स्तरीय आकृति विज्ञान
  • परिमित-अवस्था ट्रांसड्यूसर
  • स्टेमिंग
  • लेमेटाइजेशन
  • बाइट-जोड़ी एन्कोडिंग
  • संश्लेषण

Key theories

द्वि-स्तरीय आकृति विज्ञान
कोस्केन्निएमी का मॉडल जो समानांतर परिमित-अवस्था नियमों के माध्यम से सतही और शाब्दिक शब्द रूपों को संबंधित करता है, जिससे एक ही व्याकरण रूपों का विश्लेषण और उत्पादन दोनों करने में सक्षम होता है।
डेटा-संचालित उपशब्द विभाजन
बार-बार आने वाले वर्ण अनुक्रमों की शब्दावली सीखना, जैसे बाइट-जोड़ी एन्कोडिंग में, ताकि तंत्रिका मॉडल किसी भी शब्द को उपशब्द इकाइयों के अनुक्रम के रूप में प्रस्तुत कर सकें।

History

कोस्केन्निएमी के 1983 के द्वि-स्तरीय आकृति विज्ञान ने रूपात्मक प्रसंस्करण के लिए परिमित-अवस्था विधियों को मानक के रूप में स्थापित किया, जिसे बीस्ली और कार्ट्टुनेन की हैंडबुक में समेकित किया गया। जैसे-जैसे तंत्रिका मॉडल बढ़े, हाथ से निर्मित रूपात्मक विश्लेषकों को सीखे हुए उपशब्द विभाजन जैसे बाइट-जोड़ी एन्कोडिंग द्वारा पूरक किया गया, जो दुर्लभ शब्दों को संभालते हुए स्पष्ट आकृति विज्ञान को दरकिनार करता है।

Debates

स्पष्ट आकृति विज्ञान बनाम उपशब्द इकाइयाँ
क्या तंत्रिका प्रणालियों को भाषाई रूप से सूचित रूपात्मक विश्लेषण की आवश्यकता है या क्या सांख्यिकीय उपशब्द विभाजन पर्याप्त है; उत्तर भाषा के प्रकार और डेटा के पैमाने पर निर्भर करता प्रतीत होता है।

Key figures

  • Kimmo Koskenniemi
  • Lauri Karttunen
  • Kenneth Beesley
  • Rico Sennrich

Related topics

Seminal works

  • koskenniemi1983
  • beesley2003
  • sennrich2016

Frequently asked questions

स्टेमिंग और लेमेटाइजेशन में क्या अंतर है?
स्टेमिंग सामान्यतः प्रत्ययों को एक सामान्य स्टेम में काटता है (उदाहरण के लिए, 'studies' को 'studi' में), जबकि लेमेटाइजेशन रूपात्मक ज्ञान का उपयोग करके एक शब्द को उसके शब्दकोश रूप में मैप करता है (उदाहरण के लिए, 'studies' को 'study' में)।

Methods for this concept

Related concepts