पाठ वर्गीकरण और भावना विश्लेषण
संभाव्य और तंत्रिका क्लासिफायर का उपयोग करके ग्रंथों को श्रेणियों में वर्गीकृत करना — विषय, भाषाएँ, स्पैम, या भावना — जो एनएलपी तकनीकों का सबसे व्यापक रूप से तैनात परिवार है।
Definition
पाठ वर्गीकरण एक पाठ के विस्तार को एक या अधिक पूर्वनिर्धारित श्रेणी लेबल का पर्यवेक्षित असाइनमेंट है, जिसमें भावना विश्लेषण एक प्रमुख अनुप्रयोग के रूप में है।
Scope
यह दस्तावेज़ों और छोटे ग्रंथों के पर्यवेक्षित वर्गीकरण को शामिल करता है: बैग-ऑफ-वर्ड्स और एम्बेडिंग जैसी फीचर प्रस्तुतियाँ, नैव बेयस और लॉजिस्टिक रिग्रेशन जैसे क्लासिक मॉडल, तंत्रिका क्लासिफायर, और भावना और राय विश्लेषण का प्रमुख अनुप्रयोग। यह मूल्यांकन, वर्ग असंतुलन और फीचर डिज़ाइन को संबोधित करता है। प्रतिनिधित्व सीखने को एक संबंधित विषय में शामिल किया गया है।
Core questions
- एक क्लासिफायर के लिए पाठ को विशेषताओं के रूप में कैसे प्रस्तुत किया जाता है?
- नैव बेयस, लॉजिस्टिक रिग्रेशन, या तंत्रिका मॉडल कब उपयुक्त होते हैं?
- भावना विश्लेषण निषेध, व्यंग्य और संदर्भ से कैसे निपटता है?
- वर्ग असंतुलन के तहत क्लासिफायर के प्रदर्शन को निष्पक्ष रूप से कैसे मापा जाता है?
Key concepts
- बैग-ऑफ-वर्ड्स
- नैव बेयस
- लॉजिस्टिक रिग्रेशन
- फीचर इंजीनियरिंग
- भावना विश्लेषण
- व्यक्तिपरकता का पता लगाना
- वर्ग असंतुलन
- परिशुद्धता और रिकॉल
Key theories
- बैग-ऑफ-वर्ड्स वर्गीकरण
- एक दस्तावेज़ को उसके शब्दों की गणना के रूप में प्रस्तुत करना और नैव बेयस या लॉजिस्टिक रिग्रेशन जैसे मॉडलों के साथ वर्गीकृत करना, एक सरल फिर भी मजबूत आधार रेखा।
- व्यक्तिपरकता-जागरूक भावना विश्लेषण
- व्यक्तिपरक को वस्तुनिष्ठ सामग्री से अलग करके भावना वर्गीकरण में सुधार करना, जैसा कि पैंग और ली के न्यूनतम-कट दृष्टिकोण में है।
History
पाठ वर्गीकरण पूरी तरह से सांख्यिकीय होने वाले पहले एनएलपी कार्यों में से एक था, जिसमें 1990 के दशक और 2000 के दशक में नैव बेयस और बाद में सपोर्ट-वेक्टर मशीनें हावी थीं। 2000 के दशक की शुरुआत में पैंग और ली द्वारा लोकप्रिय भावना विश्लेषण, एक प्रमुख उपक्षेत्र बन गया; तंत्रिका क्लासिफायर और पूर्व-प्रशिक्षित मॉडल ने बाद में समग्र सटीकता को बढ़ाया।
Debates
- सरल विशेषताएँ बनाम गहन प्रतिनिधित्व
- मजबूत बैग-ऑफ-वर्ड्स आधार रेखाएँ अक्सर छोटे, सामयिक कार्यों पर तंत्रिका मॉडलों को टक्कर देती हैं, जिससे यह बहस छिड़ जाती है कि गहन प्रतिनिधित्व की अतिरिक्त जटिलता कब उचित है।
Key figures
- Bo Pang
- Lillian Lee
- Christopher Manning
Related topics
Seminal works
- pang2004
- manning1999
Frequently asked questions
- भावना विश्लेषण विषय वर्गीकरण से कठिन क्यों है?
- भावना निषेध, तुलना और व्यंग्य जैसे सूक्ष्म संकेतों पर निर्भर करती है, और एक ही शब्द विभिन्न संदर्भों में विपरीत ध्रुवीयता व्यक्त कर सकते हैं, इसलिए केवल सतही शब्द गणना अक्सर अपर्याप्त होती है।