ScholarGate
सहायक

पाठ वर्गीकरण और भावना विश्लेषण

संभाव्य और तंत्रिका क्लासिफायर का उपयोग करके ग्रंथों को श्रेणियों में वर्गीकृत करना — विषय, भाषाएँ, स्पैम, या भावना — जो एनएलपी तकनीकों का सबसे व्यापक रूप से तैनात परिवार है।

PaperMind से विषय खोजेंजल्द हीFind papers & topics
Tools & resources
स्लाइड डाउनलोड करें
Learn & explore
वीडियोजल्द ही

Definition

पाठ वर्गीकरण एक पाठ के विस्तार को एक या अधिक पूर्वनिर्धारित श्रेणी लेबल का पर्यवेक्षित असाइनमेंट है, जिसमें भावना विश्लेषण एक प्रमुख अनुप्रयोग के रूप में है।

Scope

यह दस्तावेज़ों और छोटे ग्रंथों के पर्यवेक्षित वर्गीकरण को शामिल करता है: बैग-ऑफ-वर्ड्स और एम्बेडिंग जैसी फीचर प्रस्तुतियाँ, नैव बेयस और लॉजिस्टिक रिग्रेशन जैसे क्लासिक मॉडल, तंत्रिका क्लासिफायर, और भावना और राय विश्लेषण का प्रमुख अनुप्रयोग। यह मूल्यांकन, वर्ग असंतुलन और फीचर डिज़ाइन को संबोधित करता है। प्रतिनिधित्व सीखने को एक संबंधित विषय में शामिल किया गया है।

Core questions

  • एक क्लासिफायर के लिए पाठ को विशेषताओं के रूप में कैसे प्रस्तुत किया जाता है?
  • नैव बेयस, लॉजिस्टिक रिग्रेशन, या तंत्रिका मॉडल कब उपयुक्त होते हैं?
  • भावना विश्लेषण निषेध, व्यंग्य और संदर्भ से कैसे निपटता है?
  • वर्ग असंतुलन के तहत क्लासिफायर के प्रदर्शन को निष्पक्ष रूप से कैसे मापा जाता है?

Key concepts

  • बैग-ऑफ-वर्ड्स
  • नैव बेयस
  • लॉजिस्टिक रिग्रेशन
  • फीचर इंजीनियरिंग
  • भावना विश्लेषण
  • व्यक्तिपरकता का पता लगाना
  • वर्ग असंतुलन
  • परिशुद्धता और रिकॉल

Key theories

बैग-ऑफ-वर्ड्स वर्गीकरण
एक दस्तावेज़ को उसके शब्दों की गणना के रूप में प्रस्तुत करना और नैव बेयस या लॉजिस्टिक रिग्रेशन जैसे मॉडलों के साथ वर्गीकृत करना, एक सरल फिर भी मजबूत आधार रेखा।
व्यक्तिपरकता-जागरूक भावना विश्लेषण
व्यक्तिपरक को वस्तुनिष्ठ सामग्री से अलग करके भावना वर्गीकरण में सुधार करना, जैसा कि पैंग और ली के न्यूनतम-कट दृष्टिकोण में है।

History

पाठ वर्गीकरण पूरी तरह से सांख्यिकीय होने वाले पहले एनएलपी कार्यों में से एक था, जिसमें 1990 के दशक और 2000 के दशक में नैव बेयस और बाद में सपोर्ट-वेक्टर मशीनें हावी थीं। 2000 के दशक की शुरुआत में पैंग और ली द्वारा लोकप्रिय भावना विश्लेषण, एक प्रमुख उपक्षेत्र बन गया; तंत्रिका क्लासिफायर और पूर्व-प्रशिक्षित मॉडल ने बाद में समग्र सटीकता को बढ़ाया।

Debates

सरल विशेषताएँ बनाम गहन प्रतिनिधित्व
मजबूत बैग-ऑफ-वर्ड्स आधार रेखाएँ अक्सर छोटे, सामयिक कार्यों पर तंत्रिका मॉडलों को टक्कर देती हैं, जिससे यह बहस छिड़ जाती है कि गहन प्रतिनिधित्व की अतिरिक्त जटिलता कब उचित है।

Key figures

  • Bo Pang
  • Lillian Lee
  • Christopher Manning

Related topics

Seminal works

  • pang2004
  • manning1999

Frequently asked questions

भावना विश्लेषण विषय वर्गीकरण से कठिन क्यों है?
भावना निषेध, तुलना और व्यंग्य जैसे सूक्ष्म संकेतों पर निर्भर करती है, और एक ही शब्द विभिन्न संदर्भों में विपरीत ध्रुवीयता व्यक्त कर सकते हैं, इसलिए केवल सतही शब्द गणना अक्सर अपर्याप्त होती है।

Methods for this concept

Related concepts