सूचना निष्कर्षण
सूचना निष्कर्षण असंरचित प्राकृतिक-भाषा पाठ के भीतर संरचित जानकारी—इकाइयों, संबंधों और घटनाओं—को स्वचालित रूप से पहचानने का कार्य है।
Definition
सूचना निष्कर्षण असंरचित पाठ को संरचित प्रतिनिधित्व में परिवर्तित करता है, जिसमें इकाइयों के उल्लेखों, उनके बीच के संबंधों और जिन घटनाओं में वे भाग लेते हैं, का पता लगाकर और उन्हें वर्गीकृत करके, अक्सर एक डेटाबेस या ज्ञान आधार को पॉपुलेट करने के लिए।
Scope
यह विषय पाठ से संरचित तथ्यों के निष्कर्षण को शामिल करता है: नामित इकाई पहचान, संबंध निष्कर्षण, घटना निष्कर्षण, कोरफरेंस रिज़ॉल्यूशन, और टेम्पलेट्स या ज्ञान आधारों का पॉपुलेशन। यह नियम-आधारित, सांख्यिकीय अनुक्रम-लेबलिंग, और पर्यवेक्षित और दूरस्थ रूप से पर्यवेक्षित दृष्टिकोणों, और परिशुद्धता और रिकॉल द्वारा निष्कर्षण के मूल्यांकन को संबोधित करता है। निष्कर्षणकर्ताओं को प्रशिक्षित करने के लिए उपयोग की जाने वाली सामान्य मशीन-लर्निंग विधियाँ मशीन-लर्निंग उपक्षेत्र से संबंधित हैं; यहाँ जोर निष्कर्षण कार्यों और उनकी भाषाई चुनौतियों पर है।
Core questions
- पाठ में व्यक्तियों, संगठनों और स्थानों जैसी संस्थाओं के उल्लेखों का पता कैसे लगाया और वर्गीकृत किया जाता है?
- इकाइयों के बीच संबंधों की पहचान और निष्कर्षण कैसे किया जाता है?
- घटनाओं और उनके प्रतिभागियों को कैसे पहचाना जाता है, और कोरफरेंस को कैसे हल किया जाता है?
- निष्कर्षण प्रदर्शन का मूल्यांकन कैसे किया जाता है, और परिशुद्धता और रिकॉल के बीच क्या व्यापार-बंद उत्पन्न होते हैं?
Key concepts
- नामित इकाई पहचान
- संबंध निष्कर्षण
- घटना निष्कर्षण
- कोरफरेंस रिज़ॉल्यूशन
- BIO अनुक्रम लेबलिंग
- टेम्पलेट भरना
- ज्ञान आधार पॉपुलेशन
- परिशुद्धता और रिकॉल
Key theories
- अनुक्रम लेबलिंग के रूप में नामित इकाई पहचान
- इकाई उल्लेखों की पहचान को आमतौर पर प्रत्येक टोकन को एक टैग (उदाहरण के लिए, BIO योजना का उपयोग करके) के साथ लेबल करने के रूप में तैयार किया जाता है, जिसे अनुक्रम मॉडल द्वारा हल किया जाता है जो स्पैन और उनके प्रकारों को चिह्नित करने के लिए संदर्भ का उपयोग करते हैं।
- संबंध और घटना निष्कर्षण
- इकाइयों से परे, सूचना निष्कर्षण यह पहचानता है कि इकाइयाँ कैसे संबंधित हैं और कौन सी घटनाएँ घटित होती हैं, संरचित टेम्पलेट्स को भरते हुए; इस कार्य-संचालित फ्रेमिंग को मैसेज अंडरस्टैंडिंग कॉन्फ्रेंस द्वारा क्रिस्टलीकृत किया गया था।
- ज्ञान आधार पॉपुलेशन
- निष्कर्षित इकाइयों और संबंधों को एक ज्ञान आधार बनाने या विस्तारित करने के लिए एकत्रित किया जा सकता है, उल्लेखों को विहित इकाइयों से जोड़कर और बड़े पाठ संग्रहों से तथ्यों को संचित करके।
Clinical relevance
सूचना निष्कर्षण पाठ को बायोमेडिकल साहित्य खनन, वित्तीय और समाचार विश्लेषण, ज्ञान ग्राफ बनाने, और दस्तावेजों से डेटाबेस को पॉपुलेट करने जैसे अनुप्रयोगों के लिए क्वेरी करने योग्य डेटा में बदल देता है, जिससे बड़ी मात्रा में असंरचित पाठ डाउनस्ट्रीम सिस्टम द्वारा उपयोग योग्य हो जाता है।
History
सूचना निष्कर्षण को 1980 के दशक के अंत और 1990 के दशक के मैसेज अंडरस्टैंडिंग कॉन्फ्रेंस (MUC) द्वारा आकार दिया गया था, जिसने नामित इकाई पहचान और टेम्पलेट भरने जैसे कार्यों को परिभाषित किया और मानकीकृत मूल्यांकन पेश किया। यह क्षेत्र हाथ से निर्मित नियमों से सांख्यिकीय अनुक्रम मॉडल और बाद में तंत्रिका विधियों की ओर बढ़ा, जबकि इसकी कार्य संरचना को बनाए रखा।
Key figures
- Ralph Grishman
- Beth Sundheim
- Christopher D. Manning
- Daniel Jurafsky
Related topics
Seminal works
- grishman1996
- jurafsky2023
Frequently asked questions
- नामित इकाई पहचान क्या है?
- नामित इकाई पहचान पाठ के उन हिस्सों को खोजने और वर्गीकृत करने का कार्य है जो वास्तविक दुनिया की संस्थाओं, जैसे कि लोग, संगठन, स्थान और तिथियों का नाम लेते हैं। यह आमतौर पर सूचना निष्कर्षण में पहला कदम होता है, क्योंकि कई संबंध और घटनाएँ इन संस्थाओं के संदर्भ में बताई जाती हैं।
- सूचना निष्कर्षण का मूल्यांकन कैसे किया जाता है?
- निष्कर्षण का मूल्यांकन आमतौर पर परिशुद्धता (निष्कर्षित वस्तुओं का कितना अंश सही है) और रिकॉल (सही वस्तुओं का कितना अंश निष्कर्षित किया गया था) के साथ किया जाता है, जिसे अक्सर F-माप में संयोजित किया जाता है। यह बहुत कम निष्कर्षण और गलत जानकारी निष्कर्षण के बीच के व्यापार-बंद को दर्शाता है।