ScholarGate
सहायक

सूचना निष्कर्षण

सूचना निष्कर्षण असंरचित प्राकृतिक-भाषा पाठ के भीतर संरचित जानकारी—इकाइयों, संबंधों और घटनाओं—को स्वचालित रूप से पहचानने का कार्य है।

PaperMind से विषय खोजेंजल्द हीFind papers & topics
Tools & resources
स्लाइड डाउनलोड करें
Learn & explore
वीडियोजल्द ही

Definition

सूचना निष्कर्षण असंरचित पाठ को संरचित प्रतिनिधित्व में परिवर्तित करता है, जिसमें इकाइयों के उल्लेखों, उनके बीच के संबंधों और जिन घटनाओं में वे भाग लेते हैं, का पता लगाकर और उन्हें वर्गीकृत करके, अक्सर एक डेटाबेस या ज्ञान आधार को पॉपुलेट करने के लिए।

Scope

यह विषय पाठ से संरचित तथ्यों के निष्कर्षण को शामिल करता है: नामित इकाई पहचान, संबंध निष्कर्षण, घटना निष्कर्षण, कोरफरेंस रिज़ॉल्यूशन, और टेम्पलेट्स या ज्ञान आधारों का पॉपुलेशन। यह नियम-आधारित, सांख्यिकीय अनुक्रम-लेबलिंग, और पर्यवेक्षित और दूरस्थ रूप से पर्यवेक्षित दृष्टिकोणों, और परिशुद्धता और रिकॉल द्वारा निष्कर्षण के मूल्यांकन को संबोधित करता है। निष्कर्षणकर्ताओं को प्रशिक्षित करने के लिए उपयोग की जाने वाली सामान्य मशीन-लर्निंग विधियाँ मशीन-लर्निंग उपक्षेत्र से संबंधित हैं; यहाँ जोर निष्कर्षण कार्यों और उनकी भाषाई चुनौतियों पर है।

Core questions

  • पाठ में व्यक्तियों, संगठनों और स्थानों जैसी संस्थाओं के उल्लेखों का पता कैसे लगाया और वर्गीकृत किया जाता है?
  • इकाइयों के बीच संबंधों की पहचान और निष्कर्षण कैसे किया जाता है?
  • घटनाओं और उनके प्रतिभागियों को कैसे पहचाना जाता है, और कोरफरेंस को कैसे हल किया जाता है?
  • निष्कर्षण प्रदर्शन का मूल्यांकन कैसे किया जाता है, और परिशुद्धता और रिकॉल के बीच क्या व्यापार-बंद उत्पन्न होते हैं?

Key concepts

  • नामित इकाई पहचान
  • संबंध निष्कर्षण
  • घटना निष्कर्षण
  • कोरफरेंस रिज़ॉल्यूशन
  • BIO अनुक्रम लेबलिंग
  • टेम्पलेट भरना
  • ज्ञान आधार पॉपुलेशन
  • परिशुद्धता और रिकॉल

Key theories

अनुक्रम लेबलिंग के रूप में नामित इकाई पहचान
इकाई उल्लेखों की पहचान को आमतौर पर प्रत्येक टोकन को एक टैग (उदाहरण के लिए, BIO योजना का उपयोग करके) के साथ लेबल करने के रूप में तैयार किया जाता है, जिसे अनुक्रम मॉडल द्वारा हल किया जाता है जो स्पैन और उनके प्रकारों को चिह्नित करने के लिए संदर्भ का उपयोग करते हैं।
संबंध और घटना निष्कर्षण
इकाइयों से परे, सूचना निष्कर्षण यह पहचानता है कि इकाइयाँ कैसे संबंधित हैं और कौन सी घटनाएँ घटित होती हैं, संरचित टेम्पलेट्स को भरते हुए; इस कार्य-संचालित फ्रेमिंग को मैसेज अंडरस्टैंडिंग कॉन्फ्रेंस द्वारा क्रिस्टलीकृत किया गया था।
ज्ञान आधार पॉपुलेशन
निष्कर्षित इकाइयों और संबंधों को एक ज्ञान आधार बनाने या विस्तारित करने के लिए एकत्रित किया जा सकता है, उल्लेखों को विहित इकाइयों से जोड़कर और बड़े पाठ संग्रहों से तथ्यों को संचित करके।

Clinical relevance

सूचना निष्कर्षण पाठ को बायोमेडिकल साहित्य खनन, वित्तीय और समाचार विश्लेषण, ज्ञान ग्राफ बनाने, और दस्तावेजों से डेटाबेस को पॉपुलेट करने जैसे अनुप्रयोगों के लिए क्वेरी करने योग्य डेटा में बदल देता है, जिससे बड़ी मात्रा में असंरचित पाठ डाउनस्ट्रीम सिस्टम द्वारा उपयोग योग्य हो जाता है।

History

सूचना निष्कर्षण को 1980 के दशक के अंत और 1990 के दशक के मैसेज अंडरस्टैंडिंग कॉन्फ्रेंस (MUC) द्वारा आकार दिया गया था, जिसने नामित इकाई पहचान और टेम्पलेट भरने जैसे कार्यों को परिभाषित किया और मानकीकृत मूल्यांकन पेश किया। यह क्षेत्र हाथ से निर्मित नियमों से सांख्यिकीय अनुक्रम मॉडल और बाद में तंत्रिका विधियों की ओर बढ़ा, जबकि इसकी कार्य संरचना को बनाए रखा।

Key figures

  • Ralph Grishman
  • Beth Sundheim
  • Christopher D. Manning
  • Daniel Jurafsky

Related topics

Seminal works

  • grishman1996
  • jurafsky2023

Frequently asked questions

नामित इकाई पहचान क्या है?
नामित इकाई पहचान पाठ के उन हिस्सों को खोजने और वर्गीकृत करने का कार्य है जो वास्तविक दुनिया की संस्थाओं, जैसे कि लोग, संगठन, स्थान और तिथियों का नाम लेते हैं। यह आमतौर पर सूचना निष्कर्षण में पहला कदम होता है, क्योंकि कई संबंध और घटनाएँ इन संस्थाओं के संदर्भ में बताई जाती हैं।
सूचना निष्कर्षण का मूल्यांकन कैसे किया जाता है?
निष्कर्षण का मूल्यांकन आमतौर पर परिशुद्धता (निष्कर्षित वस्तुओं का कितना अंश सही है) और रिकॉल (सही वस्तुओं का कितना अंश निष्कर्षित किया गया था) के साथ किया जाता है, जिसे अक्सर F-माप में संयोजित किया जाता है। यह बहुत कम निष्कर्षण और गलत जानकारी निष्कर्षण के बीच के व्यापार-बंद को दर्शाता है।

Methods for this concept

Related concepts